Artikelen

Visie op een datagedreven organisatie

In het stuk Een datagedreven organisatie, van data naar informatie naar inzicht naar impact beschrijft Danny Greefhorst zes principes van een datagedreven organisatie. Dit visiestuk schreef hij voor de Vrije Universiteit Amsterdam.

Principe 1: Een datagedreven bewustzijn en cultuur

  • Gedreven door een visie, betrokkenheid en ondersteuning vanuit bestuur en management
  • Medewerkers begrijpen de waarde van data en hoe het hen helpt in het bereiken van hun doelstellingen
  • Data en data-analyse worden actief ingezet voor het creëren van nieuwe inzichten en bij besluitvorming

De basis voor datagedreven werken ligt bij mensen op allerlei niveaus. Het begint bij dat bestuur en management het belang erkennen en ervoor zorgen dat er middelen beschikbaar zijn om vraagstukken analytisch te benaderen. Medewerkers moeten begrijpen wat data en data-analyses voor hun eigen werk kunnen betekenen. Het kan bijvoorbeeld beleidsmedewerkers helpen in het beantwoorden van beleidsvragen, om nieuwe opleidingen te identificeren of de kwaliteit van het onderwijs te verbeteren. Meer inzicht in de activiteiten van studenten biedt ook meer mogelijkheden om ze beter te begeleiden. Het is belangrijk dat medewerkers hun data-analyse behoeften kenbaar maken bij collega’s die er iets mee kunnen. Dat kan een analytisch team zijn dat zelf complexe analyses kan uitvoeren, zoals het VU analytics team dat analyses op onderwijs- gerelateerde data kan uitvoeren of het Research Intelligence team dat analyses op onderzoek- gerelateerde data kan uitvoeren. Medewerkers beschikken liefst ook over vaardigheden voor het juist interpreteren van analyse-resultaten. Er kunnen ook specifieke medewerkers zijn op een afdeling met meer analytische ervaring, die toegang hebben tot centrale analytische voorzieningen. Er moet pro-actief worden ingezet op geautomatiseerde data-analyse om nieuwe inzichten te creëren. Medewerkers moeten daartoe wel beschikken over noodzakelijke kennis en vaardigheden.

Principe 2: Snel komen van data naar informatie naar beslissing

  • Data en informatie zijn eenvoudig vindbaar en toegankelijk
  • Verwerkingen zijn in hoge mate geautomatiseerd
  • Kennis wordt expliciet vastgelegd en beschikbaar gesteld

Het streven van een datagedreven organisatie is om sneller en beter te besluiten. Dat betekent dat de hele keten van data tot informatie tot beslissing kritisch onder de loep moet worden genomen. Data-analisten moeten ruwe data snel kunnen vinden. Eindgebruikers willen informatie eenvoudig kunnen vindbaar en verwachten dat deze is afgestemd op hun behoeften. Algemene informatie moet vindbaar zijn in het portaal. Specifieke informatie zoals informatie over vakken, verwacht je op een specifieke plaats zoals de leeromgeving. Wachttijden zijn steeds minder acceptabel. Het streven is om activiteiten zoveel mogelijk direct en geautomatiseerd uit te voeren, met name de routinematige processen. Al onze waarnemingen worden geïnterpreteerd in de context van onze aanwezige kennis om tot inzicht te komen. Als we meer kennis hebben dan zal data sneller tot inzichten leiden. Belangrijke kennis moet je daarom vastleggen en delen met anderen. Denk daarbij met name aan het vastleggen van begrippen, bedrijfsregels, processen en gemaakte keuzes. Hierdoor zijn verwerkingen ook eenvoudiger te automatiseren en te gebruiken in data-analyses. Door hergebruik en automatisering van kennis wordt fundamentele versnelling mogelijk.

Principe 3: Data en informatie kritisch en ethisch beoordelen

  • Beslissingen worden genomen op basis van feiten en een expliciete afweging van argumenten
  • Er wordt vanuit verschillende aspecten, perspectieven en belangen gekeken naar vraagstukken
  • Beslissingen zijn ethisch, transparant en herleidbaar naar de onderliggende informatie

Een kritische denkhouding is de basis voor datagedreven werken. De VU wil haar studenten ook graag opleiden tot verantwoordelijke, kritische en geëngageerde academici. Beslissingen zijn het liefst zoveel mogelijk gebaseerd op feiten; zaken waarvan we met hoge mate van waarschijnlijkheid kunnen aannemen dat ze juist zijn. Zijn er bijvoorbeeld wetenschappelijke onderzoeken waar je naar kunt refereren? Een cijfer voor een vak geeft een docent ook niet op basis van zijn gevoel. Veel vraagstukken kennen ook niet een eenduidig antwoord maar vragen allerlei afwegingen van argumenten. Het is daarbij belangrijk om vanuit verschillende aspecten, perspectieven en belangen te kijken. Door mensen vanuit verschillende achtergronden en disciplines te betrekken bij een vraagstuk ontstaat een veel genuanceerder beeld. Daarbij gaat het ook al snel om ethische vraagstukken, waarbij het niet direct duidelijk is of iets goed is of niet. In hoeverre mag je bijvoorbeeld data over studenten gebruiken voor data-analyse? Er is vanuit VU analytics een Code of Practice opgesteld die inzicht geeft in voorwaarden voor gebruik van data vanuit privacy perspectief. Belangrijke keuzes moeten inzichtelijk en herleidbaar zijn naar de data en informatie die is gebruikt, analoog aan hoe dat voor wetenschappelijke publicaties geldt.

Het doel en de verwerking van data-analyses moeten transparant zijn.

Principe 4: Data-analyse weloverwogen inzetten

  • De waarde van kunstmatige intelligentie en statistiek wordt expliciet onderzocht
  • Data-analyses worden getoetst op vooroordelen
  • Transparantie, toetsbaarheid en rechtsbescherming zijn geborgd

Technieken voor kunstmatige intelligentie en statistiek worden inmiddels breed toegepast. Zij maken het mogelijk om ook meer voorspellende uitspraken te doen. Denk bijvoorbeeld aan het beter kunnen voorspellen van de slagingskans van studenten, de verwachte baten en lasten of de bezettingsgraad van ruimtes. Het is dan ook verstandig pro-actief te onderzoeken waar inzet van dit soort algoritmen waardevol zou zijn. Tegelijkertijd zijn er zorgen over de inzet van algoritmen. Naast zorgen over privacy en ethiek gaat het met name over de aanwezigheid van vooroordelen in de dataset of het algoritme. Er zou dan ook expliciet moeten worden getoetst op de aanwezigheid van vooroordelen. Het is verder belangrijk om waarborgen aan te brengen voor de transparantie, toetsbaarheid en rechtsbescherming van data-analyses. Het kabinet heeft daartoe richtlijnen ontwikkeld voor het toepassen van algoritmes [13]. Het doel en de verwerking van data-analyses moeten transparant zijn. Bij geautomatiseerde besluitvorming is inzicht in de gehanteerde regels nodig. Bij het gebruik van kunstmatige-intelligentie kan dat complex zijn en moeten de procedures en he besluit in ieder geval in begrijpelijke taal kunnen worden uitgelegd. De methode van data- analyse, gehanteerde algoritmes, datasets en feitelijke verwerkingen moeten ook reproduceerbaar zijn en (gerechtelijk) kunnen worden getoetst. Als er geautomatiseerd over mensen wordt besloten op basis van hun veronderstelde eigenschappen dat moeten zij bezwaar kunnen maken tegen het besluit.

Principe 5: Zorgen dat data en hun kwaliteit aansluiten bij het gebruik

  • Aanbieders van data bepalen in dialoog met afnemers de behoeften en kwaliteitseisen en leggen deze expliciet vast
  • Data worden gecontroleerd op kwaliteit zo dicht mogelijk bij de bron en periodiek bewaakt
  • Kwaliteitsissues worden gemeld en structureel opgelost in de bron

Het is belangrijk dat de aangeboden data voldoen aan de eisen en wensen van afnemers en hun specifieke gebruikscontext. Deze kunnen het beste in een dialoog worden bepaald en expliciet vastgelegd in een overeenkomst. Onderdeel daarvan zijn kwaliteitseisen die aangeven in welke de mate de data juist, compleet, consistent en actueel moeten zijn voor een bepaald gebruik. Een roosterwijziging moet direct zichtbaar zijn, maar een rapportage kan meestal wel even wachten. Beveiliging en privacy kun je ook zien als een vorm van datakwaliteit, net als de statistische betrouwbaarheid en validiteit van inzichten. Het kan bijvoorbeeld nodig zijn missende waarden toe te voegen om bias te vermijden. De kwaliteit van data bepaalt ook de kwaliteit van processen. Het kan leiden tot allerlei extra werk en frustraties. Data-analisten zoals onderzoekers besteden hun tijd vaak liever aan de analyse zelf dan aan “data-wrangling”. Je moet vervolgens ook controleren of de data voldoen aan kwaliteitseisen. Deze controles zouden zo vroeg mogelijk in de keten moeten plaats vinden, zodat fouten snel worden gesignaleerd. Het controleren en borgen van datakwaliteit is uiteindelijk een ieders verantwoordelijkheid. Als je bijvoorbeeld de metadata van een publicatie vastlegt, dan is het belangrijk om je te beseffen dat mensen die geïnteresseerd zijn in je publicatie daar direct van afhankelijk zijn. Als er problemen met de kwaliteit van data worden gesignaleerd, dan zouden deze gemeld moeten worden bij de verantwoordelijke. Structurele problemen kunnen gemeld worden bij de verantwoordelijke data steward.

Principe 6: Delen en gebruiken beschikbare data en informatie

  • Gewenste prestaties worden vastgelegd in indicatoren waarop wordt gestuurd
  • Data en informatie die essentieel zijn voor oordeelsvorming worden verzameld
  • Data en informatie worden gedeeld binnen en buiten de organisatie

Als je data wilt gebruiken om te beslissen dan moet je eerst bepalen waar je op wilt sturen. De prestaties die je verwacht moet je uitdrukken in indicatoren, die je inzichtelijk maakt in rapportages. Welke eisen worden er bijvoorbeeld gesteld aan onderzoeksresultaten qua inhoud en aantal? Wat is belangrijk om op te sturen in de context van valorisatie? Beslissen is niet alleen voorbehouden aan management. Het is belangrijk dat iedereen goed nadenkt over de informatie die nodig is om tot goede beslissingen te komen. Die informatie moet je natuurlijk wel tot je beschikking hebben. Informatie die je niet zelf hebt, is mogelijk wel beschikbaar bij collega’s of bij andere organisaties met wie je samenwerkt. Als je vanuit een faculteit een beleidsanalyse uitvoert, is het relevant om te weten of andere faculteiten dat ook eens hebben gedaan. Het kenbaar maken van je informatiebehoeften en vice versa het verstrekken van informatie aan collega’s is daarbij een belangrijke basis. Data en informatie die structureel relevant zijn voor anderen zouden ook structureel beschikbaar moeten worden gemaakt. Zo is er bijvoorbeeld meer inzicht gewenst in inschrijvingen en de trends daarin, doorstroom van bachelor naar master, alumni en ex- medewerkers. Organisatiegrenzen zouden geen belemmering moeten zijn bij data-uitwisseling. Denk bijvoorbeeld aan het uitwisselen van data voor de uitwisseling van studenten.