Artikelen

Soorten data analyse

Een veel gebruikt model voor de ontwikkeling van analytics is afkomstig van Gartner : het Analytics Groeimodel. Een nuttig model dat goed uitlegt welke soorten analytics zijn, maar wel met een aantal kritische kanttekeningen.

Beschrijvende analytics – Descriptive Analytics

Aan de basis van alle vormen van analytics ligt descriptive analytics, de beschrijvende statistiek. Dit geeft de situatie binnen een populatie weer in kengetallen en beantwoordt daarmee de ‘wat’ vragen. Voorbeelden hiervan zijn:

  • Hoeveel studenten hebben zich aangemeld per opleiding ingedeeld naar subcategorieën (geslacht, vooropleiding e.d.)?
  • Wat is het verschil in de uitval na 1 jaar van mannen en vrouwen?
  • Wat zijn de gemiddelde cijfers en studiepunten naar vooropleiding?

Deze vorm van analytics maakt in hoofdzaak gebruik van diagrammen en visualisaties die feiten weergeven zonder uitspraken te doen over de kracht van verbanden. Statische termen die in deze vorm van analytics gebruikt worden zijn onder andere tellingen, gemiddelde, mediaan, minimum en maximum waarden, variantie, standaard deviaties.

Diagnostische analytics – Diagnostic Analytics

De volgende vorm van analytics, diagnostic analytics, wordt verklarende statistiek genoemd. Eigenlijk is deze Nederlands naam onjuist. Diagnostische analytics zegt namelijk altijd iets over correlaties –    – de richting van verbanden. Om vast te stellen wat de oorzaak is van geconstateerde verschillen is meer nodig, bijvoorbeeld een theoretisch gestuurd, gecontroleerd experiment, goed inzicht in onderliggende variabelen, complexere statistische technieken zoals pad analyses, et cetera. Diagnostische analytics geven vaak wel inzicht in mogelijke oorzakelijke verbanden waarnaar verder onderzoek gedaan kan of moet worden, of waar dat juist niet nodig is.

Volgens Gartner staat in deze stap de ‘waarom’ vraag centraal, maar beter is om te spreken ‘Wat is belangrijk?’. Voorbeelden hiervan zij:

  • Wat is het verband tussen opleidingen en studieresultaten?
  • Wat is het verband tussen het achtergrondkenmerken van studenten, zoals vooropleiding, leeftijd en geslacht, en studievertraging?
  • Wat is de moeite waard om verder te onderzoeken?

In deze vorm van analytics wordt gebruik gemaakt van statistische toetsen zoals als t-toets, ANOVA, Chi-kwadraat toetsen en regressieanalyses. Meer hierover vind je in het statistisch handboek studiedata.

Voorspellende analytics – Predictive Analytics

In het verlengde van diagnostische statistiek ligt voorspellende analytics, predictive analytics. Dit wordt ook wel machine learning genoemd. Kenmerkend aan machine learning is dat het niet zoekt naar een oorzaak, maar op basis van correlaties een uitspraak doet over kansen. Bij voldoende omvang van data kunnen modellen ontwikkeld worden die aangeven met welke waarschijnlijkheid een gebeurtenis kan plaatsvinden. Ook simulaties vallen in deze vorm van analytics. Voorbeeldvragen zijn:

  • Wat is de kans dat een student van 18 jaar die bij een open dag is geweest zich aanmeldt voor een studie?
  • Wat is de kans dat een vrouwelijke student die een 6,4 voor wiskunde had op de middelbare school en twee studies uitvalt na 1 jaar? Wat is de kans als het niet een 6,4 maar een 6,8 is?
  • Binnen welke bandbreedte verwachten we dat het aantal studenten met een buitenlandse vooropleiding ligt dat zich zal inschrijven voor een opleiding bij faculteit x?

In deze vorm van analytics worden technieken gebruikt als regressie, General Linear Models, Support Vector Machine, Random Forest, Neurale Netwerken, en Deep Learning.

Beslissing ondersteunende analytics – Prescriptive analytics

De vierde en laatste vorm is beslissing ondersteunende analytics, prescriptive analytics. De uitkomsten van predictieve modellen of simulaties bieden scenario’s om beslissingen op te baseren. De vraag ‘welke keuzes hebben we tot onze beschikking’? Op instellingsniveau kan hierop nieuw beleid worden bepaald voor bijvoorbeeld onderwijsvernieuwing of het portfolio aan opleidingen. Op het niveau van individuele studenten kunnen adviezen gegeven worden om bepaalde keuzes in hun studietraject te maken. Mogelijke vragen zijn:

  • Welke cursussen kunnen we het beste digitaliseren gezien te verwachten belangstelling en beschikbaarheid van docenten en onderwijsruimte?
  • Welke opleidingen zouden we het beste kunnen aanbieden aan volwassenen en wat is daarbij de beste prijsstelling?
  • Welke vakken kan een student het beste volgen op basis van haar studieprestaties tot nu toe en onze kennis over historische, succesvolle vakkencombinaties?

De statische technieken hier kunnen dezelfde zijn als van diagnostische of voorspellende analytics.

Een aantal kritische noten

Wat het groeimodel van Gartner bij helpt is de verschillende vormen van data analytics te onderscheiden en de onderlinge samenhang daarvan te leren kennen. Ook biedt het een logische volgorde van deze statistieken wat betreft complexiteit van onderzoek. Er zijn een paar kanttekeningen.

Ook bij de ontwikkeling en gebruik van algoritmes voor predictive of prescriptive analytics is het van belang kritisch te blijven. De kracht en voordelen van het model boven de bestaande praktijk moet worden meegenomen. Stel dat een prognose op uitval nauwelijks beter voorspelt of een student uitvalt dan de gemiddelde uitval van een opleiding in het voorgaande collegejaar, dan voegt het gebruik van zo’n model maar weinig toe. Maar als het de uitval veel beter voorspelt, dan wel. Een ander punt is dat er voldoende waarborgen moeten zijn dat het gebruik van het model geen onwenselijke of onwettige praktijken tot gevolg heeft en aansluit bij de ethische principes van een onderwijsinstelling, zoals transparantie of inclusiviteit.

Daarnaast lijkt het alsof deze vormen van analytics per se op elkaar moeten volgen en dit niet mogelijk is als de voorafgaande vorm niet geheel is afgerond. Dit is niet het geval. Binnen een team is het goed mogelijk dat nog maar voor een beperkte aantal variabelen beschrijvende analyses worden ontwikkeld, terwijl hier met machine learning al veel inzichten uit te halen zijn.