Uit: ‘Een datagedreven organisatie’, van data naar informatie van inzicht naar impact. D. Greefhorst, Amsterdam (2020).
Dit hoofdstuk beschrijft de gewenste architectuur op hoofdlijnen. Het geeft een overzicht van de belangrijkste functiegebieden op het gebied van data en informatie. Vervolgens beschrijft het een aantal leidende architectuurprincipes.
Functiegebieden
De term “data” is heel breed. Het gaat over alle weergaven van feiten, begrippen of aanwijzingen die geschikt zijn voor overdracht, interpretatie of verwerking door een persoon of apparaat. Deze architectuur gaat vooral in op data die geautomatiseerd worden verwerkt en omgezet tot informatie en vervolgens worden gebruikt voor het nemen van beslissingen. Je kunt in dit geheel twee belangrijke deelgebieden zien; een datagericht deel dat zich vooral richt op data als middel en een informatiegericht deel dat zich vooral richt op het beantwoorden van vragen. De volgende figuren geven een overzicht van de belangrijkste functiegebieden en bijbehorende functies in deze twee delen. Ze zullen verderop in dit document in meer detail worden beschreven.
Randvoorwaarden
De hoofdstroom van data tot informatie is het inwinnen, uitwisselen, transformeren, aggregeren, analyseren van data en het ontsluiten van informatie. Er wordt sturing aan deze stroom gegeven door het maken van afspraken, het opstellen van architecturen en het modelleren van data en informatie. Om data goed te verwerken is het belangrijk dat de kwaliteit ervan aansluit bij het gebruik en dat de data goed is gedefinieerd. Informatie moet vooral gebruikt worden ter ondersteuning van beslissingen. Hiervoor is het belangrijk dat de kennis op orde en beschikbaar is voor medewerkers. Opslag van data en informatie is randvoorwaardelijk voor verdere verwerking. Veiligheid en privacy is het uitgangspunt.
Visie op bedrijfsvoeringsplatform
De genoemde functies zijn een verdere verdieping van de visie op het bedrijfsvoeringsplatform van een onderwijsinstelling. Figuur 3 geeft een visuele samenvatting van die visie. De kern van deze visie is dat er een aantal technologische ontwikkelingen zijn die vragen om aanpassingsvermogen. Het aantal online kanalen neemt toe en wordt onder meer verrijkt met chatbots, apps en platforms. Hiermee is de onderwijsinstelling bijvoorbeeld in staat om onderwijs persoonlijker en op maat aan te bieden. Slimme apparaten en ruimtes creëren een slimme campus die zelf actief waarneemt en acteert op basis van observaties door sensoren.
Een onderwijsinstelling bevindt zich in toenemende mate in een ecosysteem waarin samenwerking centraal staat. Dat betekent dat integratie met digitale platforms van andere partijen belangrijker zal worden, zodat de onderwijsinstelling verbonden is met haar omgeving. De basis voor de bedrijfsvoering van de onderwijsinstelling wordt gevormd door een set aan basisadministraties en basisprocessen. Er wordt daarbij expliciet gestuurd op de kwaliteit van data en processen, alsook op de ondersteuning van de flexibiliteit die nodig is voor onderwijs en onderzoek.
Analytics platform
Om invulling te geven aan deze digitale ontwikkelingen zijn er een aantal functies en voorzieningen belangrijk. Een analytics platform is de motor voor het genereren van informatie en inzichten. Deze zijn in het functiemodel van deze domeinarchitectuur uitgewerkte in de informatiegerichte functies data-aggregatie, data-analyse, informatie-ontsluiting en informatieopslag. Daarnaast is toenemend behoefte aan integratie. Dat is zowel integratie tussen de systemen van de onderwijsinstelling zelf als met mobiele apps, clouddiensten, sensoren en externe digitale platforms.
Deze zijn in het functiemodel uitgewerkt in de datagerichte functies data-inwinning, data-uitwisseling, data-transformatie en dataopslag. Metadata management is een belangrijke basis om deze analytics en integraties goed te laten werken. Deze is in het functiemodel expliciet uitgewerkt in een aparte functie. Ook de functie kennismanagement kan gezien worden als een vorm van metadata management; begrippen en bedrijfsregels zijn een belangrijke vorm van business metadata.
Leidende principes
Bij de inrichting van een datagedreven informatievoorziening zouden een aantal zaken expliciete aandacht moeten krijgen. Deze aandachtspunten zijn in de volgende tekst verwoordt in de vorm van een aantal leidende principes. Deze principes zijn een verdere verdieping van de uitgangspunten zoals verwoordt in het visiedocument.
Het aanbod van data is afgestemd op de vraag naar informatie
Data zijn slechts een middel om te komen tot informatie. Het verzamelen en bewerken van data die niet gebruikt worden is verspilling en moet worden voorkomen. Deze afstemming moet allerlei niveaus plaatsvinden, van strategisch tot tactisch tot operationeel. Op strategisch niveau is het belangrijk om de governancestructuren voor data en informatie op elkaar af te stemmen. De rollen, taken en verantwoordelijkheden voor data governance moeten zijn verbonden aan de rollen, taken en verantwoordelijkheden voor informatiemanagement. Tactisch moeten de architecturen en roadmaps voor data en informatie op elkaar worden afgestemd. Deze data-architectuur is idealiter gebaseerd op een expliciet gedefinieerde informatiearchitectuur. Het concrete aanbod van data in bronsystemen en het datawarehouse zou gedreven moeten zijn door informatiebehoeften die zijn geïdentificeerd in de informatieanalyse. De kwaliteit van de data moet passen bij de eisen die voortvloeien uit de informatie die nodig is in bedrijfsprocessen. Tenslotte zijn expliciete afspraken nodig tussen dataeigenaren en afnemers in de vorm van dataleverovereenkomsten.
Data worden beheerd in bronsystemen
Een belangrijke basis om te zorgen voor vindbare en consistente data is dat ze maar op één plaats worden beheerd. Het onderhouden van data in meerdere systemen of in spreadsheets maakt de kans reëel dat er geen integraal beeld is en dat er verschillende beelden ontstaan over wat de waarheid is. Het is daarom belangrijk om voor alle data expliciet bronsystemen aan te wijzen. Het is wel mogelijk dat een logische subset van de data een separaat bronsysteem heeft, zolang deze subset maar duidelijk is gedefinieerd. Denk bijvoorbeeld aan het onderscheid tussen algemene contracten en operationele contracten. Bepaalde typen transactiedata kunnen ook in meerdere systemen ontstaan, maar zouden idealiter wel in één bronsysteem geconsolideerd en beschikbaar moeten zijn. Zo wil je journaalposten die op verschillende plaatsen ontstaan, allemaal terug kunnen vinden in het financiële systeem. Systemen die data willen gebruiken uit een bronsysteem halen deze bij voorkeur op uit dat bronsysteem, of ontvangen anders een kopie. Dat geldt met name voor masterdata en referentiedata omdat die relatief stabiel zijn en het in veel gevallen minder ernstig is als ze niet helemaal actueel zijn. Deze bronsystemen vragen wel actief beheer van de data en met name aandacht voor de kwaliteit ervan. Ze dienen de integriteit van data te borgen en de historie van wijzigingen vast te leggen. Voor alle kritische data-elementen zouden er kwaliteitsregels en kwaliteitsrapportages moeten zijn, zodat actief en continu kan worden gestuurd op de verbetering van de kwaliteit van de data.
Data zijn voorzien van metadata
Data zijn in de basis slechts betekenisloze symbolen. Alleen door deze in een bepaalde context met bepaalde kennis te interpreteren krijgen ze betekenis. Die context en kennis moeten dus wel expliciet worden gemaakt, om te voorkomen dat eenieder een eigen betekenis gaat geven aan de data. Dat is de essentie van metadata; deze geven betekenis en context aan data. Een belangrijk onderdeel daarvan zijn datadefinities; zinnen die in begrijpelijke termen uitleggen wat de data precies betekenen. Metadata kan ook aangeven welke technische eigenschappen de data precies hebben, zoals hun datatype en formaat. Kwaliteitsregels zijn ook een vorm van metadata en geven meer informatie over welke waarden data-elementen precies zouden mogen aannemen. Een laatste relevante vorm van metadata is informatie over waar de data in bijvoorbeeld rapportages vandaan komen en welke bewerkingen de data hebben doorlopen. Dit kan informatie geven over de mate waarin je vertrouwen kunt hebben in de data. Het vastleggen van al dit soort metadata is essentieel, zeker voor kritische data-elementen. Hiervoor is een centraal metadatabeheersysteem beschikbaar.
Beveiliging en privacy zijn geborgd
De veiligheid van data en privacy moeten zijn geborgd. Dat is niet alleen omdat dit direct voortvloeit uit wet- en regelgeving zoals de Algemene Verordening Gegevensbescherming. Veiligheid en privacy zijn ook gewoon algemene rechten van mensen. Persoonsgegevens zouden niet zomaar inzichtelijk moeten zijn voor anderen. Informatiebeveiliging borgt ook de beschikbaarheid die nodig is voor het goed kunnen uitvoeren van bedrijfsprocessen. Het is daarom essentieel om eisen met betrekking tot beveiliging en privacy in een vroeg stadium in beeld te hebben en mee te nemen in het ontwerp van systemen. Voor informatiebeveiliging is dat in eerste instantie vooral een classificatie van de data langs de dimensies van beschikbaarheid, integriteit en vertrouwelijkheid. Voor privacy is dat vooral een data protection impact assessment (DPIA), voor gevallen waarin dat relevant is. Veel van de maatregelen zullen impact hebben op de systemen die de data beheren en verwerken, maar er zijn ook maatregelen in de data zelf te nemen. Denk daarbij met name aan het versleutelen, anonimiseren en pseudonimiseren van de data zelf. Hierdoor kan een onbevoegd persoon niet zomaar toegang krijgen tot gevoelige data.