Beheren onderzoeksgegevens
Dit hoofdstuk heeft tot doel de aandacht te vestigen op het beheer van onderzoeksgegevens en te beschrijven welke aspecten daarbij relevant zijn. Het biedt handvatten waarmee op een meer gestructureerde wijze kan worden omgegaan met vraagstukken rondom onderzoeksgegevens. Het hoofdstuk start met een inleiding op onderzoeksgegevens, waarna verschillende perspectieven op onderzoeksgegevens worden toegelicht.
Onderzoeksgegevens
Onderzoeksgegevens zijn gegevens die in het kader van het uitvoeren van onderzoek ontstaan en/of worden gebruikt. Het begrip ‘gegevens’ dient hier zo breed mogelijk te worden opgevat, en omvat bijvoorbeeld ruwe meetpunten en analyseresultaten maar ook scripts en software, beschrijvingen van apparatuur en onderzoeksopstellingen. Administratieve gegevens worden niet als onderzoeksgegevens gezien. De term onderzoeksgegevens wordt in deze paragraaf als een synoniem voor onderzoeksdata gebruikt. Onderzoeksgegevens hebben een aantal specifieke karakteristieken:
- Omvang: onderzoeksgegevens kunnen heel groot zijn en/of met hele hoge snelheid ontstaan (bij elke meting), waardoor ze een hele grote omvang kunnen hebben. De omvang lijkt ook steeds meer toe te nemen. Zelfs de groei is niet meer voorspelbaar.
- Soorten data: Door de grote diversiteit aan disciplines in onderzoek is er ook een grote diversiteit aan soorten onderzoeksgegevens. Denk naast “gewone” digitale gegevens bijvoorbeeld aan beelden, fysieke gegevens (bijvoorbeeld bloed), psychiatrische en klinische rapporten. Daarnaast bestaan er veel verschillende formaten en standaarden, die voor een deel disciplinespecifiek zijn.
- Status-afhankelijkheid: De toegankelijkheid van onderzoeksgegevens voor anderen is gebonden aan de status, die een directe relatie heeft met het onderzoeksproces. Tijdens het onderzoek zijn gegevens veelal voor een beperkte groep toegankelijk. Na afronding van het onderzoek en publicatie van de resultaten zijn ze veelal breed toegankelijk.
- Continuïteit: Het kan noodzakelijk zijn om onderzoeksgegevens langdurig te moeten bewaren, mogelijk langer dan de onderzoekscollaboratie of de (onderzoek)instelling blijft bestaan. Doordat gegevensdragers een beperkte houdbaarheid hebben is het periodiek omzetten naar andere gegevensdragers noodzakelijk.
Door de eerste twee karakteristieken kunnen onderzoeksgegevens deels worden gekarakteriseerd als Big Data (zie ook Figuur 1). Dit betekent dat standaard technologie in een aantal gevallen niet voldoet voor het opslaan en bewerken van onderzoeksgegevens.
Figuur 1 Onderzoeksgegevens: BigData en SmallData
Meta-data bij onderzoeksgegevens zijn randvoorwaardelijk om ze breed te kunnen ontsluiten en hergebruiken. Zij beschrijven hoe de onderzoeksgegevens zijn verkregen, hoe de toegang is afgeschermd, wie de eigenaar is en wat bewaar- en vernietigingstermijnen zijn. De meta-data geven aan op welke wijze onderzoeksgegevens bewerkt zijn, ook met welke (software)gereedschappen en hoe ze geïnterpreteerd moeten worden. Kennis van metadatering en het gebruik van metadata vocabulaires zijn dan ook een belangrijk hulpmiddel om de toegankelijkheid, bruikbaarheid en de datakwaliteit van onderzoeksgegevens te vergroten. Een interessante metadateringsstandaard, specifiek gericht op statistische data, is SDMX. Het bijbehorende informatiemodel geeft aan wat voor metadata-elementen relevant zijn.
De in 2016 gepubliceerde FAIR Guiding Principles for scientific data management and stewardship bieden richtlijnen om de vindbaarheid (findability), toegankelijkheid (accessibility), interoperabiliteit (interoperability) en de herbruikbaarheid (reusability) van onderzoeksgegevens te verbeteren.
Juridische aspecten
Het is belangrijk om te beseffen dat er allerlei juridische aspecten spelen rondom onderzoeksgegevens. Zo mogen tijdens het onderzoek, maar ook na publicatie gegevens niet zomaar worden gedeeld met anderen. Zo mogen gepubliceerde onderzoeksgegevens volgens de Algemene verordening gegevensbescherming (AVG) geen persoonsgegevens bevatten en is anonimiseren soms noodzakelijk. Daarnaast stelt de AVG dat persoonsgegevens niet mogen worden verwerkt of bewaard zonder duidelijk doel (doelbinding). Bij het beschikbaar stellen van onderzoeksgegevens voor anderen is dat doel echter van tevoren niet altijd duidelijk.
Ook de auteurswet en de databankenwet zijn van toepassing op onderzoeksgegevens. Voor de auteurswet is belangrijk dat het gaat om gegevens die een eigen oorspronkelijk karakter en stempel van de maker hebben. De databankwet beschermt de investering die is gedaan om de gegevensverzameling aan te leggen. De producent van een databank heeft het uitsluitende recht om toestemming te verlenen voor het opvragen of hergebruiken van de gegevens in de databank, voor zover dit niet incidenteel van aard is.
Zowel bij het delen en hergebruik van onderzoeksgegevens heeft men te maken met intellectueel eigendomsrecht, contractenrecht en privacyrecht. Bescherming geldt voor bepaalde vormgeving en selectie van data. Voor het delen en verspreiden van beschermde gegevens is steeds toestemming van de rechthebbende nodig. Het ter beschikking stellen aan collega-onderzoekers, niet alleen van de onderzoeksresultaten, maar ook van de ruwe gegevens waarop die onderzoeksresultaten gebaseerd zijn, is, onder voorwaarden, toegestaan. De belangrijkste voorwaarde hierbij is, dat de verkrijgende onderzoeker zich aan dezelfde regels houdt met betrekking tot zorgvuldig gebruik. Het is de verantwoordelijkheid van de verstrekkende onderzoeker om dat eenduidig vast te leggen.
Onderzoek vindt steeds vaker in (internationale) samenwerkingsverbanden plaats, waarbij de deelnemende partijen te maken kunnen hebben met verschillen in beleid en wet- en regelgeving. Wanneer onderzoeksgegevens binnen zo’n onderzoekscollaboratie worden gedeeld, is het dan ook noodzakelijk de desbetreffende beleidsovergangen te ondersteunen (zie het principe Ondersteun verschillen in beleid bij onderzoekssamenwerking).
De instelling heeft als dienstverlener van de informatiemaatschappij ook bepaalde informatieplichten. Maar als de geleverde dienst bestaat uit “het op verzoek opslaan van informatie die van een andere partij afkomstig is” (en dat is bij repositories het geval), dan is de instelling, onder voorwaarden, niet aansprakelijk voor die opgeslagen informatie.
De rol van onderzoeksgegevens in de onderzoekscyclus
In het onderzoeksdomein kunnen we twee aan elkaar gerelateerde cycli onderscheiden: de onderzoekscyclus en de onderzoeksgegevenscyclus. Deze zijn zeer sterk gerelateerd maar niet één-op-één af te beelden, vandaar dat het van belang is te bepalen vanuit welke cyclus we kijken bij het nadenken over onderzoek – data of het onderzoek zelf. Het denken in cycli helpt bij het vormen van gedachten rondom hergebruik. Anderzijds helpen ze bij de ketengedachte, dat er meerdere partijen zijn betrokken in de verschillende stadia van onderzoek.
Onderzoekscyclus
De onderzoekscyclus plaatst het uitvoeren van onderzoek in een breder perspectief waarbij ook het voorbereiden van onderzoek, het beheren en ontsluiten van onderzoeksresultaten en het uitbaten van onderzoeksresultaten zijn betrokken. De onderzoekscyclus bestaat uit de volgende fasen:
- Onderzoeksontwikkeling: Het uitvoeren van voorbereidende handelingen die erop gericht zijn een onderzoek succesvol te kunnen uitvoeren;
- Uitvoeren onderzoek: Het uitvoeren van een zorgvuldige, verifieerbare en systematische studie van een bepaalde kwestie ter beantwoording van onderzoeksvragen;
- Onderzoeksdisseminatie: Het aan een breder publiek beschikbaar stellen van resultaten uit een onderzoek;
- Kennisuitnutting: Het beschikbaar en geschikt maken van onderzoeksresultaten (publicaties, onderzoeksgegevens) voor de toepassing in producten, processen en diensten zoals interactie met de maatschappij en private organisaties.
Onderzoeksresultaten omvatten de antwoorden op onderzoeksvragen en alle bij de beantwoording van de onderzoeksvragen opgedane kennis en expertise, vastgelegd in welke vorm dan ook. Voorbeelden van onderzoeksresultaten zijn wetenschappelijke artikelen, proefschriften, ontwikkelde of verbeterde onderzoeksinstrumenten, en onderzoeksgegevenssets.
De cyclus 'sluit' wanneer het onderzoek leidt tot vervolgonderzoek.
Onderzoeksgegevenscyclus
De onderzoeksgegevenscyclus vindt plaats in de context van onderzoeksuitvoering en -disseminatie. De cyclus richt zich op de omgang met onderzoeksgegevens en kent de volgende fasen:
- Creëren nieuwe onderzoeksgegevens: Het genereren van nog niet eerder vastgelegde onderzoeksgegevens, ook wel primaire onderzoeksgegevens genoemd;
- Verzamelen onderzoeksgegevens: Het verzamelen van bestaande en nieuw gecreëerde onderzoeksgegevens;
- Verwerken en analyseren onderzoeksgegevens: Het transformeren, combineren of anderszins manipuleren van onderzoeksgegevens;
- Archiveren en preserveren onderzoeksgegevens: Het gedurende langere tijd bewaren en beschikbaar houden van onderzoeksgegevens;
- Dissemineren onderzoeksgegevens: Het beschikbaar stellen en ontsluiten van onderzoeksgegevens.
De cyclus ‘sluit’ bij het hergebruik van onderzoeksgegevens, i.e. wanneer eerder gepubliceerde gegevens verzameld worden in het kader van een nieuw onderzoek.
De onderzoeksgegevenscyclus toont hoe onderzoeksgegevens een verschillende rol kun spelen in de onderzoekscyclus:
- Door het uitvoeren van experimenten worden nieuwe onderzoeksgegevens gecreëerd (onderzoeksgegevens als meting). Deze gegevens zijn de bron voor verdere analyse, en kunnen ook gecombineerd worden met onderzoeksgegevens uit andere bronnen.
- Door verwerking en analyse worden de gegevens rijk genoeg om geïnterpreteerd te kunnen worden (onderzoeksgegevens als betekenis)
- Uiteindelijk worden conclusies getrokken en ontstaan resultaten die de basis zijn voor een disseminatie (onderzoeksgegevens als resultaat). Deze aan de disseminatie ten grondslag liggende gegevens worden bij voorkeur samen gepubliceerd, zodat het onderzoek reproduceerbaar is, gevalideerd kan worden en de onderzoeksgegevens kunnen worden hergebruikt. Bij het ontsluiten van data zijn open standaarden, vorm, snelheid en volume van belang. In het bijzonder is het belangrijk dat de onderzoeksgegevens zijn voorzien van de eerder genoemde meta-data zodat deze ook door anderen geïnterpreteerd kan worden.
Naast de bovenstaande drie rollen van onderzoeksgegevens gedurende het onderzoeksproces kunnen gegevens ook zelf het object van onderzoek zijn (gegevens als onderzoeksobject). Denk bijvoorbeeld aan gegevens die gebruikt worden om de performance van een applicatie te testen. De betekenis van deze gegevens is niet altijd van belang, maar wel de vorm, het volume en de beschikbaarheid.
Onderzoeksgegevensbeheer
Het toenemend belang van onderzoeksgegevens leidt ertoe dat ook het beheer ervan steeds belangrijker wordt. Op instellingsniveau kan het beheer van onderzoeksgegevens worden ingericht door het opstellen van een databeleid, het uitwerken van de benodigde data-infrastructuur en de ondersteuning die nodig is. In een beleidsdocument voor onderzoeksgegevensbeheer kunnen bijvoorbeeld afspraken en richtlijnen worden vastgelegd voor opslag van onderzoeksdata, eigenaarschap, intellectueel eigendom, gebruiksvoorwaarden, selectie en retentie van gegevens en de opzet van een datamanagementplan. Het is belangrijk om taken en verantwoordelijkheden voor onderzoeksgegevens helder te beleggen. Een manier om verantwoordelijkheden te definiëren is het zogenaamde RACI-model, waarbij onderscheid wordt gemaakt tussen de personen die eindverantwoordelijk (accountable), verantwoordelijk (responsible), geraadpleegd (consulted) en geïnformeerd (informed) dienen te zijn. Deze verantwoordelijkheden gelden veelal in meer algemene zin en kunnen zowel voor de (onderzoeks)processen als de (onderzoeks)gegevens worden gedefinieerd. In toenemende mate worden onderzoekers verplicht om een datamanagementplan op te stellen waarin de keuzes rondom hoe om te gaan met dit beheer expliciet worden gemaakt. Hierin moet onder meer helder worden welke gegevens een rol spelen in het onderzoek, wat hun karakteristieken zijn, waar zij worden opgeslagen en hoe wordt omgegaan met het beheer van de meta-data. Ook dienen hierin de verantwoordelijkheden rondom de onderzoeksgegevens helder te worden gemaakt.
Een andere bruikbare indeling voor het beheer van onderzoeksgegevens veronderstelt dat onderzoeksgegevens beheerd worden in de privé-omgeving, een gedeelde omgeving of beschikbaar zijn in het publieke domein. Een voorbeeld van gegevens in het privé-domein zijn onderzoeksdata die bij een onderzoeker op een computer staan en alleen voor hem of haar toegankelijk zijn. Het beheer van onderzoeksgegevens kan ook in een privé-omgeving goed op orde zijn. Wel bestaat het gevaar op dataverlies indien back-ups ontbreken en ontstaan andere risico’s, zoals de kans op onthulling wanneer privacygevoelige gegevens kwijt raken. Een voorbeeld van onderzoeksgegevens in een gedeelde omgeving zijn gegevens die binnen een onderzoeksgroep worden gedeeld en op groepsniveau beheerd. Onderzoeksgegevens kunnen op basis van vrijwilligheid of op grond van subsidievoorwaarden of andere bepalingen toegankelijk zijn in het publieke domein. Het beheer van gegevens die alleen binnen een onderzoeksgroep of instelling worden gedeeld stelt andere voorwaarden aan de governance en het technisch beheer dan het publiceren van onderzoeksgegevens in het publieke domein. Maar ook bij een groep van onderzoekers die rechtmatig toegang heeft tot onderzoeksdata kunnen zich ingewikkelde beheerssituaties voordoen als data bijvoorbeeld niet gekopieerd mag worden.
Een derde belangrijke insteek voor beheer van onderzoeksgegevens is de levenscyclus van onderzoeksgegevens - the data life cycle - als uitgangspunt te nemen. Figuur 3 geeft de levenscyclus weer zoals voorgesteld door het Data Documentation Initiative. Het belang en de kracht van deze benadering is dat de levenscyclus en de context van onderzoeksgegevens in detail beschreven kan worden. Voor het beheer van sommige typen van onderzoeksgegevens is het zelfs noodzakelijk dat elke stap in de verwerking van de gegevens gedocumenteerd is. Dit gebeurt bij voorkeur geautomatiseerd. Maar ook onbedoelde fouten en verdenkingen van fraude kunnen makkelijker worden opgespoord als gedetailleerde informatie over de data en de context van de data beschikbaar is. Het verschil met de voorgaande benaderingen is dat hier het beheer van de intrinsieke datakwaliteit van de onderzoeksgegevens en reproduceerbaarheid als uitgangspunt is gekozen.
Figuur 3 Beheer van the data life cycle met DDI (Data Documentation Initiative)
Informatievoorziening
Deze paragraaf gaat in op de informatievoorziening die noodzakelijk is om het beheer van onderzoeksgegevens te ondersteunen. In Figuur 4 is een overzicht weergegeven van de belangrijkste applicaties die zijn betrokken bij het verwerken en beheren van onderzoeksgegevens. Onderzoeksgegevens ontstaan typisch in specifieke meetsystemen. Tijdens de onderzoeksfase zouden ze moeten worden beheerd in een specifiek daarvoor ontwikkeld onderzoeksgegevensbeheersysteem. Daar zijn ze beschikbaar voor analyse, en visualisatie alsook voor het delen met andere onderzoekers die zijn betrokken bij het onderzoek. In dit systeem wordt ook de metadata beheerd en de kwaliteit van de onderzoeksgegevens bewaakt. Op het moment dat het onderzoek is afgerond zouden de onderzoeksgegevens moeten worden opgenomen in een onderzoeksgegevensarchief dat ervoor zorgt dat ze ook langdurig beschikbaar blijven. Dit kan een instellingsspecifiek systeem zijn (of zelfs het onderzoeksgegevensbeheersysteem), maar logischer is het gebruik van een instellingsoverstijgende voorziening zoals DANS EASY of 3TU.Datacenter. Hier krijgen de onderzoeksgegevens ook een Digital Object Identifier (DOI) van een meta-data leverancier zoals DataCite, waardoor er vanuit de publicatie alsook door anderen naar kan worden verwezen.
Figuur 4 Applicaties voor onderzoeksgegevens
Bij het beheer van onderzoeksgegevens is een speciale en uiterst belangrijke rol weggelegd voor het technisch beheer van de infrastructuur en het applicatiebeheer van de diensten (services) die voor eindgebruikers beschikbaar zijn. Ondersteuning van gebruikers bij het bewaren, delen en toegankelijk maken van informatiebronnen en materiaalsoorten is eveneens een belangrijk aandachtsgebied bij het beheer van onderzoeksgegevens.
VRE - de Virtual Research Environment
(Federatieve) samenwerking heeft een nadrukkelijke positie in het onderzoeksdomein. Onderzoekers die werken in instellingsoverstijgende onderzoekscollaboraties kunnen ondersteund worden door een ‘Virtual Research Environment’ (VRE). De VRE biedt gebundelde applicatiefuncties, die bestaan uit applicatiefuncties geleverd door onderliggende systemen. Als virtuele werkruimte bestaat de VRE dus uit een samenwerking van applicatiecomponenten die elk een functionele bijdrage aan de VRE leveren. Onderstaande diagram toont de functionaliteit van de VRE, uitgedrukt in functionaliteiten uit het onderzoeksapplicatielandschap. Het diagram toont hoe verschillende applicatiecomponenten gezamenlijk de complete functionaliteit voor de virtuele werkruimte realiseren.