Dit is HORA 1.0. Bekijk ook de previewversie van HORA 2.0

Beheren onderzoeksgegevens

Dit hoofdstuk heeft tot doel de aandacht te vestigen op het beheer van onderzoeksgegevens en te beschrijven welke aspecten daarbij relevant zijn. Het biedt handvatten waarmee op een meer gestructureerde wijze kan worden omgegaan met vraagstukken rondom onderzoeksgegevens. Het hoofdstuk start met een inleiding op onderzoeksgegevens, waarna verschillende perspectieven op onderzoeksgegevens worden toegelicht.

Onderzoeksgegevens

Onderzoeksgegevens zijn gegevens die worden verzameld tijdens een onderzoek of een afgeleide ervan. Het gaat hierbij om zowel onbewerkte als bewerkte onderzoeksgegevens. Administratieve gegevens worden niet als onderzoeksgegevens gezien. De term onderzoeksgegevens wordt in deze paragraaf als een synoniem voor onderzoeksdata gebruikt. Onderzoeksgegevens hebben een aantal specifieke karakteristieken:

  • Omvang: onderzoeksgegevens kunnen heel groot zijn en/of met hele hoge snelheid ontstaan (bij elke meting), waardoor ze een hele grote omvang kunnen hebben. De omvang lijkt ook steeds meer toe te nemen. Zelfs de groei is niet meer voorspelbaar.
  • Soorten data: Door de grote diversiteit aan disciplines in onderzoek is er ook een grote diversiteit aan soorten onderzoeksgegevens. Denk naast “gewone” digitale gegevens bijvoorbeeld aan beelden, fysieke gegevens (bijvoorbeeld bloed), psychiatrische en klinische rapporten. Daarnaast bestaan er veel verschillende formaten en standaarden, die voor een deel disciplinespecifiek zijn.
  • Status-afhankelijkheid: De toegankelijkheid van onderzoeksgegevens voor anderen is gebonden aan de status, die een directe relatie heeft met het onderzoeksproces. Tijdens het onderzoek zijn gegevens veelal voor een beperkte groep toegankelijk. Na afronding van het onderzoek en publicatie van de resultaten zijn ze veelal breed toegankelijk.
  • Continuïteit: Het kan noodzakelijk zijn om onderzoeksgegevens langdurig te moeten bewaren, mogelijk langer dan de (onderzoek)instelling blijft bestaan. Doordat gegevensdragers een beperkte houdbaarheid hebben is het periodiek omzetten naar andere gegevensdragers noodzakelijk.

Door de eerste twee karakteristieken kunnen onderzoeksgegevens deels worden gekarakteriseerd als Big Data (zie ook Figuur 1). Dit betekent dat standaard technologie in een aantal gevallen niet voldoet voor het opslaan en bewerken van onderzoeksgegevens.

Hoofdstuk5 figuur1.png
Figuur 1 Onderzoeksgegevens: BigData en SmallData

Meta-data bij onderzoeksgegevens zijn randvoorwaardelijk om ze breed te kunnen ontsluiten en hergebruiken. Zij beschrijven hoe de onderzoeksgegevens zijn verkregen, hoe de toegang is afgeschermd, wie de eigenaar is en wat bewaar- en vernietigingstermijnen zijn. De meta-data geven aan op welke wijze onderzoeksgegevens bewerkt zijn, ook met welke (software)gereedschappen en hoe ze geïnterpreteerd moeten worden. Kennis van metadatering en het gebruik van metadata vocabulaires zijn dan ook een belangrijk hulpmiddel om de toegankelijkheid, bruikbaarheid en de datakwaliteit van onderzoeksgegevens te vergroten. Een interessante metadateringsstandaard, specifiek gericht op statistische data, is SDMX. Het bijbehorende informatiemodel geeft aan wat voor metadata-elementen relevant zijn.

Juridische aspecten

Het is belangrijk om te beseffen dat er allerlei juridische aspecten spelen rondom onderzoeksgegevens. Zo mogen tijdens het onderzoek, maar ook na publicatie gegevens niet zomaar worden gedeeld met anderen. Zo mogen gepubliceerde onderzoeksgegevens volgens de Wet Bescherming Persoonsgegevens (WBP) geen persoonsgegevens bevatten en is anonimiseren soms noodzakelijk. Daarnaast stelt de WBP dat gegevens niet mogen worden bewaard zonder duidelijk doel (doelbinding). Bij het beschikbaar stellen van onderzoeksgegevens voor anderen is dat doel echter van tevoren niet altijd duidelijk.

Ook de auteurswet en de databankenwet zijn van toepassing op onderzoeksgegevens. Voor de auteurswet is belangrijk dat het gaat om gegevens die een eigen oorspronkelijk karakter en stempel van de maker hebben. De databankwet beschermt de investering die is gedaan om de gegevensverzameling aan te leggen. De producent van een databank heeft het uitsluitende recht om toestemming te verlenen voor het opvragen of hergebruiken van de gegevens in de databank, voor zover dit niet incidenteel van aard is.

Zowel bij het delen en hergebruik van onderzoeksgegevens heeft men te maken met intellectueel eigendomsrecht, contractenrecht en privacy recht. Bescherming geldt voor bepaalde vormgeving en selectie van data. Voor het delen en verspreiden van beschermde gegevens is steeds toestemming van de rechthebbende nodig. Het ter beschikking stellen aan collega-onderzoekers, niet alleen van de onderzoeksresultaten, maar ook van de ruwe gegevens waarop die onderzoeksresultaten gebaseerd zijn, is, onder voorwaarden, toegestaan. De belangrijkste voorwaarde hierbij is, dat de verkrijgende onderzoeker zich aan dezelfde regels houdt met betrekking tot zorgvuldig gebruik. Het is de verantwoordelijkheid van de verstrekkende onderzoeker om dat eenduidig vast te leggen.

De instelling heeft als dienstverlener van de informatiemaatschappij ook bepaalde informatieplichten. Maar als de geleverde dienst bestaat uit “het op verzoek opslaan van informatie die van een andere partij afkomstig is” (en dat is bij repositories het geval), dan is de instelling, onder voorwaarden, niet aansprakelijk voor die opgeslagen informatie.

De rol van data gedurende het onderzoeksproces

Het is belangrijk om te beseffen dat gegevens een verschillende rol kunnen spelen gedurende het onderzoeksproces (zie Figuur 2). Een empirisch onderzoeksproces start typisch met hypothesen die door waarnemingen al dan niet wordt gestaafd. Door het uitvoeren van experimenten ontstaan meetgegevens (onderzoeksgegevens als meting), die door verdere verwerking en verfijning rijk genoeg zijn om geïnterpreteerd te kunnen worden (onderzoeksgegevens als bron). Deze gegevens zijn de daadwerkelijke bron voor onderzoek en zouden ook gecombineerd kunnen worden met onderzoeksgegevens uit andere bronnen (data-integratie). Dit kan tot nieuwe inzichten leiden. Uiteindelijk worden conclusies getrokken en ontstaan resultaten die de basis zijn voor een publicatie (onderzoeksgegevens als resultaat). Deze aan de publicatie ten grondslag liggende gegevens worden bij voorkeur samen gepubliceerd zodat het onderzoek reproduceerbaar is, gevalideerd kan worden en de onderzoeksgegevens kunnen worden hergebruikt. Er ontstaat hierdoor een verrijkte publicatie, die verwijst naar de onderliggende onderzoeksgegevens. Bij het ontsluiten van data zijn open standaarden, vorm, snelheid en volume van belang. In het bijzonder is het belangrijk dat de onderzoeksgegevens zijn voorzien van de eerder genoemde meta-data zodat deze ook door anderen geïnterpreteerd kan worden.

Hoofdstuk5 figuur2.png
Figuur 2 Drie belangrijke rollen van onderzoeksgegevens

Naast de bovenstaande drie rollen van onderzoeksgegevens gedurende het onderzoeksproces kunnen gegevens ook zelf het object van onderzoek zijn (gegevens als onderzoeksobject). Denk bijvoorbeeld aan gegevens die gebruikt worden om de performance van een applicatie te testen. De betekenis van deze gegevens is niet altijd van belang, maar wel de vorm, het volume en de beschikbaarheid.

Onderzoeksgegevensbeheer

Het toenemend belang van onderzoeksgegevens leidt ertoe dat ook het beheer ervan steeds belangrijker wordt. Op instellingsniveau kan het beheer van onderzoeksgegevens worden ingericht door het opstellen van een databeleid, het uitwerken van de benodigde data-infrastructuur en de ondersteuning die nodig is. In een beleidsdocument voor onderzoeksgegevensbeheer kunnen bijvoorbeeld afspraken en richtlijnen worden vastgelegd voor opslag van onderzoeksdata, eigenaarschap, intellectueel eigendom, gebruiksvoorwaarden, selectie en retentie van gegevens en de opzet van een datamanagementplan. Het is belangrijk om taken en verantwoordelijkheden voor onderzoeksgegevens helder te beleggen. Een manier om verantwoordelijkheden te definiëren is het zogenaamde RACI model, waarbij onderscheid wordt gemaakt tussen de personen die eindverantwoordelijk (accountable), verantwoordelijk (responsible), geraadpleegd (consulted) en geïnformeerd (informed) dienen te zijn. Deze verantwoordelijkheden gelden veelal in meer algemene zin en kunnen zowel voor de (onderzoeks)processen als de (onderzoeks)gegevens worden gedefinieerd. In toenemende mate worden onderzoekers verplicht om een datamanagementplan op te stellen waarin de keuzes rondom hoe om te gaan met dit beheer expliciet worden gemaakt. Hierin moet onder meer helder worden welke gegevens een rol spelen in het onderzoek, wat hun karakteristieken zijn, waar zij worden opgeslagen en hoe wordt omgegaan met het beheer van de meta-data. Ook dienen hierin de verantwoordelijkheden rondom de onderzoeksgegevens helder te worden gemaakt.

Een andere bruikbare indeling voor het beheer van onderzoeksgegevens veronderstelt dat onderzoeksgegevens beheerd worden in de privé-omgeving, een gedeelde omgeving of beschikbaar zijn in het publieke domein. Een voorbeeld van gegevens in het privé-domein zijn onderzoeksdata die bij een onderzoeker op een computer staan en alleen voor hem of haar toegankelijk zijn. Het beheer van onderzoeksgegevens kan ook in een privé-omgeving goed op orde zijn. Wel bestaat het gevaar op dataverlies indien back-ups ontbreken en ontstaan andere risico’s, zoals de kans op onthulling wanneer privacygevoelige gegevens kwijt raken. Een voorbeeld van onderzoeksgegevens in een gedeelde omgeving zijn gegevens die binnen een onderzoeksgroep worden gedeeld en op groepsniveau beheerd. Onderzoeksgegevens kunnen op basis van vrijwilligheid of op grond van subsidievoorwaarden of andere bepalingen toegankelijk zijn in het publieke domein. Het beheer van gegevens die alleen binnen een onderzoeksgroep of instelling worden gedeeld stelt andere voorwaarden aan de governance en het technisch beheer dan het publiceren van onderzoeksgegevens in het publieke domein. Maar ook bij een groep van onderzoekers die rechtmatig toegang heeft tot onderzoeksdata kunnen zich ingewikkelde beheerssituaties voordoen als data bijvoorbeeld niet gekopieerd mag worden.

Een derde belangrijke insteek voor beheer van onderzoeksgegevens is de levenscyclus van onderzoeksgegevens - the data life cycle - als uitgangspunt te nemen. Figuur 3 geeft de levenscyclus weer zoals voorgesteld door het Data Documentation Initiative. Het belang en de kracht van deze benadering is dat de levenscyclus en de context van onderzoeksgegevens in detail beschreven kan worden. Voor het beheer van sommige typen van onderzoeksgegevens is het zelfs noodzakelijk dat elke stap in de verwerking van de gegevens gedocumenteerd is. Dit gebeurt bij voorkeur geautomatiseerd. Maar ook onbedoelde fouten en verdenkingen van fraude kunnen makkelijker worden opgespoord als gedetailleerde informatie over de data en de context van de data beschikbaar is. Het verschil met de voorgaande benaderingen is dat hier het beheer van de intrinsieke datakwaliteit van de onderzoeksgegevens en reproduceerbaarheid als uitgangspunt is gekozen.

Hoofdstuk5 figuur3.png
Figuur 3 Beheer van the data life cycle met DDI (Data Documentation Initiative)

Informatievoorziening

Deze paragraaf gaat in op de informatievoorziening die noodzakelijk is om het beheer van onderzoeksgegevens te ondersteunen. In Figuur 4 is een overzicht weergegeven van de belangrijkste applicaties die zijn betrokken bij het verwerken en beheren van onderzoeksgegevens. Onderzoeksgegevens ontstaan typisch in specifieke meetsystemen. Tijdens de onderzoeksfase zouden ze moeten worden beheerd in een specifiek daarvoor ontwikkeld onderzoeksgegevensbeheersysteem. Daar zijn ze beschikbaar voor analyse, en visualisatie alsook voor het delen met andere onderzoekers die zijn betrokken bij het onderzoek. In dit systeem wordt ook de metadata beheerd en de kwaliteit van de onderzoeksgegevens bewaakt. Op het moment dat het onderzoek is afgerond zouden de onderzoeksgegevens moeten worden opgenomen in een onderzoeksgegevensarchief dat ervoor zorgt dat ze ook langdurig beschikbaar blijven. Dit kan een instellingsspecifiek systeem zijn (of zelfs het onderzoeksgegevensbeheersysteem), maar logischer is het gebruik van een instellingsoverstijgende voorziening zoals DANS EASY of 3TU.Datacenter. Hier krijgen de onderzoeksgegevens ook een Digital Object Identifier (DOI) van een meta-data leverancier zoals DataCite, waardoor er vanuit de publicatie alsook door anderen naar kan worden verwezen.

Hoofdstuk5 figuur4.png
Figuur 4 Applicaties voor onderzoeksgegevens

Bij het beheer van onderzoeksgegevens is een speciale en uiterst belangrijke rol weggelegd voor het technisch beheer van de infrastructuur en het applicatiebeheer van de diensten (services) die voor eindgebruikers beschikbaar zijn. Ondersteuning van gebruikers bij het bewaren, delen en toegankelijk maken van informatiebronnen en materiaalsoorten is eveneens een belangrijk aandachtsgebied bij het beheer van onderzoeksgegevens.