Selectie van data

The two major use cases and drivers for what to keep are Research Integrity and Reproducibility (availability of the data supporting the findings in research); and the Potential for Reuse (availability of data for sharing with other users) |  Beagrie, 2019

Kunnen we het ons veroorloven bepaalde onderzoeksdata niet te bewaren? Dat is de vraag die centraal staat bij het selecteren van onderzoeksdata voor langetermijnarchivering. Welke onderzoeksdata archiveren we slechts voor verificatiedoeleinden? En welke datasets maken we ook echt vindbaar en herbruikbaar door de (meta)data te publiceren in een data-archief? In deze paragraaf passeren de criteria de revue. 

Redenen om onderzoeksgegevens te bewaren

Er kunnen verschillende redenen zijn om onderzoeksdata te bewaren: 

  • Het belang van de onderzoeksgegevens
    Potentiële waarde voor hergebruik, (inter)nationale positionering en kwaliteit, oorspronkelijkheid, omvang, schaal, de productiekosten van de gegevens of bijvoorbeeld het innovatieve karakter van het onderzoek.
  • De uniciteit van de gegevens
    De gegevens omvatten niet-herhaalbare waarnemingen.
  • Het belang van de gegevens voor historisch onderzoek
    In het bijzonder wetenschapshistorisch onderzoek.
  • Andere redenen
    De onderzoeksgegevens zijn om niet-wetenschappelijke doeleinden (cultureel erfgoed, musea of presentaties) belangrijk om te bewaren.

Naast deze algemene overwegingen stellen financiers van onderzoek, zoals de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO, n.d.), in toenemende mate verplicht dat onderzoeksgegevens worden bewaard om hergebruik mogelijk te maken. Ook de Nederlandse Gedragscode Wetenschappelijke Integriteit (VSNU, 2018)  verplicht onderzoekers om zowel de ruwe als de bewerkte gegevens te bewaren gedurende een voor de discipline en methodologie passende termijn.

Randvoorwaarden

Het selecteren van onderzoeksdata wordt niet alleen op basis van inhoudelijke argumenten gedaan. Daarnaast is er nog een heel rijtje met overwegingen en randvoorwaarden die meetellen bij de uiteindelijke beslissing. Denk dan bijvoorbeeld aan de volgende punten: 

Dataformaat

In welke formaten zijn de data beschikbaar? Zijn dataformaat en softwareformaat bruikbaar?  Voor (her)bruikbaarheid moeten data zoveel mogelijk in digitaal duurzame dataformaten opgeslagen worden. 

Bewerkingsfase

In welke bewerkingsfase bevinden de data zich? Bevinden ze zich in een bewerkingsstadium (ruw/onbewerkt, half bewerkt of gepubliceerd) dat voor hergebruik het meest relevant is?

Metadata en data documentatie

Is er voldoende informatie over de data - metadata en datadocumentatie - beschikbaar? Is die informatie van voldoende kwaliteit om te begrijpen om welke data het gaat? Denk hierbij aan codeboeken, de structuur van de gegevens, het intellectueel eigendom, de context en bijvoorbeeld of er links naar publicaties of gerelateerde databestanden beschikbaar zijn. 

Wettelijke eisen

Is er duidelijkheid over de intellectuele eigendomsrechten, zoals auteurs- of databankrecht? Gaat het om persoonsgegevens? Mogen ze op deze manier gepubliceerd worden of zijn daar nog maatregelen voor nodig?  

Duurzame infrastructuur

is er een duurzame infrastructuur beschikbaar voor het archiveren of publiceren van de gegevens? Denk hierbij aan een data-archief of een institutionele of thematische repository.

Kosten

Wordt er rekening gehouden met de kosten voor het selecteren, archiveren, converteren en het langdurig bewaren en beschikbaar stellen van de gegevens? Of data voor de lange termijn gearchiveerd worden, blijft een afweging van kosten en baten. Hoe verhouden de kosten van het archiveren of publiceren en ter beschikking stellen zich tot de kosten om de onderzoeksdata opnieuw te produceren? 

Archiveren of publiceren

Als aan de randvoorwaarden is voldaan, is het zaak te beslissen of je de data gaat:

  • Archiveren voor verificatiedoeleinden of om de mogelijkheid open te houden de data nog eens te gebruiken in toekomstig onderzoek. 
  • Publiceren voor hergebruik door (toekomstige) anderen in een data-archief of institutioneel repository. 

In het stroomschema hieronder worden de argumenten om deze keuze te maken vereenvoudigd gevisualiseerd. 

Bewaartermijn

Als eenmaal is vastgesteld dát een dataset opgenomen wordt in een data-archief, is het van belang om te bepalen hoe lang deze moet worden bewaard. De bewaartermijn zal afhangen van het vakgebied, de ontwikkelingen daarin, de kosten van opslag en toegankelijk maken, en het verwachte (her)gebruik. Datasets die tot erfgoed worden gerekend, zoals de resultaten van archeologisch onderzoek, worden in de regel voor de eeuwigheid bewaard.

Als de bewaartermijn niet is vastgelegd, is het zaak na een bepaalde tijd een beslissing te nemen over permanente archivering. In het rapport 'Selection of Research Data' (DANS, 2011) wordt een periode van 10 jaar genoemd als moment om opnieuw te kijken of onderzoeksdata nog bewaard moeten worden of vernietigd moeten worden. 

In de spotlight


Rapporten over het selecteren van onderzoeksdata

Meer informatie over het selecteren van onderzoeksgegevens staat in de rapporten:

Cases met data die aan de selectie-eisen voldoen

  • De Cabauwradargegevens in 4TU.Centre for Research Data (n.d.) zijn een duidelijk voorbeeld van data die aan de selectiecriteria voldoen. In deze datasets staat informatie over de klimatologische invloed van stofdeeltjes op de wolkenformatie. Het zijn metingen die je maar één keer kunt doen; metingen die in de toekomst waardevolle informatie kunnen geven over klimaatverandering. Van deze klimatologische data worden naast de bewerkte gegevens ook de ruwe gegevens bewaard. Het argument om ook ruwe data te bewaren, is dat die misschien wel informatie bevat die we er nu nog niet uit kunnen halen.
  • Interviewprojecten kun je scharen onder moeilijk herhaalbaar onderzoek. Het vastleggen van persoonlijke belevingen van bijvoorbeeld de Tweede Wereldoorlog is vanwege de hoge leeftijd van de geïnterviewden veelal een zaak van ‘nu of nooit’. DANS heeft veel interviewdata in haar collecties Oral History (DANS, 2012) en Tweede Wereldoorlog (DANS, n.d.) die een waardevolle bron vormen voor historisch onderzoek, nu en in de toekomst. Deze interviews worden in groot formaat achter de schermen bewaard, te beschouwen als de ‘ruwe data’, en als MP4 getoond via EASY.
  • Ook van bijvoorbeeld de data die nu verzameld worden bij de Large Hadron Collider (deeltjesversneller) kunnen we het ons niet veroorloven ze te verliezen (CERN, n.d.).  

Casus van een cursist van Essentials 4 Data Support

Een cursist van Essentials liet in de comments op deze paragraaf de volgende reactie achter. De overwegingen voor selectie zijn niet altijd gemakkelijk.   

"I have an example that does not fit in with the mentioned cases, and for which is difficult to find the optimal solution. We perform experiments that produce massive amounts of data. The experiments are difficult and expensive, suggesting that it is a good idea to store this raw data. However, the data is not usable in the original format and needs to be preprocessed, which greatly reduces its quantity. The preprocessed data is used for our analyses and publications, so if colleagues want to verify our data, they would also need our preprocessed data sets. It therefore seems more sensible to store this data for the long term, also with respect to the costs of storage. In addition, we expect the data acquisition to continuously improve in quality. So in five years or less the raw data we now have may be very inferior to what we can record in the future. However, the preprocessing algorithms are also developing, and other researchers might be more interested in applying these to our datasets. Moreover the experiments we have performed are unlikely to be redone in the future because of the costs involved"Chris van der Togt, 2018

Gidsen voor het archiveren en publiceren van data

RDM Support van Universiteit Utrecht biedt twee gidsen met een stappenplan voor het:

RDNL-diensten voor het archiveren en publiceren van data

In de komende paragraaf staat een infographic met RDNL-diensten voor het archiveren en publiceren van data.


Bronnen 

Klik om te openen/sluiten

4TU.Centre for Research Data (n.d.). Atmospheric Observation Collection Cabauw. Retrieved from http://data.4tu.nl/repository/collection:cabauw

Beagrie, N. (2019). What to Keep: A Jisc research data study. http://repository.jisc.ac.uk/7262/1/JR0100_WHAT_RESEARCH_DATA_TO_KEEP_FEB2019_v5_WEB.pdf

CERN (n.d.). CERN Open data portal. http://opendata.cern.ch/

DANS (2012): Thematische collectie: Oral History. https://doi.org/10.17026/dans-z3c-f26d

DANS (n.d.). Collectie Tweede Wereldoorlog. https://easy.dans.knaw.nl/ui/?wicket:bookmarkablePage=:nl.knaw.dans.easy.web.search.pages.PublicSearchResultPage&q=collectie+tweede+wereldoorlog

Gibney, E. (2013, November 26). LHC Plans for open data future. Nature News. Retrieved from http://www.nature.com/news/lhc-plans-for-open-data-future-1.14244

NASA. (2011). Astronomers find elusive planets in decade old hubble-data. Retrieved from http://www.nasa.gov/mission_pages/hubble/science/elusive-planets.html

NWO (n.d.) Open science. https://www.nwo.nl/beleid/open+science

Tjalsma, H.; Rombouts, J. (2011). Selection of research data - Guidelines for appraising and selecting research data. Retrieved from from http://www.dans.knaw.nl/nl/over/organisatie-beleid/publicaties/DANSselectionofresearchdata.pdf

Utrecht University (n.d.a.). Storing and preserving data. RDM Support. [Guide]. https://www.uu.nl/en/research/research-data-management/guides/storing-and-preserving-data

Utrecht University (n.d.b.). Publishing and sharing data. RDM Support. [Guide].  https://www.uu.nl/en/research/research-data-management/guides/publishing-and-sharing-data

VSNU (2018). Nederlands gedragscode wetenschappelijke integriteit. https://doi.org/10.17026/dans-2cj-nvwu.