Selectie van data

   Hoofdlijnen 

Kunnen we het ons veroorloven bepaalde onderzoeksdata te verliezen? Dat is de vraag die centraal staat bij het selecteren van onderzoeksdata voor langetermijnarchivering.
Voor de data die nu verzameld worden bij de Large Hadron Collider (deeltjesversneller) is het duidelijk(1). "We cannot afford to loose it", zegt Cristinel Diaconu (chair of the international Data Preservation in Long Term Analysis in High Energy Physics (DPHEP) study group).  

In een rapport van de Europese Unie(2) wordt gesproken over klassen van data. Voor sommige klassen van data is het van groter belang dat ze voor de lange termijn bewaard worden dan voor andere. Data die kandidaat zijn voor een data-archief zijn:  

  • data met potentieel voor hergebruik (die van belang zijn (of lijken) voor een grotere gemeenschap);
  • data die een open access-publicatie verrijken;
  • data die verplicht opgeslagen moeten worden omdat de financier dat eist;
  • data die geproduceerd zijn met processen die moeilijk te herhalen zijn.

In het stroomschema hieronder (ontleend aan een illustratie in het DMP-format van Wageningen Universiteit)3 zie je vereenvoudigd weergegeven wanneer je zou moeten overwegen om onderzoeksdata voor de lange termijn te archiveren. Vóórdat je het schema doorloopt, is het zaak na te gaan of er aan de randvoorwaarden is voldaan:

  • Zijn dataformaat en softwareformaat bruikbaar? 
  • Is de datadocumentatie (metadata) van voldoende kwaliteit om te begrijpen om welke data het gaat? 
  • Zijn er wettelijke bezwaren om de data te delen (contracten, privacy)?

Of data voor de lange termijn gearchiveerd worden, blijft een afweging van kosten en baten. Hoe verhouden de kosten van opname archivering en ter beschikking stellen zich tot de kosten om de onderzoeksdata opnieuw te produceren? Data-archieven zijn tot nu toe trouwens nauwelijks in staat om zo'n berekening te maken, maar ze zijn wel bezig met projecten op dit gebied.

Als eenmaal is vastgesteld dát een dataset opgenomen wordt in een data-archief, is het van belang om te bepalen hoe lang deze moet worden bewaard. De bewaartermijn zal afhangen van het vakgebied, de ontwikkelingen daarin, de kosten van opslag en toegankelijk maken, en het verwachte (her)gebruik. Datasets die tot erfgoed worden gerekend, zoals de resultaten van archeologisch onderzoek, worden in de regel voor de eeuwigheid bewaard.

Als de bewaartermijn niet is vastgelegd, is het zaak na een bepaalde tijd een beslissing te nemen over permanente archivering. In het rapport 'Selection of Research Data'(4) [pdf] wordt een periode van 10 jaar genoemd als moment om opnieuw te kijken of onderzoeksdata nog bewaard moeten worden of vernietigd moeten worden. 

   Cases

Case 1

De Cabauwradargegevens(5) in 4TU.Centre for Research Data zijn een duidelijk voorbeeld van data die aan de selectiecriteria voldoen. In deze datasets staat informatie over de klimatologische invloed van stofdeeltjes op de wolkenformatie. Het zijn metingen die je maar één keer kunt doen; metingen die in de toekomst waardevolle informatie kunnen geven over klimaatverandering. Van deze klimatologische data worden naast de bewerkte gegevens ook de ruwe gegevens bewaard. Het argument om ook ruwe data te bewaren, is dat die misschien wel informatie bevat die we er nu nog niet uit kunnen halen.

Case 2

Een mooi voorbeeld van nieuwe inzichten uit oude data komt bij de NASA vandaan. Bij een heranalyse(6) van oude data van de Hubble telescoop zijn twee nieuwe planeten gevonden. De analysetechnieken van nu zijn geavanceerder dan die van toen. Dit maakte de nieuwe ontdekking mogelijk.

Case 3

Interviewprojecten kun je scharen onder moeilijk herhaalbaar onderzoek. Het vastleggen van persoonlijke belevingen van bijvoorbeeld de Tweede Wereldoorlog is vanwege de hoge leeftijd van de geïnterviewden veelal een zaak van ‘nu of nooit’. DANS heeft veel interviewdata in haar collecties Oral History en Tweede Wereldoorlog die een waardevolle bron vormen voor historisch onderzoek, nu en in de toekomst. Deze interviews worden in groot formaat achter de schermen bewaard, te beschouwen als de ‘ruwe data’, en als MP4 getoond via EASY.

Case 4

Het onderzoek Culturele Veranderingen, een tweejaarlijkse survey van het Sociaal Cultureel Planbureau (SCP), is oorspronkelijk gebaseerd op een replicatie in 1975 van 200 surveyvragen van een vijftiental onderzoeken die bij het toenmalige Steinmetz-archief waren opgeslagen. De data van al die onderzoeken, inclusief die van het onderzoek Culturele Veranderingen zijn via EASY beschikbaar en vormen een onschatbare bron voor trendanalyses over de Nederlandse maatschappij.

   Bronnen en achtergrondmateriaal 

Klik om te openen/sluiten

Bronnen

  1. Gibney, E. (2013, November 26). LHC Plans for open data future. Nature News. Retrieved from http://www.nature.com/news/lhc-plans-for-open-data-future-1.14244
  2. Expert group on scientific data, European commission. (2010). Riding the wave. Retrieved from http://cordis.europa.eu/fp7/ict/e-infrastructure/docs/hlg-sdi-report.pdf
  3. Wageningen Universiteit. Data Management Plans. Retrieved from 
    http://www.wageningenur.nl/en/Expertise-Services/Data-Management-Support/Browse-by-Subject/Publishing-Data.htm
  4. Tjalsma, H.; Rombouts, J. (2011). Selection of research data - Guidelines for appraising and selecting research data. Retrieved from from http://www.dans.knaw.nl/nl/over/organisatie-beleid/publicaties/DANSselectionofresearchdata.pdf
  5. 4TU.Centre for Research Data. Atmospheric Observation Collection Cabauw. Retrieved from http://data.4tu.nl/repository/collection:cabauw
  6. NASA. (2011). Astronomers find elusive planets in decade old hubble-data. Retrieved from http://www.nasa.gov/mission_pages/hubble/science/elusive-planets.html

Verder lezen


botMessage_toctoc_comments_9210