Print Pages

Access Page via Rule

Track Page Visit

Visited Pages JQuery

Navigatie Hoofstuk IV Hoofdstuk I Hoofdstuk II Hoofdstuk III Hoofdstuk IV Hoofdstuk V Hoofdstuk VI
Navigatie HIV tablet I II III IV V VI
Navigatie Hoofdstuk IV mobiel I II III IV V VI

Selectie van data


Wat zijn de data in de toekomst waard?

   Hoofdlijnen 

Kunnen we het ons veroorloven bepaalde onderzoeksdata te verliezen? Dat is de vraag die centraal staat bij het selecteren van onderzoeksdata voor langetermijnarchivering.
Voor de data die nu verzameld worden bij de Large Hadron Collider (deeltjesversneller) is het duidelijk(1). "We cannot afford to loose it", zegt Cristinel Diaconu (chair of the international Data Preservation in Long Term Analysis in High Energy Physics (DPHEP) study group).  

In een rapport van de Europese Unie(2) wordt gesproken over klassen van data. Voor sommige klassen van data is het van groter belang dat ze voor de lange termijn bewaard worden dan voor andere. Data die kandidaat zijn voor een data-archief zijn:  

  • data met potentieel voor hergebruik (die van belang zijn (of lijken) voor een grotere gemeenschap);
  • data die een open access-publicatie verrijken;
  • data die verplicht opgeslagen moeten worden omdat de financier dat eist;
  • data die geproduceerd zijn met processen die moeilijk te herhalen zijn.

In het stroomschema hieronder (ontleend aan een illustratie in het DMP-format van Wageningen Universiteit)3 zie je vereenvoudigd weergegeven wanneer je zou moeten overwegen om onderzoeksdata voor de lange termijn te archiveren. Vóórdat je het schema doorloopt, is het zaak na te gaan of er aan de randvoorwaarden is voldaan:

  • Zijn dataformaat en softwareformaat bruikbaar? 
  • Is de datadocumentatie (metadata) van voldoende kwaliteit om te begrijpen om welke data het gaat? 
  • Zijn er wettelijke bezwaren om de data te delen (contracten, privacy)?
Klik om te vergroten

Of data voor de lange termijn gearchiveerd worden, blijft een afweging van kosten en baten. Hoe verhouden de kosten van opname archivering en ter beschikking stellen zich tot de kosten om de onderzoeksdata opnieuw te produceren? Data-archieven zijn tot nu toe trouwens nauwelijks in staat om zo'n berekening te maken, maar ze zijn wel bezig met projecten op dit gebied.

Als eenmaal is vastgesteld dát een dataset opgenomen wordt in een data-archief, is het van belang om te bepalen hoe lang deze moet worden bewaard. De bewaartermijn zal afhangen van het vakgebied, de ontwikkelingen daarin, de kosten van opslag en toegankelijk maken, en het verwachte (her)gebruik. Datasets die tot erfgoed worden gerekend, zoals de resultaten van archeologisch onderzoek, worden in de regel voor de eeuwigheid bewaard.

Als de bewaartermijn niet is vastgelegd, is het zaak na een bepaalde tijd een beslissing te nemen over permanente archivering. In het rapport 'Selection of Research Data'(4) [pdf] wordt een periode van 10 jaar genoemd als moment om opnieuw te kijken of onderzoeksdata nog bewaard moeten worden of vernietigd moeten worden. 

   Cases

Case 1

Case 1

De Cabauwradargegevens(5) in 4TU.Centre for Research Data zijn een duidelijk voorbeeld van data die aan de selectiecriteria voldoen. In deze datasets staat informatie over de klimatologische invloed van stofdeeltjes op de wolkenformatie. Het zijn metingen die je maar één keer kunt doen; metingen die in de toekomst waardevolle informatie kunnen geven over klimaatverandering. Van deze klimatologische data worden naast de bewerkte gegevens ook de ruwe gegevens bewaard. Het argument om ook ruwe data te bewaren, is dat die misschien wel informatie bevat die we er nu nog niet uit kunnen halen.

Case 2

Case 2

Een mooi voorbeeld van nieuwe inzichten uit oude data komt bij de NASA vandaan. Bij een heranalyse(6) van oude data van de Hubble telescoop zijn twee nieuwe planeten gevonden. De analysetechnieken van nu zijn geavanceerder dan die van toen. Dit maakte de nieuwe ontdekking mogelijk.

Case 3

Case 3

Interviewprojecten kun je scharen onder moeilijk herhaalbaar onderzoek. Het vastleggen van persoonlijke belevingen van bijvoorbeeld de Tweede Wereldoorlog is vanwege de hoge leeftijd van de geïnterviewden veelal een zaak van ‘nu of nooit’. DANS heeft veel interviewdata in haar collecties Oral History en Tweede Wereldoorlog die een waardevolle bron vormen voor historisch onderzoek, nu en in de toekomst. Deze interviews worden in groot formaat achter de schermen bewaard, te beschouwen als de ‘ruwe data’, en als MP4 getoond via EASY.

Case 4

Case 4

Het onderzoek Culturele Veranderingen, een tweejaarlijkse survey van het Sociaal Cultureel Planbureau (SCP), is oorspronkelijk gebaseerd op een replicatie in 1975 van 200 surveyvragen van een vijftiental onderzoeken die bij het toenmalige Steinmetz-archief waren opgeslagen. De data van al die onderzoeken, inclusief die van het onderzoek Culturele Veranderingen zijn via EASY beschikbaar en vormen een onschatbare bron voor trendanalyses over de Nederlandse maatschappij.

   Bronnen en achtergrondmateriaal 

Klik om te openen/sluiten

Bronnen

  1. Gibney, E. (2013, November 26). LHC Plans for open data future. Nature News. Retrieved from http://www.nature.com/news/lhc-plans-for-open-data-future-1.14244
  2. Expert group on scientific data, European commission. (2010). Riding the wave. Retrieved from http://cordis.europa.eu/fp7/ict/e-infrastructure/docs/hlg-sdi-report.pdf
  3. Wageningen Universiteit. Data Management Plans. Retrieved from 
    http://www.wageningenur.nl/en/Expertise-Services/Data-Management-Support/Browse-by-Subject/Publishing-Data.htm
  4. Tjalsma, H.; Rombouts, J. (2011). Selection of research data - Guidelines for appraising and selecting research data. Retrieved from from http://www.dans.knaw.nl/nl/over/organisatie-beleid/publicaties/DANSselectionofresearchdata.pdf
  5. 4TU.Centre for Research Data. Atmospheric Observation Collection Cabauw. Retrieved from http://data.4tu.nl/repository/collection:cabauw
  6. NASA. (2011). Astronomers find elusive planets in decade old hubble-data. Retrieved from http://www.nasa.gov/mission_pages/hubble/science/elusive-planets.html

Verder lezen


Like · Dislike 1 ·  
Not rated yet. Be the first who rates this item!

Merle Rodenburg - "Data die kandidaat zijn voor een data-archief zijn: data die een open access-publicatie verrijken"

Wat is de achterliggende gedachte om dit toe te spitsen op open acces-publicaties? Open access heeft te maken met het onderliggende businessmodel. Het heeft geen relatie met de inhoud van de publicatie. Het zegt ook niets over de aard van de data.

2 years 7 months ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Annet Kranenborg - Ik neem aan dat bedoeld wordt dat als een publicatie open access is, de achterliggende data ook openbaar moet zijn?

2 years 7 months ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Annet Kranenborg - En dus ergens opgeslagen moeten worden, waardoor die toegang gegarandeerd wordt

2 years 7 months ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Michelle Berk - Ik denk het volgende: als je OA definieert als vrije toegang zonder beperkingen, zoals hier: http://www.knaw.nl/shared/resources/thematisch/bestanden/knaw-flyer-open-access-nl.pdf dan moet je ook de ambitie hebben om onderliggende data in geval van een verrijkte publicatie zonder beperkingen, en dus duurzaam, ter beschikking te stellen.

2 years 7 months ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Michelle Berk - Een ander businessmodel kan andere consequenties met zich mee brengen, al is dat niet noodzakelijkerwijs het geval.

2 years 7 months ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Maarten Goldberg - Een publicatie kan open access zijn maar de auteur kan er desondanks voor kiezen om de bijbehorende dataset niet open te zetten. Bijvoorbeeld omdat hij/zij er zelf vervolgonderzoek op wil doen, of omdat de financier de data niet open wil hebben, of omdat er privacy aspecten zijn etcetera. Ik begrijp dat er in de natuurwetenschappen steeds meer tijdschriften zijn die als voorwaarde voor publicatie van een artikel eisen dat de data die onder het artikel zitten kunnen worden gecontroleerd door de peer reviewers en de lezers. Dus dan kan het zelfs omgekeerd zijn, het artikel is niet open access maar de data wel ;-)

2 years 7 months ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Frans de Liagre Böhl - Met wie loop je eigenlijk deze boom door? Een onderzoeker zal andere waarderingen geven dan een functioneel beheerder van een repository of een bestuurder die budgetten bewaakt.

8 months 2 weeks ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Research Data Netherlands - @Frans: dat klopt. Sterker nog, functioneel beheerders en bestuurders kunnen de vragen wellicht niet beantwoorden: weten zij of specifieke data uniek zijn, of hoeveel moeite het heeft gekost om de data te vergaren? Deze beslisboom en de genoemde selectieliteratuur richten zich in eerste instantie op degenen die de data kennen, dus de onderzoekers. En wellicht moeten zij na hun "ideale" selectie met andere betrokkenen in gesprek over de waarde van de data en de benodigde middelen.

8 months 2 weeks ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Harry Garst - Ik begrijp de termijn van 10 jaar niet zo goed. Stel dat er sprake is van een vermoeden van wetenschappelijk wangedrag. Heeft dat een verjaringstermijn van 10 jaar?
Verder is het niet duidelijk of de toekomstige wetenschappers toch nog belangstelling hebben voor oude data.

8 months 18 hours ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Research Data Netherlands - @Harry: vermoedelijk is de minimale bewaartermijn van 10 jaar een compromis en als zodanig willekeurig. In de vorige versie van de VSNU-code, tot 2014, goldt een termijn van 5 jaar. 10 jaar is voor hergebruik en verificatie al een flinke stap voorwaarts, maar brengt navenant hogere kosten mee voor opslag, back-up en expertise om data zo nodig te converteren of migreren naar nieuwe duurzame formaten. En wat betreft belangstelling na die tijd: zeker, het is nadrukkelijk een minimale termijn. Als langetermijnarchieven moeten we vaak uitleggen dat 10 jaar voor veel disciplines helemaal niet zo lang is.

8 months 2 hours ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

RDNL maakt gebruik van cookies. Meer informatie Sluiten