Print Pages

Access Page via Rule

Track Page Visit

Visited Pages JQuery

Navigatie EN HIV H I H II H III H IV H V H VI
Navigatie EN tablet HIV H I H II H III H IV H V H VI
Navigatie EN mob H4 H I H II H III H IV H V H VI

Data selection


Wat zijn de data in de toekomst waard?

   Main points

Can we afford to lose certain research data? That is the key question when selecting research data for long-term archiving. 
As for the data that is presently collected from the Large Hadron Collider (particle accelerator) there is no doubt(1)."We cannot afford to lose it", says Cristinel Diaconu (chair of the international Data Preservation in Long Term Analysis in High Energy Physics (DPHEP) study group).  

report by the European Union(2) mentions data classes. It is more important for certain data classes to be stored for the long term than it is for others. Data that is eligible for a data archive:   

  • Data with potential for reuse (which is important (or seems to be) for a larger community);
  • Data that improves an open access publication;
  • Data that must be archived because the financier demands this;
  • Data that is produced via processes that are difficult to repeat.

The flow chart below (amended from an illustration in the DMP template of Wageningen University)(3) illustrates when you should consider archiving research data for the long term. Before going through the chart, it is important to assess whether all the pre-conditions have been met:

  • Can the data format and software format be used?
  • Is the quality of the data documentation (metadata) sufficient to understand which data is concerned?
  • Are there any legal objections preventing the data from being shared (contracts, privacy)?
Click to enlarge

Whether data should be archived for the long term is always subject to a costs and benefits analysis. How do archiving costs and availability relate to the costs of reproducing the research data? To date, data archives are not really able to calculate this, but there are presently projects in place that are looking into this subject.

Once it has been determined that a data set will be included in a data archive, it is important to determine how long it needs to be saved. The preservation period will depend on the discipline, the developments, the costs for storage and accessibility and the expected (re)use. Data sets that are considered national heritage, e.g. the results of archaeological research, are generally archived indefinitely.

If the preservation period has not been stipulated, it is important to determine after a certain period whether or not the information needs to be permanently archived. The report 'Selection of Research Data'(4) [pdf] states that a period of 10 years is appropriate to reconsider whether research data still needs to be preserved or whether it should be destroyed. 

   Cases

Case 1

Case 1

The Cabauw Radar Data(5) in 4TU.Centre for Research Data is a clear example of data that meets the selection criteria. These data sets contain information on the climatic influence of substance particles on the formation of clouds. These are measurements that you can only do once; measurements that could provide valuable information about climate change. The processed data as well as the raw data of these climatic data are stored. The argument for also keeping the raw data is that it might include information that we are not yet able to retrieve.

Case 2

Case 2

A good example of new insights from old data comes from NASA. When old data of the Hubble telescope was re-analysed(6), two new planets were found. The present technology for analysis is more advanced than it was previously. As a result, it was possible to make this new discovery.

Case 3

Case 3

Projects involving interviews can also be considered research that is difficult to repeat. Recording personal experiences of for example WW2 is now often a matter of 'now or never' due to the advanced age of the people that are interviewed. DANS has a vast amount of interview data in its collections Oral History en WW2 that is a valuable source of information for historic research, now and in the future. These interviews are archived behind the screens in large format and are considered 'raw data' and are displayed via EASY in MP4.

Case 4

Case 4

Het onderzoek Culturele Veranderingen, een tweejaarlijkse survey van het Sociaal Cultureel Planbureau (SCP), is oorspronkelijk gebaseerd op een replicatie in 1975 van 200 surveyvragen van een vijftiental onderzoeken die bij het toenmalige Steinmetz-archief waren opgeslagen. De data van al die onderzoeken, inclusief die van het onderzoek Culturele Veranderingen zijn via EASY beschikbaar en vormen een onschatbare bron voor trendanalyses over de Nederlandse maatschappij.

   Sources and additional reading

Click to open/close

Sources

  1. Gibney, E. (2013, November 26). LHC Plans for open data future. Nature News. Retrieved from http://www.nature.com/news/lhc-plans-for-open-data-future-1.14244
  2. Expert group on scientific data, European commission. (2010). Riding the wave. Retrieved from http://cordis.europa.eu/fp7/ict/e-infrastructure/docs/hlg-sdi-report.pdf
  3. Wageningen Universiteit. Data Management Plans. Retrieved from 
    http://www.wageningenur.nl/en/Expertise-Services/Data-Management-Support/Browse-by-Subject/Publishing-Data.htm
  4. Tjalsma, H.; Rombouts, J. (2011). Selection of research data - Guidelines for appraising and selecting research data. Retrieved from from http://www.dans.knaw.nl/nl/over/organisatie-beleid/publicaties/DANSselectionofresearchdata.pdf
  5. 4TU.Centre for Research Data. Atmospheric Observation Collection Cabauw. Retrieved from http://data.4tu.nl/repository/collection:cabauw
  6. NASA. (2011). Astronomers find elusive planets in decade old hubble-data. Retrieved from http://www.nasa.gov/mission_pages/hubble/science/elusive-planets.html

Additional reading


Like · Dislike 1 ·  
Not rated yet. Be the first who rates this item!

Merle Rodenburg - "Data die kandidaat zijn voor een data-archief zijn: data die een open access-publicatie verrijken"

Wat is de achterliggende gedachte om dit toe te spitsen op open acces-publicaties? Open access heeft te maken met het onderliggende businessmodel. Het heeft geen relatie met de inhoud van de publicatie. Het zegt ook niets over de aard van de data.

2 years 7 months ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Annet Kranenborg - Ik neem aan dat bedoeld wordt dat als een publicatie open access is, de achterliggende data ook openbaar moet zijn?

2 years 7 months ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Annet Kranenborg - En dus ergens opgeslagen moeten worden, waardoor die toegang gegarandeerd wordt

2 years 7 months ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Michelle Berk - Ik denk het volgende: als je OA definieert als vrije toegang zonder beperkingen, zoals hier: http://www.knaw.nl/shared/resources/thematisch/bestanden/knaw-flyer-open-access-nl.pdf dan moet je ook de ambitie hebben om onderliggende data in geval van een verrijkte publicatie zonder beperkingen, en dus duurzaam, ter beschikking te stellen.

2 years 7 months ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Michelle Berk - Een ander businessmodel kan andere consequenties met zich mee brengen, al is dat niet noodzakelijkerwijs het geval.

2 years 7 months ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Maarten Goldberg - Een publicatie kan open access zijn maar de auteur kan er desondanks voor kiezen om de bijbehorende dataset niet open te zetten. Bijvoorbeeld omdat hij/zij er zelf vervolgonderzoek op wil doen, of omdat de financier de data niet open wil hebben, of omdat er privacy aspecten zijn etcetera. Ik begrijp dat er in de natuurwetenschappen steeds meer tijdschriften zijn die als voorwaarde voor publicatie van een artikel eisen dat de data die onder het artikel zitten kunnen worden gecontroleerd door de peer reviewers en de lezers. Dus dan kan het zelfs omgekeerd zijn, het artikel is niet open access maar de data wel ;-)

2 years 7 months ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Frans de Liagre Böhl - Met wie loop je eigenlijk deze boom door? Een onderzoeker zal andere waarderingen geven dan een functioneel beheerder van een repository of een bestuurder die budgetten bewaakt.

8 months 2 weeks ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Research Data Netherlands - @Frans: dat klopt. Sterker nog, functioneel beheerders en bestuurders kunnen de vragen wellicht niet beantwoorden: weten zij of specifieke data uniek zijn, of hoeveel moeite het heeft gekost om de data te vergaren? Deze beslisboom en de genoemde selectieliteratuur richten zich in eerste instantie op degenen die de data kennen, dus de onderzoekers. En wellicht moeten zij na hun "ideale" selectie met andere betrokkenen in gesprek over de waarde van de data en de benodigde middelen.

8 months 2 weeks ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Harry Garst - Ik begrijp de termijn van 10 jaar niet zo goed. Stel dat er sprake is van een vermoeden van wetenschappelijk wangedrag. Heeft dat een verjaringstermijn van 10 jaar?
Verder is het niet duidelijk of de toekomstige wetenschappers toch nog belangstelling hebben voor oude data.

8 months 18 hours ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

Research Data Netherlands - @Harry: vermoedelijk is de minimale bewaartermijn van 10 jaar een compromis en als zodanig willekeurig. In de vorige versie van de VSNU-code, tot 2014, goldt een termijn van 5 jaar. 10 jaar is voor hergebruik en verificatie al een flinke stap voorwaarts, maar brengt navenant hogere kosten mee voor opslag, back-up en expertise om data zo nodig te converteren of migreren naar nieuwe duurzame formaten. En wat betreft belangstelling na die tijd: zeker, het is nadrukkelijk een minimale termijn. Als langetermijnarchieven moeten we vaak uitleggen dat 10 jaar voor veel disciplines helemaal niet zo lang is.

8 months 2 hours ago · 
Not rated yet. Be the first who rates this item!
I like maybeLike · 

RDNL uses cookies. More information Close