Onderzoeksdata

Research data are facts, observations or experiences on which an argument or theory is based | Geciteerd in ANDS, 2017

Essentials for data support is een introductiecursus voor data supporters, diegenen die onderzoekers (willen) ondersteunen bij het opslaan, beheren, archiveren en delen van hun onderzoeksdata. Maar wat verstaan we eigenlijk onder onderzoeksdata? In deze paragraaf vind je verschillende definities en manieren om naar onderzoeksdata te kijken. 

Definities

Wat een onderzoeker onder 'onderzoeksdata' verstaat, hangt af van de betekenis die deze data hebben in het onderzoeksproces. En dat verschilt per wetenschapsdiscipline. Onderzoeksdata bestaan in vele formaten, leesbaar met evenzoveel verschillende typen software. In de slideshow hieronder zie je een aantal definities van onderzoeksdata (Nederlands- en Engelstalig).

Vijf manieren 

Er zijn grofweg vijf manieren om naar onderzoeksdata te kijken (Universiteit van Southampton, 2016; CESSDA, 2017): 

1. De manier waarop data verzameld of verkregen worden

Data kunnen op verschillende manieren verzameld of verkregen worden, bijvoorbeeld door experimenten, simulaties, observaties, afgeleide data of bronnenonderzoek. 

2. De vormen die data aannemen

Onderzoeksdata worden vaak gedefinieerd door de vorm waarin ze worden vastgelegd. Voorbeelden hiervan zijn tekstdocumenten, spreadsheets, elektronische labjournaals, veldnotitieboekjes en dagboeken, vragenlijsten, transcripties en codeboeken, geluidsbanden en videobanden, foto's en films, artefacten, dia's, databaseschema's, modellen, algoritmen en scripts, workflows, protocollen, metadata en andere databestanden zoals verslagen van literatuuronderzoek en e-mailarchieven.

3. De dataformaten waarin data worden opgeslagen

Een derde manier om over data te denken is het dataformaat waarin verschillende datatypes (tekstueel, numeriek, multimedia, gestructureerd, softwarecode etc.) worden opgeslagen. Statistische gegevens kunnen bijvoorbeeld worden opgeslagen als SPSS (* .sav) of STATA-bestandsindelingen, films als * .mpg of * .avi, gestructureerde gegevens als * .xml of in een relationele MySQL-database en tekstbestanden als * .docx, * .pdf of * .rtf. 

4. De grootte van de databestanden

De grootte van de databestanden is van belang en dat geldt ook voor de complexiteit. Het beheren van een relatief kleine en eenvoudige dataset biedt andere uitdagingen dan het beheren van grote, complexe databestanden. 

5. De fase van de research lifecycle

De verschillende levenstadia die onderzoeksdata doorlopen, kennen elk hun eigen uitdagingen voor (het ondersteunen van) onderzoeksdatamanagement. 

Oefenen


Wil je meer gevoel krijgen bij het begrip onderzoeksdata? Klik om de oefening te bekijken.

Deze oefening is afkomstig uit RDM Rose (2015), activity sheet 5.2.2. Het is een facultatieve oefening die je kunt doen als je meer gevoel wilt krijgen bij het begrip onderzoeksdata.   

Case studies

Op page 6-22 van een document van de Universiteit van Southampton (2016) vind je vijf case studies op het gebied van onderzoeksdata in: 

  1. medisch onderzoek
  2. materiaalkunde
  3. aerodynamica
  4. scheikunde
  5. archeologie

Bekijk één case study in detail en beantwoord dan de volgende twee vragen:

  • Herken je de vijf manieren om naar onderzoeksdata te kijken? Hoe?
  • Benoem een aantal mogelijke vraagstukken die onderzoekers hebben (of kunnen krijgen) bij het opslaan, beheren, archiveren en delen van hun onderzoeksdata.

Wil je zien hoe een ex-cursist de oefening heeft uitgevoerd? Klik hier voor een uitwerking

Hieronder zie je de uitwerking (in het Engels) van een van de cursisten van Essentials 4 Data Support, die naar case study 3 (Aerodynamica) keek.

5 ways of looking at the data:

  • Collection: numerical model simulations
  • Types: models, algorithms and scripts; software configuration, post-process files a.o. Figures
  • Electronic storage: textual, software code, software specific (mesh), multimedia (figures)
  • Size and complexity: large output files (hundreds of gigabytes) with corresponding additional files such as the input/configuration files and post-processing results (figures and aggregated results)
  • Life cycle: this type of numerical modelling is typically done in the research phase where various wing shapes are “tested” with the model and the performance is compared. A subset of all the simulations carried out, with typical results to underpin the drawn conclusions, is usually described in the publication and therefore minimal required to be published.

Possible issues:

  • Storage: With data volumes of 300GB per 1 sec of simulated flow, the total data volume easily exceeds the size of a regular laptop’s hard drive. Using network or cloud storage, that also has a good connection with the HPC to be used is recommended.
  • Manage: For keeping track of a variety of simulations with sometimes minor differences in model input/configuration it is important to think before starting. A clear directory structure and sufficient description of modifications, and reasons for it, is crucial for good handling of the results. For reproducibility it is important to keep track of the used software version (even more important if it varies between different simulations). I recommend to use a version control system for model input/configuration and pre/post-processing scripts.
  • Archive: For archiving again the data volume and the associated costs may play a role. Therefore archiving only the simulations results for the simulations that are actively discussed in the publication to draw conclusions from and archiving the input/configuration and software version (all necessary information for reproduction) of the remaining simulations might be wise.
  • Share: For sharing of model results, it is crucial that others are able to interpret and reproduce the results. This means that the remarks made in the “manage” section are once more important. Basically, proper data management during the research phase makes you ready for sharing at any time.

Bronnen 

Klik om te openen/sluiten

ANDS (2017). ANDS Guides and Resources. What is research data. https://www.ands.org.au/guides/what-is-research-data (PDF https://www.ands.org.au/__data/assets/pdf_file/0006/731823/Whatis-research-data.pdf)

CESSDA (2017). Data Management Expert Guide. Research Data. https://www.cessda.eu/Training/Training-Resources/Library/Data-Management-Expert-Guide/1.-Plan/Research-data 

OECD (2007). Principles and Guidelines for Access to Research Data from Public Funding, OECD Publishing, Paris. http://www.oecd.org/sti/inno/38500813.pdf

Queensland University of Technology. (2013). Management of Research data. http://www.mopp.qut.edu.au/D/D_02_08.jspRDM Rose (2015). RDM Rose Learning Materials. http://rdmrose.group.shef.ac.uk/?page_id=10#session-51-researchers-and-their-data 

Universiteit Utrecht (2016). Universitair beleidskader onderzoeksdata Universiteit Utrecht. from https://www.uu.nl/sites/default/files/universitair_beleidskader_onderzoeksdata_universiteit_utrecht_versie_januari_2016_0.pdf

Universiteit van Southampton. (2016). Introducing Research Data. 4th Edition. https://eprints.soton.ac.uk/403440/1/introducing_research_data.pdf

Van Berchum, M., & Grootveld, M.J. (2016). Het beheren van onderzoeksdata. In Handboek Informatiewetenschap. [IV B 475] Vakmedianet. http://hdl.handle.net/20.500.11755/3108beb8-9168-4f6c-9298-c6e898be4838

Van Berchum, M. & Grootveld, M. (2017). Research data management. An overview of recent developments in the Netherlands. https://dans.knaw.nl/en/about/organisation-and-policy/information-material/Whitepaper_ResearchdatamanagementAnoverview_DEF.pdf