Datadocumentatie

In a lab notebook, the researcher records all kinds of project related information – from hypothesis to results of experiments. It often serves as the most important piece of documentation of the researchers’ work. Lab notebooks are crucial for ensuring accountability and reproducibility of research, and they are often needed to enable the re-usability of data | Larsen, 2018

Duidelijke en gedetailleerde datadocumentatie vergroot de datakwaliteit en vergroot de kans dat de data door (toekomstige) anderen zal worden begrepen. Datadocumentatie is daarmee essentieel om reproduceerbaarheid van onderzoek en het hergebruik van onderzoeksdata mogelijk te maken. In deze paragraaf vind je een aantal voorbeelden van datadocumentatie.  

Datadocumentatie  

Om data bruikbaar te maken voor andere onderzoekers die er nog niet mee hebben gewerkt, is zo volledig en gedetailleerd mogelijke datadocumentatie essentieel. Met datadocumentatie worden de kenmerken van een dataset op verschillende niveaus omschreven, zoals:

  • Een beschrijving van de data zelf 
    Denk hierbij aan een overzicht van alle bestanden van de dataset met een beschrijving van de inhoud per bestand in een README file. Hier vind je antwoorden op vragen zoals:
    • Wat is het dataformaat?
    • Met welke software kun je de data lezen?
    • Welke codes en variabelen zijn gebruikt en wat betekenen ze?
  • Een beschrijving van het dataverzamelingsproces en de gebruikte instrumenten
    Denk aan instrumenten zoals een codeboek, labjournaal, logboek, dagboek, gebruikte vragenlijsten, handleidingen, etc.   
  • Een omschrijving van de veranderingen van de dataset in de tijd. 
    Hiermee ontstaat een zogeheten historisch verslag van de omzwervingen en bewerkingen van de onderzoeksdata in de tijd. In data jargon heet dit data provenance. Om een historisch verslag te kunnen maken, zijn trouwens ook een beschrijving van het dataverzamelingsproces en van de data zelf noodzakelijk.

Vanwege de grote diversiteit aan datasets zijn de keuzes om data te documenteren lang niet altijd standaard.

High-level documentation is very important. A good README file does part of the job, but documentation and a user manual are also important. Any information (e.g. equations, model) behind the software also needs to be shared | Workshop software reproducibility, 2018

Over metadata

Metadata is een speciale vorm van gestandaardiseerde datadocumentatie of 'data over data'. Niet alleen mensen maar ook computers kunnen metadata lezen, interpreteren en combineren en metadata zijn daarmee een belangrijk element in het creeëren van een FAIR data-infrastructuur. Het toekennen van metadata helpt bijvoorbeeld om het tijdstip van het verzamelen van de data, de verzamellocatie, de maker(s) en de gebruiksvoorwaarden van onderzoeksdata (licentie) boven water te krijgen. In de paragraaf 'gestandaardiseerde metadata' leer je hier meer over. 

Het gebied tussen data, datadocumentatie en metadata is een grijs gebied. Bepaalde dataformaten hebben in hun data bijvoorbeeld ook metadata. Denk aan digitale foto's. Op het moment dat je die opslaat, worden er automatisch gegevens opgeslagen over de omstandigheden waaronder je de foto hebt gemaakt: diafragma, belichting enzovoort. 

Uiteindelijk gaat het niet om de vraag of iets data, metadata of data documentatie heet maar om het onderliggende doel: het zodanig gedetailleerd beschrijven van de data dat de kans op reproduceerbaarheid en hergebruik toeneemt.

In de spotlight


Documentatie op projectniveau en dataset niveau (CESSDA)

In de CESSDA Data Management Expert Guide staat een overzicht van het onderscheid tussen documentatie op projectniveau en op datasetniveau (CESSDA, 2017). 

Casus Wageningen University & Research: Electronic lab notebooks als datadocumentatie

Op het Open Science Blog van Wageningen UR staat een casus van WUR Data Champions die werken met een elektronisch labjournaal (ELN) (Wageningen University & Research, 2018). 
De argumenten voor het kiezen voor een bepaald ELN staan beschreven in een artikel in een blog op OpenAIRE (Larsen, 2018).

 

Documenteren van versies in Excel: een voorbeeld

Evan Lantsoght, onderzoeker aan de TU Delft, omschrijft hoe onderzoekers bij de analyse van hun onderzoeksdata tabellen van de ene sheet naar de andere kopiëren. En op het moment dat ze een artikel willen schrijven, krabben ze zich achter hun oren: welke bewerkingen heb ik nou gedaan en waarom? Op haar blog omschrijft ze een oplossing (Lantsoght, 2013):

"Start by adding an extra 'version management' tab to a new spreadsheet. In this sheet, carefully write down a version name (name of the file, typically) in the first column, in the second column the date, and in a third column an explanation of all changes you made to the sheet. Carefully fill out this sheet every single time you move something around, or tinker with the sheet."

Richtlijnen om een README bestand te maken (4TU.ResearchData)

4TU.Centre for ResearchData heeft richtlijnen om een README bestand te maken gepubliceerd (4TU.Center for Research Data, 2017). 

Tips voor datadocumentatie (Wageningen University & Research)

Op het Open Science blog van Wageningen University & Research, staat een aantal praktische tips & tools voor datadocumentatie (Wageningen University & Research, 2017)


Bronnen 

Klik om te openen/sluiten

4TU.Centre for Research Data. (2017). Guidelines for creating a README file. https://researchdata.4tu.nl/fileadmin/user_upload/Documenten/Guidelines_for_creating_a_README_file.pdf

CESSDA (2017). Data Management Expert Guide. Documentation and metadata. https://www.cessda.eu/Training/Training-Resources/Library/Data-Management-Expert-Guide/2.-Organise-Document/Documentation-and-metadata

Cruz, M.J., Kurapati, S., der Velden, Y.T. (2018, July 2018). Software Reproducibility: How to put in into practice? https://doi.org/10.31219/osf.io/z48cm

Lantsoght, E. (2013, October 10). Keeping your spreadsheets under control. [blog]. http://phdtalk.blogspot.nl/2013/10/keeping-your-spreadsheets-under-control.html

Larsen (2018). OpenAIRE. Electronic Lab Notebooks - should you go "e"? [blog]. https://www.openaire.eu/blogs/electronic-lab-notebooks-should-you-go-e-1

Wageningen University & Research (2018, 27 August). WUR Data Champions Katharina Hanika & Eliana Papoutsoglou: actively promoting good data management practices. OpenScience blog [blog]. https://weblog.wur.eu/openscience/wur-data-champions-electronic-lab-notebook/

Wageningen University & Research (2017, 8 September). Documenting your research data along the way: tips and tools. OpenScience blog [blog]. https://weblog.wur.eu/openscience/documenting-research-data-along-way-tips-tools/