Datadocumentatie en metadata

 

"Scientific metadata provide the information necessary for investigators separated by time, space, institution or disciplinary norm to establish common ground."  -  Christine Borgman e.a.(1)

 

 

   Hoofdlijnen

Datadocumentatie is het omschrijven van de kenmerken van een dataset en bestaat op verschillende niveaus, zoals:

  • Een beschrijving van het proces waarlangs een onderzoeker zijn data verzamelt. Documentatie vindt dan bijvoorbeeld plaats met een codeboek labjournaal, logboek of dagboek.
  • Een beschrijving van de data zelf (hoeveel, welk dataformaat, met welke software kun je de data lezen).
  • Een omschrijving van de veranderingen van de dataset in de tijd. Hiermee ontstaat een zogeheten historisch verslag van de omzwervingen en bewerkingen van de onderzoeksdata in de tijd. In data jargon heet dit data provenance. Om een historisch verslag te kunnen maken, zijn trouwens ook een beschrijving van het dataverzamelingsproces en van de data zelf noodzakelijk.

Goede datadocumentatie zorgt er voor dat onderzoeksdata vindbaar zijn en eenduidig te begrijpen en te gebruiken zijn door huidige en toekomstige gebruikers (inclusief de onderzoeker zelf).

Vanwege de grote diversiteit aan datasets zijn de keuzes om data te documenteren lang niet altijd standaard.

Het is handig om te weten dat je de metadata soms uit de data zelf kunt halen. Bepaalde dataformaten hebben in hun data ook metadata. Denk bijvoorbeeld aan digitale foto's. Op het moment dat je die opslaat, worden er automatisch gegevens opgeslagen over de omstandigheden waaronder je de foto hebt gemaakt: diafragma, belichting enzovoort. 

Datadocumentatie heeft een verschillende functie afhankelijk van de fase in de  research lifecycle.  Zo moeten data-archieven in hun keuzes om data te documenteren streven naar een zekere (internationale) standaard om aan te kunnen sluiten bij andere archieven. Dit onderdeel behandelen we bij Metadata bij data archieven.

"We don't know when data is metadata or just data. Metadata is data that is used to describe other data, so the usage turns it into metadata." - Bargmeyer and Gillman(2)

Typen metadata 

Metadata worden vaak data over data genoemd. Of informatie over informatie. Er zijn metadata om de inhoud te beschrijven (beschrijvende metadata) en metadata om de context te duiden (data van creatie, instrumentarium etc.)

Zonder contextuele metadata zouden sommige data niet meer lijken dan een toevallige rangschikking van nummers, plaatjes of woorden. En zonder beschrijvende metadata is het onmogelijk om relevante data te vinden in een data-archief (zie ook Metadata bij data archieven). 

De meest voorkomende typen metadata zijn:  

Type metadata Doel Voorbeeld
Beschrijvende metadata

Dit zijn de minimale metadata, nodig  om een digitaal object te kunnen vinden. 

Als er daarnaast ook nog contextuele metadata aanwezig is, krijgt een gebruiker meer inzicht hoe hij de data zelf kan gebruiken

Auteur, titel, abstract, datum

Contextuele metadata zijn bijvoorbeeld locatie, tijd, methoden van dataverzameling (tools)

Structurele metadata

Deze leggen de relatie vast tussen individuele objecten die gezamenlijk een eenheid vormen

Links naar gerelateerde digitale objecten, (bijvoorbeeld het artikel dat geschreven is op basis van de gelinkte onderzoeksdata)
Technische metadata Informatie over de technische aspecten van de dataset Dataformaat, gebruikte hardware/software, calibratie, versie, authenticatie, encryptie, metadatastandaard
Administratieve metadata Metadata die zich richten op gebruik(srechten) en beheer van digitale objecten

Licentie, eventuele redenen voor een embargo, waivers

Search logs, user tracking

    Cases

Datadocumentatie kan plaatsvinden op verschillende niveaus. In de accordeon hieronder zie je twee cases: één voor het dataverzamelingsproces en één voor het documenteren van versiebeheer.

Daarnaast zie je in diverse vakgebieden steeds meer zogeheten metadata tools(3) verschijnen. Deze tools helpen om het toevoegen van metadata in te passen in de workflow.

Open notebook science

Een voorbeeld van het vastleggen van het proces van data verzamelen is open notebook science

 

 

Versiebeheer

Evan Lantsoght, onderzoeker aan de TU Delft, omschrijft hoe onderzoekers bij de analyse van hun onderzoeksdata tabellen van de ene sheet naar de andere kopiëren. En op het moment dat ze een artikel willen schrijven, krabben ze zich achter hun oren: welke bewerkingen heb ik nou gedaan en waarom? Op haar blog omschrijft ze een oplossing(6):

"Start by adding an extra 'version management' tab to a new spreadsheet. In this sheet, carefully write down a version name (name of the file, typically) in the first column, in the second column the date, and in a third column an explanation of all changes you made to the sheet. Carefully fill out this sheet every single time you move something around, or tinker with the sheet."

   Bronnen en verder lezen

Klik om te openen/sluiten
  1. Edwards, P. (2011). Science Friction: Data, Metadata, Collaboration. Social Studies of Science, 41(5), 667-690. doi:10.1177/0306312711413314
  2. Bargmeyer, B.E. Metadata standards and metadata registries. Retrieved from http://www.bls.gov/osmr/pdf/st000010.pdf
  3. Metadata tools. Retrieved from http://library.stanford.edu/research/data-management-services/data-best-practices/creating-metadata/metadata-tools
  4. Stanford University Libraries. University of Southampton. Open Source malaria. Retrieved from http://malaria.ourexperiment.org/
  5. Bohle, S. (2014, January 1). A four part series on open notebook science. [blog]. Retrieved from http://www.scilogs.com/scientific_and_medical_libraries/a-four-part-series-on-open-notebook-science-part-1/ 
  6. Lantsoght, E. (2013, October 10). Keeping your spreadsheets under control. [blog]. Retrieved from http://phdtalk.blogspot.nl/2013/10/keeping-your-spreadsheets-under-control.html

Verder lezen


botMessage_toctoc_comments_9210