Gestandaardiseerde metadata

Scientific metadata provide the information necessary for investigators separated by time, space, institution or disciplinary norm to establish common ground | Edwards, 2011

De gestructureerde en gestandaardiseerde metadata die een data-archief toekent aan een dataset, zijn een belangrijke voorwaarden voor het realiseren van FAIR data. In deze paragraaf laten we zien hoe verschillende wetenschapsdisciplines daarmee omgaan. 

Toekennen van metadata

Bij opname van een dataset in een data-archief wordt bekeken of de dataset goed genoeg is omschreven. De hamvraag is: heeft een (toekomstig) gebruiker of computer voldoende informatie om de data te kunnen vinden en te begrijpen wat de dataset inhoudt? Als dat niet lukt, is hergebruik simpelweg onmogelijk en reproduceerbaarheid een mission impossible.

Zowel degene die de data archiveert als de datamanager van een data-archief kan zogeheten gestructureerde metadata toekennen. Welke metadatavelden verplicht of wenselijk zijn, verschilt per data-archief en onderzoeksdiscipline. Verschillende disciplines hanteren daar hun eigen metadataschema's en -standaarden voor (RDA, n.d.). Het gebruik ervan is essentieel om de vindbaarheid, interoperabiliteit en herbruikbaarheid van datasets mogelijk te maken.

Zowel DANS als 4TU.Centre for Research Data gebruiken als metadatastandaard het Dublin Core Metadata Initiative (DCMI, n.d.). Dublin Core is eenvoudig in het gebruik en wordt wereldwijd toegepast. Soms zijn metadatastandaarden gekoppeld aan andere elementen van een dataset. Zo heeft DataCite (n.d.), de organisatie die Digital Object Identifiers (DOI's) verstrekt, een eigen standaard opgesteld voor datasets met een DOI. Deze metadatastandaard - het  DataCite Metadata Schema (2019) - is rijker, dat wil zeggen dat deze meer mogelijkheden biedt om de dataset precies te omschrijven. Omdat deze standaard steeds populairder wordt maken data-archieven zoals DANS en 4TU.Centre for Research Data het mogelijk om metadata ook in dit formaat te laten 'oogsten' door metadata aggregatoren zoals DataCite, die het vervolgens weer mogelijk maken om in de geoogste metadata te zoeken en de bijbehorende datasets te vinden (Zie ook de paragraaf 'Zoeken naar data'). 

Wat er per metadatastandaard verschilt, zijn de afspraken over hoe informatie gecodeerd is en begrepen moet worden. Een voorbeeld: In de ene metadatastandaard wordt de datum van publicatie bijvoorbeeld weergegeven als 'datePublished' en in de andere als 'date' of 'PublicationYear'. Of in de ene metadatastandaard wordt de geografische dekking gecodeerd als 'SpatialCoverage' en in de andere als 'GeoLocation'. Om ervoor te zorgen dat data in een vakgebied met elkaar kunnen praten moeten ze via dezelfde metadatastandaard beschreven worden.

Typen metadata

In de tabel hieronder wordt de rol van verschillende belangrijke typen metadata - die vervolgens met verschillende typen metadatastandaarden omschreven kunnen worden - toegelicht.

Metadata worden vaak data over data genoemd. Of informatie over informatie. Er zijn metadata om de inhoud te beschrijven (beschrijvende metadata) en metadata om de context te duiden (datum van creatie, instrumentarium etc.). Zonder contextuele metadata zouden sommige data niet meer lijken dan een toevallige rangschikking van nummers, plaatjes of woorden. En zonder beschrijvende metadata is het onmogelijk om relevante data te vinden in een data-archief. 

De meest voorkomende typen metadata zijn:

Type metadata Doel Voorbeeld
Beschrijvende metadata

Dit zijn de minimale metadata, nodig om een digitaal object te kunnen vinden. 

Als er daarnaast ook nog contextuele metadata aanwezig is, krijgt een gebruiker meer inzicht hoe hij de data zelf kan gebruiken

Auteur, titel, abstract, datum

Contextuele metadata zijn bijvoorbeeld locatie, tijd, methoden van dataverzameling (tools)

Structurele metadata

Deze leggen de relatie vast tussen individuele objecten die gezamenlijk een eenheid vormen

Links naar gerelateerde digitale objecten, (bijvoorbeeld het artikel dat geschreven is op basis van de gelinkte onderzoeksdata)
Technische metadata Informatie over de technische aspecten van de dataset Dataformaat, gebruikte hardware/software, calibratie, versie, authenticatie, encryptie, metadatastandaard
Administratieve metadata Metadata die zich richten op gebruik(srechten) en beheer van digitale objecten

Licentie, eventuele redenen voor een embargo, waivers

Search logs, user tracking

FAIR metadata is the first major step towards becoming maximally FAIR. When the data elements themselves can also be made FAIR and made open for reuse by anyone, we have reached the highest degree of FAIRness. When all of these are linked with other FAIR data, we will have achieved the Internet of (FAIR) Data. Once an increasing number of applications and services can link and process FAIR data we will finally achieve the Internet of FAIR Data and Services | Mons, 2017

Data verrijken 

Om data bruikbaar te maken voor andere onderzoekers die nog niet met de data hebben gewerkt, is het toekennen van gestandaardiseerde metadata vaak niet voldoende. Naast metadata wordt in een data-archief daarnaast dan ook alle benodigde informatie opgeslagen die nodig is om bruikbaarheid te garanderen. Denk bijvoorbeeld aan datadocumentatie zoals handleidingen om software te gebruiken, codeboeken met de afkortingen, variabelen en codes die in data voorkomen, maar ook aan de software en code zelf als die noodzakelijk is om data analyses na te doen. Daarnaast is het vaak noodzakelijk om een index van de dataset toe te voegen met een inhoudelijke beschrijving van de folders en eventueel ook van de databestanden zelf (als die niet voor zich spreken). 

In de spotlight


Over metadataschema's en metadatastandaarden

Een metadataschema is een set van individuele metadata-elementen die je kunt gebruiken om data te beschrijven. De meeste schema's worden ontwikkeld en onderschreven door bepaalde gemeenschappen. In een metadataschema krijgt elk metadata-element een naam en betekenis. Een voorbeeld van een door de gemeenschap ontwikkeld schema is het Data Documentation Initiative (DDI, n.d.), een internationale standaard voor het beschrijven van data uit sociaal-wetenschappelijk, gedragswetenschappelijk en economisch onderzoek.

Als een normalisatie-instelling zoals de ISO (n.d.) een metadataschema goedkeurt, heet het een metadatastandaard. Een voorbeeld van een metadatastandaard is de Dublin Core Metadata Element Set (DCMI, n.d.b.) ook wel bekend als ISO 15836-1:2017 (ISO, 2017a) en ISO/DIS 15836-2 (ISO, 2017b).

Er zijn veel verschillende metadataschema's en standaarden, afhankelijk van de onderzoeksgemeenschap, het doel, de functie en het domein. Het Engelse Digital Curation Centre geeft een goed overzicht van gebruikte schema's en standaarden binnen een aantal disciplines (DCC, n.d.). Ook RDA onderhoudt een overzicht (RDA, n.d.).  

Verplichte metadatavelden bij DANS en 4TU.Centre for Research Data

DANS en 4TU.Centre for Research Data stellen de onderstaande metadata verplicht: 

 

DANS 4TU.Centre for Research Data Betekenis
Creator Creator

De belangrijkste onderzoekers die betrokken zijn bij het produceren van de data

Title Title Naam of titel van dataset
Date created Date created  
Description Description  
Audience   Publiek voor wie de dataset interessant is, beschreven in termen van onderzoeksdomeinen
  Publication year  
Rights holder  

De persoon of organisatie die houder is van het auteursrecht of intellectuele eigendomsrechten

Access Rights   Een basale keuze tussen Open Access of Restricted Access en een verplichte keuze voor het soort licentie indien Open Access wordt gekozen (CC0-1.0; CC-BY-4.0 etc)

 

Dit zijn slechts de verplichte belangrijkste metadatavelden. Hoe meer velden er ingevuld worden, hoe beter vindbaar en bruikbaar de dataset is. 


Nieuwe metadatavelden

4TU.Centre for Research Data heeft in 2019 twee nieuwe metadatavelden toegevoegd (4TU.Centre  for Research Data, n.d.)  

  1. Funder 
    Om datasets op een meer gestructureerde manier aan financiering te koppelen, heeft 4TU.Centre for Research Data funder informatie beschikbaar gemaakt in speciale metadata velden. De uploader van de dataset wordt gevraagd om de naam (namen) van de funder(s) en het zgn. grant number in te vullen in het uploadformulier tijdens het uploadproces. De funder informatie wordt getoond in de beschrijving van de dataset en bevat tevens de funder identifier uit de Funder Registry (Crossref, n.d.).
  2. Subject
    Naast 'Keyword' dat vertelt wat het onderwerp van de dataset is, heeft 4TU.Centre for Research Data ook het metadata element Subject toegevoegd zodat datasets op basis van hun onderzoeksgebied of discipline getoond kunnen worden.

RDF metadataformaat (4TU.Centre for Research Data)

De metadata in 4TU.Centre for Research Data zijn in RDF-formaat beschikbaar. RDF is een algemene standaard die het mogelijk maakt om heel eenvoudig verbanden te leggen tussen data uit verschillende bronnen. Het is mogelijk binnen RDF bestaande metadataschema's zoals Dublin Core te gebruiken en deze te combineren met andere metadataschema's. Dublin Core is een invulling van de metadatavelden zelf en met RDF leg je relaties tussen verschillende digitale objecten. RDF (Resource Description Framework) is een standaard van het World Wide Web Consortium (W3C, n.d.). Het is een datamodel: een gestructureerde manier waarop data structuren in een informatiesysteem worden beschreven zodat verschillende applicaties gebruik kunnen maken van de data. RDF is ontwikkeld om informatie begrijpelijk te maken voor machines. Elk data-archief heeft zijn eigen datamodel.

Hoe werkt RDF?

Allereerst wordt voor elk digitaal object een zogeheten URI gebruikt. Een URI is een Uniform Resource Identifier die de locatie en benaderingswijze van een bepaalde bron definieert. Vaak is een URI een URL.
Vervolgens wordt elk digitaal object gelinkt aan andere digitale objecten via zogeheten RDF triples. Een RDF triple zegt:  object x heeft relatie y met object z. Deze manier van relaties leggen wordt linked data (Angevaare, 2011) genoemd. Het web waar je die gelinkte data op kunt vragen heet het semantische web, het web van relaties.

Niet alleen de digitale objecten maar ook de relatie (relatie y) ertussen krijgt een URI. Een voorbeeld daarvan is deze URI:

purl.org/dc/terms/created

Het voorbeeld hierboven is een URI die aangeeft dat digitaal object x door digitaal object y gecreëerd is. Dc staat voor Dublin Core, een bestaande metadatastandaard. Data-archieven zoals 4TU.Centre for Research Data hebben vaak ook eigen URIs, zoals bijvoorbeeld:

www.library.tudelft.nl/ns/rdf/measuredBy

Het voorbeeld hierboven is een relatie die aangeeft dat digitaal object x gemeten is door digitaal object y (digitaal object y is dan een meetinstrument). Omdat deze relatie niet bestond binnen het bestaande Dublin Core RDF repertoire is deze door 4TU.Centre for Research Data zelf aangemaakt. Eigengemaakte URIs worden vervolgens gekoppeld aan bestaande URIs zodat een gebruiker kan achterhalen wat er bedoeld wordt.

Waarom worden er URIs voor relaties gebruikt, en geen simpele namen?

Dat is om verwarring te voorkomen. Als iemand buiten Dublin Core ook een relatie 'created' verzint met een andere betekenis dan zijn de twee versies van 'created' uit elkaar te houden omdat ze een ander URI hebben. URIs zijn dus bedoeld om namen van relaties uniek te maken, niet om ze te bekijken in je webbrowser. In de praktijk kan dat echter vaak wel; het wordt zelfs door W3C aangemoedigd. Achter zo’n URI vind je vaak een document dat toelichting geeft over de relatie of een groep van bij elkaar horende relaties. Dit document kan een gewone html-pagina zijn of een 'ontologie', een machine-leesbaar document waarin eigenschappen van de relatie(s) en de samenhang met andere relaties formeel zijn beschreven. Als je een van de eigen URIs van 4TU.Centre for Research Data volgt, kom je op de ontologie van '4TU.Centre for Research Data relaties' terecht.

Een data package maken

Om onderzoeksdata in algemene data-archieven zoals Figshare (n.d) of Zenodo (n.d.) te publiceren, worden ze vaak in een zogeheten data package geupload. In zo'n zichzelf beschrijvende data package zitten de onderzoeksdata zelf plus alle informatie die nodig is om de data te kunnen begrijpen en gebruiken. Denk daarbij niet alleen aan datadocumentatie en metadata, maar ook aan de softwarecode die gebruikt is om analyses uit te voeren.Tot slot moet er in het pakketje en in elke map een README file zitten waarin alle bestanden en hun onderlinge relatie worden beschreven. 

Kijk voor een voorbeeld van een data package eens bij: 

  • Hardisty, A.R, Belbin, Lee, Hobern, Donald, McGeoch, Melodie A, Pirzl, Rebecca, Williams, Kristen J, & Kissling, W Daniel. (2018). Data package supporting an Invasive Species Distribution (IVSD) workflow for prototype Essential Biodiversity Variable (EBV) data product [Data set]. Zenodo. https://doi.org/10.5281/zenodo.2275703
  • Neylon, Cameron. (2017). Dataset for IDRC Project: Exploring the opportunities and challenges of implementing open research strategies within development institutions. International Development Research Center. [Data set]. Zenodo. https://doi.org/10.5281/zenodo.844394 

In het tweede voorbeeld is gebruik gemaakt van o.a. DataCrate (Sefton, 2019), een specificatie voor het maken data package met door mens en machine-leesbare metadata. Een andere tool om FAIR data packages te maken is bijvoorbeeld Frictionless Data (n.d.), omschreven in een blog (Open Knowledge Foundation, 2018).


Bronnen 

Klik om te openen/sluiten

4TU.Center for Research Data (n.d.). Nieuwe functionaliteit in het 4TU.ResearchData archief. [Nieuwsbericht]. https://researchdata.4tu.nl/nieuws-evenementen/nieuws/nieuwsbericht/nieuwe-functionaliteit-in-het-4turesearchdata-archief/

Angevaare. I (2011). 'Linked Data' - wat is dat nu eigenlijk precies? [blog]. http://digitaalduurzaam.blogspot.com/2011/01/linked-data-wat-is-dat-nu-eigenlijk.html

Crossref (n.d.). Funder Registry. https://www.crossref.org/services/funder-registry/

Cruz, M. J., Kurapati, S., & der Velden, Y. T. (2018, July 6). Software Reproducibility: How to put it into practice?. https://doi.org/10.31219/osf.io/z48cm

DataCite (n.d.). DataCite Search. https://search.datacite.org/

DataCite (2019, Augustus 16th). Datacite Metadata Schema. Metadata Schema 4.4. https://schema.datacite.org/

DCC (n.d.). Disciplinary Metadata. http://www.dcc.ac.uk/resources/metadata-standards

DDI (n.d.). Data Documentation Initiative. Retrieved from http://www.ddialliance.org/

DCMI (n.d.a.). Dublin Core Metadata Initiative. http://dublincore.org/ 

DCMI (n.d.b.) DCMI Metadata Terms. https://www.dublincore.org/specifications/dublin-core/dcmi-terms/

Edwards, P. (2011). Science Friction: Data, Metadata, Collaboration. Social Studies of Science, 41(5), 667-690. doi:10.1177/0306312711413314

Figshare (n.d.). https://figshare.com/ 

Frictionless data (n.d.). Data Packages. http://frictionlessdata.io/data-packages/

Hardisty, A.R, Belbin, Lee, Hobern, Donald, McGeoch, Melodie A, Pirzl, Rebecca, Williams, Kristen J, & Kissling, W Daniel. (2018). Data package supporting an Invasive Species Distribution (IVSD) workflow for prototype Essential Biodiversity Variable (EBV) data product [Data set]. Zenodo. https://doi.org/10.5281/zenodo.2275703

ISO (n.d.). https://www.iso.org/home.html

ISO (2017a). INFORMATION AND DOCUMENTATION -- THE DUBLIN CORE METADATA ELEMENT SET -- PART 1: CORE ELEMENTS. https://www.iso.org/standard/71339.html

ISO (2017b). INFORMATION AND DOCUMENTATION -- THE DUBLIN CORE METADATA ELEMENT SET -- PART 2: DCMI PROPERTIES AND CLASSES.https://www.iso.org/standard/71341.html

Mons, B., Neylon, C., Velterop, J., Dumontierf, M.,et al. (2017). Wilkinson Cloudy, increasingly FAIR; revisiting the FAIR Data guiding principles for the European Open Science Cloud. Information Services & Use, vol. 37, no. 1, pp. 49-56. https://doi.org/10.3233/ISU-170824 

Neylon, Cameron. (2017). Dataset for IDRC Project: Exploring the opportunities and challenges of implementing open research strategies within development institutions. International Development Research Center. [Data set]. Zenodo. https://doi.org/10.5281/zenodo.844394 

Open Knowledge Foundation (2018, August 14). Frictionless Data and FAIR Research Principles. [blog]. https://blog.okfn.org/2018/08/14/frictionless-data-and-fair-research-principles/ 

RDA (n.d.). Metadata Directory. http://rd-alliance.github.io/metadata-directory/standards/

Sefton P., Lynch M. (2019). Packaging Research data with DataCrate - a cry for help! https://doi.org/10.6084/m9.figshare.8066936.v1 

W3C (n.d.). RDF. https://www.w3.org/RDF/