Please select a page template in page properties.

Gestandaardiseerde metadata

Scientific metadata provide the information necessary for investigators separated by time, space, institution or disciplinary norm to establish common ground | Edwards, 2011

De gestructureerde en gestandaardiseerde metadata die een data-archief toekent aan een dataset, zijn een belangrijke voorwaarden voor het realiseren van FAIR data. In deze paragraaf laten we zien hoe verschillende wetenschapsdisciplines daarmee omgaan. 

Toekennen van metadata

Bij opname van een dataset in een data-archief wordt bekeken of de dataset goed genoeg is omschreven. De hamvraag is: heeft een (toekomstig) gebruiker of computer voldoende informatie om de data te kunnen vinden en te begrijpen wat de dataset inhoudt? Als dat niet lukt, is hergebruik simpelweg onmogelijk en reproduceerbaarheid een mission impossible.

Zowel degene die de data archiveert als de datamanager van een data-archief kan zogeheten gestructureerde metadata toekennen. Welke metadatavelden verplicht of wenselijk zijn, verschilt per data-archief en onderzoeksdiscipline. Verschillende disciplines hanteren daar hun eigen metadataschema's en -standaarden voor (RDA, n.d.). Het gebruik ervan is essentieel om de vindbaarheid, interoperabiliteit en herbruikbaarheid van datasets mogelijk te maken.

Zowel DANS als 4TU.ResearchData gebruiken als metadatastandaard het Dublin Core Metadata Initiative (DCMI, n.d.). Dublin Core is eenvoudig in het gebruik en wordt wereldwijd toegepast. Soms zijn metadatastandaarden gekoppeld aan andere elementen van een dataset. Zo heeft DataCite (n.d.), de organisatie die Digital Object Identifiers (DOI's) verstrekt, een eigen standaard opgesteld voor datasets met een DOI. Deze metadatastandaard - het  DataCite Metadata Schema (2019) - is rijker, dat wil zeggen dat deze meer mogelijkheden biedt om de dataset precies te omschrijven. Omdat deze standaard steeds populairder wordt maken data-archieven zoals DANS en 4TU.ResearchData het mogelijk om metadata ook in dit formaat te laten 'oogsten' door metadata aggregatoren zoals DataCite, die het vervolgens weer mogelijk maken om in de geoogste metadata te zoeken en de bijbehorende datasets te vinden (Zie ook de paragraaf 'Zoeken naar data'). 

Wat er per metadatastandaard verschilt, zijn de afspraken over hoe informatie gecodeerd is en begrepen moet worden. Een voorbeeld: In de ene metadatastandaard wordt de datum van publicatie bijvoorbeeld weergegeven als 'datePublished' en in de andere als 'date' of 'PublicationYear'. Of in de ene metadatastandaard wordt de geografische dekking gecodeerd als 'SpatialCoverage' en in de andere als 'GeoLocation'. Om ervoor te zorgen dat data in een vakgebied met elkaar kunnen praten moeten ze via dezelfde metadatastandaard beschreven worden.

Typen metadata

In de tabel hieronder wordt de rol van verschillende belangrijke typen metadata - die vervolgens met verschillende typen metadatastandaarden omschreven kunnen worden - toegelicht.

Metadata worden vaak data over data genoemd. Of informatie over informatie. Er zijn metadata om de inhoud te beschrijven (beschrijvende metadata) en metadata om de context te duiden (datum van creatie, instrumentarium etc.). Zonder contextuele metadata zouden sommige data niet meer lijken dan een toevallige rangschikking van nummers, plaatjes of woorden. En zonder beschrijvende metadata is het onmogelijk om relevante data te vinden in een data-archief. 

De meest voorkomende typen metadata zijn:

Type metadata Doel Voorbeeld
Beschrijvende metadata

Dit zijn de minimale metadata, nodig om een digitaal object te kunnen vinden. 

Als er daarnaast ook nog contextuele metadata aanwezig is, krijgt een gebruiker meer inzicht hoe hij de data zelf kan gebruiken

Auteur, titel, abstract, datum

Contextuele metadata zijn bijvoorbeeld locatie, tijd, methoden van dataverzameling (tools)

Structurele metadata

Deze leggen de relatie vast tussen individuele objecten die gezamenlijk een eenheid vormen

Links naar gerelateerde digitale objecten, (bijvoorbeeld het artikel dat geschreven is op basis van de gelinkte onderzoeksdata)
Technische metadata Informatie over de technische aspecten van de dataset Dataformaat, gebruikte hardware/software, calibratie, versie, authenticatie, encryptie, metadatastandaard
Administratieve metadata Metadata die zich richten op gebruik(srechten) en beheer van digitale objecten

Licentie, eventuele redenen voor een embargo, waivers

Search logs, user tracking

FAIR metadata is the first major step towards becoming maximally FAIR. When the data elements themselves can also be made FAIR and made open for reuse by anyone, we have reached the highest degree of FAIRness. When all of these are linked with other FAIR data, we will have achieved the Internet of (FAIR) Data. Once an increasing number of applications and services can link and process FAIR data we will finally achieve the Internet of FAIR Data and Services | Mons, 2017

Data verrijken 

Om data bruikbaar te maken voor andere onderzoekers die nog niet met de data hebben gewerkt, is het toekennen van gestandaardiseerde metadata vaak niet voldoende. Naast metadata wordt in een data-archief daarnaast dan ook alle benodigde informatie opgeslagen die nodig is om bruikbaarheid te garanderen. Denk bijvoorbeeld aan datadocumentatie zoals handleidingen om software te gebruiken, codeboeken met de afkortingen, variabelen en codes die in data voorkomen, maar ook aan de software en code zelf als die noodzakelijk is om data analyses na te doen. Daarnaast is het vaak noodzakelijk om een index van de dataset toe te voegen met een inhoudelijke beschrijving van de folders en eventueel ook van de databestanden zelf (als die niet voor zich spreken). 

In de spotlight


Over metadataschema's en metadatastandaarden

Een metadataschema is een set van individuele metadata-elementen die je kunt gebruiken om data te beschrijven. De meeste schema's worden ontwikkeld en onderschreven door bepaalde gemeenschappen. In een metadataschema krijgt elk metadata-element een naam en betekenis. Een voorbeeld van een door de gemeenschap ontwikkeld schema is het Data Documentation Initiative (DDI, n.d.), een internationale standaard voor het beschrijven van data uit sociaal-wetenschappelijk, gedragswetenschappelijk en economisch onderzoek.

Als een normalisatie-instelling zoals de ISO (n.d.) een metadataschema goedkeurt, heet het een metadatastandaard. Een voorbeeld van een metadatastandaard is de Dublin Core Metadata Element Set (DCMI, n.d.b.) ook wel bekend als ISO 15836-1:2017 (ISO, 2017a) en ISO/DIS 15836-2 (ISO, 2017b).

Er zijn veel verschillende metadataschema's en standaarden, afhankelijk van de onderzoeksgemeenschap, het doel, de functie en het domein. Het Engelse Digital Curation Centre geeft een goed overzicht van gebruikte schema's en standaarden binnen een aantal disciplines (DCC, n.d.). Ook RDA onderhoudt een overzicht (RDA, n.d.).  

Verplichte metadatavelden bij DANS en 4TU.ResearchData

DANS en 4TU.ResearchData stellen de onderstaande metadata verplicht: 

 

DANS 4TU.ResearchData Betekenis
Creator Creator

De belangrijkste onderzoekers die betrokken zijn bij het produceren van de data

Title Title Naam of titel van dataset
Date created Date created  
Description Description  
Audience   Publiek voor wie de dataset interessant is, beschreven in termen van onderzoeksdomeinen
  Publication year  
Rights holder  

De persoon of organisatie die houder is van het auteursrecht of intellectuele eigendomsrechten

Access Rights   Een basale keuze tussen Open Access of Restricted Access en een verplichte keuze voor het soort licentie indien Open Access wordt gekozen (CC0-1.0; CC-BY-4.0 etc)

 

Dit zijn slechts de verplichte belangrijkste metadatavelden. Hoe meer velden er ingevuld worden, hoe beter vindbaar en bruikbaar de dataset is.

Een data package maken

Om onderzoeksdata in algemene data-archieven zoals Figshare (n.d) of Zenodo (n.d.) te publiceren, worden ze vaak in een zogeheten data package geupload. In zo'n zichzelf beschrijvende data package zitten de onderzoeksdata zelf plus alle informatie die nodig is om de data te kunnen begrijpen en gebruiken. Denk daarbij niet alleen aan datadocumentatie en metadata, maar ook aan de softwarecode die gebruikt is om analyses uit te voeren.Tot slot moet er in het pakketje en in elke map een README file zitten waarin alle bestanden en hun onderlinge relatie worden beschreven. 

Kijk voor een voorbeeld van een data package eens bij: 

  • Hardisty, A.R, Belbin, Lee, Hobern, Donald, McGeoch, Melodie A, Pirzl, Rebecca, Williams, Kristen J, & Kissling, W Daniel. (2018). Data package supporting an Invasive Species Distribution (IVSD) workflow for prototype Essential Biodiversity Variable (EBV) data product [Data set]. Zenodo. https://doi.org/10.5281/zenodo.2275703
  • Neylon, Cameron. (2017). Dataset for IDRC Project: Exploring the opportunities and challenges of implementing open research strategies within development institutions. International Development Research Center. [Data set]. Zenodo. https://doi.org/10.5281/zenodo.844394 

In het tweede voorbeeld is gebruik gemaakt van o.a. DataCrate (Sefton, 2019), een specificatie voor het maken data package met door mens en machine-leesbare metadata. Een andere tool om FAIR data packages te maken is bijvoorbeeld Frictionless Data (n.d.), omschreven in een blog (Open Knowledge Foundation, 2018).


Bronnen 

Klik om te openen/sluiten

NB (2023): Some of these sources may no longer be maintained or may have moved URLs. The E4DS website is currently being updated; for archival reasons, we will not update this particular source list, but encourage you to search for them via your favourite search engine or to ask our coaches for their recommendations. Apologies for any inconvenience!

 

Angevaare. I (2011). 'Linked Data' - wat is dat nu eigenlijk precies? [blog]. http://digitaalduurzaam.blogspot.com/2011/01/linked-data-wat-is-dat-nu-eigenlijk.html

Crossref (n.d.). Funder Registry. https://www.crossref.org/services/funder-registry/

Cruz, M. J., Kurapati, S., & der Velden, Y. T. (2018, July 6). Software Reproducibility: How to put it into practice?. https://doi.org/10.31219/osf.io/z48cm

DataCite (n.d.). DataCite Search. https://search.datacite.org/

DataCite (2019, Augustus 16th). Datacite Metadata Schema. Metadata Schema 4.4. https://schema.datacite.org/

DCC (n.d.). Disciplinary Metadata. http://www.dcc.ac.uk/resources/metadata-standards

DDI (n.d.). Data Documentation Initiative. Retrieved from http://www.ddialliance.org/

DCMI (n.d.a.). Dublin Core Metadata Initiative. http://dublincore.org/ 

DCMI (n.d.b.) DCMI Metadata Terms. https://www.dublincore.org/specifications/dublin-core/dcmi-terms/

Edwards, P. (2011). Science Friction: Data, Metadata, Collaboration. Social Studies of Science, 41(5), 667-690. doi:10.1177/0306312711413314

Figshare (n.d.). https://figshare.com/ 

Frictionless data (n.d.). Data Packages. http://frictionlessdata.io/data-packages/

Hardisty, A.R, Belbin, Lee, Hobern, Donald, McGeoch, Melodie A, Pirzl, Rebecca, Williams, Kristen J, & Kissling, W Daniel. (2018). Data package supporting an Invasive Species Distribution (IVSD) workflow for prototype Essential Biodiversity Variable (EBV) data product [Data set]. Zenodo. https://doi.org/10.5281/zenodo.2275703

ISO (n.d.). https://www.iso.org/home.html

ISO (2017a). INFORMATION AND DOCUMENTATION -- THE DUBLIN CORE METADATA ELEMENT SET -- PART 1: CORE ELEMENTS. https://www.iso.org/standard/71339.html

ISO (2017b). INFORMATION AND DOCUMENTATION -- THE DUBLIN CORE METADATA ELEMENT SET -- PART 2: DCMI PROPERTIES AND CLASSES.https://www.iso.org/standard/71341.html

Mons, B., Neylon, C., Velterop, J., Dumontierf, M.,et al. (2017). Wilkinson Cloudy, increasingly FAIR; revisiting the FAIR Data guiding principles for the European Open Science Cloud. Information Services & Use, vol. 37, no. 1, pp. 49-56. https://doi.org/10.3233/ISU-170824 

Neylon, Cameron. (2017). Dataset for IDRC Project: Exploring the opportunities and challenges of implementing open research strategies within development institutions. International Development Research Center. [Data set]. Zenodo. https://doi.org/10.5281/zenodo.844394 

Open Knowledge Foundation (2018, August 14). Frictionless Data and FAIR Research Principles. [blog]. https://blog.okfn.org/2018/08/14/frictionless-data-and-fair-research-principles/ 

RDA (n.d.). Metadata Directory. http://rd-alliance.github.io/metadata-directory/standards/

Sefton P., Lynch M. (2019). Packaging Research data with DataCrate - a cry for help! https://doi.org/10.6084/m9.figshare.8066936.v1 

W3C (n.d.). RDF. https://www.w3.org/RDF/