Metadata bij data-archieven

   Hoofdlijnen 

Bij opname van een dataset in een data-archief (ingest) wordt bekeken of de dataset goed genoeg is omschreven. De hamvraag is: heeft een (toekomstig) gebruiker voldoende informatie om te begrijpen wat de dataset inhoudt?
Zowel de maker als de datamanager kan zogeheten metadata toekennen. Door het toekennen van metadata wordt het makkelijker om een informatiebron te vinden, herkennen, (her) te gebruiken en te linken met andere informatiebronnen (zie ook de paragraaf Datadocumentatie en metadata). 

Verschillende disciplines hanteren hun eigen metadataschema's en -standaarden (zie kader). Welke metadatavelden verplicht of wenselijk zijn, kan per archief verschillen. Zowel DANS als 4TU.Centre for Research Data gebruiken als metadatastandaard het Dublin Core Metadata Initiative (DCMI).(1) Dublin Core is eenvoudig in het gebruik en wordt wereldwijd toegepast. Hierdoor zijn metadata makkelijk te linken met andere archieven en automatisch te doorzoeken, wat de bekendheid van de data vergroot. De achterliggende data zelf zijn echter niet direct doorzoekbaar.
De metadata in 4TU.Centre for Research Data zijn in RDF-formaat beschikbaar. RDF is een algemene standaard die het mogelijk maakt om heel eenvoudig verbanden te leggen tussen data uit verschillende bronnen. Het is mogelijk binnen RDF bestaande metadataschema's zoals Dublin Core te gebruiken en deze te combineren met andere metadataschema's. Dublin Core is een invulling van de metadatavelden zelf en met RDF leg je de verbanden.  

Wanneer een onderzoeker van plan is zijn data in een archief te deponeren, doet hij er goed aan om al in een vroeg stadium van zijn onderzoek de metadatavelden te definiëren. Dit om te voorkomen dat hij de documentatie of metadata achteraf moet toevoegen.

Over metadataschema's en metadatastandaarden

Een metadataschema is een set van individuele metadata-elementen die je kunt gebruiken om data te beschrijven. De meeste schema's worden ontwikkeld en onderschreven door bepaalde gemeenschappen. In een metadataschema krijgt elk metadata-element een naam en betekenis. Een voorbeeld van een door de gemeenschap ontwikkeld schema is het Data Documentation Initiative(2) (DDI), een internationale standaard voor het beschrijven van data uit sociaal-wetenschappelijk, gedragswetenschappelijk en economisch onderzoek.

Als een normalisatie-instelling zoals de ISO(3) een metadataschema goedkeurt, heet het een metadatastandaard. Een voorbeeld van een metadatastandaard is de Dublin Core Metadata Element Set(4), ook wel bekend als ISO 15836:2009.(5)

     De diepte in

  • Er zijn veel verschillende metadataschema's en standaarden, afhankelijk van de onderzoeksgemeenschap, het doel, de functie en het domein. Deze visualisatie(6) geeft een mooie blik in de genoemde diversiteit. 
  • Het Engelse Digital Curation Centre (DCC) geeft een goed overzicht(7) van gebruikte schema's en standaarden binnen een aantal disciplines.

  Casus verplichte metadata velden

Verplichte metadata velden bij DANS en 4TU.Centre for Research Data

DANS 4TU.Centre for Research Data Betekenis
Creator Creator

De belangrijkste onderzoekers die betrokken zijn bij het produceren van de data

Title Title Naam of titel van dataset
Date created Date created
Description Description
Audience Publiek voor wie de dataset interessant is, beschreven in termen van onderzoeksdomeinen
Publication year

 

Dit zijn slechts de verplichte belangrijkste metadatavelden. Hoe meer velden er ingevuld worden, hoe beter vindbaar de dataset is. 

Een ander metadata-element is de zogeheten identifier. Een identifier is doorgaans een nummer of code die is gekoppeld aan een data-object. Bij voorkeur dient de identifier uniek en persistent te zijn zodat ook voor de lange termijn de vindbaarheid van de dataset gegarandeerd is.

Enkele voorbeelden van identifiers:

  • ISBN - International Standard Book Number.
  • DOI - Digital Object Identifier, wereldwijd in gebruik voor publicaties zoals tijdschriftartikelen (via CrossRef(8)) en sinds enkele jaren ook voor datasets (via DataCite(9)).
  • URN - Uniform Resource Name, unieke en persistente identifier.
  • URL - Uniform Resource Locator of web adres (persistentie is echter niet altijd gegarandeerd).

Zie ook Persistent identifiers.

  Bronnen

Klik om te openen/sluiten
  1. Dublin Core Metadata Initiative. Retrieved from dublincore.org
  2. Data Documentation Initiative. Retrieved from http://www.ddialliance.org/
  3. ISO. Retrieved from www.iso.org/iso/home.html
  4. Dublin Core Metadata Initiative, Dublin Core Metadata Elementen Set, Version 1.1. Retrieved from dublincore.org/documents/dces/
  5. ISO. ISO 15836:2009, information and documentation - The Dublin Core metadata element set. Retrieved from http://www.iso.org/iso/catalogue_detail.htm?csnumber=52142
  6. Bargmeyer, B.; Gillman, D. (2000). Metadata standards and metadata registries: An overview. Retrieved from http://stats.bls.gov/ore/pdf/st000010.pdf
  7. DCC. Disciplinary metadata. Retrieved from www.dcc.ac.uk/resources/metadata-standards
  8. CrossRef. Retrieved from www.crossref.org
  9. Datacite. Retrieved from https://www.datacite.org/

botMessage_toctoc_comments_928