PIDs en datacitatie

Data citation is the practice of providing a reference to data in the same way as researchers routinely provide a bibliographic reference to other scholarly resources - ANDS, 2017

Het correct citeren van onderzoeksdata - datacitatie - wordt gezien als een van de belangrijkste manieren om onderzoeksdata te laten meetellen als 'eersteklas onderzoeksoutput'. In deze paragraaf laten we zien welke voordelen datacitatie nog meer biedt, welke rol Persistent Identifiers (PIDs) spelen en hoe een datacitatie eruitziet.   

Werken aan een cultuur van datacitatie

De publicatie van datasets telt steeds meer mee als citeerbare bijdrage aan het onderzoekscurriculum. DataCite (n.d.a.) is een belangrijke speler in het bouwen van de technische infrastructuur om datacitatie mogelijk te maken. Daarnaast is het de onderzoeksgemeenschap zelf die twee manifesten publiceerde om de richting te wijzen: een met een aantal datacitatie principes (FORCE 11, 2014) en een met softwarecitatie principes (Smith, 2016). Deze initiatieven vormen de basis om te bouwen aan een cultuur van datacitatie (ANDS, n.d.). 

Het citeren van onderzoeksdata maakt onderdeel uit van de Altmetrics (2010) - alternative metrics - beweging die stelt dat de impact van je onderzoek bepaald wordt door (de verwijzingen naar) een breed scala aan onderzoeksoutput zoals datasets, software, blogposts, presentaties, etc. 

Datacitatie: 

  • Maakt data makkelijker vindbaar;
  • Bevordert reproduceerbaarheid;
  • Bevordert hergebruik van data; 
  • Maakt het mogelijk de impact van de onderzoeksdata te volgen;
  • Creëert een publicatiestructuur die lange termijn beschikbaarheid van data mogelijk maakt;
  • Biedt een structuur waarbinnen de impact van de data terug te voeren is naar de onderzoekers die de data creëerden.

Persistent identifiers en datacitatie

Om citeerbaar te zijn, heeft een dataset een persistent identifier (PID) nodig, een uniek label dat gekoppeld is aan een digitaal object. Hierdoor kan het object altijd gevonden worden, ook bij veranderingen van naam en plaats. Met een PID voorkom je het ontstaan van gebroken links of een page not found.

Bij het publiceren van data in een data-archief, wordt er automatisch een PID aan de data toegekend. Een PID is voorwaardelijk voor de F van FAIR data. Zonder PID is een dataset niet op een duurzame manier vindbaar. Een PID is dus noodzakelijk, maar niet voldoende voor FAIRness. Als er aan de dataset alleen een PID is toegekend en geen machine-leesbare metadata dan zal het nog steeds moeilijk zijn om een dataset te vinden, tenzij de PID bekend is. Het is via de metadata dat een dataset wordt gevonden en via de PID wordt de dataset vervolgens gelokaliseerd. 

In de video hieronder maken we de rol van een PID - in dit geval de DOI (n.d.) - in datacitatie duidelijk.  

RDNL-video over datacitatie; zet op HD-kwaliteit voor de beste kijkervaring.

PIDs verbinden

Persistent identifiers beschrijven een soort eindpunten. Om echt nuttig te zijn, moeten deze eindpunten met elkaar verbonden zijn (Haak et. al., 2018). Om een zogeheten 'research graph' te kunnen maken waarin de relaties tussen data, onderzoekers, publicaties, onderzoeksfinanciers, organisatiets, etc. in een oogopslag duidelijk worden, zijn dus meer PIDs nodig dan die voor de onderzoeksdata alleen. Een bekende PID voor een unieke onderzoeker is ORCID iD (n.d.). 

PIDs act as both unique identifiers and, critically, as connectors. By unambiguously identifying and connecting an individual researcher with their research organizations, professional activities and other contributions, we can be confident that we understand – and can assert – the relationships between each of them. And, by doing so using resolvable PIDs that incorporate FAIR metadata, we also make researchers, their affiliations and their contributions more easily discoverable | Meadows, 2019

In de spotlight


Verschillende PID-systemen en de PID-wijzer

Er zijn verschillende persistent identifier systemen (DPC, 2017), bijvoorbeeld de URN, Handle, PURL, ARK en DOI. Afhankelijk van het doel kan aan een object een van deze persistent identifiers toegekend worden. Met de PID-wijzer (Netwerk Digitaal Erfgoed, n.d.) doorloop je een 25-tal vragen waarna er een PID uit komt rollen die voor jouw organisatie(doelen) het beste is.  

DOI's worden steeds meer geaccepteerd als de persistent identifier naar keuze als het op datacitatie aankomt. Dat merk je onder andere doordat systemen die andere persistent identifiers aanbieden daarnaast ook DOI's gaan aanbieden. Dataverse Network bood eerst alleen Handle en ging daarna over op DOI's. Ook DANS biedt naast URN's inmiddels ook DOI's aan. Hieronder zoomen we dan ook nader in op de DOI. 

Inzoomen op de DOI (Digital Object Identifier) als PID voor datacitatie

In dit kader herhalen we wat er in de video over datacitatie aan bod kwam.

Een DOI (Digital Object Identifier) is bij uitstek geschikt om een digitaal object citeerbaar te maken en wordt alleen toegekend aan objecten die voor de lange termijn beheerd en toegankelijk blijven.  DOI's worden al veel gebruikt in de wetenschappelijke literatuur om naar tijdschriftartikelen te linken. Door een DOI toe te kennen aan een dataset, maak je de herkomst herleidbaar en citeerbaar.

Structuur van een DOI 

De DOI bestaat uit twee delen:

  • een prefix (voorvoegsel) bestaande uit het getal '10' gevolgd door 4 of meer cijfers;
  • en een suffix (achtervoegsel);
  • die gescheiden zijn door een schuine streep.

De identificatiecode in het voorvoegsel staat voor diegene die de dataset geregistreerd heeft. Na de schuine streep volgt de identifier voor de dataset.

Voorbeeld van een DOI: 10.4121/uuid:c1ac7344-1419-4398-ba13-c757551c303f.

Registratie

DOI’s worden geregistreerd via DataCite (n.d.a.) en in Nederland via DataCite Netherlands (Delft University of Technology, n.d.). Een onderzoeker krijgt een DOI voor zijn dataset zodra hij zijn dataset deponeert in data-archief die klant is bij DataCite. Dan registreert de instelling de DOI voor de dataset die door de instelling zelf gearchiveerd wordt. Je kunt als individuele onderzoeker geen DOI registreren. Dit is algemeen beleid van DataCite.

Wanneer een DOI wordt geregistreerd is het verplicht om een minimale set metadata aan te leveren. Alle verplichte, optionele en aanbevolen metadata staan beschreven in het DataCite Metadata Scheme (DataCite, 2019). Alle toegekende metadata worden opgeslagen in de zogeheten DataCite Metadata Store (DataCite, n.d.b.) en zijn daarmee afzoekbaar.

Citatie

DataCite adviseert hoe je een dataset moet citeren als je deze in een publicatie vermeldt (DataCite, n.d.c.). De aanbevolen citatiestijl is:

Creator (PublicationYear): Title. Publisher. Identifier

Dat ziet er dan bijvoorbeeld voor deze dataset (Keen, 2011)  in 4TU.Centre for Research Data zo uit: 

Persistent identifiers bij DANS, 4TU.Centre for Research Data en SURF

DANS, 4TU Centre for Research Data en SURF gaan verschillend om met persistent identifiers. 4TU.Centre for Research Data gebruikt DOIs, DANS gebruikt DOIs en URN:NBNs en SURF gebruikt het Handle systeem. Datacite DOI's zijn geschikt en bedoeld voor het citeren van data, de URN:NBN is primair gericht op het identificeren en wordt minder gebruikt als citatiemiddel. Handle is een 'all purpose' PID-systeem en vooral nuttig voor het toekennen van PID's aan grote hoeveelheden objecten (Netwerk Digitaal Erfgoed, n.d.).     

PIDs bij 4TU.Centre for Research Data

4TU.Centre for Research Data registreert via DataCite Netherlands (Delft University of Technology, n.d.) DOI's voor haar datasets. Binnen 4TU.Centre for Research Data hebben alle datasets, die voorzien zijn van de vereiste metadata, een DOI. Tevens hebben ze allemaal een UUID (Universally Unique IDentifier). Een UUID bestaat uit 36 karakters (32 letters/cijfers en 4 streepjes) in de vorm 8-4-4-4-12 karakters. Bijvoorbeeld: uuid:32c53005-a4f2-447c-b231-6cdb7dcdd17f. Het totale aantal mogelijke unieke UUID's is zo groot dat het onwaarschijnlijk is dat er twee dezelfde aangemaakt worden.

De DOI's van 4TU.Centre for Research Data hebben als voorvoegsel de URL van het datacentrum en als achtervoegsel de UUID, bijvoorbeeld https://data.4tu.nl/repository/uuid:32c53005-a4f2-447c-b231-6cdb7dcdd17f. Op de pagina van de dataset staat: 'please cite/link this dataset as doi:10.4121/uuid:32c53005-a4f2-447c-b231-6cdb7dcdd17f'. De code 4121 staat voor 4TU.Centre for Research Data.

Als je een DOI wilt achterhalen zet je er dx.doi.org of doi.org voor. Dan kom je altijd op de juiste plek. Je kunt ook gebruik maken van resolve a DOI.Ook de resolver moet natuurlijk voor de lange termijn bewaard worden. Dat gebeurt door de international DOI foundation. Zorgen over het in stand houden van de resolver zijn er eigenlijk niet:"It's too big to fail".

PIDs bij DANS

Bij DANS hebben alle datasets twee persistent identifiers: een DOI en een URN:NBN. Beide worden automatisch toegekend wanneer de datamanager een gedeponeerde dataset goedkeurt en publiceert. De DOI kunnen onderzoekers gebruiken om duurzaam aan de dataset te refereren. De URN:NBN gebruikt DANS al langer voor duurzame toegang tot al het materiaal in het archief. DANS beheert de Nederlandse resolver voor de URN:NBN (DANS, n.d.)  

Bij DANS krijgt een dataset dus twee PID's en dat ziet er bijvoorbeeld zo uit: 

Schöpfel, Dr. J. (University of Lille, GERiiCO laboratory) (2019): Data Papers as a New Form of Knowledge Organization in the Field of Research Data. DANS. https://doi.org/10.17026/dans-zk3-jkyb 
DOI: 10.17026/dans-zk3-jkyb
URN: urn:nbn:nl:ui:13-iy-02u8

Een URN:NBN is als volgt opgebouwd:

  • URN als het identifier-scheme.
  • NBN als namespace voor zogeheten National Bibliographic Numbers.
  • NL:UI om aan te geven dat het om identifiers gaat die binnen Nederland zijn toegekend.
  • Een unieke code voor de dataset binnen DANS.

 

PIDs bij SURF

SURF ken twee smaken PIDs.

  • Voor het SURF Data Archive (SURF, n.d.a.) gebruikt SURF het Handle systeem (SURF, n.d.b). Het SURF Data Archive is geschikt om groter hoeveelheden data voor langere tijd te archiveren. 
  • Voor de SURF Data Repository (SURF. n.d.c.) biedt SURF naast Handle ook DOIs. Kijk bijvoorbeeld maar eens in de metadata van deze dataset van Ishiyama (2011).  

Onderzoekers/onderzoeksinstellingen kunnen hun dataverzamelingen ook via SURF registreren en toegankelijk te maken met behulp van PIDs (SURF. n.d.b.). 

 

Het PID-forum en het FREYA project

Het PID-forum (n.d.) is een op zichzelf staand discussieforum over 'all things PID' dat is ontsproten aan het FREYA project (n.d.).  

PIDs voor software, posters, presentaties en andere onderzoeksoutput

Het heeft zin om niet alleen onderzoeksdata maar ook softwarecode, posters en andere onderzoeksoutput citeerbaar te maken. Een aantal voorbeelden: 

  • Softwarecode
    Je kunt softwarecode citeerbaar maken door de code vanuit GitHub op Zenodo te publiceren. GitHub heeft een DIY gids beschikbaar (GitHub, 2016). 
  • Posters en andere output
    Posters en presentaties worden veel gedeeld op bijvoorbeeld Figshare (n.d.) of Zenodo (n.d.a). Binnen Zenodo kun je bijvoorbeeld ook een community aanmaken (Zenodo, n.d.b.) waarbij je de collectie van output met een groep mensen cureert.  

Elke upload krijgt op deze manier zijn eigen PID (Zowel bij Figshare als Zenodo is de PID een DOI.) Voor onderzoeksoutput die niet vanzelf een PID krijgt, is dit een makkelijke manier om die output vindbaar, citeerbaar en zichtbaarder te maken.  


Bronnen 

Klik om te openen/sluiten

Altmetrics (2010). Altmetrics: a manifesto. http://altmetrics.org/manifesto/

ANDS (n.d.). Building a culture of data citation. https://www.ands.org.au/__data/assets/pdf_file/0003/383025/data_citation_poster.pdf

ANDS. (2017). Data citation. ANDS Guide.  awareness. https://www.ands.org.au/__data/assets/pdf_file/0005/724334/Data-citation.pdf

DANS (n.d.). Resolve identifier. http://www.persistent-identifier.nl/

DataCite (n.d.a.). https://datacite.org/

DataCite (n.d.b.). DataCite MDS API. https://mds.datacite.org/

DataCite (n.d.c.). DataCite - Cite Your Data. http://www.datacite.org.s3-website-eu-west-1.amazonaws.com/cite-your-data.html

DataCite (2019, Augustus 16th). Datacite Metadata Schema. Metadata Schema 4.4. https://schema.datacite.org/

DCP (n.d.) Persistent identifiers. https://dpconline.org/handbook/technical-solutions-and-tools/persistent-identifiers

Delft University of Technology (n.d.). DataCite Netherlands. https://www.tudelft.nl/en/library/support/datacite-netherlands/

DOI (n.d.) https://www.doi.org/

Figshare (n.d.). https://figshare.com/ 

FORCE 11 (2014). Joint Declaration of Data Citation Principle. - Final. https://www.force11.org/datacitationprinciples

FREYA (n.d.). The FREYA project. https://www.project-freya.eu/en/about/mission

GitHub (2016). Making your code citable. https://guides.github.com/activities/citable-code/

Haak, L., Meadows, A., Brown, J. (2018). Using ORCID, DOI, and Other Open Identifiers in Research Evaluation. Front. Res. Metr. Anal, vol 3, p28. https://doi.org/10.3389/frma.2018.00028

Ishiyama, T., Rieder, S., Makino, J., Zwart, S.P., Groen, D., Nitadori, K., Laat, C. de, McMillan, S., Hiraki, K., Harfst, S. (2011). The Cosmogrid Simulation: Statistical Properties of Small Dark Matter Halos (2048-103). Leiden University. 10.25606/SURF.578c6039-0bf84511

Keen, A.S (2011): Erosive Bar Migration Using Density and Diameter Scaled Sediment Erosive Profile Set-Prototype Scale (Actual Scal 1:10). TU Delft. doi:10.4121/uuid:32c53005-a4f2-447c-b231-6cdb7dcdd17f

Meadows, Alice, Laurel L. Haak, and Josh Brown. 2019. “Persistent Identifiers: The Building Blocks of the Research Information Infrastructure”. Insights32 (1): 9. http://doi.org/10.1629/uksg.457

Netwerk Digitaal Erfgoed (n.d.). PID wijzer. https://www.pidwijzer.nl/pid_results/new

ORCID. (n.d.). Register for an ORCID iD. Retrieved from https://orcid.org/register

PID Forum. (n.d.) https://www.pidforum.org/

Smith, A.M., Katz, D.S., Niemeyer, K.E., FORCE11 Software Citation Working Group. (2016) Software Citation Principles. PeerJ Computer Science 2:e86. https://doi.org/10.7717/peerj-cs.86

SURF (n.d.a.). SURF Data Archive. https://www.surf.nl/langdurig-data-opslaan-met-data-archive

SURF (n.d.b.). Data Persistent Identifier: data altijd vindbaar door permanente verwijzingen. https://www.surf.nl/data-persistent-identifier-data-altijd-vindbaar-door-permanente-verwijzingen

SURF (n.d.c.). SURF Data Repository. https://repository.surfsara.nl/

Zenodo (n.d.a.). https://zenodo.org/

Zenodo (n.d.b.). Zenodo Communities. https://zenodo.org/communities/