Begrippen

People say jargon is a bad thing, but it's really a shortcut vocabulary professionals use to understand one another | Erin McKean

In deze paragraaf vind je een begrippenlijst met begrippen die veel gebruikt worden in het land der data supporters. Daarnaast besteden we in drie onderliggende paragrafen extra aandacht aan een aantal basisbegrippen die de zichtbare en onzichtbare rode draad vormen binnen deze cursus.  

Basisbegrippen

In drie onderliggende paragrafen zoomen we in op de volgende basisbegrippen:

Je kunt - gebruik makend van het menu in de kolom links - meteen doorgaan naar de paragraaf van jouw keuze. Of scrol naar beneden en ga door naar de volgende paragraaf. Zo mis je niks. 

Begrippenlijst

Hieronder vind je een begrippenlijst waar je gedurende de cursus naar terug kunt grijpen. Je kunt ook een kijkje nemen bij de begrippenlijst van CASRAI (n.d), van LCRDM (n.d.) van DCC (n.d.) of van Science Europe (n.d.).

Algemene verordening gegegevensbescherming (AVG)

De Algemene verordening gegevensbescherming (AVG, Europese Unie, 2016) beschermt de privacyrechten van personen en benoemt verantwoordelijkheden voor diegenen die persoonsgegevens verwerken van anderen. De Algemene Verordening Gegevensbescherming (AVG) is sinds mei 2018 van kracht. Zie de uitvoeringswet AVG (Overheid.nl, 2018) en de betreffende paragraaf in deze cursus. 

CoreTrustSeal (CTS)

Een data-archief met een CoreTrustSeal (CTS)-certificering voldoet aan de vereisten die ervoor zorgen dat onderzoeksdata in de toekomst nog steeds op een betrouwbare manier kunnen worden bekeken en hergebruikt. 

Data-archief

Een data-archief is een faciliteit waar onderzoeksdata voor de lange termijn bewaard worden. 

Dataformaat

Een dataformaat is het bestandsformaat waarin onderzoeksdata zijn opgeslagen. De informatie in een bestandsformaat is op zo'n manier gecodeerd/ingedeeld dat een bepaald type software het bestand kan herkennen, lezen en gebruiken. Een bepaald bestandsformaat wordt vaak aangeduid met een bestandsextensie met drie of vier letters dat de gebruikte software identificeert. 

Data backup

Een data backup is een reservekopie van onderzoeksdata met als doel de data te kunnen herstellen mocht het origineel beschadigd of kwijt raken.

Datamanagementplan (DMP)

Een DMP is een levend document waarin het onderzoeksproject wordt beschreven, het type en het volume van de verwachte data, de manier waarop de data zullen worden opgeslagen (bestandsindeling, versiebeheer, metadata) en de plannen om de data na afloop van het project te publiceren in een data-archief. Indien nodig beschrijft het de tools (hardware en software) die nodig zijn om de data her te gebruiken. 

Data Protection Impact Assessment (DPIA)

Als gegevensverwerking een hoog privacyrisico vormt voor de deelnemers aan een onderzoek, dan is het volgens artikel 35 van de AVG noodzakelijk om Data Protection Impact Assessment (DPIA, Autoriteit Persoonsgegevens. n.d.a.) uit te voeren. Een DPIA wordt uitgevoerd om "de oorsprong, aard, bijzonderheid en ernst van het risico voor de rechten en vrijheden van natuurlijke personen" te beoordelen. Het resultaat van de beoordeling moet in aanmerking worden genomen bij het bepalen van de juiste maatregelen om de persoonsgegevens te verwerken om zodoende de privacyrisico's te verkleinen.

Op de site van de Autoriteit Persoonsgegevens (n.d.b.) staat een beslisboom waarmee je kunt bepalen of een DPIA verplicht is. Ook de Erasmus Universiteit heeft hier een handreiking voor (ERIM, 2018). 

Data provenance

Data provenance gaat over het documenteren van de oorsprong van de onderzoeksdata en alle bewerkingen die daarop volgen, zoals het verplaatsen tussen databases, het maken van nieuwe versies, het transformeren van het bestandsformaat, etc. (Buneman, 2000). Op die manier ontstaat een soort historisch overzicht. 

Data repository

Een algemene term voor een locatie om onderzoeksdata op te slaan. Een data repository met een beleid voor langetermijnbewaring wordt ook wel een data-archief genoemd.

Data tweeps

Mensen die twitteren over onderzoeksdata. 

DOI

De DOI (Digital Object Identifier) is een unieke en stabiele identifier (persistent identifier) die ervoor zorgt dat een digitaal object permanent kan worden gevonden op het internet, ongeacht wijzigingen in de URL. Een centraal register zorgt ervoor dat de gebruiker van een DOI naar de huidige locatie van het bijbehorende bestand wordt verwezen.

FAIR data

FAIR data gata over onderzoeksdata die vindbaar (Findable), toegankelijk (Accessible), interoperable (Interoperable) en herbruikbaar (Reusable) is. (GoFAIR, n.d.) De ‘FAIR Guiding Principles for scientific data management and stewardship’ (Wilkinson, 2016) bieden richtlijnen om de vindbaarheid, toegankelijkheid, interoperabiliteit en hergebruik van digitale objecten te vergroten. 

Integriteit

De integriteit van onderzoek is gebaseerd op het naleven van kernwaarden zoals objectiviteit, eerlijkheid, openheid, billijkheid, verantwoordelijkheid en rentmeesterschap. Deze kernwaarden helpen ervoor te zorgen dat de onderzoeksgemeenschap kennis ontwikkelt | Fostering integrity in research, 2017

Linked data

Linked data (n.d.) is een term die wordt gebruikt om een aanbevolen best practice te beschrijven voor het ontdekken, delen en verbinden van data, informatie en kennis op het Semantische Web met behulp van RDF. Linked data verwijst naar data die op zo'n manier op het internet zijn gepubliceerd dat ze leesbaar zijn door computers, dat de betekenis ervan expliciet is gedefinieerd en dat deze gekoppeld kunnen worden aan andere datasets.

Metadata

Metadata is 'data over data'. Het is gestandaardiseerde, gestructureerde informatie die het doel, de oorsprong, tijdsbestek, geografische locatie, maker, toegangsvoorwaarden en gebruiksvoorwaarden van een dataverzameling beschrijft. 

Onderzoeksdata

Onderzoeksdata zijn feiten, observaties of ervaringen waarop een argument of theorie is gebaseerd (ANDS, 2017).

Open data

Data is open als iedereen vrij is om het te gebruiken, hergebruiken en te verspreiden met ten hoogste de vereiste om de maker te noemen en/of het resulterende materiaal onder dezelfde licentie te vesrpreiden (Open Knowledge Foundation, n.d.) 

Open science

Open Science gaat over het uitbreiden van de principes van openheid over de gehele onderzoekscyclus en vertegenwoordigt een nieuwe manier van het doen van wetenschappelijke onderzoek, gebaseerd op samenwerking en nieuwe manieren om kennis te verspreiden met behulp van digitale technologieën en samenwerkingstools. (Foster Open Science (n.d.)). 

Persistent identifier (PID)

Een persitent identifier (PID) is een unieke code die is gekoppeld aan een digitaal object. Met deze code kan het object worden geïdentificeerd, zelfs wanneer het object naar een andere locatie wordt verplaatst.  Een centraal register zorgt ervoor dat de gebruiker van een persistent identifier naar de huidige locatie van het bijbehorende bestand wordt verwezen. De DOI (Digital Object Identifier) is een voorbeeld van een persistent identifier. Zie de paragraaf 'PIDs en data citatie' voor meer informatie. 

Preregistratie

Preregistratie houdt in dat onderzoekers vooraf laten zien wat ze willen onderzoeken, hoe ze dat gaan doen en op welke manieren ze hun resultaten willen gaan analyseren. Met preregistratie legt een onderzoeker zich erop toe zich aan dit plan te houden nog voordat hij of zij weet wat er uit het onderzoek gaat komen. Preregistratie rapporten worden vaak geregistreerd in een onafhankelijk register zoals https://clinicaltrials.gov/ or https://osf.io (Nosek, 2018)

Preservering

Wanneer we het over preserveren hebben, worden twee verschillende perspectieven onderscheiden:

  • Korte termijn preservering: gegevens beschikbaar houden in de huidige vorm. Dit wordt ook wel het archiveren van data genoemd. 
  • Langetermijnpreservering: gegevens beschikbaar houden in een bruikbare vorm voor toekomstige gebruikers. 

Gegevens in hun huidige vorm houden, betekent dat je ze moet beschermen tegen incidenteel verlies en gegevens vindbaar moet maken met de juiste metadata. Voor langetermijnpreservering komt daar nog bij dat het dataformaat in vorm moet worden gehouden voor toekomstige software, werkmethoden of gebruikersgemeenschappen (het beoogde publiek voor de data).

RDF

RDF is een standaard voor het uitwisselen van data op het internet (W3C, n.d.) Met RDF worden relaties tussen digitale objecten gedefiniëerd. 
Ten eerste krijgt elk digitaal object een URI: een Uniform Resource Identifier die de locatie en aanpak van een bepaalde bron definieert. In veel gevallen is de URI een URL. Vervolgens wordt elk digitaal object gekoppeld aan andere objecten door middel van zogenaamde RDF-triples. Simpel gezegd zegt een RDF-triple: object X heeft relatie Y met object Z. Deze manier om relaties weer te geven staat ook wel bekend als linked data.

Reproduceerbaarheid

Reproduceerbaarheid betekent dat onderzoeksdata en software code beschikbaar worden gesteld zodat anderen in staat zijn dezelfde resultaten te bereiken | The Open Science Training Book (2018)

Research lifecycle

Een research lifecycle beschrijft het proces en de stappen die een onderzoeker onderneemt vanaf het plannen van een onderzoek tot aan het afronden ervan (NNLM, n.d.).

Text- en datamining (TDM)

Text and data mining (TDM) is het proces waarbij informatie wordt afgeleid uit door machines gelezen materiaal. TDM werkt door grote hoeveelheden materiaal te kopiëren, gegevens te extraheren, opnieuw te combineren en door patronen te identificeren (UK Government. n.d.)

 

Trusted digital repository (TDR)

Een TDR is een gecertificeerd digitaal data-archief welke betrouwbare, duurzame toegang tot de gedeponeerde gegevens biedt. TDR's kunnen op drie niveaus worden gecertificeerd:

  • Een basiscertificering met CoreTrustSeal-certificering;
  • Een uitgebreide certificering nadat de repository een zelfaudit uitvoert in overeenstemming met ISO 16363 (of DIN 31644);
  • Een formele certificering bovenop een uitgebreide certificering na een aanvullende externe audit en certificering volgens ISO 16363 of DIN 3164410

 
 

Virtual Research Environment (VRE)

Een Virtual Research Environment (VRE) is een virtuele werkomgeving voor onderzoekers. Een VRE combineert verschillende tools voor datamanagement in een omgeving, ondersteunt daarmee de workflow van de onderzoeker en biedt een veilige werkomgeving

Voorkeursformaat

Een voorkeursformaat is een bestandsindeling die volgens de huidige kennis de beste kansen heeft om in de (verre) toekomst bruikbaar te zijn.

Bronnen 

Klik om te openen/sluiten

ANDS (2017). ANDS Guides and Resources. What is research data. https://www.ands.org.au/guides/what-is-research-data

Autoriteit Persoonsgegevens (n.d.a.). Data Protection Impact Assessment. https://autoriteitpersoonsgegevens.nl/nl/zelf-doen/data-protection-impact-assessment-dpia

Autoriteit Persoonsgegevens (n.d.b.) DPIA-checklist. https://autoriteitpersoonsgegevens.nl/sites/default/files/atoms/files/schema_dpia_na_25_mei.pdf

Buneman P., Khanna S., Tan WC. (2000) Data Provenance: Some Basic Issues. In: Kapoor S., Prasad S. (eds) FST TCS 2000: Foundations of Software Technology and Theoretical Computer Science. FSTTCS 2000. Lecture Notes in Computer Science, vol 1974. Springer, Berlin, Heidelberg. https://doi.org/10.1007/3-540-44450-5_6 (Availabel at http://db.cis.upenn.edu/DL/fsttcs.pdf)

CASRAI (n.d.). Category:Terms. https://dictionary.casrai.org/Category:Terms

DCC (n.d.). Glossary. http://www.dcc.ac.uk/digital-curation/glossary

Europese Unie (2016). VERORDENING (EU) 2016/679 VAN HET EUROPEES PARLEMENT EN DE RAAD. https://eur-lex.europa.eu/legal-content/NL/TXT/PDF/?uri=CELEX:32016R0679&from=en

Erasmus Universiteit (2018). Personal Data and Privacy Impact Assessment in Research. https://www.erim.eur.nl/fileadmin/user_upload/Privacy_assessment.pdf

Force 11. (2014). The FAIR data principles. Retrieved from https://www.force11.org/group/fairgroup/fairprinciples

Foster open science (n.d.). Wat is open science. Introduction. https://www.fosteropenscience.eu/content/what-open-science-introduction

Foster Open Science (2018). Open Science Training book. 4. Reproducible Research and Data Analysis. https://book.fosteropenscience.eu/en/02OpenScienceBasics/04ReproducibleResearchAndDataAnalysis.html

GO FAIR (n.d.) Fair principles. Retrieved from https://www.go-fair.org/fair-principles/

LCRDM (n.d.) LCRDM Begrippelijst. https://www.lcrdm.nl/begrippenlijst

NNLM (n.d.). Research Lifecycle. https://nnlm.gov/data/thesaurus/research-lifecycle

Nosek, B.A., Ebersole, C.R, DeHaven, A.C., Mellor, D.T. (2018). The preregistration revolution. PNAS March 13, 2018 115 (11) 2600-2606. Retrieved from https://doi.org/10.1073/pnas.1708274114

National Academies of Sciences, Engineering, and Medicine. 2017. Fostering Integrity in Research. Washington, DC: The National Academies Press. https://doi.org/10.17226/21896

Open Knowledge Foundation (n.d.). The open definition. https://opendefinition.org/

Overheid.nl (2018). Uitvoeringswet Algemene verordening gegevensbescherming https://wetten.overheid.nl/BWBR0040940/2018-05-25

Science Europe (n.d.). Science Europe Data Glossary. http://sedataglossary.shoutwiki.com/wiki/Main_Page

UK Government (n.d.). Text Mining and Data Analytics in Call for Evidence Responses. https://webarchive.nationalarchives.gov.uk/20140603125140/http://www.ipo.gov.uk/ipreview-doc-t.pdf

W3C (n.d.). RDF. https://www.w3.org/RDF/

Wilkinson, M.D. et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship, Scientific Data 3. Retrieved from https://dx.doi.org/10.1038/sdata.2016.18