Data archiveren in de praktijk

Als een dataset bij DANS wordt gearchiveerd, zorgen wij ervoor dat de data duurzaam toegankelijk en leesbaar blijft. Om dit te kunnen garanderen zijn verschillende acties nodig | DANS, n.d.a.

Tijdens het archiveren van onderzoeksdata nemen de datamanagers van data-archieven maatregelen om de data leesbaar en bruikbaar te houden. In deze paragraaf geven we - voor wie dat leuk vindt - een kijkje achter de schermen. 

Bewerkingen en transformaties

Vanaf de opname van een dataset tot het downloaden ervan door een gebruiker, kunnen er allerhande bewerkingen en transformaties plaats vinden. Denk daarbij bijvoorbeeld aan:

  • Conversie van één dataformaat naar een ander (bijvoorbeeld duurzaam) dataformaat;
  • Reorganiseren van folders en files;
  • Toevoegen van (extra) metadata en een persistent identifier;
  • Inpakken en comprimeren van een dataset zodat deze minder opslagruimte in beslag neemt;
  • Data interactie waarbij een gebruiker van de dataset bijvoorbeeld een deel van een dataset downloadt op basis van een query;
  • Etc.

Om inzichtelijk te maken wat we hiermee bedoelen, staat de dagelijkse praktijk van DANS en 4TU.Centre for Research Data hieronder model. 

In de spotlight


Verwerking van datasets bij DANS

De datamanagers van DANS handelen volgens een protocol dat staat beschreven in het 'Provenance document' (DANS, n.d.a.). Een dataset in EASY kan pas gepubliceerd worden op het moment dat een archivaris de verplichte handelingen uit de workflow heeft aangevinkt. Er bestaat ook een uitgebreid intern document waarin al deze handelingen in meer detail staan beschreven. Informatie over de exacte werkwijze kan altijd worden opgevraagd via info@dans.knaw.nl. In de accordeon staat een aantal voorbeelden van de stappen die genomen worden. 


Controles bij opname van een dataset

Datasets worden door onderzoekers of organisaties zelf in DANS EASY (DANS. n.d.b.) gedeponeerd. RDNL maakte daarvan een filmpje (RDNL, 2016). De dataset die in het filmpje als voorbeeld is gebruikt staat in DANS EASY (Gemeente Dordrecht, 2011). 

De depositor zorgt zelf voor de beschrijving van de datasets in metadata velden volgens de internationale standaard Dublin Core (DCMI, n.d.). Bestanden die bij de dataset horen, kunnen tijdens het deponeren worden ge-upload. De depositor kan meerdere bestanden in een ZIP-bestand comprimeren. Als dit ZIP-bestand wordt ge-upload pakt het systeem deze automatisch uit. Grote datasets kunnen in overleg met DANS ook buiten EASY om worden aangeleverd, gebruik makend van een file transfer service.

Na ontvangst van de dataset begint de procedure van de datamanager met controleslagen. De dataset wordt gecontroleerd op de aanwezigheid van privacygevoelige informatie. De datamanager kijkt verder na of de dataset compleet is: of er bestanden ontbreken en of de dataset volledig te begrijpen is voor andere onderzoekers. Zo kan het bijvoorbeeld zijn dat er tabellen in de dataset zitten die gebruik maken van variabelen, codes en/of afkortingen. In dat geval moet er een codeboek aanwezig zijn waarin deze variabelen worden uitgelegd.

Als de dataset bestanden bevat waarvan de inhoud niet af te leiden is aan de hand van de bestandsnaam of de folderstructuur, kan de  datamanager aan de depositor vragen of hij een overzichtsdocument of een bestandenlijst in een spreadsheet mee kan sturen. In een bestandenlijst staat een uitleg van wat de gedeponeerde bestanden inhouden. Een dergelijke bestandenlijst is bij DANS verplicht voor archeologische datasets. Deze bestandenlijst wordt ook nagekeken.

Verder kijkt de datamanager de Dublin Core-projectbeschrijving na op onvolledigheden, onduidelijkheden en (tik)fouten. Een archivaris zal kleine aanpassingen aan de metadata aanbrengen indien dit de duidelijkheid van de dataset ten goede komt.

De data wordt niet inhoudelijk beoordeeld of aangepast. Als er informatie ontbreekt, neemt de datamanager contact op met de depositor.

Converteren van bestanden en herstructureren van een dataset

DANS heeft een lijst met voorkeursformaten (DANS, n.d.c.) opgesteld. Dit zijn bestandsformaten, gesorteerd op bestandstype, waarvan DANS ervan overtuigd is dat ze de beste langetermijngaranties bieden op het gebied van bruikbaarheid, toegankelijkheid en duurzaamheid. De lijst bevat ook een overzicht van ‘non-preferred’ (geen voorkeurs)formaten: veel gebruikte bestandsformaten die vaak gemakkelijk kunnen worden omgezet in een voorkeursformaat.

Depositors worden verzocht om hun bestanden waar mogelijk in een voorkeursformaat af te leveren.

Voor bestandsformaten die niet in de lijst met voorkeursformaten voorkomen, beoordeelt DANS afzonderlijk de mogelijkheden voor elke dataset: kunnen de gegevens in een ander formaat worden aangeleverd? Kunnen de bestanden worden geconverteerd?

Voor sommige uitzonderlijke formaten is conversie mogelijk niet mogelijk. Aangezien er geen andere manier is om deze gegevens te archiveren, kan DANS deze bestanden nog steeds accepteren. In dit geval kan DANS echter de duurzaamheid en toegankelijkheid van de dataset niet garanderen.

De originele bestanden worden altijd met de dataset opgeslagen in ongewijzigde vorm, in een aparte subfolder met het label "original" (origineel). In het geval van formaatconversie worden de geconverteerde bestanden buiten deze subfolder bijgevoegd.

DANS zorgt voor de logische eenheid en structuur van de dataset. Om deze reden kan de datamanager het nodig achten om de bestanden binnen een dataset te herstructureren in folders en subfolder. In dit plaatje zie je een voorbeeld van data processing nádat de dataset is gedeponeerd en vóórdat deze aan gebruikers wordt aangeboden. Aan de linkerkant zie je de files zoals een data depositor deze inleverde. Aan de rechterkant zie je hoe een datamanager van DANS de files herordent voordat hij deze aan gebruikers van EASY ter beschikking stelt:

  • De foto's staan niet meer los maar in een mapje 'Foto's'.
  • De Excel file is omgezet in .csv. Dit preferred format kan gemakkelijk als tekst en als tabel worden geopend

Ten slotte converteert de datamanager de bestandenlijst van de depositor naar een XML-bestand waarmee het systeem de informatie uit deze lijst automatisch toe kan voegen aan de bestandsdetails in EASY.

Manieren om data te downloaden

De depositor selecteert zelf de toegangsrechten waaronder hij of zij de bestanden van de dataset beschikbaar maakt, bijvoorbeeld open access - onbeperkt (CC0 Waiver - No rights reserved). De datamanager draagt er zorg voor dat de juiste bestanden onder deze rechten beschikbaar worden gesteld. Bij bestandsconversies worden alleen de geconverteerde bestanden gepubliceerd; de oorspronkelijke bestanden worden wel bij de dataset gearchiveerd, maar deze zijn onzichtbaar voor gebruikers.

Op afspraak met de depositor kan de datamanager er voor zorgen dat aan verschillende bestanden verschillende toegangsrechten worden toegekend.

Datasets in EASY bestaan uit drie tab-bladen: de overview (voorpagina met samenvatting), de description (projectbeschrijving in Dublin Core) en de data files (bestanden). De datamanager kan er voor kiezen om de overview pagina als een HTML-pagina nader op te maken met bijvoorbeeld afbeeldingen, om de presentatie van de dataset te verbeteren. De Dublin Core-projectbeschrijvingen van datasets en eventuele metadata die zijn toegevoegd zijn altijd zichtbaar voor gebruikers, ongeacht de toegangsrechten.

Elke dataset in EASY wordt voorzien van een persistent identifier, een duurzame snelkoppeling die als referentie naar de dataset kan worden gebruikt. De persistent identifier wordt automatisch aan de dataset toegekend als de depositor de dataset indient. De persistent identifier wordt actief zodra de datamanager het werkproces afrondt en de dataset publiceert.

Gebruikers die voldoen aan de voorwaarden voor toegang tot de bestanden kunnen zelf een selectie maken van de bestanden die ze willen downloaden. Van de selectie wordt een zip-bestand gemaakt. In het downloadpakket zit ook een PDF met de algemene bepalingen van DANS. Daarnaast bevat het zip-bestand een XML van de metadata die aan de bestanden zijn gekoppeld.

EASY kent een downloadlimiet van 400 bestanden en/of 1000MB (1GB) tegelijkertijd. Bij grotere datasets kan met DANS een alternatieve manier worden afgesproken om de data te versturen.


Data processing bij 4TU.Centre for Research Data 


Conversie van dataformaten

Bij 4TU.Centre for Research Data zijn er drie momenten waarop data geconverteerd kunnen worden: 

  • Vóór upload 
    Het is in principe de verantwoordelijkheid van de leverancier van de dataset om de data in een duurzaam formaat aan te leveren. Als data aangeleverd worden in een niet-duurzaam formaat, is het noodzakelijk dat ze eerst geconverteerd (omgezet) worden in een duurzaam formaat.
    En voorbeeld: de datacollectie IDRA met weerradarmetingen bestaat uit een grote reeks numerieke bestanden die zijn opgeslagen als NetCDF (Otto, 2010). De partij die de data aanleverde had de data niet in NetCDF staan maar heeft dat op aanwijzing van 4TU.Centre for Research Data wel zelf gedaan.
    Veel datasets van onderzoekers zien er uit als getalletjes met komma's ertussen. Het zijn zelfbedachte formaten die worden omgezet in NetCDF. Hoewel een eenvoudige tabel nog omgezet zou kunnen worden in .csv (comma separated value), geeft 4TU.Centre for Research Data ook dan de voorkeur aan NetCDF omdat er dan standaard interne metadata worden toegevoegd en de gebruiksmogelijkheden groter zijn.
  • Na upload 
    Na verloop van tijd zullen bepaalde dataformaten onbruikbaar worden. Eenmaal in beheer van 4TU.Centre for Research Data, is het de verantwoordelijkheid van 4TU.Centre for Research Data om de noodzakelijke conversies te doen die een lange levensduur van onderzoeksdata garanderen.
    Bij Darelux (4TU.Center for Research Data, n.d.a.) een oude set, is bijvoorbeeld al veel conversie gedaan. De dataset is eerst omgezet in een eigen XML-formaat. Vervolgens is daar de NcML (Unidata, n.d.), de XML-versie van NetCDF, van gemaakt en daarna is de dataset nog geconverteerd naar NetCDF. Toen is het geheel verhuisd van de server van 4TU.Centre for Research Data zelf (Fedora) naar OPeNDAP. De keuze om de dataset om te zetten in XML is gemaakt omdat er dan standaard metadata worden toegevoegd. Je kunt informatie verschaffen over de inhoud en dat houdt de dataset leesbaar en begrijpelijk. De keuze voor het omzetten in NetCDF is gemaakt vanwege de gebruiksmogelijkheden (zie de tab 'data-interactie').
    Daarnaast kan 4TU.Centre for Research Data besluiten het formaat te converteren vanwege opslagcapaciteit. De set helikopterdata met luchtopnamen van verkeerswegen (Hoogendoorn, 2010) werd aangeleverd in .tiff, een formaat dat veel opslagruimte in beslag neemt. Deze set is geconverteerd naar .png. Of zo'n conversie zo maar kan, is afhankelijk van de toepassing van het betreffende onderzoek. 
  • Bij download 
    Als een gebruiker een dataset wil downloaden (DIP), kan hij of zij de voorkeur hebben voor een bepaald dataformaat. Van een aantal datasets zijn diverse formaten beschikbaar, bijvoorbeeld NcML naast netCDF. Hieruit kunnen eventueel nog extra formaten worden gegenereerd zoals CDL en .csv. Bovendien zijn data op de OPeNDAP server (dit zijn vrijwel alle netCDF en hdf-5 data) op verschillende manieren te benaderen, dat wil zeggen niet alleen als download. Dit wordt nader uitgelegd in de tab 'data-interactie'.

Inpakken en comprimeren

Datacompressie wil zeggen dat je de ruimte die onderzoeksdata innemen, verkleint. Je representeert de digitale informatie met minder bits dan de oorspronkelijke data. Dat is handig als je grote hoeveelheden data op wilt slaan of wilt transporteren. 

Na upload van een dataset (SIP) wordt er eerst een bagit van gemaakt. Dat is een soort inventaris: wat zit er in deze dataset? Bagit is een formaat waar basismetadata en een zogeheten checksum aan elke file in een dataset is toegevoegd. De checksum is de vingerafdruk van een file in de dataset. Wat er gebeurt bij het maken van een checksum is dat alle bits op een bepaalde manier bij elkaar opgeteld worden. Als je de checksum van een gedownloade file uitrekent moet die overeenkomen met de opgegeven waarde die is uitgerekend op de server. Zo niet, dan moet er iets zijn misgegaan. Na het baggen van de dataset wordt het geheel in één pakketje gecomprimeerd opgeslagen (gezipt).

Een .zip bestandsformaat is waarschijnlijk het bekendst (application/zip). application/x-gzip is de afkorting voor GNU zip: Dat is een datacompressieprogramma voor Unix en Linux. 
Unix en Linux zijn zogeheten vrije besturingssystemen (Operating Systems of ook wel kortweg OS). Het staat je vrij Unix/Linux te gebruiken, bestuderen, aan te passen. Misschien ken je de namen van andere Operating Systems beter. Microsoft is het OS van Windows en dat van Apple is Mac OS X (commerciële besturingssystemen). Een besturingssysteem zorgt ervoor dat alle applicaties op je PC goed uitgevoerd kunnen worden.

 

Data-interactie

Datasets met de formaten NetCDF en HDF5 staan niet op de server van 4TU.Centre for Research Data zelf, maar ze staan op een andere server genaamd 'OPeNDAP'. Datasets op de OPeNDAP server zijn direct benaderbaar vanuit programmeertalen. OPeNDAP communiceert op een bepaalde manier met de data waardoor het lokale data beschikbaar maakt voor lokaties op afstand.

Als je NetCDF of HDF5 data aan elkaar plakt met OPeNDAP dan maak je het makkelijker er een zogeheten query op los te laten die een nauwkeurig omschreven selectie uit de gegevens terug geeft. 

Een voorbeeld: de Heavy particles in turbulent flows (Lanotte, 2011a) dataset is opgeslagen in HDF5. De dataset bevat zo'n 30 miljard getallen in vijf dimensies. Het formaat waarin het is opgeslagen, maakt het mogelijk daar een deel van in te zien. Zoals je ziet, bestaat een data file (Lanotte, 2011b) uit 103,2 GB. Je kunt een uitsnede van de dataset inzien en dat scheelt een hoop downloadtijd. 

Meer over OPeNDAP en NetCDF bij 4TU.Centre for Research Data vind je op de website van 4TU.Centre for Research Data (n.d.b.)  


Bronnen 

Klik om te openen/sluiten

4TU.Centre for Research Data (n.d.a.). Collection: Darelux - River Environment Luxemburg. Retrieved from https://data.4tu.nl/repository/collection:darelux

4TU.Centre for Research Data (n.d.b.).Why netCDF and OPeNDAP? https://researchdata.4tu.nl/en/use-4turesearchdata/opendap-and-netcdf/

4TU.Centre for Research Data (2017). Preservation Policy. https://researchdata.4tu.nl/fileadmin/user_upload/Documenten/4TU.Preservation_Policy.pdf

DANS (n.d.a.). Provenance Document: the Processing of Datasets by DANS. Retrieved from http://dans.knaw.nl/nl/deponeren/toelichting-data-deponeren/dans-provenance-document-nl.pdf

DANS (n.d.b.). DANS EASY. https://easy.dans.knaw.nl/ui/home

DANS (n.d.c.). Bestandsformaten. https://dans.knaw.nl/nl/over/diensten/easy/toelichting-data-deponeren/voor-het-deponeren/bestandsformaten

DCMI (n.d.) Dublin Core MetaData Initiative. https://dublincore.org/ 

Gemeente Dordrecht, Stadsontwikkeling/Ruimtelijke Realisatie/Archeologie; (2011): Dordrecht Ondergronds 15. Gemeente Dordrecht, plangebied Burgermeester Jaslaan 12. Een archeologische begeleiding.. DANS.https://doi.org/10.17026/dans-xq5-aq7m 

Hoogendoorn, S.P.(Serge) (2010) Traffic flow observations. TU Delft. Dataset. https://doi.org/10.4121/collection:traffic_flow_obs

Lanotte, A.; Calzavarini, E.; Toschi, F.; Bec, J.; Biferale, L.; Cencini, M. (2011a). Heavy particles in turbulent flows RM-2007-GRAD-2048. iCFDdatabase. [dataset]. https://data.4tu.nl/repository/uuid:f7cd7b9d-ae4e-498e-92b4-7efe2d350d86

Lanotte, Alessandra; Calzavarini, Enrico; Toschi, A. (Federico); Bec, Jeremie; Biferale, Luca; Cencini, Massimo (2011b) Heavy particles in turbulent flows RM-2007-GRAD-EULER-2048. iCFDdatabase. Dataset. https://doi.org/10.4121/uuid:607a19d6-32c0-4b33-a8c1-95293637c2ac

Otto, T.(Tobias); Russchenberg, H.W.J.(Herman); Reinoso Rondinel, R.R.(Ricardo); Unal, C.M.H.(Christine); Yin, J.(Jiapeng); Gatidis, C.(Christos) (2010) IDRA weather radar measurements - all data. TU Delft. Dataset. https://doi.org/10.4121/uuid:5f3bcaa2-a456-4a66-a67b-1eec928cae6d

RDNL (2016). Een dataset deponeren in EASY - stap voor stap [video]. https://youtu.be/KBusZUM_W0s

Unidata (n.d.). The NetCDF Markup Language (NcML). Retrieved from https://www.unidata.ucar.edu/software/netcdf-java/current/ncml/