De diepte in: data processing bij DANS 

Voor de verwerking van datasets binnen DANS, bestaat een onderscheid in drie fasen: 

  • Ingest (deponering)
  • Processing (archivering)
  • Access (disseminatie, presentatie, beschikbaarstelling)

De datamanagers van DANS hanteren een workflow bij de verwerking van een dataset. De workflow schrijft de verschillende stappen binnen de bovenstaande onderverdeling voor en wordt als document opgeslagen bij de dataset in EASY. In dit document worden de handelingen van een archivaris geregistreerd met naam en datum. Een dataset in EASY kan pas gepubliceerd worden op het moment dat een archivaris de verplichte handelingen uit de workflow heeft aangevinkt. De datamanagers van DANS handelen volgens een protocol dat staat beschreven in het Provenance document(1). Er bestaat ook een uitgebreid intern document waarin al deze handelingen met meer detail staan beschreven. Informatie over de exacte werkwijze kan altijd worden opgevraagd via info@dans.knaw.nl.
In de accordeon staan de stappen nog eens in detail weergegeven.

Ingest (opname)

Datasets worden door onderzoekers of organisaties zelf in EASY gedeponeerd. RDNL maakte daarvan een filmpje. De depositor zorgt zelf voor de beschrijving van de datasets in metadata velden volgens de internationale standaard (Qualified) Dublin Core. Bestanden die bij de dataset horen, kunnen tijdens het deponeren worden ge-upload. De depositor kan meerdere bestanden in een ZIP-bestand comprimeren. Als dit ZIP-bestand wordt ge-upload pakt het systeem deze automatisch uit. Grote datasets kunnen in overleg met DANS ook buiten EASY om worden aangeleverd, gebruik makend van een file transfer service.

Na ontvangst van de dataset begint de procedure van de datamanager met controleslagen. Hij kijkt na of de dataset compleet is: of er bestanden ontbreken en of de dataset volledig te begrijpen is voor andere onderzoekers. Zo kan het bijvoorbeeld zijn dat er tabellen in de dataset zitten die gebruik maken van variabele codes en afkortingen. In dat geval moet er een codeboek aanwezig zijn waarin deze variabelen worden uitgelegd. Vervolgens controleert de datamanager de dataset op privacygevoelige informatie.

Voor sommige datasets vraagt de datamanager aan de depositor of hij een bestandenlijst in een spreadsheet mee  kan sturen. In dat bestand staat een uitleg van wat de gedeponeerde datasets inhouden. Een dergelijke bestandenlijst is bij DANS verplicht voor archeologische datasets. Deze bestandenlijst wordt ook nagekeken.

Verder bekijkt de datamanager de Dublin Core-projectbeschrijving na op onvolledigheden, onduidelijkheden en (tik)fouten. 

De data wordt niet inhoudelijk beoordeeld of aangepast. Als er informatie ontbreekt, neemt de datamanager contact op met de depositor.

Processing

DANS has prepared a list of preferred file formats(2). These are file formats, sorted by file type, of which DANS is confident that they will offer the best long-term guarantees in terms of usability, accessibility and sustainability. The list also includes accepted formats, which are formats that are widely used in addition to the preferred formats, are moderately to reasonably usable, accessible and robust in the long term and can often easily be converted into a preferred format.

Depositors are requested to deliver their files in a preferred format whenever possible.

For file formats not included in the preferred format list, DANS individually assesses the possibilities for each dataset: can the data be delivered in a different format? Can the files be converted?

For some exceptional formats, conversion may not be possible. As there is no other way to archive these data, DANS may still accept these files. In this case, however, DANS cannot guarantee the dataset's long term sustainability and accessibility.

The original files are always saved with the dataset in their unaltered form, in a separate subdirectory labelled “original”. In the case of format conversion, the converted files are attached outside this subdirectory.

DANS sees to the logical unity and structure of the dataset. For this reason, the data manager may deem it necessary to restructure the files within a dataset into directories and subdirectories.

Finally, the data manager converts the depositor's file list (see the “Ingest” tab) into an XML file, and the system automatically scans and processes the information from this list in order to add the information to the file details in EASY.

 

 

Access

De depositor selecteert zelf de toegangsrechten waaronder hij de bestanden van de dataset beschikbaar maakt, bijvoorbeeld open access - onbeperkt (CC0 Waiver - No rights reserved). De datamanager draagt er zorg voor dat de juiste bestanden onder deze rechten beschikbaar worden gesteld. Bij bestandsconversies worden alleen de geconverteerde bestanden gepubliceerd; de oorspronkelijke bestanden worden wel bij de dataset gearchiveerd, maar deze zijn onzichtbaar voor gebruikers.

Op afspraak met de depositor kan de datamanager er voor zorgen dat aan verschillende bestanden verschillende toegangsrechten worden toegekend.

Datasets in EASY bestaan uit drie tab-bladen: de overview (voorpagina met samenvatting), de description (projectbeschrijving in Dublin Core) en de data files (bestanden). De datamanager kan er voor kiezen om de overview pagina als een HTML-pagina nader op te maken met bijvoorbeeld afbeeldingen, om de presentatie van de dataset te verbeteren. De Dublin Core-projectbeschrijvingen van datasets en eventuele metadata die zijn toegevoegd zijn altijd zichtbaar voor gebruikers, ongeacht de toegangsrechten.

Elke dataset in EASY wordt voorzien van een persistent identifier, een duurzame snelkoppeling die als referentie naar de dataset kan worden gebruikt. De persistent identifier wordt automatisch aan de dataset toegekend als de depositor de dataset indient. De persistent identifier wordt actief zodra de datamanager het werkproces afrondt en de dataset publiceert.

Gebruikers die voldoen aan de voorwaarden voor toegang tot de bestanden kunnen zelf een selectie maken van de bestanden die ze willen downloaden. Van de selectie wordt een zip-bestand gemaakt. In het downloadpakket zit ook een PDF met de algemene bepalingen van DANS. Daarnaast bevat het zip-bestand een PDF van de metadata die aan de bestanden zijn gekoppeld.

EASY kent een downloadlimiet van 400 bestanden en/of 800MB tegelijkertijd. Bij grotere datasets kan met DANS een alternatieve manier worden afgesproken om de data te versturen.

  Bronnen

Klik om te openen/sluiten

Bronnen

  1. DANS. Provenance en data verwerking. Retrieved from http://dans.knaw.nl/nl/deponeren/toelichting-data-deponeren/dans-provenance-document-nl.pdf
  2. DANS. Bestandsformaten, preferred formats en geaccepteerde formaten. Retrieved from http://dans.knaw.nl/nl/deponeren/toelichting-data-deponeren/toelichting-data-deponeren?set_language=nl 

botMessage_toctoc_comments_9210