Data processing

   Hoofdlijnen 

Data processing is een overkoepelende term voor de transformaties die onderzoeksdata kunnen ondergaan gedurende verschillende levensfasen. In deze paragraaf bekijken we de transformaties vanaf het moment dat onderzoeksdata aan een data archief worden aangeboden. Het Reference Model for an Open Archival Information System OAIS(1) kent drie levensfasen voor datasets die aangeboden worden aan een data-archief:

  • Submission Information Package (SIP).
  • Archival Information Package (AIP).
  • Dissemination Information Package (DIP).

Voor, tussen en ná deze drie fasen kunnen datasets transformaties ondergaan. Denk daarbij bijvoorbeeld aan:

  • Conversie van één dataformaat naar een ander (bijvoorbeeld duurzaam) dataformaat.
  • Reorganiseren van folders en files.
  • Toevoegen van (extra) metadata en een persistent identifier.
  • Inpakken en comprimeren van een dataset zodat deze minder opslagruimte in beslag neemt.
  • Data interactie waarbij je bijvoorbeeld een deel van een dataset downloadt op basis van een query.
  • ...

    Casus van SIP tot DIP

Fase 1

  • Deponeren

Hieronder zie je een filmpje van het deponeren van een archeologische dataset in EASY, het online archiveringssysteem van DANS. 70% van de archeologische datasets in EASY is open access beschikbaar.(2)


Zet op HD-kwaliteit voor de beste kijkervaring

Fase 2

  • Archiveren

In onderstaand plaatje zie je een voorbeeld van data processing nádat de dataset is gedeponeerd en vóórdat deze aan gebruikers wordt aangeboden. Aan de linkerkant zie je de files zoals een data depositor deze inleverde bij EASY. Aan de rechterkant zie je hoe een datamanager van DANS de files herordent voordat hij deze aan gebruikers van EASY ter beschikking stelt:

  • De foto's staan niet meer los maar in een mapje 'Foto's'.
  • De Excel file is omgezet in .csv. Dit preferred format kan gemakkelijk als tekst en als tabel worden geopend.


Fase 3

  • Presentatie en terbeschikkingstelling

Je kunt bovenstaande dataset hier vinden. 

  De diepte in

  • Klik op het icoontje van DANS of 4TU.Centre for Research Data hieronder als je meer wilt weten over data processing bij (één van) deze twee data-archieven.
  • Lees een artikel(3) waarin de data deposit practices en ingest praktijken van zestien data archieven worden vergeleken.

  Bronnen

Klik om te openen/sluiten

Bronnen

  1. CCSDS. (2012). Reference Model for an Open Archival Information System (OAIS). Retrieved from http://public.ccsds.org/publications/archive/650x0m2.pdf
  2. DANS. 70% archeologische data in EASY openbaar toegankelijk. Retrieved from http://dans.knaw.nl/nl/actueel/nieuws/70-archeologische-data-easy-openbaar-toegankelijk
  3. Young, A.; Tibbo, H. (2011, Winter). Examination of data deposit practices in repositories with the OAIS model. IASSIST Quarterly, 6-13. Retrieved from www.iassistdata.org/sites/default/files/iqvol35_tibbo.pdf

  Jouw toevoegingen

Ken jij voorbeelden waarin data transformaties ondergingen? Wat leverde dat op? Heb je andere opmerkingen?  Laat het weten in de comments.


botMessage_toctoc_comments_928