Dataformaten

  Hoofdlijnen

Onderzoeksdata komen in veel vormen en maten voor(1): tekst, numerieke data, modellen, software, multimedia. Daarnaast bestaan er discipline-specifieke onderzoeksdata of data die karakteristiek zijn voor het instrument waarmee ze gemeten zijn.

Een dataformaat of bestandsformaat is de vorm waarin informatie gecodeerd is. De informatie is op zo'n manier gecodeerd dat een programma of toepassing de data kan herkennen, lezen en gebruiken.

The history of digital storage(2) geeft een mooie blik op de vergankelijkheid van dragers van informatie. Als software/hardware in onbruik raakt, kunnen data onleesbaar worden. Om dit te voorkomen, is het van belang een open formaat te kiezen: dat is een dataformaat dat niet gebonden is aan een bepaalde softwareleverancier (proprietary software). Bij open formaten zijn alle details van het formaat openbaar, zodat iedereen de benodigde software om de data te kunnen lezen zelf zou kunnen (her)schrijven. Als het een standaard open formaat is, heeft iemand anders die software waarschijnlijk al voor je geschreven. 

Data-archieven hanteren vaak een lijst met voorkeursformaten waarin onderzoekers hun data het beste kunnen aanleveren. De voorkeur van data-archieven gaat uit naar open formaten omdat archieven op die manier een langere levensduur van de onderzoeksdata kunnen garanderen. 

Dataverlies

Onderzoeksdata kunnen op drie manieren onbruikbaar worden: 

 • Verlies van bits.
  De drager raakt beschadigd, zoek of gaat zo in kwaliteit achteruit dat er spontaan bits veranderen. Informeel wordt dit ook wel 'bit rot' genoemd.

 • Verlies van documentatie.
  Het is niet duidelijk hoe een bestand samenhangt met een ander bestand, bijvoorbeeld in het geval van verschillende versies van een bestand of de metadata is niet meer voorhanden, waardoor de betekenis van de data onduidelijk is.

 • Verlies van de weergavemogelijkheid.
  Het operating system, de hardware of de toepassing zijn niet meer aanwezig of niet meer te gebruiken. Dat kan ook gebeuren door externe factoren zoals een virus infectie, brand of het per ongeluk wissen van bestanden.


Om te voorkomen dat onderzoeksdata onbruikbaar worden, is een data-opslagstrategie nodig. Hier lees je meer over in de volgende paragraaf.

   De diepte in: MIME-types

Dataformaten worden vaak aangeduid met hun MIME-type.  MIME staat voor Multipart (Multipurpose) Internet Mail Extention. MIME geeft een webbrowser informatie hoe het programma met een bestand om moet gaan.

Een MIME-type wordt opgeschreven als twee aanduidingen gescheiden door een schuine streep (MIME type/subtype). Voorbeeld: text/plain is het MIME-type voor gewone tekst.

Veel mensen herkennen dataformaten aan hun extensie. Dat zijn de drie of vier letters die na de naam van het bestand volgen. Een filmpje op je computer heeft bijvoorbeeld de extensie .avi. Het bijbehorende MIME-type is video/msvideo. Als het .avi filmpje op een website staat, hoeft de URL niet op .avi te eindigen terwijl het wel om een .avi gaat. En een extensie hoeft ook niet altijd te kloppen, bijvoorbeeld omdat deze hernoemd is en niet meer naar een dataformaat verwijst. Iemand kan zijn bestand bijvoorbeeld de extensie .HS1 voor ‘hoofdstuk 1’ in geven. Ook kunnen meerdere soorten formaten dezelfde extensie gebruiken, bijvoorbeeld .mid voor zowel een MIDI geluidsbestand als het geografische kaartbestand Mapinfo Interchange Drawing. 

Het voordeel van het gebruik van MIME-types is dat via de 'page source' van een website altijd wel te achterhalen is wat het MIME-type is. Het is een bestandsformaat dat 'onder water' wordt doorgegeven en ook leesbaar is voor computers.

Zie MIME-types voor uitgebreidere informatie en voorbeelden.

Wat moet ik weten over dataformaten?  

Bij het opdoen van kennis over dataformaten hoef je niet alle technische ins and outs te kennen. Het is wel van belang om een indruk te krijgen van de factoren die er spelen om de onderzoeker globaal te kunnen adviseren in welk dataformaat hij zijn dataset het beste kan opslaan. Je kunt in ieder geval uitleggen dat langdurige, duurzame opslag een bepaald dataformaat vereist. Als onderzoekers hun data toch op een andere manier in willen leveren, dan krijgen ze niet de garantie dat de onderzoeksdata langdurig bruikbaar worden gehouden. Bij twijfel kun je altijd nog doorverwijzen naar een expert op dit gebied.

   Bronnen

Klik om te openen/sluiten
 1. UK Data Archive. (2011). Managing and sharing data. Retrieved from http://www.data-archive.ac.uk/media/2894/managingsharing.pdf
 2. Mashable. (2011). The history of digital storage. Mashable Infographics. Retrieved from http://mashable.com/2011/10/08/digital-storage-infographic/

botMessage_toctoc_comments_9210