De diepte in - MIME-types

Dataformaten worden vaak aangeduid met hun MIME-type. Een MIME-type wordt opgeschreven als twee aanduidingen gescheiden door een schuine streep (MIME type/subtype). Voorbeeld: text/plain is de MIME-type voor gewone tekst. MIME staat voor Multipart (Multipurpose) Internet Mail Extention. Het geeft een webbrowser informatie over de manier waarop het programma met een bestand om moet gaan. 

Application betekent dat het bestand gerelateerd is aan een bepaald type toepassing of programma. Strikt genomen zijn de applications dataformaten die door een bepaalde toepassing worden gelezen.

Hiernaast zie je een lijstje van dataformaten zoals die op 2 maart 2014 in 3TU.Datacentrum stonden en hieronder worden diverse MIME-types in meer detail toegelicht:

 • Application/pdf
  Bij het uitwisselen tussen programma's wil de opmaak nog wel eens verloren gaan of verschuiven. Om dit te voorkomen zijn er toepassingen (applications) die voor een universele weergave van het document zorgen. Een voorbeeld hiervan is een PDF-document (Portable Document Format). Dat is een open en universeel bestandsformaat voor het elektronisch uitwisselen van documenten waarbij de opmaak behouden wordt.
 • Application/vnd.google-earth.kml +xml
  De geografische data zijn bij bovenstaande MIME-types op zo'n manier gecodeerd dat ze leesbaar zijn in een zogeheten earth browser zoals Google Earth, Google Maps, and Google Maps op je mobiel.
 • Application/gml+xml 
  GML staat voor Geographic Markup Language: een standaard manier om geografische informatie te omschrijven. Geografische data omschrijven de wereld in ruimtelijke termen, gewoon in platte tekst. Het is een taal die onafhankelijk is van enige vorm van visualisatie van die data. In een earth browser worden de data juist wel gevisualiseerd.
 • Application/x-java-archive 
  Hierbij is de dataset gerelateerd aan de programmeertaal Java.
 • Application/octet-stream 
  In dit geval is er sprake van een algemeen type binaire data die niet nader gedefinieerd is. Het is een restcategorie voor alle datasets waarvan niet duidelijk is wat het is. 

De tekstformaten plain, html en xml:

 • Plain tekst wil zeggen dat de tekst niet is opgemaakt.
 • HTML (HyperText Markup Language) is een formaat dat aangeeft hoe de informatie er op een website uit komt te zien. Je kunt met code aangeven hoe de tekst eruit moet zien: bijvoorbeeld gedrukt of cursief. Die opmaak is bij plain tekst niet aanwezig.
 • In XML (eXtensible Markup Language) geef je niet de opmaak aan, maar kun je informatie verschaffen over de inhoud van het bestand, bijvoorbeeld door metadata toe te voegen zoals <title> voor een titel en <creator> voor degene die het document heeft aangemaakt.

Numerieke data

Application/x-matlab-data is een voorbeeld van numerieke data: Matlab is een geavanceerd wetenschappelijk rekenpakket.

HDF5 (Application/x-hdf5) en NetCDF (Application/x-netcdf) zijn allebei dataformaten die veelvuldig worden gebruikt om grote hoeveelheden numerieke data (gegevens in getalvorm) op te slaan. Een gegevensbestand met numerieke data wordt ook wel een binary file genoemd: een bestand met informatie bestaand uit nullen en enen. Binary digits worden samengevoegd tot de naam bits. De manier waarop je de nullen en enen combineert representeert de informatie. Die informatie kan eigenlijk alles betreffen dat digitaal omschreven kan worden zoals geluidsgolven, hoge resolutie MRI-scans etc.

Ter illustratie: In een eenvoudige tabel worden in twee dimensies grootheden tegen elkaar uitgezet. In veel datasets worden er echter drie, vier, vijf of nog meerdere dimensies tegen elkaar uitgezet. Je spreekt dan van een multidimensional array.(1) Je kunt je voorstellen dat de bestandsgrootte exponentieel toeneemt met het aantal gerepresenteerde dimensies.  HDF5 en NetCDF maken het mogelijk dat je metadata toevoegt aan een dataset als geheel, maar ook aan de variabelen en dimensies in de dataset. Binnen HDF5 en NetCDF bestaan standaard definities voor de grootheden die je op de assen neerzet.

   Sources

 1. Folk, M.; Koziol, Q. HDF. The next generation. Retrieved from http://access.ncsa.illinois.edu/Archive/backissues/96.1/hdf-tng.html

botMessage_toctoc_comments_9210