Print Pages

Access Page via Rule

Track Page Visit

Visited Pages JQuery

Navigatie Hoofstuk IV Hoofdstuk I Hoofdstuk II Hoofdstuk III Hoofdstuk IV Hoofdstuk V Hoofdstuk VI
Navigatie HIV tablet I II III IV V VI
Navigatie Hoofdstuk IV mobiel I II III IV V VI

  De diepte in - data processing bij 4TU.Centre for Research Data

Conversie

Conversie

Er zijn drie momenten waarop data geconverteerd kunnen worden: 

Vóór upload Het is in principe de verantwoordelijkheid van de leverancier van de dataset om de data in een duurzaam formaat aan te leveren. Als data aangeleverd worden in een niet-duurzaam formaat, is het noodzakelijk dat ze eerst geconverteerd (omgezet) worden in een duurzaam formaat.
Een voorbeeld: de datacollectie IDRA(1) weerradarmetingen bestaat uit een grote reeks numerieke bestanden die zijn opgeslagen als NetCDF. De partij die de data aanleverde had de data niet in NetCDF staan maar heeft dat op aanwijzing van 4TU.Centre for Research Data wel zelf gedaan.
Veel datasets van onderzoekers zien er uit als getalletjes met komma's ertussen. Het zijn zelfbedachte formaten die worden omgezet in NetCDF. Hoewel een eenvoudige tabel nog omgezet zou kunnen worden in .CSV (comma separated value), geeft 4TU.Centre for Research Data ook dan de voorkeur aan NetCDF omdat er dan standaard interne metadata worden toegevoegd en de gebruiksmogelijkheden groter zijn.

Na upload Na verloop van tijd zullen bepaalde data formaten onbruikbaar worden. Eenmaal in beheer van 4TU.Centre for Research Data, is het de verantwoordelijkheid van 4TU.Centre for Research Data om de noodzakelijke conversies te doen die een lange levensduur van onderzoeksdata garanderen.
Bij Darelux(2) een oude set, is bijvoorbeeld al veel conversie gedaan. De dataset is eerst omgezet in een eigen XML-formaat. Vervolgens is daar de NcML(3) (XML-versie van NetCDF) van gemaakt en daarna is de dataset nog geconverteerd naar NetCDF. Toen is het geheel verhuisd van de server van 4TU.Centre for Research Data zelf (Fedora) naar OPeNDAP. De keuze om de dataset om te zetten in XML is gemaakt omdat er dan standaard metadata worden toegevoegd. Je kunt informatie verschaffen over de inhoud en dat houdt de dataset leesbaar en begrijpelijk. De keuze voor het omzetten in NetCDF is gemaakt vanwege de gebruiksmogelijkheden (zie de tab 'data-interactie').
Daarnaast kan 4TU.Centre for Research Data besluiten het formaat te converteren vanwege opslagcapaciteit. De set helikopterdata(4) (luchtopnamen van verkeerswegen) werd aangeleverd in .tiff, een formaat dat veel opslagruimte in beslag neemt. Deze set is geconverteerd naar .png. Of zo'n conversie zo maar kan, is afhankelijk van de toepassing van het betreffende onderzoek. 

Bij download Als een gebruiker een dataset wil downloaden (DIP), kan hij voorkeur hebben voor een bepaald data formaat. Van een aantal datasets zijn diverse formaten beschikbaar, bijvoorbeeld NcML naast netCDF. Hieruit kunnen eventueel nog extra formaten worden gegenereerd zoals CDL en .csv.
Bovendien zijn data op de OPeNDAP server (dit zijn vrijwel alle netCDF en hdf-5 data) op verschillende manieren te benaderen, dat wil zeggen niet alleen als download. Dit wordt nader uitgelegd in de tab 'data-interactie'

Inpakken en comprimeren

Inpakken en comprimeren

Data compressie wil zeggen dat je de ruimte die onderzoeksdata innemen, verkleint. Je representeert de digitale informatie met minder bits dan de oorspronkelijke data. Dat is handig als je grote hoeveelheden data op wilt slaan of wilt transporteren. 

Na upload van een dataset (SIP) wordt er eerst een bagit van gemaakt. Dat is een soort inventaris: wat zit er in deze dataset? Bagit is een formaat waar basismetadata en een zogeheten checksum aan elke file in een dataset is toegevoegd. De checksum is de vingerafdruk van een file in de dataset. Wat er gebeurt bij het maken van een checksum is dat alle bits op een bepaalde manier bij elkaar opgeteld worden. Als je de checksum van een gedownloade file uitrekent moet die overeenkomen met de opgegeven waarde die is uitgerekend op de server. Zo niet, dan moet er iets zijn misgegaan. Na het baggen van de dataset wordt het geheel in één pakketje gecomprimeerd opgeslagen (gezipt).

Een .zip bestandsformaat is waarschijnlijk het bekendst (application/zip). Application/x-gzip is de afkorting voor GNU zip: Dat is een datacompressieprogramma voor Unix en Linux. 
Unix en Linux zijn zogeheten vrije besturingssystemen (Operating Systems of ook wel kortweg OS). Het staat je vrij Unix/Linux te gebruiken, bestuderen, aan te passen. Misschien ken je de namen van andere Operating Systems beter. Microsoft is het OS van Windows en dat van Apple is Mac OS X (commerciële besturingssystemen). Een besturingssysteem zorgt ervoor dat alle applicaties op je PC goed uitgevoerd kunnen worden.

 

 

Data-interactie

Data-interactie

Datasets met de formaten NetCDF en HDF5 staan niet op de server van 3TU.Datacentrum (Fedora) zelf, maar ze staan op een andere server genaamd 'OPeNDAP'. Datasets op de OPeNDAP server zijn direct benaderbaar vanuit programmeertalen. OPeNDAP communiceert op een bepaalde manier met de data waardoor het lokale data beschikbaar maakt voor lokaties op afstand.

Als je NetCDF of HDF5 data aan elkaar plakt met OPeNDAP dan maak je het makkelijker er een zogeheten query op los te laten die een nauwkeurig omschreven selectie uit de gegevens terug geeft. het DIP dat je ophaalt is dan een deel van de AIP.

Een voorbeeld: de Heavy particles in turbulent flows(5) dataset is opgeslagen in HDF5. De dataset bevat zo'n 30 miljard getallen in vijf dimensies. Het formaat waarin het is opgeslagen, maakt het mogelijk daar een deel van in te zien. Zoals je ziet, bestaat een data file(6) uit 103,2 GB.


Je kunt een uitsnede van de dataset inzien en dat scheelt een hoop downloadtijd.

Een groot deel van de OPeNDAP server is op dit moment zichtbaar gemaakt via de 3TU.Databrowser(7). Je kijkt dus eigenlijk op de OPeNDAP server via de interface van 3TU.Datacentrum.

Voor de liefhebber: Op de wiki van Deltares staat(8) hoe je met OPeNDAP data overweg kunt. 

   Bronnen

Klik om te openen/sluiten

Bronnen

  1. Otto, T.; Russchenberg, H.W.J.; Reinoso Rondinel, R.R.; Unal, C.M.H.. (2010). IDRA weather radar measurements - all data. TU Delft. [dataset]. http://dx.doi.org/10.4121/uuid:5f3bcaa2-a456-4a66-a67b-1eec928cae6d
  2. 4TU.Centre for Research Data. Collection: Darelux - River Environment Luxemburg. Retrieved from https://data.4tu.nl/repository/collection:darelux
  3. Unidata. The NetCDF Markup Language (NcML). Retrieved from http://www.unidata.ucar.edu/software/thredds/current/netcdf-java/ncml/
  4. 4TU.Centre for Research Data. Collection: Traffic flow observations. Retrieved from https://data.4tu.nl/repository/collection:traffic_flow_obs
  5. Lanotte, A.; Calzavarini, E.; Toschi, F.; Bec, J.; Biferale, L.; Cencini, M. (2011). Heavy particles in turbulent flows RM-2007-GRAD-2048. iCFDdatabase. [dataset]. http://dx.doi.org/10.4121/uuid:f7cd7b9d-ae4e-498e-92b4-7efe2d350d86
  6. Datafile. Retrieved from https://data.4tu.nl/repository/uuid:607a19d6-32c0-4b33-a8c1-95293637c2ac
  7. 4TU.Databrowser. Retrieved from https://data.4tu.nl/repository/resource:repository/object/search?q=http://data.3tu.nl/repository/resource:repository/object/search?q=
  8. Deltares. Tech Notes. Retrieved from http://publicwiki.deltares.nl/display/OET/Tech+Notes

Like · Dislike ·  
Not rated yet. Be the first who rates this item!
I like maybeLike · 

No comments

RDNL maakt gebruik van cookies. Meer informatie Sluiten