Data opslaan

   Hoofdlijnen

Waar en op welk opslagmedium slaat een onderzoeker zijn onderzoeksdata op? Hoe gaat hij om met backups en versiebeheer (zie kader)? In deze paragraaf geven we een globaal overzicht van de mogelijkheden.

Opslagmedia

Informatie heeft een informatiedrager - een opslagmedium - nodig. De tijd heeft geleerd dat opslagmedia snel verouderen (zie infographic  (1) en (2)). Misschien denkt een onderzoeker nu goed af te zijn als hij zijn data op een USB-stick backupt, maar hoe lang bestaan USB-sticks nog? Kun je de data die op zo'n stick staan er straks nog wel afhalen? Hebben laptops (of aanverwanten) straks nog wel een USB-poort? En zijn data die zijn opgeslagen in een bepaald dataformaat straks nog wel te openen met de software die dan voorhanden is?

Opslagstrategie

Als je data voor een langere termijn leesbaar en bruikbaar wilt houden, dan is het zaak om goed over je strategie na te denken. UK Data Archive heeft de volgende punten(3) op haar lijstje met data storage best practices staan:

Sla data op in een open standaardformaat dat niet gebonden is aan een bepaalde software leverancier (zie ook voorkeursformaten).

Gebruik zelfs voor een kortetermijnproject een data-opslagstrategie waarbij twee verschillende typen opslagmedia gebruikt worden (bijvoorbeeld CD en harddisk).

Kopieer of migreer data elke twee tot vijf jaar naar nieuwe opslagmedia. Opslagmedia degraderen en zijn op termijn niet meer te openen met de dan gangbare hardware en software.

Overschrijf een oude backup niet met een nieuwe backup. Je kunt beter een geheel nieuwe backup maken van files die je veranderd hebt.

Check regelmatig de data-integriteit, bijvoorbeeld met een checksum checker.(4)

Organiseer en documenteer onderzoeksdata. Maak digitale versies van papieren data documentatie in het PDF/A formaat (geschikt voor langetermijnopslag).

Kortetermijnopslag

Voor kortetermijnopslag en backup zijn er grofweg drie mogelijkheden:

  • Op een eigen PC of laptop.

    Als een onderzoeker vanaf zijn of haar eigen PC of laptop werkt, dan staat daar de zogeheten master file. Een master file is het bestand dat steeds gebruikt wordt op het moment dat de data ingevoerd worden. De backup is het bestand dat gebruikt wordt om data te herstellen als de master file kwijt raakt, beschadigt, per ongeluk verwijderd is of ten onrechte is veranderd. Je kunt op gezette tijden een back-up maken van je masterfile op bijvoorbeeld een USB flash-drive, DVD, CD of externe harde schijf (disk storage).
    Vaak werken onderzoekers op meerdere werkplekken. Ze werken bijvoorbeeld op de PC in het lab en op hun laptop thuis en onderweg. Ondertussen delen ze hun onderzoeksdata via cloud services. Natuurlijk kun je kopieën van de ene computer op de andere zetten. Dat betekent alleen wel dat je de bestanden handmatig moet kopiëren en dat je heel makkelijk uit het oog verliest wat de laatste versie van je bestand is (zie ook versiebeheer). In dit geval biedt file synchronization software uitkomst (zoals bijvoorbeeld Syncback.(5)).
     
  • Via centrale opslagvoorzieningen (network storage) bij de instelling waar de onderzoeker werkt.

    Als een onderzoeker gebruikt maakt van de network storage faciliteiten van zijn instelling, is het maken van een backup vaak al geregeld. Ook zijn er vaak zogeheten restore-mogelijkheden, waarbij je terug kunt keren naar een oudere versie van de data.
    Sommige onderzoeksgroepen leggen zelf een NAS-server aan. Dat is eigenlijk een externe harde schijf met netwerkfaciliteiten. Zo'n NAS-server kun je aansluiten op een computernetwerk en op dat moment kun je vanaf elk aangesloten apparaat bij je bestanden. Al deze PC's delen dan dezelfde backup server. Het inrichten van zo'n NAS-server vergt wel kennis van zaken.
  • Via cloud storage diensten met synchronisatie faciliteiten zoals SURFdrive(6) en Dropbox(7).

    Met de opkomst van cloud services boet het begrip 'Master file' langzaam aan betekenis in. Met clouddiensten kan je data in de cloud opslaan, data synchroniseren over verschillende apparaten en delen met anderen. 
    • SURFdrive: is een persoonlijke cloudopslagdienst voor de Nederlandse onderwijs- en onderzoeksgemeenschap. Het biedt staf, onderzoekers en studenten een eenvoudige manier om op te slaan, te synchroniseren en om bestanden te delen, alles via de veilige en betrouwbare cloud van de SURF-coöperatie. Gebruikers krijgen 100 GB aan data opslag waarbij online files altijd en overal beschikbaar zijn en tevens synchroniseren met offline bewerkte versies van de files. Gebruikers kunnen ook gastgebruikers toegang verlenen tot hun persoonlijke bestanden. Gegevens gaan te allen tijde versleuteld over het netwerk.

    • Dropbox: Dropbox is ook een cloud-gebaseerde dienst en wordt veel gebruikt voor het delen van kleinere hoeveelheden data tussen wetenschappers onderling. Een programma als Dropbox laat zich gemakkelijk downloaden naar de PC. Alle gemaakte wijzigingen in bestanden worden automatisch online bewaard. Als je een online document op een andere computer wijzigt worden deze aanpassingen ook opgeslagen op je eigen PC zodra je deze aanzet (en er een internetverbinding is). Het nadeel van een wereldwijd aanwezige dienst als Dropbox is dat je niet zeker weet of je data veilig is en of er niet iemand meeleest. Om deze reden verkiezen verschillende Nederlandse onderzoeksinstellingen SURFdrive boven Dropbox.

    • SURFSpace biedt de mogelijkheid een eigen cloudopslag in te richten (binnen Nederland).(8)


In onderstaande tabel staan de diverse mogelijkheden - met hun voordelen en nadelen - nog eens op een rijtje. De tabel is met toestemming overgenomen van het Datamanagementplan-template van Wageningen Universiteit.(9)

Storage Solutions Advantages Disadvantages Suitable for
Personal Computer & Laptop

Always available

Portable

Drive may fail

Laptop may be stolen

Temporary storage

Networked drives

File servers managed by your university, research group or facilities like a NAS-server

Regularly backed up

Stored securely in a single place

Costs

Master copy of your data

(if enough storage space is provided ..)

External storage devices

USB flash drive, DVD/CD, external hard drive

Low cost

Portability

Easily damaged or lost Temporary storage
Cloud services

Automatic synchronization between folders and files

Easy to access and use

It's not sure whether data security is taken care of

You don't have direct influence on how often backups take place and by whom

Data sharing

 

Middellangetermijnopslag

SURFsara biedt de BeeHub-dienst aan voor opslag voor de middellange termijn en voor het delen grote hoeveelheden data. Wie is aangesloten bij een van de Nederlandse onderzoeksinstellingen kan gebruikmaken van deze opslag-mogelijkheden op BeeHub. In tegenstelling tot SURFdrive biedt BeeHub geen file-synchronisatie. Wel worden er regelmatige backups gemaakt van de data die zijn opgeslagen op BeeHub. De eerste 100 gigabytes aan opslagruimte worden de gebruikers gratis aangeboden. Voor opslag die daarboven uitgaat moet de gebruiker een schriftelijk verzoek indienen bij SURFsara (https://e-infra.surfsara.nl/).

Langetermijnopslag

Soms loopt een onderzoek een aanzienlijk aantal jaren door en ontstaat er behoefte aan een opslag- en backup-oplossing voor de lange termijn. Het SURFsara Data Archive laat de gebruiker veilig petabytes aan waardevolle onderzoeksdata opslaan. Het Data Archive maakt gebruik van tape library-technieken om datasets voor de lange termijn op te slaan terwijl de data op elk moment toegankelijk blijft. Het voorziet in pure opslag en periodieke backups met twee locaties in Nederland.

Versiebeheer

Als er continu aan de data gewerkt wordt, is het zinvol om een vorm van versiebeheer te introduceren waarmee je de wijzigingen goed kunt volgen. De simpelste manier van versiebeheer is het toevoegen van een nummer aan het eind van een bestand na elke belangrijke wijziging. Bijvoorbeeld experiment_021213_v2.doc.

Ook binnen één file kun je een vorm van versiebeheer toepassen. Bij het onderdeel Datadocumentatie kun je een case lezen waarin een onderzoeker versiebeheer opneemt in haar databestanden door een tabblad 'versiebeheer' toe te voegen. 

Sommige programma's hebben een eigen automatische vorm van versiebeheer. Hier rechts zie je daar een voorbeeld van voor het programma Dropbox.   

Als onderzoek niet al te complex is, zijn bovenstaande methoden een prima manier voor versiebeheer. Werkt een onderzoeker veel met anderen aan zijn data samen en/of wordt dezelfde dataset continu bewerkt, dan kan een onderzoeker zijn heil zoeken bij versiebeheer software zoals bijvoorbeeld Git(10) (ook gebruikt in Github.(11)).

   Bronnen

Klik om te openen/sluiten
  1. Mashable. (2011). The history of digital storage. Mashable Infographics. Retrieved from http://mashable.com/2011/10/08/digital-storage-infographic/
  2. Mozy. (2011). The past, present and future of data storage. Retrieved from http://mozy.com/infographics/the-past-present-and-future-of-data-storage/
  3. UK Data Archive. (2011). Managing and sharing data. Retrieved from http://www.data-archive.ac.uk/media/2894/managingsharing.pdf
  4. National Archives of Australia. Checksum Checker. Retrieved from http://checksumchecker.sourceforge.net/ 
  5. Dropbox. Retrieved from https://www.dropbox.com/
  6. SURFdrive. Retrieved from https://www.surfdrive.nl/en
  7. 2BrightSparks. Syncback: backup software. Retrieved from http://www.2brightsparks.com/syncback/
  8. Vanderfeesten, M. Maak je eigen cloudopslag. Retrieved from https://www.surfspace.nl/artikel/1151-maak-je-eigen-cloudopslag/
  9. Wageningen Universiteit. Data Management Plans. Retrieved from http://www.wageningenur.nl/en/Expertise-Services/Data-Management-Support-Hub/Browse-by-Subject/Storage-solutions.htm (zie het DMP Template)
  10. Git, fast version control. Retrieved from git-scm.com
  11. Github. Retrieved from https://github.com/

Verder lezen

   Jouw toevoegingen

Ken jij voorbeelden van betrouwbare manieren om je data op te slaan en backups te maken? Heb je tips over het omgaan met versiebeheer? Of heb je andere opmerkingen op deze paragraaf? Laat het hieronder weten


botMessage_toctoc_comments_9210