
Hoofdlijnen
Waar en op welk opslagmedium slaat een onderzoeker zijn onderzoeksdata op? Hoe gaat hij om met backups en versiebeheer (zie kader)? In deze paragraaf geven we een globaal overzicht van de mogelijkheden.
Opslagmedia
Informatie heeft een informatiedrager - een opslagmedium - nodig. De tijd heeft geleerd dat opslagmedia snel verouderen (zie infographic (1) en (2)). Misschien denkt een onderzoeker nu goed af te zijn als hij zijn data op een USB-stick backupt, maar hoe lang bestaan USB-sticks nog? Kun je de data die op zo'n stick staan er straks nog wel afhalen? Hebben laptops (of aanverwanten) straks nog wel een USB-poort? En zijn data die zijn opgeslagen in een bepaald dataformaat straks nog wel te openen met de software die dan voorhanden is?
Opslagstrategie
Als je data voor een langere termijn leesbaar en bruikbaar wilt houden, dan is het zaak om goed over je strategie na te denken. UK Data Archive heeft de volgende punten(3) op haar lijstje met data storage best practices staan:

Kortetermijnopslag
Voor kortetermijnopslag en backup zijn er grofweg drie mogelijkheden:
- Op een eigen PC of laptop.
Als een onderzoeker vanaf zijn of haar eigen PC of laptop werkt, dan staat daar de zogeheten master file. Een master file is het bestand dat steeds gebruikt wordt op het moment dat de data ingevoerd worden. De backup is het bestand dat gebruikt wordt om data te herstellen als de master file kwijt raakt, beschadigt, per ongeluk verwijderd is of ten onrechte is veranderd. Je kunt op gezette tijden een back-up maken van je masterfile op bijvoorbeeld een USB flash-drive, DVD, CD of externe harde schijf (disk storage).
Vaak werken onderzoekers op meerdere werkplekken. Ze werken bijvoorbeeld op de PC in het lab en op hun laptop thuis en onderweg. Ondertussen delen ze hun onderzoeksdata via cloud services. Natuurlijk kun je kopieën van de ene computer op de andere zetten. Dat betekent alleen wel dat je de bestanden handmatig moet kopiëren en dat je heel makkelijk uit het oog verliest wat de laatste versie van je bestand is (zie ook versiebeheer). In dit geval biedt file synchronization software uitkomst (zoals bijvoorbeeld Syncback.(5)).
- Via centrale opslagvoorzieningen (network storage) bij de instelling waar de onderzoeker werkt.
Als een onderzoeker gebruikt maakt van de network storage faciliteiten van zijn instelling, is het maken van een backup vaak al geregeld. Ook zijn er vaak zogeheten restore-mogelijkheden, waarbij je terug kunt keren naar een oudere versie van de data.
Sommige onderzoeksgroepen leggen zelf een NAS-server aan. Dat is eigenlijk een externe harde schijf met netwerkfaciliteiten. Zo'n NAS-server kun je aansluiten op een computernetwerk en op dat moment kun je vanaf elk aangesloten apparaat bij je bestanden. Al deze PC's delen dan dezelfde backup server. Het inrichten van zo'n NAS-server vergt wel kennis van zaken.
- Via cloud storage diensten met synchronisatie faciliteiten zoals SURFdrive(6) en Dropbox(7).
Met de opkomst van cloud services boet het begrip 'Master file' langzaam aan betekenis in. Met clouddiensten kan je data in de cloud opslaan, data synchroniseren over verschillende apparaten en delen met anderen.- SURFdrive: is een persoonlijke cloudopslagdienst voor de Nederlandse onderwijs- en onderzoeksgemeenschap. Het biedt staf, onderzoekers en studenten een eenvoudige manier om op te slaan, te synchroniseren en om bestanden te delen, alles via de veilige en betrouwbare cloud van de SURF-coöperatie. Gebruikers krijgen 100 GB aan data opslag waarbij online files altijd en overal beschikbaar zijn en tevens synchroniseren met offline bewerkte versies van de files. Gebruikers kunnen ook gastgebruikers toegang verlenen tot hun persoonlijke bestanden. Gegevens gaan te allen tijde versleuteld over het netwerk.
- Dropbox: Dropbox is ook een cloud-gebaseerde dienst en wordt veel gebruikt voor het delen van kleinere hoeveelheden data tussen wetenschappers onderling. Een programma als Dropbox laat zich gemakkelijk downloaden naar de PC. Alle gemaakte wijzigingen in bestanden worden automatisch online bewaard. Als je een online document op een andere computer wijzigt worden deze aanpassingen ook opgeslagen op je eigen PC zodra je deze aanzet (en er een internetverbinding is). Het nadeel van een wereldwijd aanwezige dienst als Dropbox is dat je niet zeker weet of je data veilig is en of er niet iemand meeleest. Om deze reden verkiezen verschillende Nederlandse onderzoeksinstellingen SURFdrive boven Dropbox.
- SURFSpace biedt de mogelijkheid een eigen cloudopslag in te richten (binnen Nederland).(8)
- SURFdrive: is een persoonlijke cloudopslagdienst voor de Nederlandse onderwijs- en onderzoeksgemeenschap. Het biedt staf, onderzoekers en studenten een eenvoudige manier om op te slaan, te synchroniseren en om bestanden te delen, alles via de veilige en betrouwbare cloud van de SURF-coöperatie. Gebruikers krijgen 100 GB aan data opslag waarbij online files altijd en overal beschikbaar zijn en tevens synchroniseren met offline bewerkte versies van de files. Gebruikers kunnen ook gastgebruikers toegang verlenen tot hun persoonlijke bestanden. Gegevens gaan te allen tijde versleuteld over het netwerk.
In onderstaande tabel staan de diverse mogelijkheden - met hun voordelen en nadelen - nog eens op een rijtje. De tabel is met toestemming overgenomen van het Datamanagementplan-template van Wageningen Universiteit.(9)
Storage Solutions | Advantages | Disadvantages | Suitable for |
---|---|---|---|
Personal Computer & Laptop |
Always available Portable |
Drive may fail Laptop may be stolen |
Temporary storage |
Networked drives File servers managed by your university, research group or facilities like a NAS-server |
Regularly backed up Stored securely in a single place |
Costs |
Master copy of your data (if enough storage space is provided ..) |
External storage devices USB flash drive, DVD/CD, external hard drive |
Low cost Portability |
Easily damaged or lost | Temporary storage |
Cloud services |
Automatic synchronization between folders and files Easy to access and use |
It's not sure whether data security is taken care of You don't have direct influence on how often backups take place and by whom |
Data sharing |
Middellangetermijnopslag
SURFsara biedt de BeeHub-dienst aan voor opslag voor de middellange termijn en voor het delen grote hoeveelheden data. Wie is aangesloten bij een van de Nederlandse onderzoeksinstellingen kan gebruikmaken van deze opslag-mogelijkheden op BeeHub. In tegenstelling tot SURFdrive biedt BeeHub geen file-synchronisatie. Wel worden er regelmatige backups gemaakt van de data die zijn opgeslagen op BeeHub. De eerste 100 gigabytes aan opslagruimte worden de gebruikers gratis aangeboden. Voor opslag die daarboven uitgaat moet de gebruiker een schriftelijk verzoek indienen bij SURFsara (https://e-infra.surfsara.nl/).
Langetermijnopslag
Soms loopt een onderzoek een aanzienlijk aantal jaren door en ontstaat er behoefte aan een opslag- en backup-oplossing voor de lange termijn. Het SURFsara Data Archive laat de gebruiker veilig petabytes aan waardevolle onderzoeksdata opslaan. Het Data Archive maakt gebruik van tape library-technieken om datasets voor de lange termijn op te slaan terwijl de data op elk moment toegankelijk blijft. Het voorziet in pure opslag en periodieke backups met twee locaties in Nederland.

Versiebeheer
Als er continu aan de data gewerkt wordt, is het zinvol om een vorm van versiebeheer te introduceren waarmee je de wijzigingen goed kunt volgen. De simpelste manier van versiebeheer is het toevoegen van een nummer aan het eind van een bestand na elke belangrijke wijziging. Bijvoorbeeld experiment_021213_v2.doc.
Ook binnen één file kun je een vorm van versiebeheer toepassen. Bij het onderdeel Datadocumentatie kun je een case lezen waarin een onderzoeker versiebeheer opneemt in haar databestanden door een tabblad 'versiebeheer' toe te voegen.
Sommige programma's hebben een eigen automatische vorm van versiebeheer. Hier rechts zie je daar een voorbeeld van voor het programma Dropbox.
Als onderzoek niet al te complex is, zijn bovenstaande methoden een prima manier voor versiebeheer. Werkt een onderzoeker veel met anderen aan zijn data samen en/of wordt dezelfde dataset continu bewerkt, dan kan een onderzoeker zijn heil zoeken bij versiebeheer software zoals bijvoorbeeld Git(10) (ook gebruikt in Github.(11)).
Bronnen
Jouw toevoegingen
Ken jij voorbeelden van betrouwbare manieren om je data op te slaan en backups te maken? Heb je tips over het omgaan met versiebeheer? Of heb je andere opmerkingen op deze paragraaf? Laat het hieronder weten