Data opslaan

Onderzoekers staan te trappelen om hun data veilig op te slaan | Renate Mattiszik

Waar en hoe slaan onderzoekers hun onderzoeksdata tijdens het onderzoek het beste op? Hoe kunnen zij het beste omgaan met backups en versiebeheer? Hoe kunnen zij onderzoeksdata uitwisselen met anderen? Hoe kunnen zij onderzoeksgegevens beschermen tegen onopzettelijk verlies en tegen ongeoorloofde manipulatie? In deze paragraaf geven we een globaal overzicht van de mogelijkheden.

De uitdagingen van dataopslag

De twee infographics The evolution of data storage (GoCanvas, 2014) en The history of digital storage (Mashable, 2011) geven een mooie blik op de vergankelijkheid van opslagmedia, de dragers van informatie. Misschien dacht een onderzoeker ooit goed bezig te zijn met een backup van de onderzoeksdata op een USB-stick, maar hoe lang bestaan deze nog? Kun je de data die op zo'n stick staan er straks nog wel afhalen? Zo hebben bijvoorbeeld lang niet alle laptops nog een USB-poort. En als de data al van zo'n stick afgehaald kunnen worden, kunnen ze dan nog wel gelezen worden door de dan gebruikte software? En hoe voorkom je dat je data op straat komen te liggen bij verlies? Er zijn volop data horror stories (Pinboard, n.d.) die het risico op dataverlies meer dan aanschouwelijk maken.

Onderzoeksdata kunnen grofweg op twee manieren onleesbaar worden:

Het verlies van bits

De informatiedrager gaat zo in kwaliteit achteruit dat er spontaan bits - de volgorde van nullen en enen - veranderen. Informeel wordt dit ook wel bit rot genoemd. Het verlies van bits kan bijvoorbeeld optreden door een virus, brand, het per ongeluk wissen van bestanden, het kwijtraken ervan maar ook spontane bit rot treedt na verloop van tijd op.

Om ervoor te zorgen dat volgorde van nullen en enen intact blijft, kun je de volgende maatregelen nemen (Netwerk Digitaal Erfgoed (n.d.)):  

  • Het onderhouden van on-site en off-site backups
  • Het regelmatig uitvoeren van een viruscheck;
  • Het kopiëren van bestanden naar nieuwe opslagmedia;
  • Het regelmatig checken van de data integriteit met een checksum (TRACKS, n.d.).  

Het verlies van de weergavemogelijkheid

Onderzoeksdata kunnen niet meer worden weergegeven als de geschikte combinatie van het operating system, de hardware en de toepassing niet meer bestaat, niet meer te gebruiken of na te bootsen is. Om de kans op het verlies van weergavemogelijkheid in te dammen, kunnen bijvoorbeeld de volgende maatregelen worden getroffen: 

  • Data opslaan in open dataformaten;
  • De gebruikte of ontwikkelde software en documentatie opslaan;
  • Het nabootsen van verouderde soft- en hardwareomgevingen zodat oude bestanden toch gebruikt kunnen blijven worden. Deze laatste strategie heet emulatie en is een stuk ingewikkelder en duurder dan de voorgaande twee.

Ricardo Seguel is een van de onderzoekers (4TU.Centre for Research Data. n.d.) die na zijn onderzoek naast zijn data ook zijn prototype software tool archiveerde bij 4TU.Centre for Research Data. Zo houdt hij zijn data niet alleen leesbaar, maar kunnen andere onderzoekers ook zijn experimenten herhalen. 

Opslagstrategie

Als je data tijdens het onderzoek leesbaar en bruikbaar wilt houden, dan is het zaak om goed over een opslagstrategie na te denken. De volgende vragen zijn daarbij van belang:  

  • Hoe groot is de dataset?
  • Gaat het om 'actieve' data?   
  • Voor welke termijn moet de dataset opgeslagen worden?  
  • Moet de software ook worden opgeslagen? 
  • Gaat het om privacygevoelige of vertrouwelijke data?
  • Wie heeft wanneer toegang nodig? Gaat het om datasets waar meerdere onderzoekers van meerdere instellingen aan moeten kunnen werken?
  • Hoe vaak moet de data worden geback-upt? 
  • Welke voorzorgsmaatregelen zijn er nodig om de data tegen verlies te beschermen? 
  • Moeten de data versleuteld worden? 

Over de voor- en nadelen van verschillende typen oplossingen, heeft CESSDA (n.d.a.) een uitgebreid overzicht gemaakt.    

Opties voor dataopslag tijdens het onderzoek in NL

Voor opslag van individuele data en backup tijdens het onderzoek, zijn binnen de meeste instellingen oplossingen voorhanden op lokale (netwerk)schijven. Vaak willen onderzoekers de data echter ook delen en/of willen ze samenwerken aan de data met anderen van buiten hun eigen instelling. In de onderstaande illustratie staat een aantal oplossingen die in Nederland gebruikt worden weergegeven, onderverdeeld naar het doel dat onderzoekers hebben met de data. 

  • Data opslaan 
    SURFDrive (SURF, n.d.a.) wordt door veel onderzoekers in Nederland gebruikt voor persoonlijke opslag. 
  • Samenwerken aan data
    • Figshare for institutions
      De Universiteit van Amsterdam (UvA) en de Hogeschool van Amsterdam (HvA) bieden hun onderzoekers Figshare (UvA, 2017). Onderzoekers kunnen hun onderzoeksdata in de op maat gemaakte Figshare omgeving (Figshare, n.d.) tijdens het onderzoek veilig opslaan en delen met andere onderzoekers. Na voltooiing van hun onderzoek kunnen onderzoekers met hetzelfde systeem hun onderzoeksdata publiceren en archiveren. 
    • Research Drive
      In de komende paragraaf kun je een interview lezen over hoe hogeschool Saxion Research Drive van SURF (n.d.b.) heeft ingebed in de onderzoeksketen. Bij ResearchDrive beheert en monitort een data steward of hoofdonderzoeker de projectomgeving, zoals het beheren van gebruikers, toekennen van rechten en permissies, uitdelen van quota, overdracht van data en het afsluiten van de projectomgeving als een onderzoeksproject is afgerond. Deze mogelijkheden zitten in Research Drive maar niet in SURFdrive.
    • DataverseNL
      DataverseNL (DANS, n.d.) wordt bijvoorbeeld gebruikt door Avans Hogescholen en meerdere universiteiten in Nederland. In een casus op de website van de Vrije Universiteit Amsterdam (2019) vertelt Universitair Docent Sander Groffen van de afdeling Functionele Genoomanalyse (VU, Science /VUmc) hoe hij Dataverse gebruikt om data op te slaan, te delen en te archiveren.
  • Data versturen
    SURFfilesender (SURF, n.d.c.) wordt door veel Nederlandse onderzoekers voor het veilig versturen van data. 

 

Een voordeel van bovenstaande oplossingen is dat de data zijn opgeslagen in Nederland. De AVG schrijft voor dat persoonsgegevens alleen opgeslagen mogen worden binnen de Europese Economische Ruimte (Europese Unie, 2016). Een dienst zoals bijvoorbeeld Dropbox (n.d.), waar de data in de VS zijn opgeslagen, voldoet hier niet aan.  

Naast deze 'nationale oplossingen', behoort ook cloudopslag op Europees niveau bij B2drop (EUdat, n.d.) tot de mogelijkheden.

De oplossingen voor langetermijnopslag komen in hoofdstuk IV aan bod. Je zult zien dat sommige oplossingen zowel gelden voor tijdens als na het onderzoek. 

In de spotlight


Cursus om onderzoekers te leren om hun software code op te slaan en te delen

Module 5 van de Open Science MOOC leert onderzoekers om in drie stappen hun software code op te slaan en te delen (Tennant, 2018). 

Tips voor versiebeheer

Als er continu aan de data gewerkt wordt, is het zinvol om een vorm van versiebeheer te introduceren waarmee je de wijzigingen goed kunt volgen. De simpelste manier van versiebeheer is het toevoegen van een nummer aan het eind van een bestand na elke belangrijke wijziging. Bijvoorbeeld experiment_021213_v2.doc.

Ook binnen één file kun je een vorm van versiebeheer toepassen. Bij het onderdeel Datadocumentatie kun je een case lezen waarin een onderzoeker versiebeheer opneemt in haar databestanden door een tabblad 'versiebeheer' toe te voegen. 

Sommige programma's en virtuele onderzoeksomgevingen hebben een eigen automatische vorm van versiebeheer.  Bij het werken met code/software, is het bijvoorbeeld zinvol om een tool zoals GitHub (n.d.), Git (n.d.) of SVN (Apache, n.d.) te gebruiken. Op het weblog Backlog staat een vergelijking tussen Git en SVN (Backlog, 2018).

Meer tips nodig? 

Tips om data veilig te houden

Data security is het geheel aan maatregelen om persoonsgegevens en vertrouwelijke informatie te beschermen tegen ongeoorloofde manipulatie of verwijdering van bestanden (opzettelijk of onopzettelijk). Het veilig houden van data gebeurt op meerdere niveaus:

  • Beleid
    Vrijwel elke organisatie heeft informatiebeveiligingsbeleid. 
  • Organisatorische maatregelen, zoals: 
    • Benoem verantwoordelijkheden;
    • Registreer wie er toegang heeft tot de gegevens.​​​ Gebruik bijvoorbeeld een tool als SURF Research Access Management (SURF, n.d.d.) voor het beheren van toegang tot onderzoeksdata of applicaties. 
  • Technische maatregelen, zoals: 
    • Gebruik een firewall om de PC tegen virussen te beschermen en voer geregeld een virusscan uit. Dit is doorgaans geregeld op centraal niveau van de instelling; 
    • Installeer altijd de updates voor besturingssysteem en software;
    • Gebruik alleen beveiligde draadloze netwerken. Of gebruik EduVPN van SURF (n.d.e). Hiermee kun je veilig op onbeveiligde draadloze netwerken surfen;    
    • Gebruik Edu.nl (SURF. n.d.f.) om veilige korte URL's te maken;
    • Beheer de toegang tot een bestand met een wachtwoord;
    • Versleutel de bestanden. (Encryptie). Zo worden bestanden onleesbaar voor wie de 'sleutel' niet heeft. Veel gebruikte tools voor encryptie staan op de website van UK Data Service (n.d.); 
    • Verstuur gevoelige data nooit via e-mail of FTP, maar gebruik bijvoorbeeld SURFfilesender (n.d.c.). Bestanden kunnen hiermee met encryptie verstuurd worden;
    • Vergrendel de computer als deze alleen wordt gelaten, zelfs al is het maar voor een moment (Windows-toets + L of voor Mac: ⌘+ Control + Q); 
    • Voorkom het overschrijven of verwijderen van een bestand door het 'alleen lezen' te maken.

Meer tips zijn te vinden in de CESSDA Data Management Expert Guide (n.d.c).


Bronnen 

Klik om te openen/sluiten

4TU.Center for Research Data (n.d.). Researchers about us. https://researchdata.4tu.nl/en/about-4turesearchdata/researchers-about-us/

Apache (n.d.). Apache Subversion https://subversion.apache.org/

Backlog (2018, 4th of April). Git vs. SVN: Which version control system is right for you? https://backlog.com/blog/git-vs-svn-version-control-system/

CESSDA (n.d.a.). Data Management Expert Guide. Storage. https://www.cessda.eu/Training/Training-Resources/Library/Data-Management-Expert-Guide/4.-Store/Storage

CESSDA (n.d.b.). Data Management Expert Guide. Data authenticity. https://www.cessda.eu/Training/Training-Resources/Library/Data-Management-Expert-Guide/3.-Process/Data-authenticity

DANS (n.d.). DataverseNL. https://dans.knaw.nl/nl/over/diensten/DataverseNL/DataverseNL?set_language=nl

Dropbox (n.d.). https://www.dropbox.com/

EUDAT (n.d.). B2Drop. https://eudat.eu/services/b2drop 

Europese Unie (2016). AVG. https://eur-lex.europa.eu/legal-content/NL/TXT/PDF/?uri=CELEX:32016R0679&from=en

Figshare (n.d.). Discover research from University of Amsterdam / Amsterdam University of Applied Sciences. https://uvaauas.figshare.com/

Git (n.d.) https://git-scm.com/

GitHub (n.d.). https://github.com/

GoCanvas (2014). The evolution of data storage. [Infographic]. https://www.slideshare.net/GoCanvas/historyofdatastor

Tennant, J., Worthington, S., Allard, T, Zumstein, P., Katz, D.S., Morley, A., Druskat, S., Colomb, J., Smith, A., Smith, I., Steiner, T., Vos, R., Förstner, K., Seibold. H., Saretta, A., Mayes, A.C., (2018, December 4). OpenScienceMOOC/Module-5-Open-Research-Software-and-Open-Source: Third release (Version 3.0.0). Zenodo. http://doi.org/10.5281/zenodo.1937708. Alsol see https://eliademy.com/catalog/oer/module-5-open-research-software-and-open-source.html

Mashable. (2011). The history of digital storage. Mashable Infographics. Retrieved from http://mashable.com/2011/10/08/digital-storage-infographic/

Netwerk Digitaal Erfgoed (n.d.). Leren Preserveren. Bit preservering [cursus'. https://lerenpreserveren.nl/topic/bit-preservering/

Pinboard (n.d.). Data horror stories. https://pinboard.in/u:dsalo/t:horrorstories/t:datacuration

SURF (n.d.a.). SURFdrive. https://www.surf.nl/bewaar-en-deel-je-bestanden-veilig-in-de-cloud-met-surfdrive

SURF (n.d.b.). Research Drive. https://www.surf.nl/research-drive-onderzoeksdata-veilig-en-eenvoudig-opslaan-en-delen

SURF (n.d.c.). SURFfilesender. https://www.surf.nl/surffilesender-veilig-en-versleuteld-grote-bestanden-versturen

SURF (n.d.d.). Science Collaboration Zone Home. https://wiki.surfnet.nl/display/SCZ

SURF (n.d.e.). eduVPN. https://www.surf.nl/en/eduvpn

SURF (n.d.f.). edu.nl. De URL-shortner voor onderwijs en onderzoek met respect voor privacy. https://edu.nl/

TRACKS (n.d.). Checksums als middel om de integriteit van bestanden te bewaken. https://www.projecttracks.be/nl/tools/detail/checksums-als-middel-om-de-integriteit-van-bestanden-te-bewaken

UK Data Service (n.d.). Data encryption. https://www.ukdataservice.ac.uk/manage-data/store/encryption

Vrije Universiteit Amsterdam (2019). ‘In Dataverse kan ik mijn data makkelijk opslaan, archiveren en delen’. [Nieuwsbericht] https://www.ub.vu.nl/nl/nieuws-agenda/nieuwsarchief/2019/jan-mrt/in-dataverse-kan-ik-mijn-data-makkelijk-opslaan-archiveren-en-delen.aspx