Arkivering og publisering av forskningsdata



Tilgjengeliggjøring og langsiktig forvaltning av forskningsdata er et viktig aspekt ved åpen forskning. Med nye digitale teknologier og en økning i datamengde, har det også blitt mer fokus på tilgjengeliggjøring av grunnlagsdataene for sammenstilling, deling og gjenbruk. 
 

Arkivering av data

Arkivering av data skjer etter at prosjektet er ferdig og må ikke forveksles med aktiv lagring av data som er i bruk i løpet av prosjektperioden. Ofte er det snakk om lukket arkivering av data som i utgangspunktet ikke skal deles med andre. Innen helseforskning vil for eksempel REK (Regional Etisk Komite) i mange tilfeller stille krav til arkivering av data etter at prosjekter er fullført. Dette er primært med tanke på ettersyn og er vanligvis for en begrenset tidsperiode. Det finnes også andre tilfeller der datasettet skal bevares med tilgangsbegrensning. Sikt drifter et av de mest brukte arkivene i Norge for forskningsdata som ikke kan publiseres med åpen tilgang.

Publisering av data

Når data arkiveres ved prosjektslutt, bør det også vurderes om det er mulig å publisere dataene åpent. Forskning er en kollektiv virksomhet der ny forskning bygger på tidligere forskning og kunnskap, og Kunnskapsdepartementet har i sin Nasjonal strategi for tilgjengeliggjøring og deling av forskningsdata som et av sine grunnprinsipp at forskningsdata skal være «så åpne som mulig, så lukkede som nødvendig». Det stilles også krav og forventinger til deling og publisering fra forskningsfinansiører, inkludert Forskningsrådet og EU (se også seksjonen om strategier, retningslinjer og initiativ).

De generelle forskningsetiske retningslinjene slår blant annet fast at forskningsprosessen må være åpen for innsyn og være etterprøvbar, og publisering av forskningsdata spiller derfor en rolle i å sikre forskningens troverdighet. I tillegg vil publisering og deling kunne hindre uhensiktsmessig dobbeltarbeid, da dataene kan gjenbrukes.

Publisering av forskningsdata kan også gi praktiske fordeler for forskeren/institusjonen ved å bidra til:

  •     Bedre synlighet 
  •     Muligheter for å utvide nettverk/nye samarbeidspartnere
  •     Bedre kvalitet - andre kan gjenskape og validere resultatene 
  •     Persistens – dataene forsvinner ikke

Hvordan publisere data?

Det finnes flere muligheter for publisering av data. Datasett kan publiseres som et vedlegg eller supplement til en artikkel, eller publiseres som et eget «data paper» i et datatidsskrift, for eksempel Nature Scientific Data (sistnevnte skjer gjerne i kombinasjon med arkivering og publisering gjennom et dataarkiv). Noen tidsskrift og forlag tilbyr også publisering av data gjennom egne plattformer, men det er viktig å merke seg at bruken av datasettet da kan begrenses. 

Det mest hensiktsmessige er som regel å publisere data gjennom et åpent dataarkiv som oppfyller visse krav og tildeler en egen DOI (digital object identifier) eller en annen form for persistent identifikator. Det finnes et stadig økende antall arkiv for forskningsdata, både fagspesikke og generelle. Som en hovedregel oppfordres det til publisering i fagspesifikke arkiv der det er mulig. Tjenesten re3data gjør det mulig å søke etter egnede arkiv innenfor ulike forskningsfelt og fagområder, og å se i hvilken grad arkivene oppfyller kravene til FAIR data.

I tillegg finnes det en rekke generelle, eller generiske, arkiv for åpne forskningsdata:

  • Zenodo er et godt kjent arkiv som driftes av EU/CERN. Her kan man publisere og finne data (og andre typer publikasjoner og ressurser, inkludert datahåndteringsplaner) fra alle vitenskapsdisipliner. Det er gratis å bruke for enkeltforskere.
  • NIRD driftes av Uninett Sigma2 og er særlig egnet for store datasett produsert gjennom Uninett Sigma 2s tjenester for tungregning. 
  • Dryad er er et åpent tverrfaglig arkiv for forskningsdata, men hvor hoveddelen av datasettene er fra naturvitenskapene. Dryad tar en avgift for å publisere datasett (Data Publishing Charges), og har kuratorer som går gjennom datasett før publisering. En del tidsskrift har avtaler med Dryad. 

Mange institusjoner har etter hvert opprettet egne åpne institusjonelle dataarkiv for publisering av datasett som ikke har et egnet fagspesifikt arkiv. 

  • DataverseNO brukes som institusjonsarkiv av flere norske universitet og inneholder i tillegg et tverrinstitusjonelt arkiv for språkdata (TROLLing). DataverseNO driftes av UiT og benytter programvaren Dataverse, som er basert på åpen kildekode. 
  • Figshare brukes også som institusjonsarkiv av flere universitet i utlandet, og i Norge brukes det av Universitetet i Sørøst-Norge (USN). Det er også mulig for enkeltforskere å publisere datasett og andre typer ressurser og resultater gjennom Figshare.

Det finnes også tilfeller der datasett publiseres med begrenset tilgang, men hvor metadata kan være åpent tilgjengelig. Dette gjelder særlig datasett som inneholder personopplysninger. Sikt tar vare på data innenfor områdene samfunnsvitenskap, humaniora, miljø- og utviklingsforskning samt deler av medisinsk og helsefaglig forskning, og kan utlevere data etter kriterier fastsatt av forskeren. Med tanke på kvalitative data, anbefaler NSD at informantene har gitt samtykke til begrenset publisering av indirekte personopplysninger. Grunnen er at fullstendig anonymisering kan være utfordrende og ressurskrevende å gjennomføre i praksis og gjenbruksverdien av datasettet vil som regel begrenses. Hvis informantene har samtykket til at indirekte identifiserende data kan arkiveres og deles under visse forutsetninger, kan datasettet likevel deles uten å måtte anonymiseres fullstendig.

For mer informasjon om arkiv, se tjenesteartikkel om arkivering og publisering.

Tekst: Open Science Toolbox/Unit

Referanser


Del: Share to LinkedIn Share to Facebook Share by mail Share to Twitter