Tjenesteartikkel: Arkivering og publisering av forskningsdata


Tilgjengeliggjøring av forskningsdata er et viktig aspekt ved åpen forskning. Det er også et område hvor mange fagmiljø og institusjoner har lite erfaring. Hvordan kan bibliotek legge til rette for arkivering og publisering av forskningsdata?

Selv om det til nå har vært mest fokus på åpen tilgang til publikasjoner i den norske UH-sektoren, begynner nå flere finansiører å rette oppmerksomheten mot forskningsdata, og krever gjerne at dataene skal gjøres offentlig tilgjengelige så sant det er mulig. 

Ikke alle typer data skal publiseres åpent. Sensitive data, som for eksempel helseopplysninger, forretningshemmeligheter eller data som kan utgjøre en sikkerhetstrussel skal som regel ikke tilgjengeliggjøres, men være «så lukket som nødvendig». Også i slike tilfeller må institusjonen ha en løsning for langtidsarkivering på en sikker måte, og ofte vil publisering av metadata være mulig og tilrådelig.

Selv om en del tidsskrift tilbyr egne publiseringsløsninger for data, er det mest hensiktsmessig å publisere dataene i et arkiv beregnet på forskningsdata. En viktig del av en støttetjeneste for forskningsdata er gi råd til forskere om hvor det er mest hensiktsmessig å arkivere og publisere data, se informasjonsartikkelen Arkivering og publisering av data for informasjon om aktuelle arkiv og forskjellen på disse. I tillegg bør institusjonen vurdere å tilby et institusjonelt arkiv for forskningsdata, som vil kunne være et generisk tilbud til alle forskere og studenter. Et slikt arkiv vil også legge til rette for at faggrupper, institutt og andre enheter på institusjonen kan forvalte samlinger av forskningsdata uten at det er avhengig av enkeltforskere eller forskningsprosjekt med begrenset varighet. I Norge var UiT tidlig ute med eget institusjonsarkiv og drifter i dag det nasjonale dataarkivet DataverseNO som brukes som institusjonsarkiv ved flere norske institusjoner.

 

Tjenester

Som en hovedregel oppfordres det til publisering i fagspesifikke arkiv der det er mulig. Tjenestene re3data og fairsharing gjør det mulig å søke etter egnede arkiv innenfor ulike forskningsfelt og fagområder, og å se i hvilken grad arkivene oppfyller kravene til FAIR data. I tabellen nedenfor listes eksempler på arkiver som dekker flere fagområder: 
 

Navn på tjenesten Hvem kan arkivere og/eller publisere data? Hvilke datatyper og formater støttes? Kostnader Annet
DataverseNO - UiT Forskere ved norske forskningsinstitusjoner. Alle som har en FEIDE-konto kan logge inn. Forskere uten FEIDE-konto kan søke om tilgang.

Alle filformater kan lastes opp, men tjenesten garanterer ikke langtidsbevaring av filer som ikke er i anbefalt format. 

Opplasting via http: maks 10 GB. Større opplastinger via API, kontakt arkivet.

Tjenesten er laget for data som kan ligge åpent tilgjengelig. Mulig å begrense tilgang i en periode

Tjenesten er gratis å bruke for forskerne (maks 10GB for forskere for institusjoner uten avtale).

Sikrer langtidsbevaring av dataene 

Core Trust Seal – sertifisert

Gir datasettene en persistent ID i form av DOI

Data er kuratert før publisering

Zenodo – driftes av EU/CERN Åpent tilgjengelig. Innlogging med GitHub, ORCID eller egenopprettet profil  Støtter alle filformater, opptil 50 GB per datasett Gratis å bruke for enkeltforskere

Gir datasettene en persistent ID i form av DOI

NSDs (nå Sikts) arkivtjenester Datasettene vurderes etter søknad

Tjenesten håndterer alle typer maskinlesbare data.

NSD har kriterier for hvilke data som kan arkiveres. 

Det er mulig å begrense tilgangen til datasettene, men data kan ikke kan ha mer begrensede bruks- og tilgangsbetingelser enn det som er nødvendig.

Tjenesten er gratis å bruke

Sikrer at filformatet egner seg for langtidsbevaring, slik at data kan leses og brukes i minst 10 år.

Gir datasettene en persistent ID i form av DOI

Core Trust Seal - sertifisert

NIRD Research Data Archive – Sigma2 Godkjente brukere (tar opptil tre virkedager å få godkjenning)

Alle filformater(?). 

Brukere av NIRDs lagringstjenester kan overføre data til arkivet direkte

Tjenesten er laget for data som kan ligge åpent tilgjengelig, men det er mulig å begrense tilgangen til noen datasett

Tjenesten er gratis å bruke for forskerne (både opplastning og nedlastning)

Sikrer at dataene er tilgjengelig 10 år etter publiseringsdato 

Gir datasettene en persistent ID i form av DOI

 

Kuratering av data

I bred forstand innebærer kuratering av data alle former for behandling og bearbeiding som har til hensikt å vedlikeholde eller øke brukspotensialet på kort eller lang sikt. Det finnes derfor mange nivå av kuratering, fra manuell kontroll og eventuelt tilføying av manglende metadata og dokumentasjon på datasettnivå, til mer omfattende prosesser der data blir aktivt bearbeidet, tagget med metadata og koblet til andre informasjonskilder.

I de fleste tilfeller brukes kuratering imidlertid om manuell tilrettelegging av datasett for arkivering og publisering i henhold til retningslinjer for spesifikke dataarkiv. Kravene til kuratering er gjerne basert på FAIR-prinsippene og er dermed en prosess som er ment å øke gjenbruksverdien av data. Mye kuratering gjøres av forskere selv, men hvis institusjonen har en egen støttetjeneste for forskningsdata, er det vanlig at noen har rollen som datakurator på et mer overordnet nivå. Dette kan innebære alt fra dialog med forskere om hva som skal til for at datasettet blir godkjent og publisert i det institusjonelle arkivet (eller andre arkiv), til å aktivt gå inn og gjøre endringer (se også informasjonsartikkel om arkivering og publisering av data). 

Kuratering kan være en relativt tidkrevende prosess og er kompetansekrevende. I noen tilfeller er datakurator en egen stillingstittel, og innenfor enkelte fagfelt har det utviklet seg fagspesifikke kuratorroller, for eksempel biokuratorer som kuraterer data for biologiske databaser. For et eksempel på beste praksis for kurateringsprosessen, se DataverseNOs retningslinjer for kuratering.

 

Søk og gjenbruk av data

Gjenbruk av data er et viktig element i åpen vitenskap. En av årsakene til at det lønner seg å publisere datasett gjennom etablerte dataarkiv, er at de da blir enklere å finne. Det finnes flere gode verktøy for å finne aktuelle datasett, og flere former for lisensiering det er lurt å kjenne til, både med tanke på publisering og gjenbruk.

  Bibliotekets tilbud: Organisering og samarbeidspartnere:
Nivå 1:

Nettbasert informasjon om ulike muligheter for arkivering/publisering    
Nettbasert informasjon om tilgjengelige fagspesifikke arkiv og generiske arkivløsninger


Nettbasert informasjon og retningslinjer for arkivering og mulig publisering av sensitive data/persondata 

Nettbasert informasjon om søk og gjenbruk av data

Webredaktør/webansvarlig ved institusjonen 
Nivå 2:

Institusjonsarkiv for forskningsdata

Kuratering av datasett

Kursing og opplæring i datasøk og publisering av data

IT-avdelingen, fakultet, institutt, forskningsadministrasjon 
 
Nivå 3:

Fagspesifikk kuratering av datasett

Tilpasset veiledning for ulike brukergrupper 

IT-avdelingen, fakultet, institutt, forskningsadministrasjonen, fagreferenter/fagansvarlige ved biblioteket 

 

Tekst: Open Science Toolbox/Unit

 


Share: Share to LinkedIn Share to Facebook Share by mail Share to Twitter