Metadata
Kort forklart er metadata «data om data», det vil seie informasjon som beskriv data og gir dei meining. Utan gode metadata vil det ofte vere vanskeleg eller umogleg å forstå informasjonen i datasettet og korleis dataa kan brukast. Metadata er også avgjerande for at dataa skal vere søkbare og gjenfinnbare.
I tillegg til at metadata er viktig for å auke datasettet sin verdi og gjenbrukbarheit for andre, er det også viktig internt i eit prosjekt for å ha oversikt og kontroll over datahandtering og analyse. Metadata skal også kunne publiserast sjølv om sjølve datasettet ikkje kan publiserast.
Typiske metadata er informasjon om kven som har produsert eller er ansvarleg for dataa, kva for fagfelt det er snakk om, kva slags type data det gjeld og kva for format dei er i. Metadataa kan også inkludere informasjon om utstyret eller programvara som er brukt.
Det er viktig å tenke langsiktig, slik at det er mogleg å bruke og nyttiggjere seg metadataa i framtida, når det kanskje ikkje lenger er mogleg å få tak i riktig utstyr eller versjon av programvara. Derfor bør metadata også innehalde opprettingsdato og eventuelt redigeringsdato for datasettet.
Ulike typar metadata
Det skiljast ofte mellom ulike typar metadata.
- Beskrivande - for eksempel namn på forfattar(ar) / forskar(ar), tittel på dokumentet osv.
- Administrative - for eksempel opprettingsdato, versjonering, lisensar
- Strukturelle - for eksempel forholdet mellom filer, betydninga av variablar
- Tekniske - for eksempel informasjon om format og eventuell programvare eller maskinvare
Dette er ikkje ei utfyllande liste, men kan vere eit utgangspunkt for å tenke over kva for metadata som bør vere med for det aktuelle datasettet.
I tillegg kan metadata beskrive ulike nivå. Metadata på prosjektnivå kan beskrive den overordna konteksten kor dataa vart samla, inkludert kva for forskarar som deltok og korleis prosjektet vart finansiert. Metadata om datasettet er meir konkret og detaljert, og kan for eksempel inkludere opplysningar om måleinstrument som vart brukt og beskriving av dei ulike variablane. Oregon State University har utfyllande informasjon og eksempel på metadata på ulike nivå.
På lik linje med data, bør metadataa vere interoperable (ifølge FAIR-prinsippa), noko som inneber at dei skal vere maskinlesbare og bruke konsistente vokabular, dei skal vere standardiserte, og dei skal beskrive datakvaliteten.
Readme-fil
Ein viktig måte å gjere metadata tilgjengelege på, er ei Readme-fil som inneheld informasjon om datasettet. Dette gjer det mogleg for andre å tolke og bruke dataa riktig. Fila bør innehalde informasjon om kva for filer som finst i datasettet og andre viktige metadata, eventuelt ei Readme-fil for kvar datafil i datasettet, samt lisensieringsinformasjon. Readme-fila bør vere i rein tekst.
Man bør også tenke på korleis ein namngir filene og lagrar dei, for at det skal vere lett å finne dei igjen. Det er viktig å ha ein standardkonvensjon for namngiving og internasjonale datogivingar. Sjå også informasjonsartikkelen om organisering av data.
Metadatastandardar
Det finst ei rekke forskjellige metadatastandardar. Nokre er generiske og kan brukast for alle fagfelt, andre er tilpassa spesifikke fag og disiplinar.
Dublin Core er ein generisk metadatastandard som består av ei liste over element for å beskrive eit datasett eller eit anna digitalt objekt. Mange opne dataarkiv bruker Dublin Core som generisk metadatastandard. Det finst også ein eigen variant av Dublin Core for biodiversitetsdata, Darwin Core. Innanfor samfunnsvitskap brukast gjerne DDI (Document Documentation Initiative).
RDA (The Research Data Alliance) har ein katalog over metadatastandardar: Directory of metadata standards.
Tekst: Open Science Toolbox/Sikt