Organisering av data



Data (og metadata) skal organiserast og strukturerast på ein slik måte at det er oversiktleg og lett å finne fram til riktig versjon og spore eventuelle endringar. Det skal også vere mogleg å opne filene i framtida, sjølv om programvara eller utstyret som er brukt under arbeidet er utgått eller kome i ny versjon. Det er derfor viktig å tenke langsiktig heilt frå starten når det gjeld organisering av datafilene.

 

Filformat

Det er viktig å tenke på filformat og bruk av open programvare framfor proprietær (produsenteid) programvare. Ved arkivering av datasett, bør dokumentet derfor ofte lagrast i eit anna format enn det som vart brukt undervegs, for eksempel rein tekst framfor Microsoft Word, og CSV framfor Microsoft Excel.  

 

Versjonskontroll

Ofte blir det laga nye versjonar av datafiler, og det anbefalast at kvar ny versjon får eit unikt namn. Vanlege måtar å gjere dette på er å nummerere versjonane, for eksempel «v1», «v2», eller «v2.1». Ein annan metode er å inkludere informasjon om eventuelle endringar som er gjort, for eksempel «cropped» eller «sortert».

 

Namngiving av filer

For å halde oversikten og for å gjere det mogleg å bruke dataa i framtida, bør ein også vere nøye med namngiving og datering av filer. Her finst det internasjonale konvensjonar som med fordel kan følgast.

 

Korleis namngi filer:

 

Beste praksis

Eksempel

Lengde

Hald filnamna innanfor 32 teikn (helst færre)

32tegnerakkuratsålangtsomdetteer

Skiljeteikn

Ikkje bruk*:

Mellomrom

Bindestrek eller skråstrek

Punktum (untatt før filendingar)

Spesialteikn (&$#§*^`=()[] osv...)

Bruk:

Understrek i staden for mellomrom (_)

camelCase** (stor bokstav skiljer ord i samanhengande rekke)

 

 

 

 

 

 

 

 

name_date.txt

Handout_fileNaming_20180215.pdf

Datoer

Ver konsekvent i datoformateringa, da blir det lett å sortere filene i etterkant

ÅÅÅÅMMDD

Nummerering

Bruk to siffer i oppføring av sekvensielle tall.

Dette sørger for at filene held seg i riktig rekkefølge når dei sorterast på namn

For en sekvens på 1-10 bruk: 01-10

For en sekvens på 1-100 bruk: 001-010-100

Ikkje bruk: ProjID_v1.csvProjID_v12.csv

Bruk:

ProjID_v01.csvProjID_v12.csv

 

* Spesialteikn som @ og % kan tolkast ulikt av ulike program eller operativsystem. Det same gjeld for mellomrom, viss mellomrommet eigentleg er eit linjeskift. Punktum brukast tradisjonelt berre føre filendingar. Ved å unngå å bruke spesialteikn, fjernast ei stor potensiell feilkjelde i datafilene dine.  

** Viss det trengst ein metode for å visuelt skape «skilje» i filnamna dine, prøv «camelCase» (dvs. tekst kor mellomromma mellom orda er erstatta med stor bokstav, f.eks.: myCoolData) og/eller understrek (_). Teiknet for understrek tolkast likt på tvers av program og operativsystem. 

 

Tekst: Open Science Toolbox/Unit

References


Share: Share to LinkedIn Share to Facebook Share by mail Share to Twitter