Organisering av data
Data (og metadata) skal organiserast og strukturerast på ein slik måte at det er oversiktleg og lett å finne fram til riktig versjon og spore eventuelle endringar. Det skal også vere mogleg å opne filene i framtida, sjølv om programvara eller utstyret som er brukt under arbeidet er utgått eller kome i ny versjon. Det er derfor viktig å tenke langsiktig heilt frå starten når det gjeld organisering av datafilene.
Filformat
Det er viktig å tenke på filformat og bruk av open programvare framfor proprietær (produsenteid) programvare. Ved arkivering av datasett, bør dokumentet derfor ofte lagrast i eit anna format enn det som vart brukt undervegs, for eksempel rein tekst framfor Microsoft Word, og CSV framfor Microsoft Excel.
Versjonskontroll
Ofte blir det laga nye versjonar av datafiler, og det anbefalast at kvar ny versjon får eit unikt namn. Vanlege måtar å gjere dette på er å nummerere versjonane, for eksempel «v1», «v2», eller «v2.1». Ein annan metode er å inkludere informasjon om eventuelle endringar som er gjort, for eksempel «cropped» eller «sortert».
Namngiving av filer
For å halde oversikten og for å gjere det mogleg å bruke dataa i framtida, bør ein også vere nøye med namngiving og datering av filer. Her finst det internasjonale konvensjonar som med fordel kan følgast.
Beste praksis | Eksempel | |
---|---|---|
Lengde | Hald filnamna innanfor 32 teikn (helst færre) | 32tegnerakkuratsålangtsomdetteer |
Skiljeteikn | Ikkje bruk*: Mellomrom Bindestrek eller skråstrek Punktum (untatt før filendingar) Spesialteikn (&$#§*^`=()[] osv...) Bruk: Understrek i staden for mellomrom (_) camelCase** (stor bokstav skiljer ord i samanhengande rekke) |
name_date.txt Handout_fileNaming_20180215.pdf |
Datoer | Ver konsekvent i datoformateringa, da blir det lett å sortere filene i etterkant | ÅÅÅÅMMDD |
Nummerering | Bruk to siffer i oppføring av sekvensielle tall. Dette sørger for at filene held seg i riktig rekkefølge når dei sorterast på namn | For en sekvens på 1-10 bruk: 01-10 For en sekvens på 1-100 bruk: 001-010-100 Ikkje bruk: ProjID_v1.csvProjID_v12.csv Bruk: ProjID_v01.csvProjID_v12.csv |
* Spesialteikn som @ og % kan tolkast ulikt av ulike program eller operativsystem. Det same gjeld for mellomrom, viss mellomrommet eigentleg er eit linjeskift. Punktum brukast tradisjonelt berre føre filendingar. Ved å unngå å bruke spesialteikn, fjernast ei stor potensiell feilkjelde i datafilene dine.
** Viss det trengst ein metode for å visuelt skape «skilje» i filnamna dine, prøv «camelCase» (dvs. tekst kor mellomromma mellom orda er erstatta med stor bokstav, f.eks.: myCoolData) og/eller understrek (_). Teiknet for understrek tolkast likt på tvers av program og operativsystem.
Tekst: Open Science Toolbox/Sikt
Lisensiert med CC0