NIB analysepilot


Analysepiloten består av R-script som gjør det enklere å hente data fra NIB og kjøre enkle bibliometriske analyser. Piloten er ment å demonstrere at veien fra data i NIB til bibliometriske analyser ikke nødvendigvis er uoverkommelig. Datasettet er begrenset til norske publikasjoner og tilrettelagt for enkelt-institusjoner.

Noe av utfordringen med bibliometriske analyser er at prosessen er komplisert.  NIB-databasen krever SQL-kompentanse for å hente data, datamodellene er kompliserte og de bibliometriske data man får ut av systemet er som regel ikke tilpasset eksisterende analyseverktøy. Til sammen gjør dette brukerterskelen høy for utnyttelse av NIB. 
Analysepiloten er utviklet med ideen å demonstrere at avstanden mellom data og analyse kan være overkommelig gjennom å strømlinjeforme og forenkle mange operasjoner i prosessen. Det forutsettes at en bruker har en konto i NIB-basen med tilgang til WoS og/eller OpenAlex, samt installert R på maskinen.

Før man evt. laster ned og tester ut analysepiloten, så er det mulig å se et eksempel på resultat-fil. Eksempelet er fra en kjøring basert på WoS-data og inneholder alle tabeller og grafer som blir generert av piloten i separate faner i et regneark.
Last ned regnearket
 

Piloten er basert på:

  • En forenklet datamodell av WoS og OpenAlex gjennom “materialized views” (MV).  MV'er er egnet til å skreddersy spørringer, utvalg og dataformat til noe som er lett forståelig, tilpasset bruksområdet og samtidig skjule kompleksitet i basen. Et MV kan sees på som et predefinert datasett.
  • Enkel og delvis automatisert nedlasting av data-sett fra NIB. De predefinerte datasettene i MV'ene kan enkelt hentes ned og anvendes i piloten. De kan også manuelt eksporteres til f.eks. csv-format og brukes i andre programmer.
  • Samkjøring av NIB-data med NVA/Cristin-data. Noe av styrken til NIB er å kunne utnytte Cristin-data for analyser av det norske hjørnet av global publisering.
  • Predefinerte  enkle bibliometriske analyser. R-scriptene inneholder et utvalg generiske analyser.

Funksjonalitet

Piloten gir mulighet til å:

  • Hente ferske data fra WoS og/eller OpenAlex og samkjøre de med forhåndslastede NVA/Cristin-data. Det overordnede datasettet tar utgangspunkt i alle vitenskapelige NVA/Cristin-poster i perioden 2010-2024.
  • Limitere datasettet ytterligere på:  
    • Tid (f.eks 2019-2023)
    • Institusjon (via cristin-institusjonsnummer)
    • NVI-status (f.eks. kun NVI-artikler)
  • Foreta analyser. Grafer blir eksportert som bildefiler, alle grafer og tabeller blir også eksport i eget regneark for videre bearbeiding.
    • 9 eksempel-analyser for datasettet som tar utgangspunkt i WoS.
    • 7 eksempel-analyser for datasettet som tar utgangspunkt i OpenAlex.
    • Tabellene som ligger til grunn for grafene, kan visualiseres i egne mer tilpassede grafer i regnearket som blir generert.
  • Eksportere data for bruk i andre verktøy.
  • Kjøre prosessen nesten automatisk. Man må sette noen parametere første gang, men senere kjøringer kan gå automatisk.
  • Lage egne analyser i R (krever programmering).

Begrensninger

Piloten har en rekke begrensninger

Graf fra analysepiloten
  • Støttes kun av R. Skriptene er ikke produksjonsklare og kan inneholde bugs.
  • De bibliometriske analysene er enda ikke verifiserte og kan foreløpig ikke anvendes for annet enn demo-formål.
  • De fleste analyser er naturlig begrenset av matchingen mellom NIB-basene og NVA/Cristin. Uten en gjenpart av en cris-post i NIB-systemet, vil posten ekskluderes fra analyser som bruker NIB-data.
  • Utgivelsesår kan være forskjellig mellom baser og mellom basene og NVA/Cristin. Dette gjør bibliometriske analyser sensitive overfor hvorvidt man bruker WoS eller OpenAlex-årstall.
  • Analysepiloten fjerner ikke all kompleksistet. Arbeid med bibliometriske analyser er en komplisert prosess og det kreves noe teknisk kompetanse på R.
  • Datasettet er begrenset til det norske domenet, det er ikke mulig å kjøre analyser på verdensdata.
  • Datasettet som hentes fra NVA/Cristin kan foreløpig ikke hentes via API slik som med NIB-data. Dette blir endret når NVA har lansert API'et for tjenesten.

Merk også at det medfølgende datasettet med NVA/Cristin-data er basert på kategoriseringen av åpen tilgang-valører som brukes i OA-barometeret. (Les mer om kilder for OA-merking i metodebeskrivelsen for OA-barometeret). Denne klassifiseringen er kun tilgjengelig med datasettet som følger med piloten og er heller ikke en del av datagrunnlaget i NVA.

Videreutvikling

I den store sammenhengen er analysepiloten utviklet som et første steg i en mulig prosess der skriptene utvides med nye analyser, grafer og tabeller, der eksisterende analyser verifiseres og brukervennligheten økes med nye og forbedrede funksjoner.  Hvorvidt det satses på en slik utvikling er helt avhengig av interessen blant brukerne. Hvis brukere ser et potensial for stor nytteverdi med analysepiloten og ønsker videreutvikling, så vil Sikt arbeide for dette sammen med bibliometriforum. 

Det er derfor viktig at brukere gir oss tilbakemelding på piloten, helst gjennom bibliometriforum. Vi er svært interessert i hva som fungerer og ikke, forslag til forbedringer, ønsker om ny funksjonalitet og ikke minst om brukerne mener dette kan utvikles til en tjeneste som kan brukes i det daglige arbeidet. 

Last ned script og data fra: https://gitlab.sikt.no/openscience-no/nib/nib_analytics_pilot 

Her finnes også informasjon om hvordan å komme i gang.

 

 


Del: Share to LinkedIn Share by mail