Arendalsuka

Første offentlige visning av NorGPT: - Regjeringen må kjenne sin besøkelsestid

Torsdag ble en ny norsk språkmodell lansert på Arendalsuka. Den kan bli redningen for det norske språket, men til dette trenger de store ressurser. 

På dagens visning av NorGPT var alle enige om at det ligger mye potensiale i en norsk generativ språkmodell. Fra venstre: kommunikasjonsleder Rolf Dyrnes Svendsen i NorwAI, data- og teknologidirektør Sven Størmer Thaulow i Schibsted, direktør Jon Atle Gulla for NorwAI, divisjonsdirektør Yngvar Ugland ved DNB Newtechlab og Sigbjørn Gjelsvik, kommunal- og distriktsminister.
Publisert Sist oppdatert
Fakta

Hva er en GPT?

  • En generativ språkmodell er trent til å generere tekst eller tale som ligner menneskelig skapt språk. Den bruker avanserte algoritmer og store mengder tekstdata for å forstå språklige strukturer, mønstre og sammenhenger. 
  • Når den blir bedt om en bestemt oppgave, som å fullføre en setning, svare på et spørsmål eller generere en ny tekst, produserer den svar ved å trekke på sin forståelse av språket og mønstrene den har lært fra treningsdataene. 
  • Generative språkmodeller, som GPT (Generative Pre-trained Transformer)-modellene, har vist seg å være svært effektive i en rekke anvendelser, inkludert tekstgenerering, oversettelse og mye mer. De kan gi realistiske resultater, selv om de ikke alltid har en faktisk forståelse av det de produserer.

 Lanseringen i sin helhet er ikke lenger tilgjengelig på UAs nettside, men kan ses på programsidene til Arendalsuka. 

NorGPT er en generativ språkmodell basert på norske data, med mål om å utvikle en modell med full åpenhet bygd på norske verdier. 

Den blir utviklet på NTNU ved forskningssenteret NorwAI – Norwegian research Center for AI Innovation, hvor den har blitt trent på NTNUs superdatamaskinklynge Idun i vinter. 

På dagens offentlige visning var det forventet å se en frekk versjon av språkmodellen. Den har nemlig ikke gjennomgått «alignment»-fasen, hvor den lærer seg alminnelig folkeskikk.

- Dermed vil vi få en del giftig språk, fordommer, tabuord og mer til, sa direktør Jon Atle Gulla ved NorwAI til UA tidligere i dag.

NorGPT blir sett som en viktig del av det norske språkets fremtid, og en alternativ infrastruktur til store amerikanske modeller for offentlige virksomheter og tjenester på internett.

- Vi er spente

NorGPT er trent på omtrent 70 prosent norsk data, i tilllegg noen beslektede språk som svensk, dansk, nederlandsk og tysk. 

- Dette er den første offentlige visningen, vi er like spente som dere på om dette kommer til å gå bra, sa Rolf Dyrnes Svendsen, kommunikasjonsleder i NorwAI, som ledet lanseringen.

Statsråd Sigbjørn Gjeldsvik får æren av å stille den norske språkmodellen de første spørsmålene. Han instrueres av postdoktor Benjamin Kille.

NorwAI har utviklet tre norske språkmodeller, hvor modellen som vises i dag er den største til nå - med 23 milliarder parametre.  

- De store modellene med flere parametre er litt mer korrekte. De med færre har flere hallusinasjoner, fortalte Jon Atle Gulla. 

Gunn-Karin Gjul, statssekretær i kommunal- og distriktsdepartementet, fortalte at hun var nyfrelst etter å ha vært på besøk i Trondheim. 

- Vi tror at det bare er de store amerikanske selskapene som er i stand til dette, også kommer vi til lille Trondheim hvor de er i ferd med å lage en egen norsk språkmodell. Er det noe som er truet i Norge så er det språket, og modeller trent på språk som ikke er norsk vil ha andre verdiføringer og syn på samfunnet, sa Gjul. 

Blir et krevende oppdrag

Styreleder i NorwAI og data- og teknologidirektør i Schibsted, Sven Størmer Thaulow, fortalte at det er flere grunner til at dette er viktig for Norge. 

- Vi tror den kommer til å levere bedre på norsk enn de amerikanske språkmodellene, men dette har vi til gode å bevise. Som nasjon er det også viktig at vi har kontroll på denne teknologien, og til sist er det også viktig å innrette modellene til vårt verdisett. Vi har et annet verdisett enn amerikanerne, og vi lærer hver uke hvor krevende dette oppdraget vil bli, sa Thaulow. 

NorGPT-modellene som utvikles nå er tenkt å være grunnmodeller, som kan finjusteres for mange ulike formål. 

- Det skal ikke være en konkurrent til ChatGPT, men spesialisert inn mot ulike domener som helse, juss og bygg og anlegg. Til dette trenger vi for det første mer norsk kvalitetsinnhold. Her må vi gå rundt med tiggerhånden for å få lov til å bruke opphavsbeskyttet innhold. For det andre må vi innse at vi ikke kan fortsette å okkupere supercomputeren på NTNU i åtte måneder for å trene modellen, sier Thaulow. 

- Regjeringen må kjenne sin besøkelsestid

Thaulow forklarer at de med dagens teknologi må bygge modellen to ganger i året. NorwAI utvikler også en større modell, med 40 milliarder parametre. 

- Vi trenger penger og kompetanse til dette. Vi har et bra miljø på NTNU og UiO, men trenger rundt 50 personer som kan jobbe med dette på fulltid, blant annet ingeniører og folk som jobber med opphavsrett. Vi vet ikke hvordan vi skal gjøre dette i praksis. Skal vi opprette et selskap? Skal vi være en offentlig tjeneste? Hva tenker dere politikere? 

Statssekretær Gunn-Karin Gjul ville ikke love å gå inn med flere offentlige ressurser med det første. 

- Vi skal fortsette å snakke sammen, men når det kommer til å ivareta det norske språket og verdier er vi nok ganske lettbedd, svarte hun. 

Debatten ble avsluttet med en oppfordring til regjeringen. 

- Regjeringen må kjenne sin besøkelsestid, og bevigle penger. Skal vi sette en norsk språkmodell i produksjon trenger vi med dagens teknologi mye midler og en stor gruppe mennesker som jobber fulltid. Det holder ikke med en SFI her, sa Sven Størmer Thaulow. 

-  Vi må ha utbygging av regnekraft i Norge. Det vil være et stort behov for dette framover, ikke bare for oss men hele samfunnet som sådan. Vi møter veggen her nå, sa Jon Atle Gulla.