digitaliseringsstrategi

NorGPT kan bli redningen for det norske språket

En norsk språkmodell har ligget i hardtrening i NTNUs supercomputer Idun i vinter. Mye står på spill. På sikt: Det norske språks overlevelse.

- For en del offentlige virksomheter brenner det en hel del. Vi må ha alternativer til de store amerikanske modellene for å lage sine tjenester på toppen av sine systemer, sier Sven Størmer Thaulow, her på scenen under Medielederkonferansen.
Publisert Sist oppdatert

I dag tirsdag besøker statsminister Jonas Gahr Støre NTNU for å lansere regjeringens digitale initiativ. De siste månedene har landets kraftigste computer tygget seg gjennom enorme mengder norske ord for å sette sammen den første operative språkmodellen. Det er ingen tid å miste, om norsk språk skal sikres et liv utenfor museene.

Midt på høsten i fjor dukket et nytt ord opp på alles lepper: Chat GPT. I dag, trekvart år senere, har en forståelse bredt seg om at vi er i ferd med å oppleve et nytt «Iphone-øyeblikk», for ikke å si Internett-øyeblikk. Noen vil ha det til at Chat GPT får samme betydning som elektrisiteten.

Fakta

Regjeringens strategi for digitalisering

Statsminister Jonas Gahr Støre lanserer regjeringens nye nasjonale digitaliseringsstrategi på NTNU tirsdag formiddag.

En rekke forskere og ledere vil holde innlegg om tema som kunstig intelligens, beskyttelse mot digitale trusler og hvordan næringsliv og offentlig sektor kan utnytte verdien av data.

Fra NTNU deltar rektor Anne Borg og forsker Inga Strümke. Ordstyrer er dekan Ingrid Schjølberg fra Fakultet for informasjonsteknologi og elektroteknikk (IE).

Fordi:

Under Chat GPT ligger en språkmodell. Denne er i ferd med å bli en ny plattform for tjenester, på linje med App Store, SoMe og mer til. Språkmodeller er selve motoren i skapende kunstig intelligens.

- En chatboot er ingen kunnskapsmodell, formaner Gulla. - Den gjetter ord.

Ny, digital infrastruktur

Professor Jon Atle Gulla ved NorwAI – Norwegian research Center for AI Innovation:

- Språkmodellen vil utgjøre en ny, digital infrastruktur på internett, et nytt digitalt grensesnitt for alle mulige tjenester. Den åpner for nye former for arbeid. Språkmodellen kan bli din nye, digitale assistent, som ikke bare svarer på enkle spørsmål men som inngår i en dialog, gir råd og kommer med innspill.

Derfor trengs en norsk språkmodell. Denne modellen har vært under hardtrening i NTNUs sumpercomputer Idun i vinter. 23 milliarder parameter har lagt beslag på samtlige store GPU-er i 76 dager. Dermed er den første norske språkmodellen i ferd med å se dagens lys.

Men hva skal vi med en egen norsk versjon?

Kulturelle verdier

- Det er tre årsaker til at man behøver en norsk språkmodell, argumenterer Sven Størmer Thaulow. Thaulow er data- og teknologidirektør i Schibsted. Han er også styreleder i NorwAI. UA intervjuet ham da han besøkte Medielederkonferansen i Bergen.

- For det første tror vi ytelsen på norsk blir bedre enn ved store internasjonale modeller. For det andre samsvarer det med vår kulturelle verdier. For det tredje handler det å få kontroll med egen infrastruktur.

De nye chatbootene endrer folk og samfunn slik smarttelefonen og internettet gjorde, tror ekspertisen.

Gulla og Thaulow er begge opptatte av at meningsbærende strukturer ikke må være basert på strukturer utviklet i Silicon Valley eller tilsvarende steder. De understreker begge også behovet for transparens i måten språkmodellen blir trent på. UA nevner for dem begge eksemplet med at Chat GPT ble bedt om å komme med en Jesus-vits, og straks fikk flere på løpende bånd, men da den så ble bedt om å komme med en Muhammed-vits ga chatbooten beskjed om at det ikke passet seg.

For å forstå hvordan noe slikt kan skje, forklarer Gulla hva en språkmodell er for noe.

Ingen kunskapsmodell

- Aller først: Det er ikke en kunskapsmodell. En språkmodell gjetter neste ord i en setning den presenteres for. Oftest er flere alternative svar mulige, og både sannsynligheter i språkmodellen og andre teknikker brukes til å vurdere i hvilken grad svaret er godt eller riktig.

Slik bygges svært komplekse språklige strukturer. Det neste er «alignment» hvor språkmodellen formanes om hva som ikke passer seg. Dette er en svært arbeidsintensiv fase, som krever mye personell. I Chat GPTs tilfelle ble jobben satt ut til en stor gruppe kenyanere. Man antar at det var i denne fasen at språkmodellen fikk beskjed om at Muhammed-vitser var uaktuelt.

Man antar, man vet ikke. Fordi treningsdataene og detaljene omkring alignment ikke er åpent tilgjengelige.

Betyr det at man kan legge inn en skjult form for tankekontroll?

- Det er denne alignment-fasen som legger premissene, svarer Thaulow. Han nevner mulighetene for politisk sensur som illustrasjon. Hva om man legger inn at det ikke var Russland som angrep Ukraina, men motsatt?

Kontroll på n-ord og andre ord

I denne fasen kan språkmodellen få beskjed om at n-ordet ikke skal brukes. Den kan også få lagt inn begrensninger som utarter til politisk motivert sensur.

- Her er det viktig for oss at alt som skjer omkring treningen av den norske språkmodellen skal være transparent, understreker Gulla.

- Det innebærer å gjøre treningsdataene søkbare, samt å være helt åpen om hvordan vi «aligner» modellen.

Språkmodellen presenteres under Arendalsuka i august. Hva skjer videre?

Først skal kapasiteten – antall parameter – fordobles, fra 23 til om lag 50 milliarder. Siden skal modellen konsolideres. Og forventningene til den konsolideres.

- Utfordringen framover blir å beskrive modellens begrensninger. Å se på den som en kunnskapsmodell vil være uheldig, mener jeg. En språkmodell i og for seg finner på tekst.

Kunstige, smale tekster

NorwAI-lederen mener å se et mønster i at tekster generert av en språkmodell er 'smal' i formen. Bråe kast i en tekst, grensesprengende tankesprang, ligger utenfor dens kapasitet i dag. Det ligger i modellens struktur – den gjetter på det mest sannsynlige ordet som følger.

- Det har vært gjort forsøk med å generere vitenskapelige artikler, som ved første syn virker tilforlatelige på alle vis: En kan oppdage nye sammenhenger på denne måten, men ofte er det språklig plausible tekster uten ny vitenskapelig innsikt.

- Kan dette endre seg, ettersom modellene utvikler seg?

- Jeg ser ikke bort fra det, svarer Gulla.

Fra Thaulows presentasjon i Medielederkonferansen.

NorwAIs forskningsleder framholder at det viktige nå uansett er å få denne modellen opp og gå. Utviklingen går i en forrykende fart. Det handler om det norske språkets framtid, sa Sven Størmer Thaulow på scenen i Bergen.

Om det brenner

På spørsmål fra UA om det brenner nå, svarte han slik:

- For en del offentlige virksomheter brenner det en hel del. Vi må ha alternativer til de store amerikanske modellene for å lage sine tjenester på toppen av sine systemer. Det er for eksempel ikke gitt at NAV kan putte sine data inn i en modell utviklet i en modell utviklet i California, og det er heller ikke gitt at det som kommer ut av den i form av beslutninger som omfatter en bruker, er god nok, sier Thaulow.

- Vi snakker om en ny infrastruktur på internett, på lik linje med skybaserte tjenester. Er det snakk om det norske språks overlevelse?

- Ja, på lang sikt kan det være det, dersom dette blir den infrastrukturen vi tror med en svært stor distribusjon i mange tjenester på nettet. Om dette er det verktøyet som blir brukt av våre barn, av våre borgere i stort, til å tilegne seg kunnskap, eller generere tjenester så må disse modellene basere seg på vårt perspektiv i Norge.