arendalsuka

NorGPT er en modell som ennå ikke har lært seg folkeskikk

Arendal: I dag viser Jon Atle Gulla fram den norske språkmodellen for offentligheten for første gang. Det er en modell som ennå ikke har lært seg folkeskikk. Forskningsrådets direktør Mari Sundli Tveit tror behovet for en norsk modell er stort.

Jon Atle Gulla NorwAI NorGPT
Publisert Sist oppdatert

Den heter NorGPT og er den norske versjonen av ChatGPT. NorGPT er basert på norske data, og er tilpasset en norsk virkelighet. 

Chatboten er under utvikling ved NTNU ved forskingssenteret NorwAI, i samarbeid med Schibsted og DnB.

Om det norske språks overlevelse

Som Universitetsavisa skrev i juni, har NorGPT ligget i hardtrening i NTNUs supercomputer Idun i vinter. Mye står på spill, skrev vi den gangen: intet mindre enn det norske språks overlevelse. 

Slike språkmodeller er i ferd med å bli en ny plattform for tjenester, på linje med App Store, SoMe og mer til. Språkmodeller er selve motoren i skapende kunstig intelligens.

- Utviklingen innen kunstig intelligens går fortere og fortere, og fallgruvene man kan snuble ned i er mange, sa Forskningsrådets Mari Sundli da KI ble debattert. Med seg i panelet hadde hun blant annet NTNUs prorektor for nyskaping Toril Hernes.

NorGPT kommer i flere versjoner. Den største har 23 milliarder parameter. En språkmodell gjetter neste ord i en setning den presenteres for. Oftest er flere alternative svar mulige, og både sannsynligheter i språkmodellen og andre teknikker brukes til å vurdere i hvilken grad svaret er godt eller riktig.

Slik bygges svært komplekse språklige strukturer. Det neste er «alignment» hvor språkmodellen formanes om hva som ikke passer seg. Dette er en svært arbeidsintensiv fase, som krever mye personell.

Bannskap og tabuord

Modellen som vises fram under Arendalsuka har ikke gjennomgått denne «alignment»-fasen, hvor den lærer seg alminnelig folkeskikk.

- Dermed vil vi få en del giftig språk, fordommer, tabuord og mer til, sier Professor Jon Atle Gulla ved NorwAI – Norwegian research Center for AI Innovation.

- Så modellen vil både banne og det som verre er?

- Ja da, den kan legge i vei om prostitusjon i Trondheim og annet. Slik er det siden den ennå ikke har fått denne filtreringskomponenten som skal ligge på toppen av systemet. Dette forsvinner i neste runde.

Postdoc-ene Peng Liu og Benjamin Kille har vært sentral i arbeidet med utviklingen av NorGPT.

En språkmodell i rå form vil heller ikke greie å holde seg til saken.

- Så det vi får se her er modellen i mellomstadiet. Vi får ut korrekte norske setninger, men den går i alle mulige retninger. Den er ikke «aligna» med menneskelige preferanser. Dette er interessant for oss forskere, sier Gulla.

Utover høsten og vinteren vil Gullas team jobbe med denne formingsprosessen, og utvide modellen til å omfatte det dobbelte antall parametere som dagens modell.

Mari Sundli Tveit: - Det går fortere og fortere

Hvordan ta KI, hvor i opptatt språkmodell, i bruk på en klok måte? Det var temaet for en debatt som gikk onsdag formiddag, i regi av Sintef, NTNU, Norges Forskningsråd og Tekna. 

Forskningsrådets direktør Mari Sundli Tveit var opptatt av den voldsomme hastigheten i utviklingen på feltet – samtidig som det florerer med fallgruver man kan snuble ned i. UA ba henne utdype resonnementet etterpå.

- Kunstig intelligens utvikler seg utrolig fort, og det går bare fortere og fortere. Det betyr at man har en utfordring med at forståelsen og kunnskapsgrunnlaget skal henge med. En ting er den teknologiske utviklingen: Men så er det betydningen den har på ulike fagfelt. Personvern og datadeling er spesifikke problemstillinger, det er mange flere. For å vise til et uttrykk som ble mye brukt under debatten der inne – hybrid intelligens – man må alltid kople verktøyet som anvendes med den menneskelige forståelsen. Slik er det med alle nye teknologier, man må lære seg å bruke den rett. Her må vi i Forskningsrådet hjelpe til med å finansiere og få fram kunnskapsgrunnlaget. 

- Hvordan kan dere gjøre dette? KI har kommet som ei kule på forholdsvis kort tid. Her er den en massiv voksenopplysning som må gjøres?

- Det er svæt mange problemstillinger for forskningen som ligger foran oss. Det er mye vi ikke overskuer ikke en brøkdel av dette i dag. Vi må gi rom for dette i forskningen vi finansierer. Dette er relevant innen teknologiområdene, naturvitenskap og matematikk, men også innen samfunnsvitenskapene, humaniora – og ikke minst språk. Like viktig er koplingen mellom fagfeltene, forklarer Tveit.

Stort behov for modell med norsk språk

- Ad NorGPT: Inga Strümke har formulert det som at den store begrensningen ligger i vår evne til å stille gode spørsmål, som utnytter potensialet i en språkmodell. Hva tenker du om norske forskeres evner her?

- Jeg har meget stor tro på våre forskeres evne til å stille spørsmål. Utfordringen vår er å gi alle de ulike spørsmålene nok rom. Da er vi over på den åpne og nysgjerrighetsdrevne forskningen. Men jeg tror mye av dette vil handle om problemstillinger vi ennå ikke vet om, sier Forskningsrådets direktør.

- Torsdag presenterer forskerteamet i NorwAI den norske språkmodellen. Hva er det å si om betydningen en norsk versjon av ChatGPT kan tenkes å få?

-  Jeg tror det er et stort behov for å utvikle en modell med norsk språk, som vil kunne treffe bedre på norske problemstillinger. Disse modellene er ikke bedre enn de dataene som legges inn i dem, avslutter Tveit.