Språkforskarar ber regjeringa satse meir på norsk KI
Noreg må etablera eit nasjonalt forskingssenter om kunstig intelligens for opne språkmodellar, og med ein eigen forskarskule. Det føreslår ei forskarklynge frå UiO, NTNU og Nasjonalbiblioteket.
KUNNSKAPSKAPPLØP: – Det norske og skandinaviske språklandskapet er ikkje heilt A4, seier informatikkprofessor Stephan Oepen som er med i Språkmodellklynge Noreg. (Arkivfoto)
Foto: Ola Gamst Sæther, Uniforum
Det er fagmiljøa innanfor store språkmodellar ved Universitetet i Oslo, Noregs teknisk-naturvitskaplege universitet (NTNU) og Nasjonalbiblioteket som tidlegare i år gjekk saman i Språkmodellklynge Noreg. Den statlege leverandøren av store data, Sigma 2 og Språkrådet, deltar som faste observatørar.
Fakta
Tiltaka Språkmodellklynge Noreg tilrår
Å setja i gang ein hurtigarbeidande prosess mot ein heilskapleg nasjonal stor språkmodellstrategi, med reell involvering av dei sentrale norske forskingsmiljøa saman med fleire andre nasjonale aktørar.
Etablera eit nasjonalt KI-forskingsenter om kunstig intelligens for opne språkmodellar som samlar aktørane i eit fagleg fellesskap som også inkluderer ein forskarkule. I eit femårsperspektiv bør det gi mellom 15 og 20 doktorgradar.
Videreutvikla Sigma2 som nasjonal leverandør av reknekraft, store språkmodelltenester (LLM-tenester) og tungrekningskompetanse, inkludert eit utvida norsk engasjement i europeiske tungrekningsinfrastrukturar som LUMI-AIF og EuroHPC.
Stimulera til nordisk forskings- og utviklingssamarbeid gjennom blant anna data- og modelldeling, forskarmobilitet, koordinert forskarutdanning, og etablering av ein årleg nordisk møteplass for forskarar og utviklarar av opne språkmodellar.
Utvikla rettslege og praktiske rammer for datadeling, som balanserer opphavsrett og personvern med behova for trening på storskala data og for inspeksjon og validering av modellar.
Etablera norsk medlemskap i det europeiske Alliance for Language Technologies (ALT-EDIC) og økonomiske rammer for deltaking frå universitetsmiljø i Digital Europe-programmet.
Kjelde: Språkmodellklynge Noreg
I februar i år tok professor Stephan Oepen ved Institutt for informatikk i Forskingsgruppa for språkteknologi initiativet til ei koordinering av forskingsmiljøet på språkteknologi i Noreg.
Det skriv Uniforum
Då uttalte han også fylgjande til Uniforum:
– Me kan ikkje konkurrera med dei store tech-miljøa som OpenAI eller Google. Me treng derimot eigen forskingskapasitet.
Det blei starten på Språkmodellklynge Noreg.
No har Språkmodellklynge Noreg utarbeidd dokumentet Nasjonal statusmelding:Forskning og utvikling for store, åpne språkmodeller i Norge, som gir ei overordna strategisk vurdering av forskinga på og utviklinga av store språkmodellar i Noreg. Samtidig skildrar dokumentet naudsynte koordineringstiltak for satsing på dette feltet.
8.juni vert det lagt fram på ein konferanse om språkmodellar og nasjonal sjølvråderett som Digitaliseringsdirektoratet og Språkrådet sto bak.
Uniforum har lese dokumentet som er ei oppfylging av kartlegginga som selskapet Agenda Kaupang gjorde i Fra ord til økosystem. Språkmodeller og generativ KI, på oppdrag frå Digitaliserings- og forvaltningsdepartementet i 2025.
Det som er nytt med dokumentet frå Språkmodellklynge Noreg er at dei tar tak i det forskings- og kunnskapsgrunnlaget norske språkmodellar kviler på. Rapporten til Agenda Kaupang kartla bruks- og leverandørsida av økosystemet.
Handlar om digital suverenitet
Språkmodellklynge Noreg er etablert fordi store språkmodellar i stor grad også handlar om digital suverenitet, samfunnstryggleik, openheit og språkleg og kulturell identitet. I dokumentet blir det peika på at Noreg kan risikera å bli djupt avhengig av lukka teknologi og utanlandske leverandørar som teknologiselskap frå USA og Kina.
Dette er også eit spørsmål om KI-tryggleik fordi det krev djup innsikt i alle ledd og moglegheiter for tilpassing og kontroll, står det i dokumentet. Der blir det også argumentert for at det er viktig å utvikla eigne store språkmodellar for norske språk som nynorsk og bokmål, men også for samiske språk.
Språkmodellklynge Noreg står også fast på at dei fleirspråklege modellane frå dei store teknologiselskapa ikkje fungerer godt nok for norsk, sjølv om det kan sjå slik ut. Det vert peika på at dominansen av engelskspråklege data i treningsmaterialet smittar over på det som vert brukte for språk som ikkje har ein like stor plass i treningsmaterialet. Det handlar både om meiningsinnhald og språklege vendingar.
– Cern og Airbus rollemodellar for digital suverenitet i Europa
Når Uniforum spør informatikkprofessor Stephan Oepen ved Universitetet i Oslo kvifor desse fagmiljøa har kome med tilråding for ein norsk politikk for å utvikla store språkmodellar, understrekar han at det i dag ikkje finst ein overordna plan for tettare kopling mellom forsking og utvikling for store språkmodellar.
Oepen peikar på at Språkmodellklynge Noregs tilrådingar tar utgangspunkt i ein omforeina analyse av dagens situasjon, noko som Noregs fremste forskarar på feltet har jobba fram sidan februar i år.
– Gjennom deltaking i europeiske samarbeidsprosjekt som OpenEuroLLM (UiO) og TrustLLM (NTNU) fylgjer me tett med på utviklinga i andre land og ved Europakommisjonen. LLM-ordskifte (ordskifte om store språkmodellar, red.mrk.) og -aktivitetar kokar, med sterkt aukande fokus på sjølvråderett, transparens og tryggleik. I land som Frankrike og Tyskland vert tidligare europeiske storsatsingar som CERN og Airbus nemnde som moglege rollemodellar for kvifor Europa vil kunna ivareta eit snev av digital suverenitet, konstaterer han.
– Manglar uavhengig vitskapleg kunnskapsgrunnlag
Så peikar Stephan Oepen på situasjonen her i landet.
– I Noreg ser me at det er sett i gang ei rekke gode tiltak, men det kan synast å mangla ein overordna strategi som byggjer eit heilskapleg økosystem, inkludert eit uavhengig vitskapleg kunnskapsgrunnlag, synest han.
Oepen viser til at i dagens LLM-landskap er avstanden frå grunnleggjande forsking til kommersiell bruk usedvanleg kort: ved teknologigantane i USA og Kina ligg heile verdikjeden under eitt tak.
– Derfor er vår viktigaste tilråding at det vert sett i gang ein hurtigarbeidande prosess mot en heilskapleg nasjonal strategi for opne, pålitelege og eigenutvikla språkmodellar, i tett samarbeid med våre nordiske naboar. Når relevante aktørar vert samla må forskarperspektivet sitja ved bordet, legg han vekt på.
Avgrensingar i effektiviteten av overføring til norske språkmodellar
– Om tilrådingane blir fylgt opp av styresmaktene, korleis vil dei ha ein positiv effekt på utviklinga av språkmodellar på norsk og samisk?
– Metode- og teknologiutviklinga rundt LLM-ar går med høg fart, med drivkrafta i USA og Kina og mykje fokus på «store» språk og marknader, typisk med grunntrening på mange titalls billionar ord. Det er ei rekkje forhold som avgrensar effektiviteten av direkte metodeoverføring til norske språkmodellar, til dømes spennvidda mellom eit «mindre» språk, bokmål, med om lag 100 milliardar ord til trening, eit «lite» språk nynorsk, med eit par milliardar ord), og språk «under press», samisk, med kanskje nokre hundre millionar ord, seier han.
Fakta
Dette er aktørane:
Språkteknologigruppa er ei forskingsgruppe ved Institutt for informatikk, som jobbar med datasett og programvare for norsk språkteknologi. Har nyleg lansert ein norsk praterobot som forskingspilot.
AI-lab ved Nasjonalbiblioteket er eit instrument for å utforska potensiell bruk av AI i bibliotek, arkiv og museum. Driv også med forsking og utvikling, og byggjer ressursar (datasett og modellar) for samfunnet.
NorwAI (The Norwegian Research Center for AI Innovation) ved NTNU i Trondheim koordinerer forsking og innovasjon ved NTNU, Universitetet i Oslo, Sintef og Universitetet i Stavanger. Har også partnarar i næringslivet, blant andre DNB, DNV, Schibsted og NRK.
Sigma2 AS er ansvarleg for å tilby den nasjonale e-infrastrukturen for utrekningsvitskap i Noreg. Tilbyr høgkapasitetsutrekningar og storskala datalagring for forskings- og utdanningsformål. Finansiert av Kunnskapsdepartementet gjennom Noregs forskingsråd, med bidrag frå universiteteta i Bergen, Oslo, Tromsø og NTNU.
Kjelde: Uniforum
Videre fortel han at det i tillegg kjem til dømes særnorske språknormar og -konvensjonar, nære språklege og kulturelle naboar, der FoU (forsking og utvikling, red.mrk.) med fordel vil koordinerast tettare i Norden, nesten fullstendig mangel på data og ressursar til «post-training», og gjenståande avgrensingar i vår evne til vitskapleg og meiningsfull evaluering.
– Ikkje heilt A4
Ifylgje Stephan Oepen må teknologien tilpassast norske forhold og behov. Dei tilrådingane som no blir lagde fram er utvalde døme på forskingsoppgåver og nødvendig forskingskapasitet som han og gruppa tenkjer må angripast i ei koordinert nasjonal og nordisk satsing.
– I tillegg til mykje anna må det byggjast meir grunnleggjande kunnskap, blant anna om effektiv tilpassing av metodar og algoritmar til lokale forhold, og meir effektiv bruk av avgrensa data og reknekraft. Det norske og skandinaviske språklandskapet er ikkje heilt A4. Me oppfattar dagens LLM-utvikling først og fremst som eit globalt kunnskapskappløp, med usedvanleg kort veg frå fundamental forsking til storskala bruk, seier Oepen til Uniforum.
Ikkje nøgd med regjeringa si satsing
Dokumentet frå Språkmodellklynge Noreg understrekar at norskutvikla språkmodellar er ein føresetnad for å ta vare på norsk kulturarv og språkpolitiske mål – også når det gjeld vernet av nynorsk og samiske språk. Då dreiar det seg også om moglegheita for at offentleg sektor skal kunna fylgja vedtatt språkpolitikk. Det blir dessutan understreka at bokmål globalt sett er eit lite språk, og at marknadskreftene åleine ikkje vil ta vare på norske språk og verdiar.
Full openheit, meiner Språkmodellklynge Noreg må til, om treningsdata, programvare, modellvekter og evalueringar. Berre på den måten kan norske språkmodellar vera moglege å etterprøva, reint fagleg, men også i eit nasjonalt tryggleiksperspektiv. I eit slikt nettverk må offentlege forskingsmiljø ha ei sentral rolle, står det i dokumentet som blir lagt fram i dag.
Og i den siste setninga kjem den også med eit velretta spark til regjeringa som dei meiner ikkje har satsa nok pengar på å utvikla store språkmodellar på norsk og samisk. Der står det «Statsbudsjettet for 2026 reflekterer foreløpig ikke de forsknings- og infrastrukturbehovene som følger av regjeringens egne KI-ambisjoner». Då står det att å sjå om signala frå Språkmodellklynge Noreg vil slå igjennom i regjeringa sitt forslag til statsbudsjett for 2027.