Ytring

Vidunderlige nye vurderingsverden

Stadig flere semesteroppgaver og hjemmeeksamener bærer preg av å være ren klipp og lim fra KI, skriver Annjo Klungervik Greenall.

Bruk penger på å arrangere skoleeksamener. Slik kan vi sikre oss at vi vet at de studentene vi uteksaminerer faktisk kan fag, og ikke bare har kompetanse i å få KI til å skrive tekster, mener Annjo Klungervik Greenall.
Publisert Sist oppdatert

Enig eller uenig?

Send oss din ytring på

Dette er en ytring. Inn­holdet i teksten uttrykker forfatterens mening.

Det nærmer seg tiden på året da innboksen begynner å fylles opp av hissige eposter fra Inspera om at det er på tide å sette i gang med sensuren.

Dette oppleves i disse dager som en verre beskjed å få enn før.

Stadig flere semesteroppgaver og hjemmeeksamener, som fremdeles er dominerende eksamensformer i mange deler av humaniora, bærer preg av å være ren klipp og lim fra KI. Til tross for innstendig instruks om at dette ikke er en akseptabel bruk av verktøyet, og til tross for de pålagte ‘Declarations of authorship’ pliktoppfyllende påført nederst i besvarelsen: ‘The submitted text has been written by me and is entirely my own work.’

Yeah, right.

Store deler av mange av disse tekstene framstår som om de er skrevet av drevne forskere som har hatt ti-tyve år på seg til å skaffe seg oversikt og overblikk over feltet, og til å øve seg på å presentere denne informasjonen for akademiske lesere. Noe som kanskje ikke så rart, siden det nettopp er fra slike forskere KI har ‘stjålet’ dette overblikket og den akademiske stilen.

Dette gjør oppgaven med å skulle vurdere disse besvarelsene særdeles utfordrende.

Er KI-bruken fusk eller ikke?

Det første steget i vurderingsprosessen blir å prøve å finne ut av om det faktisk er snakk om fusk (dvs. om studenten har fått KI-verktøyet til å skrive teksten for seg), eller om det heller dreier seg om bruk av «generative verktøy til idéutvikling, strukturering og refleksjon – ikke som snarvei, men som læringspartner,» slik Silvija Seres uttrykker det i en nylig artikkel i Universitetsavisa.

Gråsonen her er massiv, og overgangen fra det ene til det andre ekstremt trinnløs.

I chatfora er studentene selv åpne om at de bruker KI til å jukse, så her er det ingen grunn til å være naive. Problemet er bare at det er kun i et bittelite fåtall av sakene der man har mistanke om fusk, at det er mulig å finne faktiske bevis på utilbørlig KI-bruk, som at man har glemt å fjerne KI-instruksen i klippe- og limeprosessen (selvopplevd), eller at kildene er hallusinerte. KI blir i tillegg smartere og hallusinasjoner sjeldnere (samtidig som studenter til alle tider fint har klart å hallusinere en hel masse selv, fullstendig uten hjelp fra KI).

Dermed står man som oftest – til og med i de mest åpenbare tilfellene – helt uten den typen ammunisjon man trenger for at det skal være noen vits i å prøve å bringe noen til torgs for fusk. 

Vurderingskvaler

Så da er det bare å sette i gang, da. Men hvordan er det egentlig meningen at man skal angripe en slik besvarelse?

Hvis jeg føler meg rimelig sikker på at store deler av en besvarelse er KI-generert, men ikke har bevis nok til å innrapportere studenten for fusk, skal jeg da bedømme den som om det er studenten som har skrevet besvarelsen? Det at jeg ikke har rapportert vedkommende inn for fusk kommuniserer jo i praksis at jeg har akseptert arbeidet som studentens eget, selvstendige arbeid?

Ren logikk tilsier at jeg er nødt til å bedømme den eventuelle faglige forståelsen som kommer til uttrykk i teksten og gi en karakter på denne, selv om jeg innerst inne vet at det er den kunstige intelligensens faglige ‘forståelse’ jeg eventuelt gir en god karakter. Den dårlige smaken i munnen blir enda sterkere når jeg tenker på at for hver student som uhemmet bruker KI, så fins det en student som av ulike årsaker lever i totalt, selvpålagt KI-sølibat. Denne studentens tekst bærer gjerne preg av at studenten er på vei mot forståelse, og ikke, som i tilfellet KI, at vedkommende allerede er framme, har sittet og kjederøykt og gløttet på klokka i lang tid allerede, og ventet utålmodig på at alle andre skal komme etter. Dermed vil denne studenten kanskje ikke oppnå en spesielt god karakter i denne omgangen. Men her vet man i det minste at hen har lært noe av faglig art. Og man kan bare håpe at studenten selv også ser verdien av dette.

Man kan selvsagt velge å hoppe bukk over den logikken jeg beskriver ovenfor og heller ta utgangspunkt i sin egen overbevisning om at KI må ha skrevet mesteparten av den teksten det er snakk om. Da må konklusjonen bli at siden studenten ikke har presentert noe pålitelig bevis på sin faglige forståelse, så kan man rett og slett ikke vurdere sistnevnte. Men hva skal man da vurdere? For noe må man jo vurdere. Det hele skal jo ende opp i en karakter.

Kompetent bruk av KI

Den mest åpenbare løsningen blir å ta tak i noe à la ‘inkompetent eller kompetent bruk av KI-verktøyet’. Dette er det iallfall til en viss grad mulig å bedømme. For mange klarer – tross bruken av verktøyet – å rote det ganske så grundig til. For eksempel hender det at oppgaven tar utgangspunkt i spørsmål som i neste instans ikke følges opp av det KI-genererte innholdet. Noen ganger bruker studentene blindt KIs forslag til struktur, heller enn strukturen som underviseren har bedt om. Eller det presenteres enkeltavsnitt som kunne vunnet Nobelprisen i akademisk skriving (hvis en slik hadde eksistert), samtidig som det ikke finnes fnugg av logisk sammenheng mellom avsnittene. Og så videre.

Tilliten til verktøyet er høy, for i mange tilfeller kan det se ut til at teksten er blitt levert helt uten at ‘forfatteren’ har lest igjennom resultatet før innsending.

Så har vi den kompetente bruken av KI. Man kan kanskje fristes til å tro at faglig innsikt er nødvendig for å klare å få KI til å skrive en god tekst, og dermed at man i tilfellet ‘kompetent KI-bruk’ belønner både faglig innsikt og kompetent bruk av KI-verktøy. Men dette er ikke nødvendigvis tilfelle. Alt man behøver å skjønne i det hypotetiske scenariet skissert ovenfor, for eksempel, er at det kan være lurt å legge inn instrukser som ‘vær nøye med at spørsmålene i innledningen blir besvart i teksten som følger’; ‘bruk struktur X i svaret’; og ‘pass på at det er logisk sammenheng mellom enkeltavsnitt’.

For å summere opp, så kan da altså karakteren på en slik besvarelse enten være uttrykk for en faglig forståelse (KIs eller studentens, litt usikkert nøyaktig hvem sin), og/eller av hvor flink en student er til å prompte KI til å skrive tilforlatelige tekster.

Vil framtidige arbeidsgivere være fornøyde med en slik usikkerhet? 

Hvordan løser vi utfordringene?

Uroen blant ansatte og sensorer når det gjelder KI og vurdering er voksende, og mange løsningsforslag har blitt lagt på bordet.

Et tidlig forslag som noen fremdeles optimistisk promoterer i dag, baserer seg på premisset at det er mulig å lure KI i måten man utformer oppgaveinstrukser på. Alle som har prøvd vet at det er svært vanskelig å lure KI. I tillegg er KI et bevegelig mål. Flere har for eksempel tatt til orde for at man må flytte fokuset fra studentenes egen tekstproduksjon til refleksjon. Vel, dette fungerte fint helt fram til en smart student fant ut at man kunne be KI om både å lage produktet, og reflektere overbevisende over sitt eget produkt.

Andre framsnakker ideen om et massivt skifte i retning muntlige vurderingsformer. Mange former for muntlig eksamen er imidlertid ressurskrevende, og institusjonene vegrer seg dermed mot å åpne opp for mer omfattende bruk av dem. Det er heller ikke gitt at alle former for muntlig eksamen er KI-sikre. KI-genererte tekster kan for eksempel pugges i forkant av (KI-genererte) presentasjoner. Men den viktigste årsaken til at et slikt skifte ville vært dypt problematisk er at skriftkulturen i samfunnet er under press, noe høyere utdanningsinstitusjoner må være med på å avhjelpe, ikke bidra til å skape.

Det eneste helt KI-sikre alternativet – den gode, gamle skoleeksamenen – som mange av oss, inkludert undertegnede, nå ønsker å få anledning til å bruke i større utstrekning, er også ressurskrevende, så ressurskrevende at mange av våre institusjoner slett ikke opplever at de har råd.

I Universitetsavisa kunne vi nylig lese at NTNU har 525 millioner de ikke har brukt opp i 2025.

Mitt tips – bruk pengene på å arrangere skoleeksamener. Slik kan vi sikre oss at vi vet at de studentene vi uteksaminerer faktisk kan fag, og ikke bare har kompetanse i å få KI til å skrive tekster som gir sensorer enda flere grå hår i hodet enn mange av dem allerede har.