Kronikk

Noen usensurerte betraktninger om sensur

I denne kronikken imøtegår Geir Hasnes Holdens kritikk av forslaget om å innføre krav om to sensorer.

Kronikøren beretter fra telefonsamtalen med en professor på Dragvoll som begrunnet karakter 1,9, en karakter student Hasnes var misfornøyd med.
Kronikøren beretter fra telefonsamtalen med en professor på Dragvoll som begrunnet karakter 1,9, en karakter student Hasnes var misfornøyd med.
Publisert Sist oppdatert

I Universitetsavisa kunne vi nylig lese Helge Holdens kommentarer om Aune-utvalgets krav om to sensorer:

”Aune-utvalget foreslår å innføre et krav om to sensorer, hvorav en ekstern, ved gjennomføring av eksamener med bokstavkarakter. Argumentet er at det vil sikre studentenes rettsikkerhet og likebehandling. Forslaget er naturlig nok blitt møtt med massiv motstand fra universitetene som er bekymret over ressursbruken, vanskeligheten ved å skaffe eksterne sensorer etter omfattende fusjoner i sektoren, og at forslaget ikke kommer med friske midler. ”

Jeg begynte å sensurere fag ved institutt for telematikk i 1986. Jeg var ung forsker på Sintef, hadde kjøpt hus, renten steg, og sensur hjalp til med å dekke de den gang usannsynlige renteutgiftene. Senere begynte jeg også å sensurere ved institutt for elkraftteknikk og for universitetet i Oslo, og nå sensurerer jeg altså mitt eget fag ved institutt for teknisk kybernetikk. Jeg har sensurert omkring 35 forskjellige fag, ofte med over ti forskjellige hvert år, samt hundrevis av prosjektbesvarelser, diplombesvarelser og masterbesvarelser, og gjennom dette observert en del interessante fenomener rundt det med sensur.

For en sensor er en kontrollmekanisme, som skal hjelpe med å sikre kvaliteten på sensuren; at studenten får en riktig karakter. Men han er mer enn som så; han bør ha innsyn i eksamensteksten på forhånd for å sikre at den er forståelig, utvetydig, og mulig å gjennomføre i løpet av eksamenstiden, og han kan gi verdifull tilbakemelding om faget til faglærer i løpet av selve sensurmøtet.

Sensurmøtet kan dermed bli som en slags eksamen for faglærer: her ser man hvordan studentene har oppfattet det foreleste stoffet, noe som slett ikke er enkelt å forutse for en foreleser som er dypt inne i sitt eget fag. Her kan foreleser se hvordan faget kan forbedres: dersom f. eks. tre fjerdeparter ikke har greid noe særlig av én av oppgavene bør dette være en klar melding til foreleser – og det har jeg opplevd litt for ofte. Man ser i det hele hva man bør konsentrere seg om å gjøre klarere for studentene. Her kan sensor bidra nettopp fordi han kommer utenfra og ser eksamen og faget fra en annen vinkel. Sensor må ikke være redd for å si fra, uansett hvor lei man er når sensurmøtet har foregått i altfor mange timer allerede.

Hvordan funksjonerer kontrollmekanismen med ekstra sensor?

La oss først ta et fenomen som vel nå er helt avskaffet. Mange professorer satte tallkarakterer på deloppgaver, altså fra 1.0 til 6.0. Så la de dette inn i en tabell hvor de også ganget med vektingen av de enkelte deloppgaver.

Jeg hadde helt fra starten benyttet tall fra 0-100, hvor vektingen avgjorde hvor mange poeng man kunne få på en deloppgave. Var oppgaven verdt 5% kunne du få maksimalt få fem poeng uansett hvor mye du skrev.

Jeg observerte at professorene som brukte karakterer på deloppgavene ga bedre karakterer på dårlige delbesvarelser enn jeg. Ved ett tilfelle laget jeg en oversikt i ettertid og så at professoren og jeg fikk et lineært avvik. Vi lå likt når det gjaldt de beste besvarelsene, men avviket ble større og større jo dårligere besvarelsen var. På sensurmøtene gikk vi alltid gjennom samtlige avvik, og jeg måtte til stadighet påpeke slikt som at ’der har du 4.0 på den deloppgaven, men det han skriver der er ikke verdt å stå på, så her har jeg faktisk gitt null poeng’. Jeg opplevde at det å gi tallkarakterer på deloppgavene var mer heftet med synsing og følelser enn det å summere tall og deretter utlede en karakter. Etter hvert forsvant også denne måten å sensurere på blant dem jeg sensurerte for.

Uklare oppgavetekster

En annen viktig observasjon var at spørsmålene i eksamensteksten var omtrentlige, og ofte var det stilt flere spørsmål i én deloppgave. Dette så jeg som en mulig grunn til at studenten misforstå oppgaven eller at han ikke besvarte hele delspørsmålet. Så etter hvert, når jeg mer og mer fikk eksamensteksten til gjennomsyn på forhånd, ba jeg professoren om å dele opp og gjøre spørsmålene tydeligere, med ikke mer enn ett konkret spørsmål i hver deloppgave. Dette hadde god virkning på besvarelsene, snittkarakter i fagene ble markant bedre.

Å finne det riktige kontrollnivået

Med den usikkerhet som heftet for de fleste deloppgaver syntes jeg det ble galt at man gikk for mye i detalj. Jeg observerte tidlig en stud. ass. som satte karakterer på en eksamen ved instituttet, og i ett tilfelle var der en oppgave som var verdt 25% med fire delspørsmål. Han sensurerte hvert delspørsmål fra 0 til 10 poeng og én besvarelse hadde fått 9-9-9-9 hvilket ga 22,5 av 25 poeng. Dette betydde at oppdelingen i poeng var altfor stor og synsing ville forekomme i stor grad. Med hele poeng, f. eks. 7-6-6-6, ville det blitt lettere for den som satte tall å gi full uttelling. Å gi 5 eller 6 når maksimum er 6 innebærer mindre grubling enn om man skal gi 9 eller 10. Vedkommende som fikk 22,5 poeng kunne fått 24 eller 25 poeng ved en mindre finmasket vurdering. Slikt kan ha stor betydning for sluttkarakteren.

Dette førte til at jeg bestemte meg for alltid å gi hele poeng som sensor. Et delspørsmål som ville gi to poeng burde få to poeng for korrekt, ett poeng dersom det inneholdt ett eller annet som var relevant, og null poeng hvis feil.

Når studenten f. eks. blir bedt om å angi fordeler og ulemper på en deloppgave, hvor mange slike skal til for å få full uttelling?

Om læreboka f. eks. oppga åtte fordeler og ulemper, og deloppgavens vekt var oppgitt til 5%, så satte jeg opp de åtte fordeler og ulemper i løsningsforslaget mitt, og ga ett poeng for hver ting som ble oppgitt, men med maks fem poeng. Oppgaven i seg selv er nemlig altfor omtrentlig til at en student skal skjønne hva som eksakt kreves. Det er ikke lett å huske alle detaljer på eksamen. Hvor viktig er det at man beskriver slike ting svært detaljert når det ikke teller så mye som del av oppgaven?

Tall og bokstaver

Jeg er en av dem som ikke er begeistret for bokstavkarakterer ut fra et faglig synspunkt, for jeg synes dette favner for vidt. Å slå sammen 1.0 – som viser toppbesvarelsene – med 1.5 synes jeg er trist. Å la C favne bredere enn A, B, D og E er ulogisk når dette skjer – og poenggrensene har heller ikke vært stabile siden innføringen av bokstaver, og vil de noen gang bli det? Og en generell F for stryk sier ikke noe om hvor dårlig besvarelsen virkelig var – eller om vedkommende bare ikke hadde møtt opp.

På den annen side har bokstavkarakterer lagt litt mer tvang på en del odde institutter med en for meg merkverdig praksis. Etter at jeg var ferdig ved NTNU og ble sivilarbeider på Sintef reguleringsteknikk, tok jeg like godt fag på Dragvoll, og da jeg tok eksamen i Nordisk grunnfag var jeg virkelig fornøyd med den ene (av to) eksamener. Da jeg fikk bare 1.9 var jeg så skuffet at jeg ringte instituttet for å høre hvorfor og hva jeg kunne forbedret. Samtalen forløp omtrent slik:

”Hei. Jeg ringer for å få en begrunnelse for karakteren min.” ”Hva fikk du?” ”Jeg fikk 1.9.” ”Å, det var du, ja, jeg husker den besvarelsen, den var virkelig fantastisk! Helt typisk en 1.9-besvarelse!” ”Eh, hva var det jeg manglet for å få bedre karakter?” ”Nei, du fikk topp! Vi gir ikke høyere på grunnfag.” ”Eh, hæ?” ” Ja, på mellomfag kan du oppnå 1.7.” ”Æh...” ”Og på hovedfag kan du faktisk oppnå 1.5!” ”Jamen, hvorfor kan man ikke gå helt opp til 1.0?” ”Nei, det bruker vi ikke.” ”Men – om Hamsun hadde skrevet en besvarelse?” ”Hamsun, ja... Han hadde nok oppnådd 1.3.”

Så det er ikke tvil om at det har hersket mye underlig karakterpraksis opp gjennom tidene.

Variasjon over tid i sensuren

Det er viktig at man på forhånd har et klart bilde av hva man skal belønne og hva ikke. I de første årene observerte jeg spesielt to ting: Det ene var at man startet å gi poeng etter hva man mente var greit, og så observerte man etter hvert som man hadde gått gjennom en del besvarelser, at dette nok hadde vært vanskeligere enn man trodde, med det som resultat at man måtte revurdere de tidlige besvarelsene og revurdere løsningsforslaget. Det andre at man hadde en tendens til å variere i hvor streng en var. En av de første jeg sensurerte for argumenterte derfor med at man burde begynne på forskjellig sted i bunken av besvarelser.

Nå skulle jo sensor og foreleser sitte sammen med alle besvarelsene, og da burde slike ting oppdages, men de ble nok ikke det om man hadde begynt på samme sted i bunken.

Man skal heller ikke unnlate å nevne at det er vanskelig å holde konsentrasjonen oppe over lang tid. Sensur er slett ingen hyggelig opplevelse, man blir sliten, og man kan bli litt oppgitt over dårlige besvarelser. Samtidig må foreleser ta inn over seg at dette og hint tydeligvis ikke er godt nok forstått eller for den saks skyld om studentene har skjønt at dette var relevant nok til å måtte pugges.

Konsentrasjonsvansken alene er nok til at man varierer oppfatningen av hva som besvares underveis i gjennomlesningen av besvarelsene. Dette kan først behandles på et sensurmøte.

Avvik i bedømmingen

Uansett var der alltid mange besvarelser man måtte ta opp til diskusjon på sensurmøtet. I noen fag kunne vurderingsavviket være på ti poeng på en oppgave. Noen ganger kunne man være uenige i karaktersettingen på bortimot halvparten av besvarelsene. I sensurmøtene praktiserte vi alltid å gå gjennom hver besvarelse i detalj som vi var uenige om, men jeg hørte ofte om andre som praktiserte å ta gjennomsnittet av forelesers og sensors resultat.

Men gjennomsnittet av resultatene er ingen god metode. Da er det mer sannsynlig at den ene har oversett noe som den andre har sett. Eller man har hatt forskjellig oppfatning av noe som studenten har tatt med i deloppgaven – den ene syntes det kunne belønnes, mens den andre syntes det var irrelevant. Alle avvik bør derfor diskuteres.

Klaging

Til å begynne med var det vanlig at mange klaget, og noen av dem klaget med rette. Klager skal tas seriøst, selv om noen klager som prinsipp. Det er sjelden det hjelper, men noen ganger gjør det det.

Om vi hadde satt grensen for karakterer ved la oss si 86 for 1.5 i gamle dager eller A i nyere tider, så måtte vi undersøke alle som hadde fått poeng under grensen av den ene sensoren og over grensen av den andre, for å se om den ene hadde vært for streng eller den andre hadde oversett noe.

De første årene jeg sensurerte, undersøkte vi imidlertid ikke dem som hadde fått et resultat like under karaktergrensene av begge. Og vi fikk alltid en del klager. Så jeg foreslo at vi også skulle undersøke dem som, i tilfellet med 86 som grense, hadde fått 85 av begge, eller 84-85. I mange tilfeller kunne slike ved en rask kikk faktisk gå opp et par poenger hos oss begge, og få bedre karakter. Det vi da også opplevde var at det ble merkbart færre klager. Så klagerett er viktig.

Det fantes en annen metode for å gjøre karakterene mer rettferdige, hvor man prøvde å finne om det ville være andre steder på skalaen hvor man naturlig kunne dele. La oss si ved tilfellet 86 at der var noen som havnet på 85 og 84, og så var der ingen som oppnådde 80-83. Da ville det kunne være rimelig å sette skillet mellom A og B eller mellom 1.5 og 2.0 ned til 83. Jeg kjente mange som praktiserte dette, ikke mindre for å få en bedre fordeling av karakterer over hele skalaen. Den første grunnen er jeg helt for, men det å justere skalaen for å få en bedre normalfordeling synes jeg er villedende. Da får man enten lage bedre eksamener, bedre forelesninger, bedre undervisningsmateriell, eller forelese bedre – og tydeligere.

Stryk

Noe av det som volder smerte for foreleser er at studenter stryker. Dette har gjennom årene ført til en del diskusjoner på sensurmøter, da det ikke er tvil om at studenten kan sanke mange poeng selv om det er tydelig at han ikke har forstått faget. Poenggrensen har for det meste vært 36 eller 40, og jo lavere den er og jo mer diskusjonsvennlig faget er, desto lettere er det å sanke nok poeng til å stå.

Selv har jeg opplevd en god del irrelevant poengsanking, og i noen tilfeller gir det uttelling, men man kjenner på seg at denne studenten ikke kan faget selv om han får det på vitnemålet. Det morsomste jeg opplevde var en gang en utenlandsk student (han skrev på engelsk) leverte inn 47 sider hvor han bare skrev ned alt han kunne ta med fra faget. Når jeg talte poeng fikk jeg fem poeng, hvilket ville gi 6.0, og det ønsket jeg ikke å gi, for det kan også tolkes som om studenten ikke har møtt til eksamen. Men jeg slet for å finne et sted jeg kunne gi ett poeng til, slik at han kunne få 6 poeng og dermed 5.5. Og dessverre for ham kunne han ikke belønnes for ’originalitet’ i besvarelsen.

Mine mange år med sensur har gjort meg overbevist om at studentene burde stryke om de fikk dårligere enn C eller i gamle dager 2.5, fordi de da ganske enkelt ikke behersker faget. Det ville gjort dem godt om de hadde tatt seg tid til å lære det skikkelig. På den annen side så har jeg da også kjent mange medstudenter som har jobbet og jobbet samvittighetsfullt og alvorlig, og ikke oppnådd annet enn treere og firere. Jeg har tilogmed vært i den situasjon at instituttstyrer har spurt meg om ikke vi nå med denne kontinuasjonseksamenen kunne la vedkommende stå, slik at han kunne bli ferdig med studiene – etter ti års slit. Den gangen fant vi heldigvis at han sto i det hengefaget, uten å trenge å være forståelsesfulle.

Jeg har én gang opplevd å bli klaget på i forbindelse med en diplombesvarelse, og ble fortalt at ’dette er datteren til herr X, så hun kan ikke strykes’. Faren var nemlig en ledende person i et organisert fagmiljø som hadde sprunget ut av instituttet. En annen sensor ble funnet, og hun sto.

Er sensor for dyr?

Det stemmer at sensorarbeid er normert til en halv time pr oppgave. Dette var grunnen til at jeg tok på meg så mye sensur. Det var simpelthen lett-tjente penger.

Når jeg hadde kommet opp i fart, brukte jeg nemlig tre minutter pr besvarelse, eller 20 besvarelser i timen. Når jeg avogtil nevnte det for andre, mente de at jeg umulig kunne gjøre et skikkelig arbeid på den måten. De nektet å tro det.

Men det er som med tryllekunstnere. Du må bare kjenne trikset.

Jeg fant raskt at det hele handlet om å spare bevegelser. Derfor laget jeg først et løsningsforslag på én side, på rutepapir med to kolonner, og like mye plass til besvarelse pr deloppgave som antall prosentpoeng den kunne gi. Dermed hadde jeg spart det å bla i løsningsforslaget.

Jeg ikke bare lærte meg løsningsforslaget utenat, men anga nøyaktig hvor mange poeng hvert svar kunne gi på mitt eget ark og hvorfor, slik at jeg visste nøyaktig hva jeg skulle se etter.

Så linjerte jeg opp et rutepapir med én kolonne pr student, og med én deloppgave med antallet maks delpoeng, pr linje. Var det flere enn 15 studenter kopierte jeg arket på forhånd. Så skrev jeg inn alle studentnumrene.

Deretter satt jeg med besvarelsen til venstre og rutearket til høyre med løsningsforslaget ovenfor, bladde og noterte. For hver deloppgave leste jeg til jeg fant det jeg var ute etter, noterte poenget og gikk videre. Til slutt summerte jeg. Jeg brukte ingen mental energi på hvilken karakter studenten ville få til slutt. Jeg merket meg også om studenten hadde besvart en deloppgave der hvor svaret egentlig tilhørte en annen deloppgave, slik at dette ga poengene studenten fortjente, på den deloppgaven.

Jeg brukte blyant og papir fordi det minimaliserte bevegelsene. Det er mye mer tidkrevende å føre inn tall i excel samtidig som du blar i en besvarelse. Da må du flytte hendene hele tiden. Med blyant var det minimal bevegelse med høyre hånd for hver poengsetting og venstre hånd bladde kun i besvarelsen.

Mange forelesere hadde som policy heller å trekke poeng for feil enn å telle oppover. Dette krever mer mental energi, det tar lenger tid å tenke over poengsettingen, og jo dårligere besvarelsen er, desto mer ekstraarbeid blir det. Selv har jeg aldri trukket noen for å skrive noe irrelevant, siden jeg bare teller oppover på det som er riktig. Selv om foreleser noen ganger på sensurmøtet har påpekt at ’med det svaret der fortjener han ikke å stå!’..

Forskjell på forelesere?

Under mine mange sensurrunder kom jeg spesielt til å gruble på om eldre professorer er snillere med karakterene enn yngre professorer. Jeg mente å kunne observere en viss forskjell. Kan det skyldes en økt forståelse av studentenes læring slik at faget blir bedre med årene? Kan det skyldes at yngre professorer rett og slett krever mer? Eller at de eldre slakker på kravene med årene?

Jeg diskuterte dette med en instituttstyrer for en del år siden, og det førte til at det ble opprettet et prosjekt der jeg fikk alle prosjektbesvarelsene gjennom ett år ved instituttet til sensur, for å se om der var ulikheter mellom de forskjellige forelesernes vurderinger. Jeg fikk (selvsagt) ikke vite hva sensuren opprinnelig hadde vært.

Resultatet var interessant. Det var et svakt avvik mellom mine karakterer og instituttets opprinnelige, da jeg var litt strengere i bedømmelsen, men ikke nok til at det på noen måte var foruroligende. Så om noen gikk med mistanker om at noen tok lettere på sensur enn andre, så kunne de nå senke skuldrene.

Det eneste morsomme funnet var at i ett tilfelle hadde jeg gitt en E der studenten hadde fått A, hvilket ble forklart med at professoren hadde vært fornøyd da han hadde fått de resultatene han selv ønsket. Instituttstyreren fortalte meg at de hadde hatt mistanke om at denne sensoren tok litt for lett på oppgaven og ikke skulle benyttes videre. Så kan man jo si at det var et viktig funn at om eldre professorer fikk bedre resultater ut av studentene enn yngre professorer, så var det faglig sett helt i orden.

Vi bør ha to sensorer

Jeg tror mange ønsker å være sensor fordi den normerte tid er så høy selv om det ikke er verdens morsomste arbeid. Det er også morsomt å treffe kolleger og få oppdatert seg på hva som har skjedd i faget og hva som ellers skjer på instituttet. Som vi har sett over mener jeg imidlertid at sensurtid er normert for høyt.

La det ikke være tvil om at bruk av ekstern sensor slett ikke garanterer 100% riktig sensur. Dette er umulig å oppnå. Ett institutt kan ha rykte på seg for å gi bedre karakterer enn andre, så det tiltrekker seg studenter, mens andre kan ha rykte på seg for å være vanskelige. Noen fag har bedre rykte enn andre når det gjelder gode karakterer. Noen faglærere kan simpelthen ha vært slomsete med eksamensoppgavene, som den gangen jeg satt på eksamen i Fysikalsk Elektronikk og opplevde at her måtte det være noe galt. Og det var det, for det viste seg at halve eksamensoppgaven var gitt fra noe som ikke var pensum. Det ble (selvsagt) arrangert ny eksamen – og det som var rart var at studentene fikk tilbud om de ville ta den. Det skulle vært obligatorisk.

Det å ha to sensorer er uansett mye bedre enn bare å ha én, fordi kontrollmekanismene i det å gi en riktig karakter blir, som vi nå har sett, svært mye forbedret. Jeg tror ikke bruk av enda en sensor vil forbedre kvaliteten ytterligere, gitt den usikkerheten som faktisk eksisterer i hvorvidt eksamensoppgaven gir et riktig bilde av hva studenten bør kunne, vektleggingen av deloppgavene, og poenggrensene. Sensur er en kunst: ett sted må man sette strek.

Sensur blir ikke perfekt, men vi må gjøre det vi kan for å få regulert sensurarbeidet slik at studentene blir så likt behandlet som mulig og at avvikene i bedømmingsprosessen blir minst mulig. Såpass skylder vi studentene etter alt strevet deres.

Følg UA på Facebook, Twitter og Instagram.

Les flere ytringer her.

Powered by Labrador CMS