Forskning på algoritmer kan avsløre falske nyheter

Algoritmen er tildelt rollen som den store stygge ulven i det moderne medieeventyret. Om ikke vi som lager eller leser nyheter eller annen dagsaktuell informasjon er snille og greie, kommer den store, stygge algoritmen og tar oss.

Rolf Dyrnes Svendsen t.v. og Jon Atle Gulla forener krefter i Davids kamp mot Goliat.
Publisert Sist oppdatert

Forsker på anbefalingssystemer, professor Jon Atle Gulla ved Institutt for datateknikk og informasjonsvitenskap: - Den frie viljen eksisterer fortsatt.

Rolf Dyrnes Svendsen, ex digitalredaktør Adressa, nå daglig leder i Nxt Media: - Algoritmer gir deg råd, de behøver ikke være vesensforskjellig fra andre råd du får.

Hva er algoritmer, egentlig?

Klikk = bruker-info

Vi har forstått det nå, at når vi leter etter en vare på et kommersielt nettsted, og nettstedet, basert på de første sidene vi klikker oss inn på, straks begynner å foreslå andre produkter, så er det uttrykk for at man forsøker å anvende den kunnskapen vi måtte gi fra oss gjennom klikkene våre til å selge oss mer. Jo flere klikk, jo mer informasjon, jo mer presise kan forslagene vi presenteres for bli, jo større er sjansen for at vi biter på.

Da er det algoritmer som jobber med oss.

Algoritmer behøver informasjon om oss for å fungere. Er det et problem?

- Du får råd og kjøpshjelp på mange områder. Som forbruker behøver du kjøpsassistanse for å foreta gode valg. I det moderne samfunn greier man seg ikke uten slik assistanse i en eller annen form, sier Dyrnes Svendsen.

La oss si at man er ute etter en nyskrevet roman om et aktuelt tema i tiden, er det da noen prinsipiell forskjell mellom å spørre en person i bokhandelen om råd, og å lete rundt på amazon.com? Så lenge rådene funker.

LES OGSÅ: De vil ta Facebook og Google

Vi vil overraskes

Første innvending er personvern. Vi vil helst ikke at anonyme nettsteder skal vite for mye om oss. Dette handler om demokrati og rettsikkerhet, og er en skål for seg. Staten vet mye om oss, det er uunngåelig. Vi fins i alle mulige offentlige registre. Så lenge vi stoler på staten, er ikke det nødvendigvis noe problem.

Neste innvending ser sånn ut: Vi vil helst ikke at virksomheter som selger oss saker, hva enten det er bøker, TV-serier, journalistikk, klær, sportsartikler og mer til – skal bli så gode på å forutsi våre ønsker og behov at vi ender opp med mer av det vi allerede har. Vi vil overraskes, de fleste av oss.

Men det er ingen fare for det, i hvert fall foreløpig, sier professor Gulla.

- Algoritmene fanger bare opp noen av faktorene som påvirker våre valg, og det jobbes med egne strategier for å motvirke slike tendenser og sikre brukeren kontroll over anbefalingsprosessen, sier han.

Ok. Hva snakker vi om når vi snakker om algoritmer?

- Mønstergjenkjenning, svarer professoren.

«Data mining»

Her møtes en rekke teknologier. Hvordan gjenkjenne mønstre i menneskelig atferd blir raskt svært utfordrende, rett og slett fordi disse mønstrene blir svært komplekse. Det handler om ”data mining” – avdekke atferdsmønstre for å forutsi framtidig atferd.

Det handler også om ”collaborative filtering”: I sin enkleste form handler det om at dersom person A mener det samme som person B om ett bestemt tema, er det større sannsynlighet at A vil være enig B på et annet tema også, sammenliknet med en tilfeldig valgt person.

Hvorfor handler vi som vi gjør?

- Det blir ikke lettere når du tenker på at du handler ulikt ut fra konteksten du er i, legger Dyrnes Svendsen til.

 Er du i jobbmodus agerer du ut fra ett sett preferanser. I hjemmet med familien handler du på en annen modus. I fritidsmodus, med venner, på hytta eller i utlandet på ferie – hele tida endres premissene som du, bevisst eller ubevisst, velger ut fra. En algoritme som ikke på en eller annen måte fornemmer hvilken modus du er i, vil forsyne deg med mindre nøyaktige forslag, kanskje så upresise at de blir meningsløse for deg.

Så har vi dette med språket. Om du skriver inn ”Heimdal” så kan det bety en bydel, et eiendomsselskap, et oljefelt, en persons etternavn. Om algoritmen skal ha sjans til å fatte hva du er ute etter, må den være i stand til å sette ordet inn i en kontekst.

- Det handler om å «tune inn» hvilken modus du befinner deg i, og slik overgå brukerens forventninger, sier Nxt Media-lederen.

Vi skal få bestemme selv

En illustrasjon på slik mønstergjenkjenning fikk undertegnede da jeg, etter å ha googlet ”data mining” skrev inn ”coll” i søkefeltet, og ”collaborative filtering” dukket opp som alternativ nr 3 i foreslåtte fullføringer av søkeordet. Da en kollega skrev inn ”coll” uten å ha skrevet inn ”data mining” først, dukket helt andre forslag opp. Så raskt oppfattet Google-algoritmen hva jeg var ute etter.

Men ifølge Gulla er ikke intensjonen at teknologien skal ta beslutningene for oss.

– Den fri vilje eksisterer i fullt monn, slå han fast.

Mye av forskningen hans nå har kontekstuell språkanalyse som fokus – å forstå enkeltord i forhold til konteksten de opptrer i.

Datalingvistikk

I 2015 fikk NTNU og Adresseavisen tildelt midler fra Forskningsrådet til å utvikle anbefalings- og personaliseringsteknologi for medier. Bevilgningen gjorde det mulig å investere i ressurser og utviklingskapasitet til en samlet verdi på 40 millioner kroner. Dyrnes Svendsen var på det tidspunkt fremdeles digitalredaktør i Adressa. Mediekonsern behøver resultatene denne forskningen kan gi for å overleve i framtida, tror han.

Det handler om å gi leserne et produkt de har bruk for – og det handler om å ikke gi dem noe de ikke har bruk for, som for eksempel falske nyheter. Til det siste er begrepet «datalingvistikk» viktig, forklarer Gulla.

- Det er et hjelpemiddel til å forstå hva nyhetene egentlig handler om: Sortere hva som er nyttig, viktig, troverdig.

Med den voldsomme veksten i datakraft, «big data», skjer denne sorteringen og tilretteleggingen i økende grad i sann tid. Det er nødvendig.

- Medier har gått fra å levere et og et produkt, gjerne i form av en avis hver morgen, til å representere og tolke den kontinuerlige nyhetsstrømmen, sier Dyrnes Svendsen.

Dette å løfte fram nyheter personalisert og tilrettelagt for den enkelte lesers preferanser, og luke vekk løgn og fanteri, er slik sett to sider av samme sak.

Neste Nxt Media konferanse handler om Smartere media

Hvor ble det av tilfeldigheten?

Neste innvending: Når algoritmene blir så presise at de lykkes i å gi deg mer av hva du alt har avslørt du er interessert i: Hva med den herlige tilfeldigheten – hvor blir det av alt det ingen, verken algoritmene, vi selv eller noen andre, ante at vi kunne være interessert i?

- Det fins tre varianter, svarer Gulla og Dyrnes Svendsen.

Den ene er at at det legges inn tilfeldige anbefalinger her og der som ikke samsvarer med brukerens kjente interesser eller kommer ut av noen anbefalingsalgoritme. Ideen her er nettopp at en ønsker å anbefale noe som brukeren tilsynelatende ikke har interesse for, men som kan nyttig fordi det skaper variasjon og bringer nye perspektiver inn i listen av anbefalinger.

Den andre går under kategorien «hybride løsninger». Her analyseres hva du liker på ett område, eksempelvis TV-serier, og foreslår hva «en som deg» kan tenkes å ha for klessmak. Et anbefalingssystem har ofte flere anbefalingsstrategier i bruk. En kan anbefale basert på tidligere atferd, basert på likheter med andre brukere, basert på geografisk avstand, basert på trender og popularitet, sekkekategorien «freshness» og mer til.

- Noen ganger flettes disse sammen til en enkelt liste, og den vil da ha mye mer variasjon enn om bare én strategi ble brukt. Men mange systemer lar brukeren selv velge hvilke strategier som skal brukes, slik at brukeren selv styrer hvilke faktorer som skal legges til grunn for anbefalingene, forklarer Gulla.

En tredje variant er at virkelige mennesker samarbeider med algoritmene og legger inn anbefalinger manuelt inn i strømmen.

Den siste versjonen innebærer at profesjonelle jobber sammen med algoritmene. I mediehus kan en slik profesjonell være mediets redaktør, som lar algoritmene ta et basisansvar for å overvåke nyhetsstrømmen, og går inn og velger ut særskilte saker som løftes fram – redaksjonelle valg basert på, eksempelvis, vesentlighetskriteriet. Avisleseren skal ikke bare få de nyhetene hun har vist at hun vil lese, men også de nyhetene hun bør lese. Der kommer redaktøransvaret inn.

Når algoritmene arver fordommene våre

Siste innvending: Det fins eksempler på at algoritmer arver menneskers fordommer. Nylig avdekket en gruppe forskere ved University of Virginia at et bildegjenkjenningsprogram de var i ferd med å utvikle, automatisk koblet bilder av kjøkken med kvinner og ikke med menn. Dette hadde sammenheng med at bildedatabasen som algoritmen lærte fra, inneholdt flere bilder der kvinner var avbildet på et kjøkken enn slike bilder med menn. Menn var i større grad enn kvinner avbildet med gevær og sportsutstyr. Denne skjevheten i datamaterialet fikk konsekvenser for algoritmens læring til algoritmen.

I USA har de utviklet et automatisert system for utmåling av straff og kausjonsbetingelser. Systemet brukes til å forutsi risikoen for at domfelte vil begå ny kriminalitet. Det amerikanske tidsskriftet ProPublica har sett nærmere på avgjørelsene systemet har fattet og konkluderte med at det diskriminerer afroamerikanere. Antallet afroamerikanere som feilaktig blir flagget med høyrisiko for å begå nye lovbrudd, er dobbelt så høyt som for hvite.

Det er en generell utfordring i data mining/maskinlæring at det brukes mønstre i dataene til å anta visse saksforhold, ifølge Gulla.

- Ofte er disse saksforholdene helt uproblematiske, for eksempel kan en analyse vise at trøndere generelt liker å lese nyheter fra Trondheim. Men det kan også være at mønstrene reflekterer uheldig samfunnsforhold som i verste fall kan forsterkes hvis de tas i betraktning av et anbefalingssystem. Dette er noe vi alltid tenker på når vi vurderer hvilke trekk som skal analyseres og hva analysen skal brukes til, sier professor Jon Atle Gulla.