«Slik jeg ser det, er teknologien straks moden nok til å levere på omtrent samme nivå som en umoden og uerfaren journaliststudent», skriver Andres Lie Brenna.

DEBATT:

Slik kan GPT brukes til å avsløre misvisende titler

Innen sommeren er den kunstige intelligensen GPT trolig på samme nivå som en fersk sommervikar. I mellomtiden kan vi utnytte den underliggende teknologien til å gjøre journalistikken vår bedre.

Publisert Sist oppdatert

Denne artikkelen er over ett år gammel og kan derfor inneholde utdatert informasjon.

  • Dette er et debattinnlegg. Innlegget uttrykker skribentens egne synspunkter.

ChatGPT har tatt verden med storm, og vi står bare på startstreken til en rivende utvikling innen såkalte Large Language Models (LLM) som vil påvirke alt og alle som jobber med tekst. Det inkluderer oss i pressen som jobber med journalistikk.

Utfordringene fremover blir mange, men det blir også mulighetene. Så spørs det om vi i pressen slenger oss på i kappløpet, eller om vi venter og ser an utviklingen. Jeg tror vi må gjøre litt av begge deler.

Dagens GPT er en lystløgner

Så langt har GPT i forskjellige versjoner først og fremst imponert med sin evne til å skrive tekster, men det er noen store utfordringer knyttet til sannferdighet, fakta og referanser. I dagens utgaver er det et stort problem at ChatGPT er en lystløgner som «hallusinerer» når den svarer på spørsmål og skriver tekster fulle av feil med den største selvtillit.

Det er ikke så farlig når teknologien brukes til å skrive kreative tekster, men det gjør det krevende å bruke denne kunstige intelligensen journalistisk.

Noen av disse utfordringene kan håndteres ved å justere parametere og utarbeide bedre instruksjoner i form av det som kalles prompt engineering, samt ved å knytte GPT opp mot andre datakilder gjennom semantiske søk eller andre tilnærminger.

På denne fronten skjer det mye spennende for tiden, men arbeidet er nok fortsatt på et såpass avansert teknisk nivå at det trolig er utfordringer som passer bedre for IT-personell enn for dataentusiastiske journalister.

Det betyr ikke at journalister bør sitte helt rolig på sidelinjen med en vente-og-se-holdning til utviklingen. Dette kommer til å gå fort, og jeg forventer å se gode eksempler på journalistisk bruk av GPT i løpet av inneværende år.

«I sin enkleste form kan disse tekstgenererende kunstige intelligensene sparke i gang en eksplosjon av tekstbasert innhold – også på norsk», mener Anders Lie Brenna.

Som en uerfaren sommervikar

Slik jeg ser det, er teknologien straks moden nok til å levere på omtrent samme nivå som en umoden og uerfaren journaliststudent.

I sommer vil det for eksempel bli mulig å be både GPT og en uerfaren sommervikar om å skrive en sak om strømprisen med utgangspunkt i de siste strømprisene fra kraftbørsen Nord Pool kombinert med et par kommentarer fra et strømselskap.

I begge tilfeller vil redaktøren få tilbake et førsteutkast som må redigeres litt før det eventuelt publiseres.

Jeg er dypt fascinert av utviklingen og denne muligheten, men jeg erkjenner samtidig at det ikke er vel anvendt tid for meg som redaktør i en liten næringslivsredaksjon å bruke mange timer på å utforske en teknologi som kanskje klarer å levere på samme nivå som en sommervikar på sin første arbeidsdag. Det er interessant og gøy, men nytteverdien er ikke stor.

Samtidig mener jeg det er helt nødvendig å begynne å ta teknologien i bruk for å være best mulig rustet til å utnytte den fullt ut når GPT blir god nok til å også brukes journalistisk.

Jeg har derfor utforsket hvordan noe av den underliggende teknologien kan brukes til noe nyttig i vår redaksjonelle hverdag allerede nå.

Informative titler

I EnergiWatch skriver vi artikler om og for energibransjen. Vi er en abonnementsfinansiert næringslivsavis, og vi er veldig opptatt av at nyhetene vi skriver skal være verdifulle å lese for de som abonnerer.

Som de fleste har fått med seg, så skjer det veldig mye i energibransjen for tiden, og det er ikke alltid våre abonnenter har tid til å lese alle sakene vi publiserer. Det er derfor like viktig for oss å gi våre lesere et godt oversiktsbilde over nyhetene når de skummer gjennom forsiden eller våre to daglige nyhetsbrev, som det er å gi de dyptgående kvalitetsjournalistikk.

Målet vårt er derfor å skrive informative titler som gir leserne våre mest mulig informasjon før de eventuelt velger å lese artikkelen. Vi tar et bevisst valg om å røpe mest mulig av nyheten i tittelen, og så håper vi at leserne likevel ønsker å lese hele saken – når de har tid.

Vi driver ikke med lokketitler, men det er lettere sagt enn gjort å oppsummere mest mulig av informasjonen fra artikkelen i en kort tittel.

Noen ganger treffer vi godt, men det er også ganger vi ikke lykkes helt. Da er det fint å kunne evaluere oss selv med en objektiv analyse av samvariasjonen mellom tittel og brødtekst.

GPT-embedings konverterer tekst til tall

Her er den underliggende teknologien i GPT til stor hjelp. For GPT bruker noe som heter tekst-embeddings for å konvertere menneskelig forståelig tekst til maskinforståelige tallrekker.

Embeddings kan blant annet brukes til å måle sammenhengen mellom to tekster, og det finnes mange måter og modeller å gjøre dette på.

Det interessante med GPTs embeddings er at den er trent på en helt enormt stor tekstmengde, og at den har 1536 dimensjoner (etter en optimaliseringsprosess som reduserte antall dimensjoner med cirka 87 prosent uten å miste funksjonalitet).

Hver dimensjon kan ses på som en måte å beskrive noe på. Jeg kan for eksempel beskrives med dimensjoner for stilling, arbeidssted, kjønn, alder, høyde og vekt. Det er seks forskjellige måter å beskrive meg til andre.

Sammenligner tekster med forskjellige ord og lengde

Med 1536 måter (dimensjoner) å beskrive en tekst på, åpner det for muligheten til å beskrive det samme innholdet i tekster – uten å bruke de same ordene.

Dette gjør at disse to potensielle titlene kan sammenlignes selv om ordene er ulike:

  • Norges største selskap betalte rekordmye i skatt
  • Rekordhøy skatteregning for Equinor

Ifølge GPT er disse titlene 91,2 prosent like.

Tilnærmingen åpner også for å sammenligne en kort tekst med en lang tekst, og dermed har vi et verktøy som kan si noe om hvor godt en tittel reflekterer innholdet i en artikkel.

Måten det gjøres er litt teknisk, men det involverer bruk av cosinus. Det vil si den pytagoriske læresetningen som gjør det mulig å finne vinklene i en trekant.

Dette er mulig fordi embeddings konverterer alle tekster til en serie med 1536 tall uavhengig av hvor mange tegn eller ord teksten består av, og så brukes cosinus til å finne vinkelen mellom disse to tallseriene. Dermed får vi et tall som sier noe om hvor like eller ulike de to tallrekkene er.

I min tilnærming beskriver jeg det som prosentvis likhet. Det er ikke helt korrekt, men det er en forenkling som gir en god nok mening til at jeg mener det er innenfor i denne sammenhengen.

87,8 prosent likhetsgrad mellom tittel og tekst

En automatisert gjennomgang av artiklene vi publiserte på EnergiWatch i forrige uke viser at de i snitt hadde en likhetsgrad på 87,8 prosent mellom tittel og tekst.

Målt etter dette kriteriet, var vår best vinklede artikkel oppe på 91,5 prosent, mens vår dårligste var nede i 84,3 prosent.

Hvorvidt det er bra eller dårlig er litt vanskelig å vurdere, men mitt førsteinntrykk var at det var bra.

Tittel Relevans
Vil utrede havvindpark i Skaga-feltet utenfor Grenland0,91
Ett av navnene ryker når Mørenett og Linja slår seg sammen0,91
Offshore Norge blant få «optimister» i NHOs nyeste undersøkelse0,91
Statkraft vurderer nytt vindkraftprosjekt med 25 turbiner0,91
Alta Kraftlag fillerister regjeringens grunnlag for grunnrenteskatt på vindkraft0,91
Neptune doblet inntekten og vil øke produksjonen merkbart0,9
Kommune ber kraftselskap om å betale for flomskader0,89
Norsk Kjernekraft: – Kjernekraftverk finansierer egen avfallshåndtering0,89
Ørsted om vake-effekten: – Vind er ikke en utømmelig ressurs0,89
TrønderEnergi/Aneo er involvert i alle fire akutte forurensninger fra vindturbiner som er registrert i Norge0,88
Vedum om vindskatt: – Regjeringen vil legge frem oppdatert vurdering av provenyanslag0,88
Reagerer på Å Energis oppførsel i solkraft-sak0,88
Aasland: Reindrifteierne har bedt om prisen for å rive Fosen-turbinene0,87
RME anbefaler maks 8 øre/kWh i påslag på pliktstrøm0,87
Freyr-sjefen om amerikansk skattepakke: – En «game changer»0,87
Miljørevisjon for Skjomenvassdragene i Nordland vil gi Statkraft produksjonstap på cirka 40 GWh0,86
Acer-saken skal til plenumsbehandling i Høyesterett0,86
Ørsted erkjenner risiko for tapsgivende prosjekter0,86
Varm vinter sikrer godt fylte gasslagre og lavere gasspris0,86
Fare for britisk effektbrist resulterte i skyhøye priser for gasskraft på balansemarkedet0,86
Okea-sjefen: – Vi vil selvfølgelig forhindre at vi elektrifiserer Draugen med kullkraft fra Tyskland0,85
Dette havområdet velger Okea bort0,85
Disse 27 småkraftverkene står i kø uten saksbehandler0,84

Høyere likhetsgrad på NTB-sakene

Vi har imidlertid ikke rukket å gjøre oss så mange erfaringer ennå, så for å få et inntrykk tok jeg også en sjekk av NTB-sakene vi publiserte på EnergiWatch i forrige uke.

Da viste det seg at de hadde bedre tall enn våre egne saker. For i snitt hadde de en likhetsgrad på 88,9 prosent, og de lå på mellom 86,0-92,4 prosent.

Det er alltid litt surt å bli slått av noen andre i sin egen analyse, men hvis man først skal slås på informative titler, er det ikke så ille å bli slått av NTB. De har jo samme tilnærming som oss når det gjelder å være så informative som mulig.

Sånn sett er det kanskje bra at vi er nesten like gode som NTB i våre titler.

Hva med Dagbladet.no?

Når man snakker om titler i nettaviser kommer man ikke utenom Dagbladet.no. Den tabloide nettavisen blir hyppig kritisert for sin forside, men forsvarer seg med at tallene viser at de lykkes med sin strategi.

Den strategien går definitivt ikke ut på å lage så informative titler som mulig, slik vi og NTB etterstreber. Det er likevel interessant å se hvordan de kommer ut i en slik analyse.

Her har jeg ikke tatt meg bryet med å automatisere innsamlingen av titler og artikler, så utvalget blir litt mer snevert og mer tilfeldig utvalgt.

Her ser vi at likhetsgraden mellom tittel og artikkel er gjennomgående lavere, men ikke så lave som man kanskje skulle tro.

Det kan ha flere forklaringer, og en av de er trolig at det er større relevans mellom norske ord enn dersom det hadde vært en norsk tittel som pekte til en artikkel på et annet språk. For GPT er trent på mange forskjellige språk, og først og fremst engelsk.

Sannsynligvis viser dette at bruk av GPTs embeddings til å sammenligne tekster ikke gir et godt nok svar på hvorvidt tittelen objektivt sett er informativ nok om innholdet i teksten.

Samtidig gir den en god nok indikasjon på hvorvidt tittelen er på Dagbladet-nivå eller om den holder NTB-standarden.

For oss i EnergiWatch gir den i hvert fall en god foreløpig pekepinn om at vi helst ikke skal ha titler som scorer under 85 prosent – slik Dagbladet.no gjør.

Flere bruksområder

Dette er første gang vi har brukt GPT embeddings til å evaluere hvorvidt våre titler er informative nok, og det gjenstår nok litt mer arbeid før dette eventuelt blir veldig viktig for oss i EnergiWatch.

Det er uansett interessant å lære hvordan GPT-teknologien fungerer, og vi ser at det er potensiale for mange andre interessante analyser.

Det er lett å se for seg flere redaksjonelt interessante bruksområder for denne formen for analyse.

Man kan for eksempel bruke den for å sjekke hvor like forskjellige nettavisers artikler er sammenlignet med en pressemelding som har gått ut til alle. Da vil det fort bli tydelig hvem som har tilført mer verdi til leserne sine gjennom redigering og oppfølgninger, og hvem som mer eller mindre publiserer de ukritisk.

På samme måte kan man bruke GPT embeddings til å analysere saker der en nettavis siterer en annen avis. Over tid vil det kunne gi en interessant oversikt over hvem som tilfører merverdi, og hvem som bare klipper og limer.

Et tredje eksempel, kan være å sammenligne avisenes kommentarartikler når de skriver om samme tema. Da vil en slik analyse satt opp i en matrise gi en objektiv indikasjon på hvilke kommentatorer som skriver og mener mest likt.

Hvorvidt det blir mediene selv som gjør slike analyser av innholdet, gjenstår å se. Det kan jo tenkes at andre utenforstående er mer ivrige på å analysere medieinnholdet enn oss selv.

GPT-4 og konkurrentene lanserer fortløpende

Når dette skrives, har ryktene om neste versjon av GPT gått høyt i lang tid. Det siste som sies, er at OpenAI kommer med GPT-4 denne uken, sannsynligvis på torsdag.

Hvorvidt det stemmer gjenstår å se, men det spiller egentlig ikke så stor rolle. Det vi vet er at ChatGPT (som regnes som GPT3.5) har sparket i gang et nytt teknologisk kappløp som alle de store IT-gigantene ser seg helt nødt til å svare på.

Det gjør at vi med sikkerhet kan slå fast at det kommer mange nye avanserte kunstige intelligenser innen tekst i ukene og månedene fremover, og det vil påvirke journalistikken på flere måter.

I sin enkleste form kan disse tekstgenererende kunstige intelligensene sparke i gang en eksplosjon av tekstbasert innhold – også på norsk. Det betyr at journalistikken må konkurrere med veldig mye mer tilgjengelig tekst enn noen gang tidligere.

I en slik konkurranse har redaktørstyrte medier åpenbart et stort konkurransefortrinn i form av kvalitetssikret innhold og verifiserte faktaopplysninger, men journalistikken vil uansett merke det likevel.

De store IT-gigantene er smertelig klar over dagens begrensninger og utfordringer med «hallusinering», men de jobber på spreng med både å overkomme og omgå disse problemene. Det kan ta tid, men det kan også gå fort.

Når det skjer vil det by på store muligheter og utfordringer for journalistikken. Jeg håper vi i pressen forbereder oss godt.

Powered by Labrador CMS