«Slik jeg ser det, er teknologien straks moden nok til å levere på omtrent samme nivå som en umoden og uerfaren journaliststudent», skriver Andres Lie Brenna.Illustrasjonsfoto: Dado Ruvic / Reuters / NTB
DEBATT:
Slik kan GPT brukes til å avsløre misvisende titler
Innen sommeren er den kunstige intelligensen GPT trolig på samme nivå som en fersk sommervikar. I mellomtiden kan vi utnytte den underliggende teknologien til å gjøre journalistikken vår bedre.
Denne artikkelen er over ett år gammel og kan derfor inneholde utdatert informasjon.
Dette er et debattinnlegg. Innlegget uttrykker skribentens egne synspunkter.
Annonse
ChatGPT har tatt verden med storm, og vi står bare på
startstreken til en rivende utvikling innen såkalte Large Language Models (LLM)
som vil påvirke alt og alle som jobber med tekst. Det inkluderer oss i pressen
som jobber med journalistikk.
Utfordringene fremover blir mange, men det blir også
mulighetene. Så spørs det om vi i pressen slenger oss på i kappløpet, eller om
vi venter og ser an utviklingen. Jeg tror vi må gjøre litt av begge deler.
Dagens GPT er en lystløgner
Så langt har GPT i forskjellige versjoner først og fremst
imponert med sin evne til å skrive tekster, men det er noen store utfordringer
knyttet til sannferdighet, fakta og referanser. I dagens utgaver er det et
stort problem at ChatGPT er en lystløgner som «hallusinerer» når den svarer på
spørsmål og skriver tekster fulle av feil med den største selvtillit.
Det er ikke så farlig når teknologien brukes til å skrive
kreative tekster, men det gjør det krevende å bruke denne kunstige
intelligensen journalistisk.
Noen av disse utfordringene kan håndteres ved å justere
parametere og utarbeide bedre instruksjoner i form av det som kalles prompt
engineering, samt ved å knytte GPT opp mot andre datakilder gjennom semantiske
søk eller andre tilnærminger.
På denne fronten skjer det mye spennende for tiden, men
arbeidet er nok fortsatt på et såpass avansert teknisk nivå at det trolig er
utfordringer som passer bedre for IT-personell enn for dataentusiastiske
journalister.
Det betyr ikke at journalister bør sitte helt rolig på
sidelinjen med en vente-og-se-holdning til utviklingen. Dette kommer til å gå
fort, og jeg forventer å se gode eksempler på journalistisk bruk av GPT i løpet
av inneværende år.
Annonse
Som en uerfaren sommervikar
Slik jeg ser det, er teknologien straks moden nok til å
levere på omtrent samme nivå som en umoden og uerfaren journaliststudent.
I sommer vil det for eksempel bli mulig å be både GPT og en
uerfaren sommervikar om å skrive en sak om strømprisen med utgangspunkt i de
siste strømprisene fra kraftbørsen Nord Pool kombinert med et par kommentarer
fra et strømselskap.
I begge tilfeller vil redaktøren få tilbake et førsteutkast
som må redigeres litt før det eventuelt publiseres.
Jeg er dypt fascinert av utviklingen og denne muligheten,
men jeg erkjenner samtidig at det ikke er vel anvendt tid for meg som redaktør
i en liten næringslivsredaksjon å bruke mange timer på å utforske en teknologi
som kanskje klarer å levere på samme nivå som en sommervikar på sin første
arbeidsdag. Det er interessant og gøy, men nytteverdien er ikke stor.
Samtidig mener jeg det er helt nødvendig å begynne å ta
teknologien i bruk for å være best mulig rustet til å utnytte den fullt ut når
GPT blir god nok til å også brukes journalistisk.
Jeg har derfor utforsket hvordan noe av den underliggende
teknologien kan brukes til noe nyttig i vår redaksjonelle hverdag allerede nå.
Informative titler
I EnergiWatch skriver vi artikler om og for energibransjen. Vi
er en abonnementsfinansiert næringslivsavis, og vi er veldig opptatt av at
nyhetene vi skriver skal være verdifulle å lese for de som abonnerer.
Som de fleste har fått med seg, så skjer det veldig mye i
energibransjen for tiden, og det er ikke alltid våre abonnenter har tid til å
lese alle sakene vi publiserer. Det er derfor like viktig for oss å gi våre
lesere et godt oversiktsbilde over nyhetene når de skummer gjennom forsiden
eller våre to daglige nyhetsbrev, som det er å gi de dyptgående
kvalitetsjournalistikk.
Målet vårt er derfor å skrive informative titler som gir
leserne våre mest mulig informasjon før de eventuelt velger å lese artikkelen. Vi
tar et bevisst valg om å røpe mest mulig av nyheten i tittelen, og så håper vi
at leserne likevel ønsker å lese hele saken – når de har tid.
Vi driver ikke med lokketitler, men det er lettere sagt enn
gjort å oppsummere mest mulig av informasjonen fra artikkelen i en kort tittel.
Noen ganger treffer vi godt, men det er også ganger vi ikke lykkes helt. Da er
det fint å kunne evaluere oss selv med en objektiv analyse av samvariasjonen
mellom tittel og brødtekst.
Annonse
GPT-embedings konverterer tekst til tall
Her er den underliggende teknologien i GPT til stor hjelp.
For GPT bruker noe som heter tekst-embeddings for å konvertere menneskelig
forståelig tekst til maskinforståelige tallrekker.
Embeddings kan blant annet brukes til å måle sammenhengen
mellom to tekster, og det finnes mange måter og modeller å gjøre dette på.
Det interessante med GPTs embeddings er at den er trent på
en helt enormt stor tekstmengde, og at den har 1536 dimensjoner (etter en
optimaliseringsprosess som reduserte antall dimensjoner med cirka 87 prosent uten å
miste funksjonalitet).
Hver dimensjon kan ses på som en måte å beskrive noe på. Jeg
kan for eksempel beskrives med dimensjoner for stilling, arbeidssted, kjønn,
alder, høyde og vekt. Det er seks forskjellige måter å beskrive meg til andre.
Sammenligner tekster med forskjellige ord og lengde
Med 1536 måter (dimensjoner) å beskrive en tekst på, åpner
det for muligheten til å beskrive det samme innholdet i tekster – uten å bruke
de same ordene.
Dette gjør at disse to potensielle titlene kan sammenlignes
selv om ordene er ulike:
Norges største selskap betalte rekordmye i skatt
Rekordhøy skatteregning for Equinor
Ifølge GPT er disse titlene 91,2 prosent like.
Tilnærmingen åpner også for å sammenligne en kort tekst med
en lang tekst, og dermed har vi et verktøy som kan si noe om hvor godt en
tittel reflekterer innholdet i en artikkel.
Måten det gjøres er litt teknisk, men det involverer bruk av
cosinus. Det vil si den pytagoriske læresetningen som gjør det mulig å finne
vinklene i en trekant.
Dette er mulig fordi embeddings konverterer alle tekster til
en serie med 1536 tall uavhengig av hvor mange tegn eller ord teksten består
av, og så brukes cosinus til å finne vinkelen mellom disse to tallseriene.
Dermed får vi et tall som sier noe om hvor like eller ulike de to tallrekkene
er.
I min tilnærming beskriver jeg det som prosentvis likhet.
Det er ikke helt korrekt, men det er en forenkling som gir en god nok mening til
at jeg mener det er innenfor i denne sammenhengen.
87,8 prosent likhetsgrad mellom tittel og tekst
En automatisert gjennomgang av artiklene vi publiserte på
EnergiWatch i forrige uke viser at de i snitt hadde en likhetsgrad på 87,8
prosent mellom tittel og tekst.
Målt etter dette kriteriet, var vår best vinklede artikkel
oppe på 91,5 prosent, mens vår dårligste var nede i 84,3 prosent.
Hvorvidt det er bra eller dårlig er litt vanskelig å vurdere,
men mitt førsteinntrykk var at det var bra.
Tittel
Relevans
Vil utrede havvindpark i Skaga-feltet utenfor Grenland
0,91
Ett av navnene ryker når Mørenett og Linja slår seg sammen
0,91
Offshore Norge blant få «optimister» i NHOs nyeste undersøkelse
0,91
Statkraft vurderer nytt vindkraftprosjekt med 25 turbiner
0,91
Alta Kraftlag fillerister regjeringens grunnlag for grunnrenteskatt på vindkraft
0,91
Neptune doblet inntekten og vil øke produksjonen merkbart
0,9
Kommune ber kraftselskap om å betale for flomskader
0,89
Norsk Kjernekraft: – Kjernekraftverk finansierer egen avfallshåndtering
0,89
Ørsted om vake-effekten: – Vind er ikke en utømmelig ressurs
0,89
TrønderEnergi/Aneo er involvert i alle fire akutte forurensninger fra vindturbiner som er registrert i Norge
0,88
Vedum om vindskatt: – Regjeringen vil legge frem oppdatert vurdering av provenyanslag
0,88
Reagerer på Å Energis oppførsel i solkraft-sak
0,88
Aasland: Reindrifteierne har bedt om prisen for å rive Fosen-turbinene
0,87
RME anbefaler maks 8 øre/kWh i påslag på pliktstrøm
0,87
Freyr-sjefen om amerikansk skattepakke: – En «game changer»
0,87
Miljørevisjon for Skjomenvassdragene i Nordland vil gi Statkraft produksjonstap på cirka 40 GWh
0,86
Acer-saken skal til plenumsbehandling i Høyesterett
0,86
Ørsted erkjenner risiko for tapsgivende prosjekter
0,86
Varm vinter sikrer godt fylte gasslagre og lavere gasspris
0,86
Fare for britisk effektbrist resulterte i skyhøye priser for gasskraft på balansemarkedet
0,86
Okea-sjefen: – Vi vil selvfølgelig forhindre at vi elektrifiserer Draugen med kullkraft fra Tyskland
0,85
Dette havområdet velger Okea bort
0,85
Disse 27 småkraftverkene står i kø uten saksbehandler
0,84
Høyere likhetsgrad på NTB-sakene
Vi har imidlertid ikke rukket å gjøre oss så mange
erfaringer ennå, så for å få et inntrykk tok jeg også en sjekk av NTB-sakene vi
publiserte på EnergiWatch i forrige uke.
Da viste det seg at de hadde bedre tall enn våre egne saker.
For i snitt hadde de en likhetsgrad på 88,9 prosent, og de lå på mellom
86,0-92,4 prosent.
Det er alltid litt surt å bli slått av noen andre i sin egen
analyse, men hvis man først skal slås på informative titler, er det ikke så
ille å bli slått av NTB. De har jo samme tilnærming som oss når det gjelder å
være så informative som mulig.
Sånn sett er det kanskje bra at vi er nesten like gode som
NTB i våre titler.
Hva med Dagbladet.no?
Når man snakker om titler i nettaviser kommer man ikke
utenom Dagbladet.no. Den tabloide nettavisen blir hyppig kritisert for sin
forside, men forsvarer seg med at tallene viser at de lykkes med sin strategi.
Den strategien går definitivt ikke ut på å lage så
informative titler som mulig, slik vi og NTB etterstreber. Det er likevel
interessant å se hvordan de kommer ut i en slik analyse.
Her har jeg ikke tatt meg bryet med å automatisere
innsamlingen av titler og artikler, så utvalget blir litt mer snevert og mer
tilfeldig utvalgt.
Her ser vi at likhetsgraden mellom tittel og artikkel er
gjennomgående lavere, men ikke så lave som man kanskje skulle tro.
Det kan ha flere forklaringer, og en av de er trolig at det
er større relevans mellom norske ord enn dersom det hadde vært en norsk tittel
som pekte til en artikkel på et annet språk. For GPT er trent på mange
forskjellige språk, og først og fremst engelsk.
Sannsynligvis viser dette at bruk av GPTs embeddings til å
sammenligne tekster ikke gir et godt nok svar på hvorvidt tittelen objektivt
sett er informativ nok om innholdet i teksten.
Samtidig gir den en god nok indikasjon på hvorvidt tittelen
er på Dagbladet-nivå eller om den holder NTB-standarden.
For oss i EnergiWatch gir den i hvert fall en god foreløpig
pekepinn om at vi helst ikke skal ha titler som scorer under 85 prosent – slik
Dagbladet.no gjør.
Flere bruksområder
Dette er første gang vi har brukt GPT embeddings til å
evaluere hvorvidt våre titler er informative nok, og det gjenstår nok litt mer
arbeid før dette eventuelt blir veldig viktig for oss i EnergiWatch.
Det er uansett interessant å lære hvordan GPT-teknologien
fungerer, og vi ser at det er potensiale for mange andre interessante analyser.
Det er lett å se for seg flere redaksjonelt interessante
bruksområder for denne formen for analyse.
Man kan for eksempel bruke den for å sjekke hvor like
forskjellige nettavisers artikler er sammenlignet med en pressemelding som har
gått ut til alle. Da vil det fort bli tydelig hvem som har tilført mer verdi
til leserne sine gjennom redigering og oppfølgninger, og hvem som mer eller
mindre publiserer de ukritisk.
På samme måte kan man bruke GPT embeddings til å analysere
saker der en nettavis siterer en annen avis. Over tid vil det kunne gi en
interessant oversikt over hvem som tilfører merverdi, og hvem som bare klipper
og limer.
Et tredje eksempel, kan være å sammenligne avisenes
kommentarartikler når de skriver om samme tema. Da vil en slik analyse satt opp
i en matrise gi en objektiv indikasjon på hvilke kommentatorer som skriver og mener
mest likt.
Hvorvidt det blir mediene selv som gjør slike analyser av
innholdet, gjenstår å se. Det kan jo tenkes at andre utenforstående er mer
ivrige på å analysere medieinnholdet enn oss selv.
GPT-4 og konkurrentene lanserer fortløpende
Når dette skrives, har ryktene om neste versjon av GPT gått
høyt i lang tid. Det siste som sies, er at OpenAI kommer med GPT-4 denne uken,
sannsynligvis på torsdag.
Hvorvidt det stemmer gjenstår å se, men det spiller egentlig
ikke så stor rolle. Det vi vet er at ChatGPT (som regnes som GPT3.5) har
sparket i gang et nytt teknologisk kappløp som alle de store IT-gigantene ser
seg helt nødt til å svare på.
Det gjør at vi med sikkerhet kan slå fast at det kommer
mange nye avanserte kunstige intelligenser innen tekst i ukene og månedene
fremover, og det vil påvirke journalistikken på flere måter.
I sin enkleste form kan disse tekstgenererende kunstige
intelligensene sparke i gang en eksplosjon av tekstbasert innhold – også på
norsk. Det betyr at journalistikken må konkurrere med veldig mye mer
tilgjengelig tekst enn noen gang tidligere.
I en slik konkurranse har redaktørstyrte medier åpenbart et
stort konkurransefortrinn i form av kvalitetssikret innhold og verifiserte
faktaopplysninger, men journalistikken vil uansett merke det likevel.
De store IT-gigantene er smertelig klar over dagens
begrensninger og utfordringer med «hallusinering», men de jobber på spreng med
både å overkomme og omgå disse problemene. Det kan ta tid, men det kan også gå
fort.
Når det skjer vil det by på store muligheter og utfordringer
for journalistikken. Jeg håper vi i pressen forbereder oss godt.