«Slik jeg ser det, kan vi som journalister og redaktører med fordel studere vårt eget arbeid gjennom komprimeringsperspektivet», skricer Anders Lie Brenna.

DEBATT:

Både journalistikk og ChatGPT er «lossy» komprimering av fakta og hendelser

Måten den kunstige intelligens velger ut sine svar på forespørsler minner mer om journalistikk enn man kanskje skulle tro.

Publisert
  • Dette er et debattinnlegg. Innlegget uttrykker skribentens egne synspunkter.

Som redaktør med IT-bakgrunn er jeg fascinert av måten man kan forklare journalistikk med utgangspunkt i teknologi. Et eksempel på det er den anerkjente amerikanske journalistikkprofessoren Jeff Jarvis som beskrev journalistikk som «lossy compression». Det vil si som tapskomprimert lagring av informasjon om hendelser.

Informasjon tar mye plass når det lagres som data. For å håndtere det komprimeres informasjonen for at den skal ta minst mulig plass. Det er to grunnleggende måter det kan gjøres på.

«Lossless» vs «lossy» komprimering

«Lossless» (tapsfri) komprimering er teknikker som sørger for at all informasjon er intakt, selv om den tar mindre plass. Det håndteres ved hjelp av algoritmer som sørger for at lange sekvenser kan forkortes, og at repeterende sekvenser ikke tar så mye plass. Enkelt forklart kan man for eksempel si at 10x10 er en lossless forkortelse av 10+10+10+10+10+10+10+10+10+10.

«Lossy» (tapsgivende) komprimering er teknikker der man skiller mellom det som er viktig og det som er uvesentlig. Man fjerner redundant og overflødig informasjon ved å rett og slett utelate det.

I dataverdenen brukes som regel «lossless» komprimering på tekst og data fordi det som regel er helt nødvendig å beholde all informasjon for at den ikke skal bli feil. Det er imidlertid fullt mulig å bruke «lossy» komprimering på bilder, lyd og video fordi man som regel klarer å se eller høre hva det er snakk om selv om oppløsningen ikke er så høy at man kan zoome inn på de minste detaljene.

Redaksjonell utvelgelse

Når professor Jarvis beskrev journalistikk som «lossy», gjorde han det fordi vi som skriver artikler ikke kan ta med alt kildene sier eller alt som står i rapportene vi dekker. Vi må velge ut det viktigste og mest vesentlige, og ignorere resten.

Hvis vi ikke hadde gjort denne redaksjonelle utvelgelsen, ville det blitt både tidkrevende og kjedelig å lese nyheter. For jeg tror ikke folk flest skjønner hvor mye uvesentlig som sies og skrives, og hvor mye informasjon vi pløyer gjennom før vi skriver våre saker.

Utfordringen vår, er at vi ikke vet om vi har prioritert riktig når vi velger ut hva vi skriver om og hva vi utelater. Vi prøver etter beste evne å gjøre gode rasjonelle redaksjonelle valg på vegne av våre lesere, og over tid bør vi helst treffe oftere enn vi bommer.

Samtidig må vi erkjenne, og i hvert fall være klar over, at også vi redaktører og journalister har våre bias. Det vil si skjevheter i hva vi velger ut når vi skriver om noe. Bias forenkler og effektiviserer komprimeringen av informasjon, men det kan undergrave journalistikken og også samfunnet dersom den er systematisk skjev over tid.

I journalistikken forsøker man å redusere problemet gjennom et mangfold av medier, der hver publikasjon kan kjøre selvstendige redaksjonelle linjer med en uavhengig ansvarlig redaktør. Vi har derfor et system med et felles presseetisk regelverk som redaktører og journalister må forholde seg til uavhengig av om de er venstrevridde, høyrevridde eller på noen annen måtte dreid i den ene eller andre retningen.

Hvor godt vi lykkes, kommer an på øyet som ser, men det er en problemstilling som tas på alvor i pressen.

ChatGPT velger også

I disse dager er det mye snakk om ChatGPT og andre kunstige intelligenser, og det er ikke så rart, for her skjer det mye spennende. Jeg har tilbrakt cirka halvparten av min yrkeskarriere i IT-bransjen og halvparten i pressen, og nå er det kjempespennende å følge utviklingen i begge disse fagområdene.

For det som nå skjer innen generativ kunstig intelligens, og da spesielt innen det som kalles Large Language Models (LLM), er helt utrolig. Vi har nå teknologi som er i ferd med å fremstå som intelligent, og uansett om den blir superintelligent eller ikke vil den påvirke alt og alle.

Det inkluderer journalistikken. Vi bruker allerede LLM på flere områder i vårt redaksjonelle arbeid i EnergiWatch, men vi har ikke latt den ta redaksjonelle beslutninger. Det kommer vi heller ikke til å gjøre.

For en LLM som ChatGPT er også en form for «lossy» komprimering. Det ble beskrevet av Ted Chiang i en kronikk i The New Yorker i februar 2023. Der beskrev han hvordan ChatGPT kan ses på som et slags blurry JPG-bilde av hele internett.

For ChatGPT er blant annet trent på det som kalles Common Crawl, en samling av 250 milliarder websider som har blitt samlet inn siden 2007. Alt dette er lagret i ChatGPT sammen med informasjon skannet fra bøker og en rekke andre ukjente datakilder. For å få plass til alt, må det lagres med «lossy» komprimering.

Måten det gjøres i en LLM fører til det som kalles hallusinasjoner, eller det jeg pleier å kalle lystløgn. Informasjonen er lagret som et slags statistisk språk som bruker sannsynlighetsberegning til å avgjøre hvordan teksten fortløpende skal skrives ut.

Litt enkelt forklart, er det mest sannsynlig at teksten «Ja, vi elsker» etterfølges av «dette landet», men det er også en relativt stor sannsynlighet for «kjøtt og pølse».

Ved å redusere neste ord (egentlig neste token) i en tekst til en sannsynlighetsberegning, kan ChatGPT spare mye plass. Når ChatGPT ble trent, var det mange temaer som ble omtalt mange ganger i teksten den øvde på.

Som eksempel trekker Chiang frem at når ChatGPT har lest mye om tilbud og etterspørsel, kan den ved hjelp av «lossy» komprimering redusere mengden lagret informasjon om det temaet fra utallige bøker og artikler, til en kort serie med datapunkter.

Fordelen med en slik «lossy» komprimering er at ChatGPT kan innfri Googles opprinnelige mission statement om å «Organize the world's information and make it universally accessible and useful», og lagre det i to filer på én PC.

For det er det en LLM egentlig er, ifølge OpenAIs medgründer Andrej Karpathy. Han beskriver LLM som én fil med data (som han kaller parameterfilen) og én fil med cirka 500 linjer kode for å lese de dataene.

Ulempen, er at med «lossy» komprimering må ChatGPT og andre kunstige intelligenser gjøre det samme som oss journalister. Den må velge ut hva som er viktig, og hva som kan utelates.

Redaksjonell vs statistisk utvelgelse

Det er ikke bra når journalistikken bommer, og hvis det skjer systematisk over tid er det ødeleggende. For mens god journalistikk gir oss et opplyst og bedre samfunn, vil dårlig og ubalansert journalistikk gi oss mistillit og økt polarisering.

Jeg vil ikke forsvare dårlig journalistikk, men jeg vil påpeke at det er vanskeligere å treffe blink hver gang, enn det man kanskje tror når man står på utsiden. På gode dager er jeg utrolig stolt av hva vi journalister leverer som bidrag til et bedre samfunn, og på dårlige dager gremmes jeg.

Uansett om vi har en god eller dårlig dag i pressen, er det en redaksjonell avgjørelse som tas når et redaktørstyrt medie velger hva som skal skrives og hva som skal utelates i en sak. Det har sine fordeler og utfordringer, men det er et aktivt valg som gjøres.

Slik er det ikke når kunstig intelligens skal velge. Da er det i utgangspunktet statistisk sannsynlighet som avgjør, og det innebærer at det som er mest omtalt er mest populært. Det kan føre til et slags flertallstyranni, der de som har volumet på sin side vinner frem med sitt syn når ChatGPT skal svare på brukernes forespørsler.

Vanskelig å bekjempe bias

Jeg skrev at ChatGPT i utgangspunktet lar statistisk sannsynlighet avgjøre, og det er fordi det ikke er helt sant.

For selv om en LLM som ChatGPT i utgangspunktet trenes på store tekstmengder og lar seg påvirke av hvor ofte noe omtales, gjøres det også en fintuning i etterkant der dette kan rettes opp.

Ulempen er at denne fintuningen fort kan svinge pendelen for mye den andre veien, og det har skjedd flere ganger allerede. Flere store språkmodeller har fått krass kritikk for å bli overdrevent politiske korrekte som følge av slik fintuning.

For det viser seg at systematisk bias er en krevende utfordring både for journalistikken og kunstig intelligens. Hva som er balansert og ubalansert informasjon kommer an på øyet som ser.

I pressen forsøker vi å håndtere dette så godt vi kan gjennom vårt presseetiske regelverk i form av Vær varsom-plakaten, ved å gjøre redaktørene uavhengige av sine eiere gjennom Redaktørplakaten og gjennom et mangfold av publikasjoner. Våre løsninger er på ingen måter perfekte, men de er oppriktige forsøk på å ta problemet på alvor.

Hvordan de kunstige intelligensene skal klare å håndtere dette, gjenstår å se. Det jobbes på spreng for å finne ut av det, men så langt ser det ut til at systematisk bias først og fremst må håndteres gjennom et mangfold av språkmodeller.

Sånn sett kan det minne litt om hvordan vi i pressen gjør det, når vi har distribuert den redaksjonelle linjen til ansvarlige redaktører i forskjellige publikasjoner.

Et komprimert syn på virkeligheten

Jeg fikk en ordentlig aha-opplevelse da jeg første gang leste professor Jarvis sin beskrivelse av journalistikk som en komprimert beskrivelse av virkeligheten. Han skrev det etter å ha lest Chiang sin artikkel om ChatGPT.

Sånn sett kan det argumenteres for at det er journalistikken som nå plukker opp noe interessant fra den kunstige intelligensen, og at det ikke bare er motsatt. For store språkmodeller som ChatGPT er ikke bare snyltere som bruker innhold skapt av journalister og andre mennesker til å trene opp sin kunstige intelligens. Den tilfører oss også ny kunnskap, og nye måter å tolke kunnskapen på.

Slik jeg ser det, kan vi som journalister og redaktører med fordel studere vårt eget arbeid gjennom komprimeringsperspektivet.

Vi vet godt at vi utelater mye, når vi rapporterer nyheter fra hendelsene innenfor vårt dekningsområde. Kanskje vi blir litt mer bevisste på hva vi egentlig utelater i vår journalistikk, hvis vi tenker litt mer som en maskin.

I en verden der den kunstige generelle intelligensen muligens er rett rundt hjørnet, kan det være greit å ha et slikt komprimert syn på virkeligheten. For kanskje er vi pressefolk litt likere ChatGPT enn det vi selv liker å tro.

Powered by Labrador CMS