Derfor:

VG er blant mediene som har satset hardt på egen koronastatistikk. På bildet nyhetsredaktør Tora Bakke Håndlykken inne i VG-redaksjonen.
VG er blant mediene som har satset hardt på egen koronastatistikk. På bildet nyhetsredaktør Tora Bakke Håndlykken inne i VG-redaksjonen.

Derfor er mye av koronastatistikken i norske medier kun en artig øvelse

Journalistikk, statistikk og forbannet løgn.

Publisert Sist oppdatert

Statistikk har drevet mye av nyhetsdekningen denne våren og sommeren, derfor er det viktig at vi vet hva vi gjør når vi gjengir den. Og når vi kanskje ikke skal gjengi den.

En sommer for noe som synes som en evighet siden, jobbet jeg i det som den gang var formidlingsavdelingen hos Statistisk sentralbyrå (SSB). Jobben gikk ut på å forberede og publisere byråets daglige statistikkoppdateringer, og hjelpe forskere og statistikere med å gjøre tall og regneark leselig for «folk flest».

Så, hver dag klokka ti, la jeg ut tall og regneark, med en kort forklaring. Det var de periodiske publiseringene av tall for lakseeksport og konsumprisindeks. I tillegg var det en del forskningsartikler som så nøyere på for eksempel høyere utdanning eller kriminalitet.

Børsen reagerte på regnefeil

En hel del kunne gå feil allerede i denne prosessen. En dag det hadde sneket seg inn en regnefeil i arbeidsledighetstallene, reagerte børsene umiddelbart, og en journalist fra Bloomberg ringte og spurte om dette virkelig kunne være rett. Arbeidsledigheten var nå så lav at markedet tolket det som om det norske arbeidsmarkedet sto helt stille, det var et tegn på usunn økonomi.

Dette er Derfor

  • I spalten «Derfor» forsøker vi å forklare hvorfor mediene tar de valgene de gjør. Eller sagt på en annen måte: «Derfor tar mediene de valgene de gjør». I tillegg tar vi noen avstikker til andre medierelaterte spørsmål.
  • Arbeidet er støttet av Stiftelsen Fritt Ord med 150.000 kroner.
  • Alle «Derfor»-artiklene inneholder en «bygg inn»-knapp. Med dette åpner vi for at andre kan publisere disse spaltene på sine nettsider.
  • Eneste kravet vi stiller til medier som benytter seg av dette, er at de via en av presseorganisasjonene er tilknyttet Norsk Presseforbund og dermed Pressens Faglige Utvalg.
  • Les mer om «Derfor» her.

Gjennomgangen fant en feil på noen promille, som ble rettet. Og landets økonomi var reddet.

Sjelden har publisering av statistikk så dramatiske konsekvenser. Fram til kanskje denne våren. Denne våren har hvor vi kan gå, hvem vi kan se og hva vi kan foreta oss, vært helt avhengig av hva føringen av helsemyndighetenes statistikk sier oss. Vi har vært i regnearkene og modellenes vold. En liten endring på noen promille et sted, og ferie eller skolestart går i vasken.

Dette har selvsagt også preget mediene. Statistikk har blitt en motor i nyhetsdekningen. Sent og tidlig har befolkningen sjekket VGs statistikkbank, også NRK har satt sammen sin egen. Basert på disse har de samme redaksjonene også laget journalistikk, særlig når antall bekreftede smittede går opp og ned.

Tall krever mye

Men fokuset på tall og statistikk krever mye av både journalist og redaksjon. Det første man skal tenke på når man bruker statistikk i nyhetsdekningen er hva slags tall man bruker. Er det snakk om et absolutt tall, eller er det snakk om et relativt tall. Hvilke forhold ble de til under, og er de egentlig gode nok til å fortjene oppmerksomheten.

La oss først se på absolutte tall, råtall, slik det er mange av i medienes koronatellere.

I dekningen av covid-19 er antall døde for eksempel et absolutt tall, det er også antallet bekreftede smittede. Videre viser man også til relative tall. Relative tall er tall som er sammenlignet med andre tall. Vi kan for eksempel ta antall bekreftede smittede uke for uke, og se på prosentvis oppgang eller nedgang. Eller antallet per innbygger i et land eller en kommune. Prosenttallet er det relative tallet.

De relative tallene kan fortelle oss om noe er vesentlig, ser vi en sterkt stigende tendens for eksempel, eller er det bare en unntaksuke (eller tilfeldigheter, en fest for eksempel). For å finne ut av dette trenger vi å vite om kvaliteten på de absolutte tallene er gode. Og her er statistikerne ofte uenig med journalistene.

Et eksempel fra denne våren er tallet på bekreftede smittede. Dette tallet har alle mediene brukt flittig i sin dekning, fra det første bekreftede tilfellet i februar.

I de aller første ukene, da det dreide seg om en håndfull «importtilfeller», var dette nyheter i fete typer. Men etter hvert som smitten bredte seg og kom ut av kontroll, så skjedde det noe med testingen. Norge var i en situasjon hvor kapasiteten til å teste var svært begrenset, og hvem som fikk testet seg ble derfor innskrenket.

Fra begynnelsen av mars og sannsynligvis til langt uti april, ble derfor det absolutte tallet «bekreftet smittet» en stadig dårligere indikator på hvor mange som faktisk var infisert og sjuke med covid-19.

Tvilsomme sammenligninger

De siste ukene har smittetallene igjen gått oppover i VGs koronabørs og på regjeringens pressekonferanser. Det er alvorlig, men det gjenspeiler også at man er blitt bedre på å teste.

For i motsetning til andre uka i mars, så testes langt flere nå, og man har også sannsynligvis blitt bedre på å bruke kriterier for hvem som skal teste. Dermed treffer man nok bedre, og fanger opp langt flere av de smittede.

Fakta om Maren Sæbø

Maren Sæbø. Faktisk, journalist, Dagsavisen Foto: privat
  • Maren Sæbø er frilansjournalist med utenriks – og da særlig det det afrikanske kontinentet - som sitt spesialfelt.
  • 2015 ble Sæbø kåret til Årets frilanser, og hun har vunnet en rekke priser for sin journalistikk.
  • Sæbø sitter i styret til i Stiftelsen for en kritisk og undersøkende presse (Skup).

Det betyr sannsynligvis at mørketallene nå ikke er som de var i februar, mars og april. Det betyr også at det å sammenligne utviklingen i antall bekreftede smittede i noen uker i mars, og nå, ikke vil være veldig relevant.

Kvaliteten i det absolutte tallet er bedre nå, noe som gjør sammenligningen tvilsom. Det er i slike tilfeller en statistiker vil fortelle deg at «det er ikke sammenlignbart».

For det er med de tilsynelatende sammenlignbare tallene det virkelig fuskes. For oss som dekker andre land, er det frustrerende. Se nå for deg at de norske tallene på antall bekreftede smittede, som altså heller ikke var så gode i mars og april, sammenlignes med tall for bekreftede smittetilfeller i et land med svært begrenset testregime. For eksempel Sør-Sudan.

Så sent som i slutten av mai testet Sør-Sudan noen titalls i uka på et sykehus i hovedstaden Juba, så begynte FN å samle inn tester i noen flyktningleirer. Og jommen viste det seg ikke at det nok var en del mer smitte i landet enn det myndighetene så langt hadde innrømmet.

Varierende testregimer

Testeregimene varierer mye. I Norge er det nå gjennomført en halv million tester hvorav cirka 10.000 har vært positive. Et afrikansk land som Sør-Afrika har gjennomført mer enn tre millioner tester, relativt sett noe færre enn Norge siden landet har over 10 ganger så stor befolkning, men over en halv million har kommet tilbake positive

Det er langt flere enn i Norge selv regnet per innbygger. Det er åpenbart at et høyinntekstland som Norge, et mellominntektsland som Sør-Afrika og et av verdens fattigste og mest krigsherja land som Sør-Sudan, er vanskelig å sammenligne ved å se på antall smittede og heller ikke antall smittede per innbygger.

Men det er heller ikke sikkert det gir et veldig godt bilde se på andre tall, som antall registrert døde av covid-19. Trolig dør langt flere i både Sør-Afrika og Sør-Sudan utenfor institusjoner og sykehus enn i Norge, da får man heller ikke gode tall på hva de dør av.

I medienes oppslag sammenlignes allikevel alle disse tallene. Det kan være en artig øvelse, men bør ikke gjøres til hovedpoeng uten forklaring.

Modellsyken

Ved siden av kvaliteten på både de absolutte og relative tallene, er det enda en ting å være oppmerksom på ved gjengivelse av statistikk, nemlig gjengivelse av estimat og prognoser basert på modeller.

Med modeller kan statistikere og forskere regne seg fram til nesten hva som helst. Man kan sette opp estimater over fisk i havet eller barn i barnehager. Noen ganger er det nyttig og hjelper i samfunnsplanleggingen. Noen ganger blir det usikkert og kontroversielt, som det mye omdiskuterte «innvandrerregnskapet».

Jo flere usikre variabler over lang tid vil selvsagt gi mer usikre tall, og modellene forskerne bruker for å regne på tallene er det heller ikke enighet om.

Og så har historien en evne til å bryte inn. Mot slutten av 2019, mens covid-19 ennå var en lungebetennelse uten eget navn i Wuhan i Kina, ble det utarbeidet estimat for norsk økonomi i 2020 av SSB og Norges Bank. I april var disse ubrukelige.

Modeller er også det epidemiologer bruker når de forsøker å forutse smitterate, antall sykehusinnleggelser og behov for tiltak. Med litt kunnskap om tall og excelark kan vi alle prøve sjøl (og mange gjorde nok det i mars, ikke minst på bloggmediet Medium), men god kunnskap om feltet, er lurt også her.

Regnet på R

Noe av det vårt eget Folkehelseinstitutt regnet mye på i begynnelsen av denne pandemien (de gjør det jo fortsatt) var det epidemiologene kaller reproduksjonstallet, eller R. Dette er virusets reproduksjonstall i en gitt befolkning, altså hvor mange hver smittet smitter i gjennomsnitt.

I begynnelsen av en pandemi vil R vise hvor smittsom en sykdom er, uten at det treffes tiltak for å begrense den. Så vil R gå ned ettersom flere tiltak blir satt inn, eller det oppstår immunitet i befolkningen. Målet er jo at viruset ikke reproduserer seg.

For å finne ut hva R er i utgangspunktet må man se på hvor mange som er smittet, men siden dette jo kan være et usikkert tall som vi har sett, må man også se på hvor mange som kontakter fastlege med symptomer, blir innlagt og hvor mange som dør. Ettersom tallene blir flere, og bedre, blir også kvaliteten på estimert R bedre.

Etter å ha samlet inn både absolutte tall, relative tall, og brukt modeller for å finne reproduksjonsrate, kan FHI også gi estimat for hvor mange som egentlig var smittet med covid-19 i Norge. Fram til medio mai var det tallet et sted mellom 35.000 og 40.000.

Det vil si at kun 23 prosent av de smittede fram til da, hadde laboratoriebekreftet prøve. Dette har jeg ikke finregnet på, men det antyder at vi er ganske langt unna situasjonen vi så i mars, nå i august, selv om tallene på bekreftede smittede er på vei opp langs samme bane.

Derfor søk råd

Gjennomgangen over er selvsagt ikke en fullstendig liste over problemer man kan støte på ved å basere nyhetsdekningen sin på statistikk. Men det gir kanskje en pekepinn på hva man skal prøve å unngå.

Og så gjelder selvsagt grunnregelen som ved all annen journalistikk, skriver du om noe som kanskje ligger litt utenfor feltet ditt, noe vi jo gjør hele tiden, så kontakt fagfolk.

Det har jeg gjort i arbeidet med denne kommentaren, jeg fikk min far, Hans Viggo Sæbø som er tidligere fagdirektør, nå seniorrådgiver, i SSB til å lese gjennom deler av teksten. Sammen med kolleger har han laget denne listen over vanlige feil i dekningen.

Eventuelle feil i denne teksten står imidlertid for min egen regning.