Det sterke skjønn

Ha-klikk.

Det er lyden av rundt 80 kulepenner som nesten simultant klikkes i gang. Småpraten er over, det blir helt stille unntatt lyden av blafrende ark og en kremtende eksamensvakt. Studentene bøyer seg over oppgaver og rutete gjennomslagsark og i løpet av de neste timene skal disse førsteårsstudentene i farmasi ved Oslomet vise fram hva de har lært.

– Hvor strenge er dere på to streker under svaret? spurte en student i den eksamensforberedende forelesningen fire dager tidligere.

Faglærer Elisabeth Henrohn betrygget studentene med at det viktigste er at sensor ser hva som er svaret. Da hadde de allerede fått høre at ekstern sensor er streng, mens Henrohn, som intern sensor, leter etter gullkorn «som en ivrig hønemor plukker i jorden». For selv i en regneeksamen, med to streker under svaret, fasit og minimalt med tekst, er det åpning for fortolkning og skjønnsvurderinger.

Les også: 17 tips til deg som skal være sensor

Fra A til F

I et eldre forsøk ved det som nå er Oslomet, satte et helt fagmiljø nye karakterer på gamle besvarelser, og på en oppgave som opprinnelig fikk toppkarakteren A, ville 32 prosent gitt dårligste ståkarakter, E eller F, som betyr stryk. Fagmiljøet hadde seks seminarer over et helt år for å få større samsvar. På siste seminar fikk gruppen en oppgave som hadde vært vanskelig å bedømme, nettopp fordi den testet studentens faglige skjønn. Hadde ett års arbeid virket, var fagmiljøet mer samstemt? Vi kommer tilbake til funnene, først må vi innom nyere forskning.

Når sensorene skulle enes om en felles karakter, var det ikke bare de faglige argumentene som hadde gjennomslag, oppdaget Christine Sætre. Foto: PHS

I de fleste tilfeller kan sensorene være enige om at én oppgave er bedre enn en annen. Men hvor mye bedre? Er det en A og en C, eller en B og en D? Politioverbetjent Christine Sætre ved Politihøgskolen har studert sensorene etter at hun selv hadde vært sensor i flere år og opplevde at de bedømte ulikt.

– Vi bruker kriterier og standarder ulikt. Det er ikke så rart; for å vurdere studentprestasjoner som kan løses på mange ulike måter, er det mye ulikt man kan vektlegge og verdsette. Kriterier og standarder er, tross alt, bare ord og formuleringer som er tolkbare og elastiske.

Sætre lot 29 ulike «sensorer» se opptak av to muntlige eksamener. Den ene ble vurdert et sted mellom A og C/D, den andre fra C/D til F. Det én sensor la vekt på, ble overhodet ikke lagt vekt på av en annen, og noen ville stille strengere krav når temaet hadde vært oppe i undervisning.

Hun studerte også møtet der sensorene skulle bli enige om karakter. Der fikk hva som ble sagt, av hvem, på hvilken måte og i hvilken rekkefølge også betydning for karakteren.

Disse funnene er relevante for mange, også utenfor Politihøgskolen, mener Sætre.

– Det er helt utopisk at vi skal vurdere likt, vi er individer med våre egne erfaringer og kjepphester, men vi må tilstrebe at det blir så likt som mulig.

For at studenter, underviser og sensorer skal få en felles forståelse av hva som skal læres og hva som er viktig i vurderingen, krever det en solid innsats og et samarbeid som må i gang lenge før eksamen står for tur.

Les også: Rekordlav strykpro sent for tredje gang på rad under korona

Råd mot klager

Samtidig som farmasistudentene svetter over gjennomslagsarkene og kalkulatorene sine, møtes eksamensrådet ved radiografutdanningen ved Oslomet. I dag er det en eksamen i anatomi og bildediagnostikk som er tema. Gruppen går gjennom spørsmål etter spørsmål. Et spørsmål begynner med forklar, men burde det heller stått beskriv? Er flervalgsoppgavene vanskelige nok? Er innstillingene i eksamensprogrammet Inspera riktige? Så kommer gruppen til et spørsmål hvor det er meningen at studentene skal kunne svare kort, men flere har erfart at de får lange svar. Studieleder Kari Gerhardsen Vikestad mistenker at spørsmålet er for åpent.

I eksamensrådet presenterer Mathilde Haraldsen Normann (lengst t.v.) eksamensoppgavene for Tora Fjeld Homme, Kari Gerhardsen Vikestad og Anita Reitan. Foto: Erik Norrud

– Hva er det egentlig du spør om i spørsmål to? De skal skrive at det lille kretsløpet går til lungene, og det store går til kroppen. Men det er ikke det du spør om, nå kommer du til å få en historie som starter med Adam og Eva. Vi må prøve å gjøre om det spørsmålet så de skjønner at det holder med to setninger.

For tre år siden tok Vikestad initiativ til dette rådet, for at de emneansvarlige ikke skulle sitte alene med eksamensforberedelsene. Når flere leser grundig gjennom reduseres feilkilden i at ulike personer tolker tekst ulikt. Mathilde Haraldsen Normann, som er ny underviser i emnet, kan også hente inn erfaringer fra Vikestad som har hatt sensur på det i flere år og vet hvor studentene går seg vil.

Rundt bordet filer de på formuleringen, hvordan skal studentene skjønne at svaret skal være kort, hvordan skal oppgaven bli spesifikk nok til at de skjønner spørsmålet, men ikke så tydelig at de får svaret. Skal de bruke nevn, forklar eller beskriv som verb? Etter hvert er gruppen enig om en helt annen formulering.

– Nå gleder jeg meg til å se svarene vi får på spørsmål to, kanskje vi endelig har klart å knekke koden, sier Vikestad.

– Ja, nå kan de ikke rote seg bort i detaljer, svarer Anita Reitan, som leder rådet.

Normann som har laget eksamen og undervist studentene mener at noen nok fortsatt vil gå seg bort.

Vikestad forteller at eksamensrådet vekker interesse hos andre fag på Oslomet, blant annet i farmasi.

– Det viser seg også at vi får mange færre klager på karakterene, så det har vært smart å gjøre det, sier Vikestad.

Les også: Nå blir det lovpålagt med to sensorer på eksamen

Kunnskap om gråsoner

Klager tar tid, og de avslører også hvor ulik karaktersettingen kan være. Klagestatistikk fra flere universiteter viser at 40 til 50 prosent får endret karakteren når de klager, som oftest til en bedre karakter. Forskerforum har gått gjennom resultatene på de 714 klagene juridisk fakultet ved Universitetet i Oslo (UiO) mottok etter eksamenene våren 2017. I over halvparten av klagene var klagesensor ikke enig med den opprinnelige sensuren. 57 prosent fikk nye karakterer, de fleste ett trinn. Men det var 54 klager der karakteren ble endret med to trinn, og seks klager der karakteren ble endret tre trinn, hovedsakelig fra F til C, men også en som gikk opp fra D til A og en som gikk ned fra C til F.

Ingenting er overlatt til tilfeldighetene i forberedelsene til eksamen. Foto: Erik Norrud

Det er sånt det blir avisoppslag av, selv om de utgjør en liten andel av klagene.

– Det blir en fin sak i nyhetene, men det er ikke et problem man kan løse. Sånne enkeltting kommer alltid til å skje, fastslår psykolog og førsteamanuensis Stefan Schauber.

Han jobber med å analysere eksamenene ved UiOs medisinutdanning, og mener at det er nesten umulig for et universitet å sikre seg mot slike hopp. Men de kan gjøre mye. Schaubers viktigste tips er eksamensråd, slik som radiografene har, men gjerne med en student også for å sikre enda et perspektiv. Han sammenligner det med forskning; man bruker lang tid på å formulere spørsmålene, og en artikkel er innom mange ledd før den publiseres. De færreste legger like mye innsats i å formulere spørsmål til eksamen. Men upåklagelig er utopisk.

Fakta

SENSORSPRÅKET:

•Sensorveiledning: Alle eksamener skal ha et dokument som forteller sensorene hva studentene skal ha lært, men det kan spenne fra fasit til svært generelle mål.
•Kommisjon: Når to eller flere sensorer vurderer en eksamen sammen er de en kommisjon.
•Sensurmøte: Sensorene i kommisjonen diskuterer oppgavene og blir enige om en karakter.
•Begrunnelse: Studenter kan de be om begrunnelse når de får karakteren, ofte bare ved å trykke på en knapp.
•Klage: Når studenter klager på karakteren, har de krav på ny vurdering.
•Blind klagesensur: Den nye sensoren får ikke vite hvilken karakter de opprinnelige sensorene kom til.

– Vi kan aldri lage en perfekt eksamen, sier Schauber.

Han luker ut feilkilder i eksamenene, for hvis mange av de flinkeste studentene har tatt feil, så er det sannsynlig at spørsmålet er feil eller at noe har gått galt i undervisningen. Han sjekker også om sensorene vurderer ulikt og gir tilbakemelding dersom noen er for strenge eller for snille, slik at de får tid til å rekalibrere seg.

– I alle essay og skriftlige svar er det skjønn, det er litt av meningen med dem, Det er gråsoner i de aller fleste typer kunnskap, i hvert fall på universitetet, og da er det ikke så lett å «naile» hva som riktig eller galt, sier han.

Men det betyr også at det er risiko for at en klagesensur vil komme til noe annet. Skjønn og uenighet er ikke bare negativt, ifølge Schauber. Ulike studenter kan svare helt forskjellig, men likevel rett på samme spørsmål. At sensorene ikke er enige kan bety at de har ulike perspektiver og dermed ser ulike sider ved besvarelsen. Og så er det alt det andre, støyen: tid på dagen, forståelse fra tidligere i bunken, sensors kjepphester, tema som ligger innenfor eget interessefelt og språkkrav. Det finnes til og med studier som viser at sensorer er strengere med innleveringer som bruker skriftstørrelse 10 enn med innleveringer i størrelse 12.

Veileder sensorene

– Det er det utfordrende med å lage sensorveiledning – mange kommer garantert til å skrive annerledes enn det som står i veiledningen. Vår oppgave er å vurdere om det tilfredsstiller det vi har satt opp, sier universitetslektor Anita Reitan.

Ved radiografutdanningen forteller Reitan at de bruker mye tid på sensorveiledningene, for med gode sensorveiledninger får de færre krav om begrunnelse, som ellers tar mye tid. Sensorveiledninger kan være så generelle at studentene kan få dem på forhånd, eller så detaljerte at de nærmer seg en fasit. Men de kan ikke dekke alt. Sensorveiledningen kan ikke både dekke innholdet og forklare hvordan ulike tolkninger skal vektes, eller hva som er imponerende bruk av andre kilder enn pensum eller når andre kilder trekker ned. Da sitter sensor igjen med sitt eget faglige skjønn.

Foto: Erik Norrud

Skille klinten fra hveten

Forskerforum får bli med Reitan på sensormøte med to eksterne sensorer og tre interne sensorer fra Oslomet. Nesten like lenge som studentene har jobbet med emnet, har Reitan jobbet med eksamenen. Oppgaven har blitt filt på i eksamensrådet, og i dette møtet skal sensorene få snakke seg gjennom sensorveiledningen.

– På slike eksamener blir det en skjønnsmessig vurdering uansett, sier Reitan til kollegaene i sensormøtet.

Fra Drammen vitner det blå formiddagslyset om at det er høst ute, mens en blå bakgrunn fra UiT farger skjermruten til den eksterne sensoren i Tromsø. Studentene får skrive maks 3000 ord i besvarelsen, og sensorveiledningen er 2000 ord allerede, selv om den står i punktform. Den er detaljert om hva studentene har lært og bør få med seg i besvarelsen, men det er alltids rom for fortolkning.

– Skal studentene forklare sensitivitet og spesifisitet? spør Kurt Johnny Johansen fra UiT.

– Vi har ikke tenkt at de skal forklare det her, det har vi hatt mye om i arbeidskravene, og tenker at det har de inne, men det er det ikke sikkert at de har, svarer Reitan.

– Jeg ville satt pris på at de utdypet litt, for å skille klinten fra hveten. Men hvis ikke det står i sensorveiledningen, så skal jeg ikke henge meg opp idet, lander han på.

– Spørsmålet er om de skal få uttelling for det, og de svarer jo bedre på oppgaven hvis de gjør det, resonnerer hun.

– Det blir en vurderingssak.

Foto: Erik Norrud

– Ja, det blir jo det. Vi får ta det på samsensur, hvis det står mellom en A og en B, kommer hun til.

Fasit for sensur

Men går det an å jobbe seg fram til at sensorer tenker likt og vurderer likt? Nå er det på tide å komme tilbake til fagmiljøet ved Oslomet, som jobbet med sensorsamsvar i et helt år. Hvordan gikk det da de, etter seks seminarer, skulle vurdere en vanskelig besvarelse? En tredel ville gitt D eller dårligere, og bare seks prosent var enig med den opprinnelige sensuren, der oppgaven hadde fått A. De hadde altså vært mer enige hvis de hadde trillet terning.

«Den bedringen vi hadde håpet på, kanskje til og med regnet med, var vanskelig å spore», står det i artikkelen om arbeidet, som ble publisert i Uniped i 2011.

– Jeg tror at det hersker en oppfatning av at vurderinger kan gjøres like, og vi må i større grad erkjenne at vi vurderer forskjellig og heller innta en posisjon om hvordan vi skal håndtere det, sier politioverbetjent Sætre.

Emnet der hun studerte sensorer var tverrfaglig, og i så komplekse emner holder det kanskje ikke med én eksamen for å bedømme studentens kompetanse. Kanskje er mappevurdering bedre. Sætre viser også til medisinutdanningen, som har stasjonseksamener der studentene skal innom forskjellige tema og blir vurdert av spesialistene innen hvert enkelt tema.

Les også: – Vi trenger skriftlig tilbakemelding på eksamenskarakteren

Kan løsningen være å sette inn enda flere i sensurkommisjonene?

– I noen tilfeller er eksamen ekstremt viktig, den kan forme livet til den som vurderes. Hvis man finner at sensorene ikke er mer enige enn om man hadde kastet terning, så må man enten la være eller si at flere må gjøre vurderingen, sier Jan-Ole Hesselberg.

Hesselberg jobber med en doktorgrad i beslutningspsykologi ved UiO. Han har vurdert noen eksamener selv, men det han forsker på, er hvorfor ekspertene som vurderer forskningssøknader er så uenige. Hesselberg er programsjef i Stiftelsen Dam og skal kvalitetssikre utdelingen av nær 500 millioner kroner årlig til norske helseprosjekter og norsk helseforskning. Han fant ut at selve søknaden bare forklarte 18 prosent av variasjonen i søknadenes karakterer. Resten var uønsket variasjon, eller støy.

Han deler støyen inn i tre typer: situasjonsstøy, nivåstøy og mønsterstøy. Det første er den mest populære i populærvitenskapen, og den minst betydningsfulle i praksis: Beslutninger kan bli påvirket av om sensor er sliten etter å ha vurdert mange andre oppgaver, kvaliteten på oppgavene som nettopp er vurdert, tid, humør, været ute eller andre ting i omgivelsene. Nivåstøy er viktigere. De som gjør vurderingene har ulike «nivåer», noen er strenger, andre er snille. Mønsterstøy handler om at de som vurderer har ulike preferanser og vektlegging av hva som er viktig. Det kan gi ulike rangeringer, eller mønstre, i vurderingene. I Sætres studie var det lite mønsterstøy, for alle var jevnt over enige i at den ene oppgaven var bedre enn den andre, men en del nivåstøy, siden karakterene varierte flere trinn, forklarer Hesselberg.

I situasjoner der mennesker vurderer tvetydig info, så er vi veldig uenige om hva som er god kvalitet, sier beslutningspsykolog Jan-Ole Hesselberg. Foto: Vidar-Nordli-Mathisen

Flere kokker, mindre søl

Da han fant ut at støy utgjorde 82 prosent av vurderingen av forskningssøknader, måtte Dam sette inn tiltak for å redusere støyen.

– Det er et viktig tall, det er underlig at ikke universitetene rapporterer på det samme, sier Hesselberg.

I Dam reduserte de støyen med å øke fra to til fem uavhengige eksperter. Da økte søknadens betydning til 77 prosent av vurderingen.

– Hvis det samme er tilfelle for en viktig eksamen, er ikke spørsmålet om man kan ta seg råd til flere sensorer, men om man kan tillate seg å ikke gjøre det, sier Hesselberg.

Fra august neste år økes også antallet sensorer ved en god del eksamener. Da blir det lovkrav om at alle eksamener med karakterskalaen A til F skal ha både intern og ekstern sensor, i tillegg til eksamener på mastergrad.

Innen studentenes fire timer med eksamen i Silurveien er over, har den kalde morgentåken fordunstet til fordel for en solfylt vinterformiddag. Det siste studentene må gjøre før de får gå er å rive fra hverandre og sortere gjennomslagsarkene, slik at intern sensor kan få det øverste, ekstern sensor det midterste og selv kan de ta med hjem det nesten uleselige sistearket. Så ligger studentenes skjebne, eller i hvert fall karakteren, bokstavelig talt i sensorenes hender.

Enquete: Får du betalt for nok timer når du jobber med eksamenssensur?

Ellen Marie Sæthre-McGuirk, professor ved Nord universitet

– Det spørs på institusjonens du tar oppdraget hos. Det er store forskjeller i hvordan det er lønnet. Noen ganger er det svært lite samsvar mellom hvordan oppgaven er utformet og institusjonens lønnspolicy.

Malgorzata Agnieszka Cyndecka, førsteamanuensis ved Universitetet i Bergen

– Jeg vil ikke si at det er altfor dårlig, men det er på grensen. Man prøver å være så nøye som mulig, og det kan være ganske omfattende oppgaver.

Andreas Aase, førstelektor ved Universitetet i Agder

– Ja, det er noe av det best betalte vi har i vårt akademiske arbeid, men det kommer selvfølgelig an på hvor rutinert du er. Har du lest noen tusen oppgaver, gjør du det raskere enn en nyere.

Les mer:

17 tips til deg som skal være sensor

Slik jobber sensorene med eksamen:

Det sterke skjønn

Slik jobber sensorene med eksamen:

Det sterke skjønn

Først skal studentene tolke spørsmålene, så skal sensor tolke svarene. Kanskje ikke så rart at karakterene kan sprike?