Foto till artikeln: Verktygen du litar på mäter fel sak – ny forskning avslöjar sprickor i AI-grunden

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

LLM Etik & Reglering Forskning Utbildning

Verktygen du litar på mäter fel sak – ny forskning avslöjar sprickor i AI-grunden

Forskning avslöjar: AI-verktygen du litar på mäter helt fel sak.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 4 min läsning • 24/05 2026 12:19

Tre papper, en gemensam poäng

I flödet av arXiv-papper som publiceras varje vecka är det lätt att missa de som verkligen spelar roll. Den här veckan sticker tre ut – inte för att de presenterar spektakulära nya förmågor, utan för att de systematiskt plockar isär antaganden som redan är inbäddade i hur vi bygger och använder AI-system.

Det är den typen av forskning jag gillar mest. Inte "titta vad det här kan göra", utan "vänta – fungerar det här verkligen som vi tror?"

Detektorn som mäter fel sak

Låt oss börja med det som borde oroa lärare och redaktörer mest. Enligt en ny studie på arXiv har moderna AI-textdetektorer ett grundläggande konstruktionsfel: de lär sig ingenting nytt. Istället för att faktiskt skilja AI-genererad text från mänsklig text förstärker de en riktning som redan finns inbyggd i de förtränade språkmodellerna.

Det mest avslöjande resultatet är att en enkel, otränad geometrisk projektion presterar nästan lika bra som ett fullt finjusterat detektionssystem – och på arkitekturen RoBERTa-base slår den otränade varianten faktiskt den tränade.

Vad mäter detektorerna egentligen? Troligtvis språklig typiskhet – hur "genomsnittlig" en text är enligt modellens inbyggda världsbild. Det förklarar varför träffsäkerheten rasar dramatiskt för andraspråkstalare av engelska. En student som skriver flytande men med ovanliga ordval eller konstruktioner flaggas som AI. En AI som imiterar en specifik röst passerar obemärkt.

Detta är inte en kanteffekt. Det är ett systematiskt mätfel som riskerar att drabba de mest utsatta användarna hårdast.

DPO – snygg teori, opålitlig praktik

Samtidigt publiceras forskning som sätter en annan etablerad sanning under press. Direct Preference Optimization, DPO, har blivit standard för att träna stora språkmodeller att följa mänskliga preferenser – en enklare och billigare väg än den traditionella förstärkningsinlärningen från mänsklig återkoppling, RLHF.

Problemen är att de två metoderna länge ansetts vara teoretiskt likvärdiga. Den nya studien visar att det bara stämmer under specifika förutsättningar som sällan uppfylls i praktiken. DPO kan i verkligheten minska sin förlustfunktion – alltså se ut att lära sig rätt sak – medan modellen faktiskt väljer svar som människor inte föredrar.

Det är ett allvarligt feltänk. Forskarna bakom studien presenterar en ny metod, Constrained Preference Optimization, CPO, som kombinerar styrkorna hos RLHF med explicita begränsningar för att garantera verklig anpassning till mänskliga preferenser. Koden är öppet tillgänglig, vilket gör det enkelt för forskarsamhället att granska och bygga vidare.

Studenterna som lär sig slå tillbaka

Mitt i detta landskap av bristfälliga verktyg finns det ändå ljuspunkter. En forskargrupp presenterar QuestBench, en pedagogisk metod där studenter inte bara lär sig använda AI – de lär sig granska den.

Metoden är elegant enkel: studenterna omvandlar sin ämneskunskap till verifierbara expertfrågor och utvärderar sedan hur väl olika AI-system klarar dem. Resultaten är nyktra. Av tretton testade system var den genomsnittliga träffsäkerheten 16,85 procent. Det bäst presterande systemet, GPT-5.5, nådde 57,58 procent.

Det datasetet – 256 frågor inom 14 humanistiska och samhällsvetenskapliga områden – är inte primärt ett benchmarkverktyg. Det är ett pedagogiskt instrument. Felen är poängen. Att se hur ett AI-svar kan låta övertygande, vara välkällt och ändå missa rätt slutsats är en läxa som inte går att förmedla med teori.

Detta är det slags kritiskt tänkande kring AI som utbildningssektorn faktiskt behöver, och det gläder mig att forskningen levererar konkreta verktyg snarare än allmänna varningar.

Vår analys

De tre studierna pekar åt samma håll: vi har byggt förtroende för AI-verktyg snabbare än vi byggt förståelse för dem. Textdetektorer används dagligen i skolor och redaktioner trots att de – som forskningen nu visar – mäter fel sak. DPO-baserade modeller tränas av organisationer världen över utan kännedom om metodens dolda brister. Och de flesta användare saknar verktygen för att märka skillnaden.

Det är inte en pessimistisk bild – det är en ärlig kartläggning av var vi befinner oss. Och det finns tydliga vägar framåt: öppen forskning som exponerar svagheterna, nya metoder som CPO som faktiskt åtgärdar dem, och pedagogiska ramverk som QuestBench som rustar nästa generation att ställa rätt frågor.

Den viktigaste lärdomen den här veckan är kanske den enklaste: ett verktyg som ser ut att fungera är inte detsamma som ett verktyg som faktiskt fungerar. Det gäller för AI precis som för allt annat vi bygger.

Källhänvisningar

Populär AI-träningsmetod har dolda svagheter – ny metod lovar bättre resultat — arXiv cs.AI

Studenter lär sig granska AI genom att konstruera testfrågor — arXiv cs.AI

AI-textdetektorer lär sig ingenting nytt – de förstärker bara befintliga mönster — arXiv cs.LG

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

Verktygen du litar på mäter fel sak – ny forskning avslöjar sprickor i AI-grunden

Tre papper, en gemensam poäng

Detektorn som mäter fel sak

DPO – snygg teori, opålitlig praktik

Studenterna som lär sig slå tillbaka

Vår analys

AI-teknologi

Branscher

Verktygen du litar på mäter fel sak – ny forskning avslöjar sprickor i AI-grunden

Tre papper, en gemensam poäng

Detektorn som mäter fel sak

DPO – snygg teori, opålitlig praktik

Studenterna som lär sig slå tillbaka

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies