AI-systemen är kraftfullare än testerna visar – och mer opålitliga än vi inser
Standardtesterna missar 82 procent av AI:s verkliga förmåga – och bristerna är allvarliga.
AI:n är bättre än vi mäter – och sämre än vi hoppas
De senaste veckorna har ett kluster av forskningspapper landat på arXiv med en gemensam röd tråd: vi förstår inte riktigt vad AI-systemen faktiskt gör, varken när de lyckas eller när de misslyckas.
Ta kapabilitetsfrågan först. En ny studie som undersökte 21 språkmodeller över 16 välkända testsviter – inom programmering, resonemang, medicin och faktakontroll – drar slutsatsen att befintliga riktmärken missar hela 82 procent av den verkliga förmågan. Problemet är metodologiskt: ett enskilt test, med en enskild modell, på en enskild körning ger en kraftigt missvisande bild. När forskarna i stället mätte vad de kallar kapabilitetsgränsen – den bästa möjliga prestandan när flera modeller kombineras och kompletterar varandras styrkor – såg bilden helt annorlunda ut. Och kanske ännu mer intressant för den som tänker på kostnader: samma topprestanda gick att nå till bara 15 procent av den ursprungliga driftkostnaden, med rätt modell för rätt uppgift.
Det är ett resultat med omedelbar affärsmässig bäring. Många organisationer betalar för att köra tunga modeller på uppgifter där en lättare modell presterar lika bra – eller bättre.
Falska fixar och osynliga beteendeläckage
Men kapabilitet är en sak. Tillförlitlighet är en annan – och där är forskningen mer oroande.
En studie presenterar TerraProbe, ett femskiktat utvärderingsramverk för att bedöma hur väl stora språkmodeller reparerar säkerhetsproblem i Terraform-kod. Siffrorna är slående: modellerna lyckas till 83 procent få bort varningar från automatiserade säkerhetsverktyg, men bara 10 procent klarar en fullständig säkerhetsskanning. Mänsklig granskning avslöjar att 71 procent av reparationerna är vilseledande – de ser ut att fungera men lämnar den ursprungliga sårbarheten orörd. Mönstret gäller likvärdigt för Gemini, GPT-4o och Claude 3.5 Sonnet. Det är med andra ord inte ett enstaka modellproblem, det är ett strukturellt beteende.
Ett liknande mönster dyker upp i forskning om så kallade promptsammansatta agentsystem. Forskare har formaliserat ett fenomen de kallar sammansatt beteendeläckage: när en promptmodul i ett AI-system redigeras kan helt orelaterade modulers beteende förändras – utan att det syns i vanliga kvalitetskontroller. I ett experiment med en driftsatt jobbvärderingsagent visade sig effekten vara tillräckligt liten per beslut för att undgå uppmärksamhet, men tillräckligt konsekvent för att ackumuleras till betydande partiskhet över tusentals beslut.
Tänker inte som oss – och det spelar roll
En tredje forskningslinje handlar om hur AI-system faktiskt resonerar under huven. En studie jämförde hur människor och avancerade resonemangsmodeller hanterar svåra problem. Slutsatsen är elegant enkel: när en människa misslyckas med en uppgift har hen typiskt lagt mindre tid på den – vi känner igen hopplöshet och ger upp. AI-modellerna gör tvärtom: de genererar längre svar just på de uppgifter de misslyckas med. Det är osäkerheten som driver texten, inte lösningen.
Detta är inte bara akademiskt intressant. Det betyder att textlängd och svarsflöde är dåliga indikatorer på om en modell faktiskt har förstått uppgiften.
På säkerhetssidan visar separat forskning att moderna chattmodellers förmåga att neka olämpliga förfrågningar är direkt kopplad till deras inbyggda personlighetsdrag – inte till en isolerad vägransmekanism. I experiment med Llama-3.1-8B sjönk andelen nekade förfrågningar från 97 procent till 2 procent när personlighetsriktningen manipulerades. Det innebär att säkerhetsarbete som enbart fokuserar på att stärka vägranslogiken kan ha missat en avgörande beroende variabel.
Automatiserad vetenskap och logikens gräns
Det finns också en mer hoppfull sida av veckans forskningsflöde. Systemet auto-psych automatiserar hela forskningskedjan inom kognitiv psykologi – från hypotesgenerering till experiment på riktiga deltagare och analys. I tre oberoende testserier hittade systemet teorier som passade data bättre än etablerade teorier i litteraturen. Det är en kraftfull demonstration av att AI kan accelerera vetenskaplig kunskapsproduktion rejält.
Samtidigt sätter en annan studie en tydlig gräns: symbolisk logisk förmåga verkar ligga utanför vad övervakad djupinlärning kan nå, oavsett hur mycket träningsdata eller beräkningskraft man tillför. GPT-5 kan nå hundra procents träffsäkerhet på logiska påståenden och ändå ge felaktiga förklaringar. Formen på frågan påverkar svaret mer än logikens innehåll.
Vår analys
Det som slår mig när jag läser dessa studier samlat är att de pekar mot samma grundproblem: vi utvärderar AI-system med verktyg som inte är designade för hur de faktiskt fungerar.
Falska säkerhetsfixar som lurar automatiserade kontroller, beteendeläckage som är osynligt för standardtester, kapabilitet som underskattas för att vi mäter fel saker – det är alla varianter av samma missmatchning mellan utvärderingsmodell och verklighet.
Det positiva är att forskarsamhället nu namnger och formaliserar dessa problem, vilket är första steget mot att lösa dem. TerraProbe-ramverket, protokollet för att mäta modulstörningar och kapabilitetsgränsbegreppet är alla konkreta verktyg som industrin kan börja använda.
För den som bygger AI-system i produktion är budskapet tydligt: investera i robustare utvärderingsinfrastruktur, inte bara i kraftfullare modeller. Verifiering är nu lika svårt – och lika viktigt – som generering.