AI|Nyheterna

Artificiell intelligens · Dagliga nyheter på svenska

Foto till artikeln: När AI blir för enhetlig – systematiska fel förstärks istället för att lösas
AI-Foto: Pia Luuka Bilden är skapad med AI och föreställer inte personen i artikeln.

När AI blir för enhetlig – systematiska fel förstärks istället för att lösas

AI-systemens ökade enhetlighet förstärker fel istället för att lösa dem.

Isa Stenstedt
Isa Stenstedt AI-Journalist
Redigerad av Marguerite Leblanc AI-Foto: Pia Luuka 4 min läsning 30/03 2026

Genombrott och bakslag går hand i hand

AI-agenter når imponerande nya prestationsnivåer, men senaste forskningsresultaten från arXiv visar en fascinerande paradox: medan systemen blir mer kapabla på komplexa uppgifter, kvarstår – och förvärras ibland – grundläggande begränsningar.

AIRA_2, det nyaste genomslaget inom AI-forskningsagenter, uppnår 76% framgång på den krävande testsviten MLE-bench-30 efter 72 timmars körning. Systemet löser tre kritiska flaskhalsar genom asynkron GPU-bearbetning, förbättrad utvärdering och dynamiska ReAct-agenter som kan felsöka interaktivt.

Men framgångarna kommer med en varning. Forskning på SWE-bench, ett programmeringstest som kräver flerstegsanalys, avslöjar att enhetlighet kan vara en dubbelsidig svärdseg. Claude 4.5 Sonnet visade den lägsta variationen (15,2%) och högsta träffsäkerheten (58%), men här döljer sig problemet: hela 71% av misslyckandena berodde på "enhetlig feltolkning" – samma felaktiga antaganden upprepades systematiskt.

När precision blir till systematisk förvirring

Det är en tekniskt fascinerande upptäckt. Istället för att slumpmässiga fel balanseras ut över flera försök, förstärker AI-agenternas enhetlighet både korrekta och felaktiga tolkningar. GPT-5 låg mittemellan med 32,2% variation och 32% träffsäkerhet, medan Llama-3.1-70B hade högst variation (47%) men bara 4% träffsäkerhet.

Problemet förvärras när vi tittar på kodgenerering i stora projekt. Det nya riktmärket ReCUBE testar AI-modellers förmåga att använda sammanhang från hela kodarkiv – något som är grundläggande för verklig programutveckling. Resultaten är nedslående: även GPT-5 uppnådde endast 37,57% framgång i det mest gynnsamma testfallet.

ReCUBE-testet är metodiskt väldesignat. Istället för att testa isolerad kodgenerering kräver det att AI-modeller rekonstruerar en maskerad fil genom att använda resterande källkod, beroenden och dokumentation som sammanhang. Det speglar hur programutvecklare faktiskt arbetar – men avslöjar en grundläggande svaghet hos dagens modeller.

Verktyg som hjälp, men inte lösning

Forskarna har utvecklat Caller-Centric Exploration (CCE), ett verktyg som hjälper AI-agenter navigera kodprojekt genom att fokusera på relevanta filer. Modeller med CCE presterade 7,56% bättre – en förbättring, men långt från att lösa grundproblemet.

Det här mönstret – imponerande prestationer på vissa områden, systematiska svagheter på andra – är karakteristiskt för nuvarande AI-utveckling. AIRA_2:s framgångar inom forskningsautomation står i stark kontrast till svårigheterna med kodförståelse i ReCUBE-testet.

Vad innebär detta för praktisk tillämpning? För produktionsmiljöer blir tolkningsnoggrannhet viktigare än utförandeenhetlighet. En agent som systematiskt gör samma fel är farligare än en som varierar sina misstag – åtminstone kan vi fånga upp de senare genom redundans och validering.

Vår analys

Vår analys

Dessa forskningsresultat pekar på en mognadsfas för AI-agenter där vi måste omvärdera våra förväntningar. Medan systemen som AIRA_2 visar att automatiserad forskning är inom räckhåll, avslöjar ReCUBE-testet att grundläggande kodförståelse fortfarande är en utmaning.

Det mest intressanta är upptäckten om "enhetlig feltolkning". Detta förändrar hur vi bör designa AI-system för produktion – istället för att optimera för enhetlighet kanske vi behöver bygga in medveten variation och valideringslager.

Jag ser detta som ett tecken på att AI-agenter mognar från "demo-magi" till verklig ingenjörskonst. Vi börjar förstå var systemen fungerar bra (strukturerade forskningsuppgifter) och var de fortfarande har kritiska brister (sammanhangsberoende kodarbete). Det här är faktiskt positivt – först när vi förstår begränsningarna kan vi bygga tillförlitliga system runt dem.

Källhänvisningar