När AI blir för enhetlig – systematiska fel förstärks istället för att lösas
AI-systemens ökade enhetlighet förstärker fel istället för att lösa dem.
Genombrott och bakslag går hand i hand
AI-agenter når imponerande nya prestationsnivåer, men senaste forskningsresultaten från arXiv visar en fascinerande paradox: medan systemen blir mer kapabla på komplexa uppgifter, kvarstår – och förvärras ibland – grundläggande begränsningar.
AIRA_2, det nyaste genomslaget inom AI-forskningsagenter, uppnår 76% framgång på den krävande testsviten MLE-bench-30 efter 72 timmars körning. Systemet löser tre kritiska flaskhalsar genom asynkron GPU-bearbetning, förbättrad utvärdering och dynamiska ReAct-agenter som kan felsöka interaktivt.
Men framgångarna kommer med en varning. Forskning på SWE-bench, ett programmeringstest som kräver flerstegsanalys, avslöjar att enhetlighet kan vara en dubbelsidig svärdseg. Claude 4.5 Sonnet visade den lägsta variationen (15,2%) och högsta träffsäkerheten (58%), men här döljer sig problemet: hela 71% av misslyckandena berodde på "enhetlig feltolkning" – samma felaktiga antaganden upprepades systematiskt.
När precision blir till systematisk förvirring
Det är en tekniskt fascinerande upptäckt. Istället för att slumpmässiga fel balanseras ut över flera försök, förstärker AI-agenternas enhetlighet både korrekta och felaktiga tolkningar. GPT-5 låg mittemellan med 32,2% variation och 32% träffsäkerhet, medan Llama-3.1-70B hade högst variation (47%) men bara 4% träffsäkerhet.
Problemet förvärras när vi tittar på kodgenerering i stora projekt. Det nya riktmärket ReCUBE testar AI-modellers förmåga att använda sammanhang från hela kodarkiv – något som är grundläggande för verklig programutveckling. Resultaten är nedslående: även GPT-5 uppnådde endast 37,57% framgång i det mest gynnsamma testfallet.
ReCUBE-testet är metodiskt väldesignat. Istället för att testa isolerad kodgenerering kräver det att AI-modeller rekonstruerar en maskerad fil genom att använda resterande källkod, beroenden och dokumentation som sammanhang. Det speglar hur programutvecklare faktiskt arbetar – men avslöjar en grundläggande svaghet hos dagens modeller.
Verktyg som hjälp, men inte lösning
Forskarna har utvecklat Caller-Centric Exploration (CCE), ett verktyg som hjälper AI-agenter navigera kodprojekt genom att fokusera på relevanta filer. Modeller med CCE presterade 7,56% bättre – en förbättring, men långt från att lösa grundproblemet.
Det här mönstret – imponerande prestationer på vissa områden, systematiska svagheter på andra – är karakteristiskt för nuvarande AI-utveckling. AIRA_2:s framgångar inom forskningsautomation står i stark kontrast till svårigheterna med kodförståelse i ReCUBE-testet.
Vad innebär detta för praktisk tillämpning? För produktionsmiljöer blir tolkningsnoggrannhet viktigare än utförandeenhetlighet. En agent som systematiskt gör samma fel är farligare än en som varierar sina misstag – åtminstone kan vi fånga upp de senare genom redundans och validering.
Vår analys
Dessa forskningsresultat pekar på en mognadsfas för AI-agenter där vi måste omvärdera våra förväntningar. Medan systemen som AIRA_2 visar att automatiserad forskning är inom räckhåll, avslöjar ReCUBE-testet att grundläggande kodförståelse fortfarande är en utmaning.
Det mest intressanta är upptäckten om "enhetlig feltolkning". Detta förändrar hur vi bör designa AI-system för produktion – istället för att optimera för enhetlighet kanske vi behöver bygga in medveten variation och valideringslager.
Jag ser detta som ett tecken på att AI-agenter mognar från "demo-magi" till verklig ingenjörskonst. Vi börjar förstå var systemen fungerar bra (strukturerade forskningsuppgifter) och var de fortfarande har kritiska brister (sammanhangsberoende kodarbete). Det här är faktiskt positivt – först när vi förstår begränsningarna kan vi bygga tillförlitliga system runt dem.