Teknikbranschen lovar autonoma AI-agenter – forskningen visar att den bästa modellen knappt når hälften rätt
Branschen lovar självständiga AI-agenter – men den bästa klarar knappt hälften av uppgifterna.
Gapet mellan löfte och verklighet
Det råder ingen brist på entusiasm kring AI-agenter just nu. System som självständigt navigerar webben, analyserar data och till och med hanterar hela forskningsprocesser beskrivs som nästa stora språng. Men forskarvärlden har börjat ställa hårdare frågor – och svaren är inte alltid smickrande.
En av de mest talande studierna kommer från ett forskarlag som introducerat riktmärket LongDS, utformat för att testa AI-agenters förmåga att genomföra komplex, iterativ dataanalys över långa interaktionskedjor. Resultaten är nedslående: den bästa testade modellen når bara 48,45 procents träffsäkerhet i genomsnitt, och prestandan rasar med nästan 47 procentenheter från tidiga till sena steg i en uppgift. Ännu mer bekymmersamt: problemet löses inte av att ge agenten fler interaktionssteg. Flaskhalsen är agenternas oförmåga att bibehålla ett korrekt analytiskt tillstånd över tid – att hålla ihop tråden när beroendekedjorna blir långa.
Det är ett mönster som dyker upp i studie efter studie.
Agenter som fastnar – och system som hittar fällorna
Ett annat forskarlag har tagit ett intressant grepp på problemet med sitt ramverk TraceGraph. Istället för att bara mäta om en agent lyckas eller misslyckas, omvandlas hela interaktionsförloppet till ett beslutslandskap där man kan identifiera så kallade fällregioner – återkommande tillstånd där agenter tenderar att köra fast. Genom att koppla en realtidsdetektor till det välkända riktmärket SWE-bench lyckades de höja lösningsgraden från 40,4 till 43,5 procent. Det låter som en liten förbättring, men metoden är mer värd än siffrorna antyder: den ger utvecklare ett verktyg för att förstå varför agenter misslyckas, inte bara att de misslyckas.
Samtidigt visar forskning kring MAVEN – ett modulärt ramverk för flerstegiga uppgifter – att strukturerad uppgiftsnedbrytning och löpande verifiering av delvisa resultat kan lyfta en modells träffsäkerhet från 48 till 71 procent, utan ytterligare träning och till en tiondel av kostnaden jämfört med ledande proprietära alternativ. Det är ett konkret exempel på att arkitekturval spelar minst lika stor roll som modellstorlek.
Självutveckling – mer komplicerat än det låter
En av de mer överraskande insikterna från den senaste forskningen handlar om AI-agenters förmåga att uppdatera sig själva. En studie på arXiv undersöker system som kan modifiera sina egna instruktioner och minnen utan att ändra de underliggande modellparametrarna. Resultaten utmanar intuitionen: nästan alla modeller, oavsett storlek, producerar uppdateringar av liknande kvalitet. Det verkliga problemet uppstår i nästa steg – att faktiskt dra nytta av uppdateringarna. Svagare modeller kan inte följa sina egna förbättrade instruktioner. De starkaste modellerna förbättras förvånansvärt lite. Det är mellannivån som gynnas mest. Slutsatsen är praktisk: lägg resurser på den agent som löser uppgifter, inte på uppdateringsmekanismen.
Lovande lösningar under utveckling
Trots bristerna pågår ett intensivt arbete på lösningssidan. SCALE, ett ramverk för webbagenter, låter system lära sig navigera utan handgjorda instruktioner genom att tre samverkande roller hjälper agenten att kartlägga sina egna svagheter. DecomposeR tränar modeller att bryta ner komplexa forskningsfrågor i strukturerade träd av delfrågor, vilket ger 5–8 procentenheters förbättring på etablerade riktmärken. Och HypoAgent visar hur interaktiv dialog kan förbättra hypotetiskt resonemang i kunskapsgrafer inom allt från vardagsförnuft till biomedicin.
På utvärderingssidan adresserar GLIDE – ett öppet Python-bibliotek – ett grundläggande metodproblem: hur mäter man tillförlitligt om en agent faktiskt presterar bra, utan att förlita sig på dyra mänskliga annoteringar eller partiska AI-domarmodeller? Biblioteket kombinerar statistiska metoder med konfidensintervall och kan minska behovet av mänsklig granskning avsevärt utan att tappa precision.
Slutligen presenteras AutoSci som ett system för att automatisera hela den vetenskapliga forskningsprocessen – från litteraturgenomgång till rebuttal. Det är ett ambitiöst mål, och systemet är mer ett ramverk för möjligheter än ett bevisat faktum. Men riktningen är tydlig: agenter som kan minnas, planera och förbättra sig över tid är vad fältet strävar mot.
Vår analys
Det som träder fram ur den här forskningsvågen är inte en bild av misslyckade system – det är en bild av ett fält som äntligen börjar ställa rätt frågor. Att agenter presterar sämre ju längre och mer komplexa uppgifterna blir är inte förvånande för den som byggt programvara; tillståndshantering är svårt, och LLM-agenter är inget undantag.
Det som är genuint uppmuntrande är att lösningarna börjar bli mer sofistikerade. Verktyg som TraceGraph och GLIDE handlar inte om att göra modeller större – de handlar om att förstå och mäta beteende på ett mer nyanserat sätt. Det är mogen ingenjörskonst.
Min bedömning är att vi befinner oss i en nödvändig kalibreringsfas. Marknadsföringens överdrifter möter forskningens rigor, och det är bra. Nästa generations agenter kommer troligen att byggas på insikterna från exakt dessa riktmärken – mer modulära, mer verifierbara och med bättre tillståndshantering som grundprincip snarare än eftertanke.