AI-agenter klarar tjugo miljoner dokument – men nya riktmärken blottar återkommande svagheter
AI-agenter söker bland miljoner dokument – men grundläggande svagheter kvarstår.
Agenter överallt – men vad klarar de egentligen?
Det händer mycket på agentfronten just nu. Forskargrupper världen över presenterar ramverk, riktmärken och specialiserade system i en takt som gör det svårt att hålla koll. Det positiva: vi ser genuina genombrott. Det ärliga: vi ser också tydliga mönster av var systemen brister.
Låt oss börja med det som fungerar.
Sökning, logik och specialisering – tre starka fronter
DR-DCI är ett bra exempel på hur riktade lösningar kan ge stora kliv framåt. Ramverket låter AI-agenter dynamiskt hämta relevanta dokument till en lokal arbetsyta i stället för att söka rakt igenom enorma samlingar, och klarar av upp till 20 miljoner dokument med 71,2 procents träffsäkerhet – upp till 8,3 procentenheter bättre än tidigare varianter. Det är inte magi, det är smart systemdesign.
Ännu tydligare är vinsten med PrologMCP, som tar ett annat angreppssätt: i stället för att tvinga språkmodellen att sköta komplex deduktiv slutledning på egen hand, delegerar den uppgiften till en klassisk Prolog-motor. Resultatet är slående – precisionsvärden på 0,99–1,00 jämfört med 0,94–0,95 för modeller som Claude Sonnet och o4-mini utan stöd. Det är ett elegant argument för hybridarkitekturer: låt varje komponent göra det den är bäst på.
Samma tanke återfinns i Visual-Seeker, som kombinerar aktivt visuellt resonemang med flerstegssökning och presterar på toppnivå på fem krävande riktmärken – inklusive att slå flera kommersiella modeller.
Riktmärkena ger en nyktrare bild
Men sedan finns det riktmärkena – och de berättar en mer nyanserad historia.
CODA-BENCH är det första verktyget som utvärderar agenter på kombinationen kodutveckling och storskalig datahantering i realistisk miljö, med i genomsnitt 980 filer per uppgift. Även toppmodellerna klarar bara 61,1 procent av uppgifterna. Det är långt ifrån produktionsklart.
WebStep – ett riktmärke med 1 800 webbnavigeringsuppgifter – avslöjar något ännu mer intressant: tre agenter med nästan identisk slutresultatnivå runt 31–33 procent visade sig ha helt olika styrkor och svagheter. OpenAI:s CUA-agent var 23,7 procentenheter bättre än Qwen på att slutföra åtgärder, men 15,6 procentenheter sämre på filtreringsuppgifter. Det är ett starkt argument för att framgångsprocent som enda mått döljer mer än det avslöjar.
TickingCollabBench, byggt i Minecraft, testar tidskritiskt samarbete mellan agenter med begränsad information och dynamisk miljö. Resultaten är nedslående – nuvarande språkmodeller klarar sig påtagligt sämre än ett hypotetiskt system med fullständig kännedom om omgivningen. Koordination under tidspress är alltså fortfarande en olöst utmaning.
Självförbättring, tillit och beteendeanalys
Tre spår sticker ut som extra lovande för nästa generations system.
Det första är självförbättring. APEX-ramverket optimerar tre lager simultant – grundinstruktioner, beteendeprinciper och arbetsflödesstruktur – och nådde 90 procents förbättring jämfört med utgångsvärdet på 114 verkliga uppgifter. Det tog fyra och en halv minut och fyra modellanrop. Det är effektivitet.
Det andra är tillit mellan agenter. En studie med sex stora språkmodeller visar att välkalibrerad tillit – inte maximal misstänksamhet – ger snabbare beslut och bättre resultat i samarbetande system. Fyra av sex modeller minskade sin kontrollfrekvens med 60–85 procent när en medagent visade sig tillförlitlig. Det här är relevant för alla som bygger flerkomponentssystem.
Det tredje är beteendeanalys. Ramverket Base Sequence Analysis kodar agenthandlingar med ett fyrabokstavsalfabet och identifierar mönster som sänker framgångsgraden – bland annat att agenter verifierar sina handlingar i bara 2,1 procent av fallen. Det styrbaserade systemet Governor ökade framgångsgraden med 6,2 procentenheter och minskade tokenförbrukningen med 44 procent. Att förstå vad agenter faktiskt gör under körning är ett underskattat problem.
Från forskning till verkliga tillämpningar
Det är också värt att notera bredden av tillämpningsdomäner: VIBEMed bygger adaptivt kliniskt beslutsstöd som lär sig av patientfall, ChatPlanner tolkar reseinformation på naturligt språk för mer personlig kollektivtrafikplanering, och ett satellitdataramverk låter användare ställa frågor på naturligt språk och få strukturerade API-anrop tillbaka – med inbyggd säkerhetsvakt mot manipulerade anrop.
Mönstret är tydligt: AI-agenter rör sig snabbt från labbmiljö mot verkliga problem. Det återstår fortfarande att lösa koordination, dataintensiv kombinationsförmåga och robusthet under fientliga förhållanden – men riktningen är rätt.
Vår analys
Det som slår mig när jag läser igenom den här forskningsvågen är att vi är i en mognadsperiod, inte en stilleståndsperiod. Systemen fungerar ofta utmärkt när de är specialiserade – DR-DCI i dokumentsökning, PrologMCP i logisk slutledning, Visual-Seeker i visuell informationssökning. Problemet uppstår när agenter ska kombinera förmågor, hantera dynamiska miljöer och samarbeta under tidspress. CODA-BENCH och TickingCollabBench sätter fingret på exakt det glapp.
Det som verkligen ger mig framtidstro är inte enskilda prestationssiffror utan metanivån: vi bygger nu verktyg för att förstå hur agenter beter sig, inte bara om de lyckas eller misslyckas. WebStep, Base Sequence Analysis och ToolMenuBench representerar ett nytt paradigm för utvärdering – och utan bra mätverktyg kan man inte bygga bättre system. Den infrastrukturen är kanske den viktigaste nyheten av alla.