AI-agenterna klarar deluppgifterna – men snubblar på helheten och avslöjar mätverktygens brister
AI-agenter klarar deluppgifter men misslyckas med helheten, visar ny forskning.
Imponerande på delsträckan – men inte i mål
Tänk dig en praktikant som löser varje enskild arbetsuppgift du ger hen, men som aldrig riktigt förstår syftet med hela projektet. Det är ungefär där AI-agenter befinner sig just nu.
En färsk studie publicerad på arXiv undersökte hur väl generella kodningsagenter hanterar verkliga vetenskapliga arbetsflöden – i det här fallet en datapipeline för optogenetik inom neurovetenskap. Resultaten är talande: agenterna klarar enskilda steg i processen, men misslyckas när de saknar tydliga kriterier att iterera mot. Att genomföra en hel pipeline från rådata till vetenskaplig slutsats är, som forskarna konstaterar, fortfarande bortom nuvarande förmåga. Agenterna försöker till och med granska mellanliggande resultat visuellt – ett lovvärt försök att efterlikna vetenskaplig praxis – men lyckas sällan tolka det de ser korrekt.
Det är ett mönster som återkommer i flera av veckans forskningsresultat.
SQL, dialekter och den missvisande statistiken
Ett annat konkret exempel kommer från det nya riktmärket UniQL, som testar AI-modellers förmåga att översätta naturligt språk till SQL-kod – men till skillnad från tidigare testramverk gör det över 16 olika databasdialekter. Resultatet? Modeller som presterar utmärkt på SQLite tappar markant när de möter andra databasystem. Med 24 544 dialektspecifika testfrågor är budskapet tydligt: vi har mätt AI-förmågan i en alltför smal korridor och dragit alltför breda slutsatser.
Samma problem dyker upp i MacArena, ett nytt verktyg för att testa datoranvändaragenter i macOS-miljö. En ledande modell presterade över 26 procentenheter sämre på macOS-specifika uppgifter jämfört med de miljöer den tränats och testats i. Det antyder att hög prestanda i standardtester kan spegla inlärd uppgiftsfördelning snarare än verklig plattformsoberoende förmåga.
Anpassning i realtid – en olöst nöt
En tredje utmaning handlar om vad som händer när spelreglerna ändras mitt i spelet. Forskarna bakom RECAP testade sex metoder för promptoptimering mot fyra stora språkmodeller, och ingen visade nämnvärd förbättring när kraven förändrades i realtid – trots att metoderna medförde längre svarstider. I verkliga driftsmiljöer, där ett verktyg kan uppdatera sina regler från en interaktion till nästa, är detta ett allvarligt hinder.
Det finns också ett mer subtilt problem som forskargruppen bakom PACE lyfter fram: självutvecklande agenter tenderar att lura sig själva. När en agent testar hundratals förändringar mot samma lilla testmängd uppstår ett statistiskt fenomen liknande så kallat p-hacking – slumpmässiga förbättringar tolkas som genuina framsteg. PACE-metoden löser detta genom att omformulera godkännandebeslutet som ett sekventiellt hypotestest, vilket eliminerar i stort sett alla falska godkännanden och sänker utvärderingskostnaden med 18 procent.
Men forskningen rör sig framåt – snabbt
Här är det viktigt att inte fastna i pessimismen. Samma vecka som dessa begränsningar dokumenteras presenteras också genuint lovande lösningar.
Contract2Tool lär agenter inte bara hur ett verktyg används, utan när det är lämpligt – och minskar tokenförbrukningen med nästan 90 procent utan att tappa träffsäkerhet. MemToolAgent bygger ett strukturerat minne av tidigare misstag och förbättrar verktygsanvändning med upp till 80 procent på vissa riktmärken, allt utan att modellen behöver tränas om. CICL adresserar ett klassiskt problem: att rätt information finns men inte väljs ut i rätt ögonblick, och förbättrar filhämtning i kodrelaterade uppgifter från 58 till 78 procents träffsäkerhet.
Och för den som undrar hur man överhuvudtaget utvärderar agenter i sociala och komplexa miljöer: Online Agent-as-a-Judge låter en bedömagent aktivt skapa situationer för att testa den undersökta agenten – istället för att hoppas att rätt scenario råkar uppstå av sig självt.
En bransch som börjar mäta rätt saker
Det kanske mest uppmuntrande med veckans forskningsflöde är inte enskilda resultat, utan vad det signalerar om branschens mognad. Vi bygger bättre mätinstrument. Vi identifierar specifika felkällor. Vi föreslår riktade lösningar. Det är precis så här ingenjörsmässig problemlösning ska se ut – och det är ett gott tecken.
Vår analys
Det är lätt att pendla mellan två extremer: antingen är AI-agenter revolutionerande, eller så är de överhypade. Veckans forskning påminner oss om att verkligheten är mer intressant än så.
Det som faktiskt händer är att vi äntligen börjar mäta rätt saker. UniQL, MacArena, RECAP och MacArena är inte bevis på att AI-agenter misslyckas – de är bevis på att vi nu har verktyg för att förstå hur och varför de misslyckas. Det är en avgörande skillnad.
Som systemutvecklare ser jag ett tydligt mönster: de mest lovande lösningarna – PACE, Contract2Tool, MemToolAgent – är inte nya modeller utan bättre arkitekturbeslut kring befintliga modeller. Minneshantering, kontraktsstyrd verktygsanvändning och statistiskt hederlig självutvärdering är alla problemdomäner vi känner igen från klassisk mjukvaruutveckling.
Det ger mig tillförsikt. Vi behöver inte vänta på ett genombrott – vi behöver bygga smartare system runt den förmåga som redan finns.