AI-agenter är lysande på vissa uppgifter – och överraskande klantiga på andra
AI-agenter är 87 procent snabbare än människor – men misslyckas var tredje gång.
Siffrorna som inte motsäger varandra
När en ny arXiv-studie baserad på verkliga användningsdata från Perplexity nyligen cirkulerade i mina flöden fastnade jag direkt för en siffra: uppgifter som tidigare tog 269 minuter slutförs nu på 36 minuter med en självständig AI-agent. Det är en tidsvinst på 87 procent, och kostnadsreduktionen uppges vara hela 94 procent. Imponerande.
Men nästan exakt samtidigt publicerades ett annat forskningsresultat – riktmärkesserien AARR (Act As a Real Researcher) – med en betydligt kyligare slutsats: den bäst presterande agentkonfigurationen nådde bara 68,3 procents framgångsfrekvens på uppgifter som en forskningspraktikant förväntas klara. Systemet missade upprepade gånger subtila men kritiska detaljer som en erfaren människa omedelbart hade reagerat på.
Hur kan båda vara sanna? Jo, för att de mäter helt olika saker.
Vad agenter faktiskt är bra på – och varför det spelar roll
Perplexity-studien tittar på genomströmning och bredd: hur snabbt kan en agent navigera, sammanställa och producera resultat på sammansatta men väldefinierade uppgifter? Här lyser agenterna. Studien noterar dessutom något fascinerande: självständiga agenter förändrar inte bara hur folk arbetar, utan vad de ens försöker sig på. Uppgifterna blir mer komplexa, kräver mer kognitiv kapacitet och korsar traditionella yrkesgränser.
Det är en viktig iakttagelse. Vi pratar inte längre om att automatisera enkla, repetitiva moment – vi pratar om att sänka trösklarna för kvalificerat arbete.
Men AARR-riktmärket mäter något annat: omdöme. Förmågan att känna igen när en detalj är viktig, när ett resultat luktar konstigt, när man ska stanna upp och ifrågasätta i stället för att köra vidare. Det är precis den förmågan som nuvarande agenter saknar – och det är ingen liten sak om man tänker på hur mycket av riktigt kvalificerat arbete som handlar om att inte missa det icke-uppenbara.
Infrastrukturen bakom prestandan
En tredje pusselbit är forskning om hur agenter faktiskt fattar beslut. Ett nytt ramverk kallat TRUST adresserar ett välkänt problem: att stora språkmodeller tenderar att antingen anropa externa verktyg i onödan eller hitta på svar utan faktaunderlag. Dessa fel hoper sig dessutom i långa flerstegskedjor – ett litet misstag tidigt kan växa sig stort. TRUST integrerar osäkerhetsmätning direkt i träningsprocessen och fungerar som en bromsande kraft mot alltför säkra – och ofta felaktiga – beslut.
Parallellt presenteras OpenSkill, ett ramverk för agenter som kan anpassa sig i verkliga driftmiljöer helt utan förmärkta träningsdata. I tidigare system har man förutsatt tillgång till strukturerade inlärningssignaler – något som sällan finns i verkligheten. OpenSkill löser detta genom att hämta kunskap från dokumentation, källkodsarkiv och webbdata, och bygger sedan egna övningsuppgifter att träna mot.
Dessa två projekt signalerar något viktigt: forskningsfronten rör sig bort från att bara göra agenter starkare och mot att göra dem pålitligare.
När fler agenter inte är svaret
Ett annat antagande som ifrågasätts är att fler agenter alltid ger bättre resultat. En studie som analyserar så kallade multi-agentsystem ur ett entropiperspektiv visar att i hela 43,3 procent av de testade fallen presterar en enskild agent bättre än ett helt nätverk av samarbetande agenter. Entropimönstren – hur osäker och varierad informationsbehandlingen är – fastställs dessutom i stort sett redan under den första interaktionsrundan, vilket skapar en sorts inbyggd tröghet i systemet.
Detta är ett utmärkt exempel på varför det lönar sig att förstå hur agenter faktiskt fungerar snarare än att stapla komplexitet på komplexitet.
Så – hype eller revolution?
Båda. Men på olika ställen, och i olika tidshorisonter.
För väldefinierade kunskapsuppgifter med tydliga mål är agenterna redan här och levererar verkligt mätbart värde. För arbete som kräver djupt domänomdöme, nyanserade avvägningar och förmågan att veta vad man inte vet – där är vi fortfarande tidigt. Den ärliga bilden är att vi befinner oss i en fas där agenterna är imponerande generellt och opålitliga specifikt, och att den infrastruktur som behövs för att ändra på det – bättre beslutslogik, självlärande i öppna miljöer, smartare fleragerarkitekturer – är under aktiv konstruktion just nu.
Vår analys
Det som gör det här forskningsläget genuint spännande är inte enstaka prestandasiffror – det är riktningen. Tre av de fem studierna handlar inte om att göra agenter snabbare, utan om att göra dem bättre kalibrerade: mer medvetna om när de inte vet, mer kapabla att lära sig utan handpåläggning, och smartare i sina val av när fler resurser faktiskt hjälper.
Det är ett tecken på att fältet mognar. Den tidiga agentutvecklingen handlade om att bevisa att det går – nu handlar den alltmer om att förstå varför det ibland inte gör det.
För oss som bygger system är det en viktig signal: det räcker inte att välja en stark grundmodell och lägga på ett agentlager. Arkitekturval, träningsmetodik och uppgiftsdesign spelar avgörande roll. Och för beslutsfattare som funderar på driftsättning: de 87 procenten och de 68,3 procenten är inte motsägelsefulla – de är en karta över var du kan lita på agenter idag, och var du behöver ha en människa i loopen.