Foto till artikeln: AI-agenter är lysande på vissa uppgifter – och överraskande klantiga på andra

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

LLM Forskning Agenter & Automation

AI-agenter är lysande på vissa uppgifter – och överraskande klantiga på andra

AI-agenter är 87 procent snabbare än människor – men misslyckas var tredje gång.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 5 min läsning • 08/06 2026 14:58

Siffrorna som inte motsäger varandra

När en ny arXiv-studie baserad på verkliga användningsdata från Perplexity nyligen cirkulerade i mina flöden fastnade jag direkt för en siffra: uppgifter som tidigare tog 269 minuter slutförs nu på 36 minuter med en självständig AI-agent. Det är en tidsvinst på 87 procent, och kostnadsreduktionen uppges vara hela 94 procent. Imponerande.

Men nästan exakt samtidigt publicerades ett annat forskningsresultat – riktmärkesserien AARR (Act As a Real Researcher) – med en betydligt kyligare slutsats: den bäst presterande agentkonfigurationen nådde bara 68,3 procents framgångsfrekvens på uppgifter som en forskningspraktikant förväntas klara. Systemet missade upprepade gånger subtila men kritiska detaljer som en erfaren människa omedelbart hade reagerat på.

Hur kan båda vara sanna? Jo, för att de mäter helt olika saker.

Vad agenter faktiskt är bra på – och varför det spelar roll

Perplexity-studien tittar på genomströmning och bredd: hur snabbt kan en agent navigera, sammanställa och producera resultat på sammansatta men väldefinierade uppgifter? Här lyser agenterna. Studien noterar dessutom något fascinerande: självständiga agenter förändrar inte bara hur folk arbetar, utan vad de ens försöker sig på. Uppgifterna blir mer komplexa, kräver mer kognitiv kapacitet och korsar traditionella yrkesgränser.

Det är en viktig iakttagelse. Vi pratar inte längre om att automatisera enkla, repetitiva moment – vi pratar om att sänka trösklarna för kvalificerat arbete.

Men AARR-riktmärket mäter något annat: omdöme. Förmågan att känna igen när en detalj är viktig, när ett resultat luktar konstigt, när man ska stanna upp och ifrågasätta i stället för att köra vidare. Det är precis den förmågan som nuvarande agenter saknar – och det är ingen liten sak om man tänker på hur mycket av riktigt kvalificerat arbete som handlar om att inte missa det icke-uppenbara.

Infrastrukturen bakom prestandan

En tredje pusselbit är forskning om hur agenter faktiskt fattar beslut. Ett nytt ramverk kallat TRUST adresserar ett välkänt problem: att stora språkmodeller tenderar att antingen anropa externa verktyg i onödan eller hitta på svar utan faktaunderlag. Dessa fel hoper sig dessutom i långa flerstegskedjor – ett litet misstag tidigt kan växa sig stort. TRUST integrerar osäkerhetsmätning direkt i träningsprocessen och fungerar som en bromsande kraft mot alltför säkra – och ofta felaktiga – beslut.

Parallellt presenteras OpenSkill, ett ramverk för agenter som kan anpassa sig i verkliga driftmiljöer helt utan förmärkta träningsdata. I tidigare system har man förutsatt tillgång till strukturerade inlärningssignaler – något som sällan finns i verkligheten. OpenSkill löser detta genom att hämta kunskap från dokumentation, källkodsarkiv och webbdata, och bygger sedan egna övningsuppgifter att träna mot.

Dessa två projekt signalerar något viktigt: forskningsfronten rör sig bort från att bara göra agenter starkare och mot att göra dem pålitligare.

När fler agenter inte är svaret

Ett annat antagande som ifrågasätts är att fler agenter alltid ger bättre resultat. En studie som analyserar så kallade multi-agentsystem ur ett entropiperspektiv visar att i hela 43,3 procent av de testade fallen presterar en enskild agent bättre än ett helt nätverk av samarbetande agenter. Entropimönstren – hur osäker och varierad informationsbehandlingen är – fastställs dessutom i stort sett redan under den första interaktionsrundan, vilket skapar en sorts inbyggd tröghet i systemet.

Detta är ett utmärkt exempel på varför det lönar sig att förstå hur agenter faktiskt fungerar snarare än att stapla komplexitet på komplexitet.

Så – hype eller revolution?

Båda. Men på olika ställen, och i olika tidshorisonter.

För väldefinierade kunskapsuppgifter med tydliga mål är agenterna redan här och levererar verkligt mätbart värde. För arbete som kräver djupt domänomdöme, nyanserade avvägningar och förmågan att veta vad man inte vet – där är vi fortfarande tidigt. Den ärliga bilden är att vi befinner oss i en fas där agenterna är imponerande generellt och opålitliga specifikt, och att den infrastruktur som behövs för att ändra på det – bättre beslutslogik, självlärande i öppna miljöer, smartare fleragerarkitekturer – är under aktiv konstruktion just nu.

Vår analys

Det som gör det här forskningsläget genuint spännande är inte enstaka prestandasiffror – det är riktningen. Tre av de fem studierna handlar inte om att göra agenter snabbare, utan om att göra dem bättre kalibrerade: mer medvetna om när de inte vet, mer kapabla att lära sig utan handpåläggning, och smartare i sina val av när fler resurser faktiskt hjälper.

Det är ett tecken på att fältet mognar. Den tidiga agentutvecklingen handlade om att bevisa att det går – nu handlar den alltmer om att förstå varför det ibland inte gör det.

För oss som bygger system är det en viktig signal: det räcker inte att välja en stark grundmodell och lägga på ett agentlager. Arkitekturval, träningsmetodik och uppgiftsdesign spelar avgörande roll. Och för beslutsfattare som funderar på driftsättning: de 87 procenten och de 68,3 procenten är inte motsägelsefulla – de är en karta över var du kan lita på agenter idag, och var du behöver ha en människa i loopen.

Källhänvisningar

OpenSkill låter AI-agenter lära sig självständigt i verkliga miljöer — arXiv cs.AI

Nytt AI-system förbättrar språkmodellers verktygsanvändning med osäkerhetsmätning — arXiv cs.AI

Nytt riktmärke avslöjar: AI-agenter långt ifrån att ersätta riktiga forskare — arXiv cs.AI

AI-agenter revolutionerar kunskapsarbete: 87% snabbare än mänskliga användare — arXiv cs.AI

Entropi avslöjar när flera AI-agenter verkligen hjälper — arXiv cs.AI

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

AI-agenter är lysande på vissa uppgifter – och överraskande klantiga på andra

Siffrorna som inte motsäger varandra

Vad agenter faktiskt är bra på – och varför det spelar roll

Infrastrukturen bakom prestandan

När fler agenter inte är svaret

Så – hype eller revolution?

Vår analys

AI-teknologi

Branscher

AI-agenter är lysande på vissa uppgifter – och överraskande klantiga på andra

Siffrorna som inte motsäger varandra

Vad agenter faktiskt är bra på – och varför det spelar roll

Infrastrukturen bakom prestandan

När fler agenter inte är svaret

Så – hype eller revolution?

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies