Foto till artikeln: Den bästa agenten klarar knappt en tredjedel — forskningen river hål i AI-myten

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

LLM Etik & Reglering Forskning Agenter & Automation Tillverkning & Industri

Den bästa agenten klarar knappt en tredjedel — forskningen river hål i AI-myten

Ny forskning avslöjar: den bästa AI-agenten klarar knappt en tredjedel av sina uppgifter.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 5 min läsning • 19/05 2026 18:29

Gapet mellan löfte och leverans

AI-agenter är just nu branschens hetaste satsning. Nästan varje stor teknikaktör lovar system som självständigt kan hantera komplexa arbetsuppgifter — boka möten, skriva kod, sköta kundservice, optimera logistik. Men en växande mängd forskning börjar nu nyansera den bilden på ett sätt som är värt att ta på allvar.

Ett av de skarpaste bidragen kommer från ett nytt riktmärke kallat MM-ToolBench, publicerat på arXiv. Forskarna bakom det har konstruerat 100 verklighetstrogna uppgifter inom kundservice och innehållsskapande, där agenter måste kombinera text, bilder och externa verktyg — och dessutom granska och rätta sina egna svar längs vägen. Resultaten är nyktra: Claudes Opus 4.6, som räknas som en av de starkaste modellerna för kodning och resonemang, klarade bara 32 procent av uppgifterna. Människor klarar 94 procent. Det är inte ett marginellt gap — det är ett stup.

När agenter samverkar uppstår nya problem

En agent som arbetar ensam är en sak. Men i verkligheten sätts agenter alltmer ihop i kedjor och nätverk. Och där uppstår egna dynamiker som forskningen börjar kartlägga.

I en studie om autonoma agenter i flernivåbaserade försörjningskedjor — utförd med hjälp av det klassiska MIT Beer Game-simuleringen — visade avancerade resoneringsmodeller imponerande genomsnitt: kostnader 67 procent lägre än mänskliga team. Men bakom siffrorna lurar vad forskarna kallar agentbullwhip-effekten: beslutsvariationer som förstärks längs kedjans led och skapar extrema svängningar som enskilda agenter aldrig hade producerat. Det är ett matematiskt inbyggt problem i system med flera samverkande agenter och informationsfördröjningar — inte ett implementationsmisstag som går att felsöka bort.

En liknande insikt kommer från förhandlingsstudier. Stora språkmodeller visar sig faktiskt kunna kartlägga motpartens preferenser tidigt i en förhandling — men den kunskapen leder sällan till bättre utfall. Modellerna svarar på vad motparten värderar utan att samtidigt säkra fördelar inom sina egna prioriterade områden. Och slutresultaten styrs oproportionerligt mycket av det första ankaret i samtalet, snarare än av faktiska nyttovärden. Att förstå en motpart är alltså inte samma sak som att kunna förhandla strategiskt.

Minnet av misstag saknas

Ett tredje strukturellt problem är att agenter tenderar att upprepa sina misstag. Systemen kan återhämta sig från enstaka fel i stunden, men när de ställs inför liknande situationer nästa gång börjar de om från ruta ett. Forskargruppen bakom ANNEAL har angriper detta med en metod de kallar feldriven kunskapsinhämtning — där grundorsaken till återkommande fel identifieras och repareras i en spårbar kunskapsgraf, utan att modellens parametrar rörs. I jämförelse med system som ReAct och Reflexion, vilka visade 72–100 procents felfrekvens vid upprepade situationer, reducerade ANNEAL detta till noll procent.

Spårbarheten är ett nyckelord som återkommer i forskningen. En separat artikel argumenterar för att hela branschen saknar grundläggande verktyg för ansvarsutkrävande. När skada uppstår ur komplexa systemkombinationer — som ingen enskild aktör designat i sin helhet — finns ingen etablerad metod för att fastställa vem som bär ansvaret. Forskarna föreslår vad de kallar explicit härstamning: fullständig dokumentation av orsakssamband genom hela systemets livscykel, formaliserad i beräkningsbara modeller. Det är inte en valfri förbättring, konstaterar de — det är ett grundläggande krav.

Säkerhet och effektivitet: lösningar finns

Det vore fel att bara stanna vid problemen. Forskarsamhället arbetar aktivt med lösningar på flera fronter.

AgentWall är ett öppet källkodsprojekt som fungerar som ett säkerhetslager i körtid — det fångar upp varje föreslagen handling från en agent och utvärderar den mot en regeluppsättning innan den når värdmiljön. I tester på 14 riktmärken nådde systemet 92,9 procents träffsäkerhet med en fördröjning på under en millisekund. Det är en pragmatisk, omedelbart tillämpbar lösning för de miljöer — som lokala utvecklingsverktyg — där agenter redan har tillgång till känsliga filer och inloggningsuppgifter.

På effektivitetssidan presenterar ramverket Skim en elegant optimering: genom att kartlägga webbplatsers återkommande mönster i förväg kan systemet hantera förutsägbara frågor med en liten modell och koppla in den fullständiga agenten bara när det behövs. Resultatet är nästan halverade kostnader per uppgift och 33 procent kortare svarstider — utan försämrad precision.

Bilden som träder fram är inte en bransch i kris. Det är en bransch i en nödvändig mognadsprocess.

Vår analys

Det är lätt att antingen övertolka eller undertolka den här forskningen. Ja, 32 procent är långt från produktionsredo för självständiga agenter i kritiska flöden. Men det är också ett riktmärke konstruerat för att testa gränser — och 32 procent år 2025 är remarkabelt givet att dessa system knappt existerade för tre år sedan.

Det som verkligen fångar min uppmärksamhet är de systemiska problemen: bullwhip-effekten i agentkedjor, bristen på strategiskt resonemang vid förhandlingar och avsaknaden av spårbart ansvarsutkrävande. Det är inte prestandaproblem som skalning löser automatiskt — det är arkitekturella utmaningar som kräver genomtänkt design.

Den goda nyheten är att forskarsamhället identifierar problemen med precision och föreslår konkreta lösningar. ANNEAL, AgentWall och Skim är alla exempel på att ekosystemet mognar i rätt riktning. Det här är inte ett skäl att bromsa — det är ett skäl att bygga smartare.

Källhänvisningar

AgentWall skapar säkerhetslager för lokala AI-agenter — arXiv cs.AI

ANNEAL: Nytt AI-system lär sig av misstag utan att glömma dem igen — arXiv cs.AI

Nytt ramverk gör webbagenter dubbelt så kostnadseffektiva — arXiv cs.AI

Språkmodeller kan läsa motparten – men förhandlar ändå dåligt — arXiv cs.AI

Nytt riktmärke avslöjar stora brister hos AI-agenter i verkliga arbetsflöden — arXiv cs.AI

AI-agenter styr supply chains – men skapar nya risker i flödet — arXiv cs.AI

Forskare: Ansvarsfull AI kräver spårbar härstamning genom hela systemets livscykel — arXiv cs.AI

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

Den bästa agenten klarar knappt en tredjedel — forskningen river hål i AI-myten

Gapet mellan löfte och leverans

När agenter samverkar uppstår nya problem

Minnet av misstag saknas

Säkerhet och effektivitet: lösningar finns

Vår analys

AI-teknologi

Branscher

Den bästa agenten klarar knappt en tredjedel — forskningen river hål i AI-myten

Gapet mellan löfte och leverans

När agenter samverkar uppstår nya problem

Minnet av misstag saknas

Säkerhet och effektivitet: lösningar finns

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies