Foto till artikeln: Här avslöjas sanningen om AI-agenterna – varför de bara lyckas med var tredje uppgift

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

Forskning Agenter & Automation Hälsa & Läkemedel Juridik & Compliance Fastigheter & Bygg

Här avslöjas sanningen om AI-agenterna – varför de bara lyckas med var tredje uppgift

Stor studie avslöjar: AI-agenter misslyckas med två tredjedelar av alla uppgifter.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 4 min läsning • 17/03 2026 15:58

Verkligheten når ikapp hajpen

AI-agenter som ska arbeta självständigt har länge varit den stora löftet inom artificiell intelligens. Men när forskare vid Stanford och MIT nu har testat de bästa modellerna på verkliga företagsuppgifter blir resultatet nedslående: enligt EnterpriseOps-Gym, det mest omfattande testet någonsin av AI-agenter i företagsmiljö, klarar inte ens den bästa modellen – Claude Opus 4.5 – mer än 37,4 procent av uppgifterna.

Testramverket, som omfattar 164 databastabeller och 512 funktionella verktyg, utvärderade 14 toppmodeller på 1 150 expertgranskade uppgifter inom områden som kundservice, personalhantering och IT-drift. Det största problemet visade sig vara strategisk planering – när forskarna gav agenterna mänskligt utformade planer förbättrades resultaten dramatiskt med 14-35 procentenheter.

Ännu mer oroande är att agenterna ofta misslyckades med att avböja omöjliga uppgifter, vilket kan leda till oavsiktliga och potentiellt skadliga konsekvenser i verkliga företagsmiljöer.

Specialiserade agenter briljerar

Men bilden är långt ifrån enbart mörk. Inom avgränsade områden levererar AI-agenter redan imponerande resultat. EviAgent, en ny AI-agent för röntgenanalys, överträffar både allmänna språkmodeller och befintliga medicinska system genom att visa explicit visuella bevis för sina diagnoser istället för att fungera som en "svart låda".

Systemet bryter ner den komplexa diagnostiska processen i mindre, spårbara steg och kan hämta extern medicinsk kunskap. Tester på tre stora medicinska databaser visar lovande resultat för automatisk röntgenrapportering.

Lika imponerande är det AI-system som brittiska planeringsmyndigheter nu testar för att automatisera dokumenthantering. Systemet löser en komplex juridisk utmaning genom att samtidigt följa dataskyddslagen och säkerställa allmänhetens tillgång till ansökningshandlingar. Fyra brittiska kommuner deltar redan i pilottesterna.

Tekniska genombrott banar väg framåt

Bakom framstegen ligger flera tekniska innovationer. DOVA (Deep Orchestrated Versatile Agent) revolutionerar automatiserad forskning genom att låta flera AI-agenter samarbeta och kan minska beräkningskostnaderna med 40-60 procent för enklare uppgifter.

AutoTool löser ett grundläggande problem genom att träna AI-system att automatiskt bestämma lämplig resonemangslängd – 9,8 procent högre noggrannhet samtidigt som beräkningskostnaderna sjunker med 81 procent.

En särskilt intressant innovation är StatePlane, som ger AI-system förmågan att komma ihåg information över längre konversationer genom att fungera som ett "kognitivt tillståndsplan". Tekniken är inspirerad av kognitiv psykologi och kan integreras utan att träna om befintliga modeller.

Säkerhet blir kritisk fråga

I takt med att AI-agenter blir vanligare uppstår nya säkerhetsproblem. Forskare har identifierat så kallade kollektiva attacker där flera agenter samarbetar för skadliga syften – dessa visar sig vara 15 procent mer framgångsrika än individuella attacker.

GroupGuard, ett nytt försvarsramverk, kan dock upptäcka upp till 88 procent av sådana samordnade hot genom kontinuerlig övervakning och strukturell beskärning av systemet.

Utvecklingsverktygen mognar

För utvecklare förenklas skapandet av komplexa AI-agentsystem genom bibliotek som Orla, som erbjuder en stegmappare, arbetsflödesorkestrator och minneshanterare. I tester visade biblioteket förbättringar både vad gäller svarstider och kostnader jämfört med traditionella lösningar.

Vår analys

Resultaten pekar på en tvådelad utveckling inom AI-agenter. Å ena sidan avslöjar den omfattande företagstestningen att generella AI-agenter fortfarande har långt kvar innan de kan användas självständigt i komplexa affärsmiljöer – strategisk planering förblir deras akilleshäl.

Å andra sidan visar specialiserade agenter inom avgränsade områden som medicin och offentlig förvaltning fantastiska resultat. Detta tyder på att framtiden tillhör hybridlösningar där AI-agenter hanterar väldefinierade uppgifter under mänsklig övervakning, snarare än helt autonoma system.

De tekniska genombrotten inom minneshantering, kostnadsoptimering och säkerhet skapar grunden för nästa generation AI-agenter. Särskilt intressant är att brittiska kommuner redan pilottesar AI-agenter – det visar att vi rör oss från forskning till verklig tillämpning inom offentlig sektor.

Jag tror vi ser början på en mognadsprocess där branschens förväntningar justeras mot verkligheten, samtidigt som den verkliga nyttan börjar realiseras inom specifika användningsområden.

Källhänvisningar

AI-system automatiserar dokumenthantering i brittisk stadsplanering — arXiv cs.AI

DOVA: Ny fleragentteknik förbättrar AI-forskning — arXiv cs.AI

AutoTool: Automatisk skalning av AI-verktyg med förstärkningsinlärning — arXiv cs.AI

Nya AI-agenter klarar bara 37% av företagsuppgifter i omfattande test — arXiv cs.AI

Orla: Nytt bibliotek förenklar utveckling av AI-agentsystem — arXiv cs.AI

StatePlane: Ny teknik låter AI-system komma ihåg över längre tid — arXiv cs.AI

Ny säkerhetslösning skyddar AI-system mot samordnade gruppatacker — arXiv cs.AI

Ny AI-agent genererar röntgenrapporter med synlig bevisföring — arXiv cs.AI

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

Här avslöjas sanningen om AI-agenterna – varför de bara lyckas med var tredje uppgift

Verkligheten når ikapp hajpen

Specialiserade agenter briljerar

Tekniska genombrott banar väg framåt

Säkerhet blir kritisk fråga

Utvecklingsverktygen mognar

Vår analys

AI-teknologi

Branscher

Här avslöjas sanningen om AI-agenterna – varför de bara lyckas med var tredje uppgift

Verkligheten når ikapp hajpen

Specialiserade agenter briljerar

Tekniska genombrott banar väg framåt

Säkerhet blir kritisk fråga

Utvecklingsverktygen mognar

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies