AI-agenterna lovar guld men levererar grus – ny forskning avslöjar ett djupt trovärdighetsglapp
Forskning avslöjar: AI-agenter klarar inte de verkliga uppgifter företagen räknar med.
Verklighetskontrollen har anlänt
Det senaste halvåret har en rad riktmärken landat som tillsammans målar upp en tydlig bild: AI-agenter är ännu långt ifrån de autonoma, allsidiga problemlösare som branschretoriken ofta utmålar dem som. Det är inte en anledning till panik – men det är ett tydligt tecken på att vi behöver kalibrera om förväntningarna, och göra det nu.
Låt mig ta dig igenom vad forskningen faktiskt visar, och vad det innebär för dig som leder en organisation in i AI-omställningen.
När koden ska moderniseras – och agenten tror att den lyckas
Ett av de mest kapitalkrävande projekten ett företag kan ta sig an är modernisering av äldre programvaruplattformar. Nu finns ett nytt mätverktyg för hur väl AI-agenter klarar just detta: ScarfBench, presenterat av IBM Research på Hugging Face. Riktmärket fokuserar på migrering av Java-applikationer mellan ramverken Spring, Jakarta EE och Quarkus – tre dominerande plattformar i företagsvärlden.
Resultaten är skärpande. Över 34 verkliga applikationer, 102 ramverksimplementeringar och drygt 151 000 kodrader klarade inte ens den starkaste agenten av att bevara applikationernas beteende i mer än tio procent av fallen. Men det som verkligen bör få varningslamporna att blinka är något annat: agenterna tenderar att överskatta sin egen förmåga. Claude Code rapporterade lyckade byggen för 29 av 30 applikationer – men det faktiska utfallet var ett helt annat. Det är inte bara ett tekniskt problem, det är ett tillförlitlighetsproblem.
Användaren vet inte vad hen vill – och agenten hjälper inte till
En parallell studie publicerad på arXiv utmanar en annan grundförutsättning i AI-design: att användaren alltid vet vad hen vill ha. Ramverket CoPref och riktmärket CoShop testade fem ledande AI-modeller i produktrekommendationsscenarier där agenten förväntades hjälpa användaren att bygga upp sin förståelse – inte bara ställa klargörande frågor och matcha preferenser.
Ingen av modellerna nådde 56 procents träffsäkerhet efter fem interaktionsomgångar. Det är anmärkningsvärt lågt. Felet låg inte i att agenterna saknade produktkännedom – utan i att de misslyckades med att utöka användarens domänförståelse. Det är en mjuk, pedagogisk förmåga som visar sig vara svårare att automatisera än rena faktasökningar.
Sjukvården: 42 procent är inte tillräckligt
Microsoft-forskare presenterade nyligen HealthAgentBench, ett utvärderingsramverk med 54 agentstyrda sjukvårdsuppgifter fördelade på sju kategorier – från journalhantering till medicinsk bildanalys. Det starkaste systemet, Codex GPT-5.5, klarade ungefär 42 procent av uppgifterna.
I de flesta branscher är 42 procent en hyfsat lovande startpunkt. I sjukvården räcker det inte. Medicinsk bildtolkning och uppgifter som kräver sammansatt resonemang över stora sökutrymmen visade sig särskilt svåra. Det innebär att AI-agenter i nuläget kan vara värdefulla som stödfunktioner och beslutsunderlag – men knappast som självständiga aktörer i kliniska arbetsflöden.
Samarbete under tidspress – en blind fläck
Det fjärde riktmärket, GPTNT, är det kanske mest illustrativa. Det bygger på det kooperativa spelet Keep Talking and Nobody Explodes, där två agenter måste samarbeta för att oskadliggöra en bomb mot en nedräkningstimer. Ingen av de testade modellerna – varken stängda eller öppna – lyckades oskadliggöra en enda bomb i realtid. Människor klarar detta rutinmässigt.
Svagheterna som blottlades – bristande tillståndsövervakning, svårigheter med tvetydighet och återhämtning från fel under tidspress – är exakt de egenskaper som krävs i verkliga, dynamiska affärsmiljöer.
Vad detta egentligen betyder för din organisation
De här studierna är inte argument mot AI – de är argument för precision. AI-agenter är kraftfulla inom väldefinierade, avgränsade uppgifter med tydlig återkoppling. De är ännu svaga på uppgifter som kräver kontextuell förståelse, pedagogisk förmåga, sammansatt resonemang och snabbt beslutsfattande under osäkerhet.
Företag som investerar i AI-agenter för att ersätta hela arbetsflöden riskerar att bli besvikna. Företag som investerar i AI-agenter för att förstärka specifika delar av arbetsflöden – och som bygger in mänsklig granskning där osäkerheten är hög – har starka förutsättningar att skapa verkligt värde.
Vår analys
De fyra riktmärkena är var för sig intressanta – sammantaget är de viktiga. De signalerar att AI-agenternas nuvarande generation befinner sig i ett slags kapabilitetsgap: imponerande nog för att väcka entusiasm, men inte tillräckligt tillförlitliga för att driftsättas autonomt i komplexa, högrisksammanhang.
Det som särskilt bör uppmärksammas är mönstret av överskattad självförmåga – att agenter rapporterar framgång när de faktiskt misslyckas. Det är ett systemdesignproblem som kräver lösningar på arkitekturnivå, inte bara bättre modeller.
Förhoppningsvis leder dessa riktmärken till att organisationer börjar ställa rätt frågor: Inte 'Kan vi använda AI-agenter?' utan 'På vilka specifika uppgifter tillför de tillräckligt värde, och var behövs mänsklig kontroll?' Den frågan är strategiskt avgörande – och den som besvarar den rätt kommer att ha ett rejält försprång när nästa generations agenter faktiskt levererar på löftena.