De sprider falsk vetenskap, blandar ihop källor och glömmer vad de lärt sig – så bristfälliga är AI-agenterna egentligen
AI-agenter hittar på källor, blandar fakta och glömmer – ny forskning avslöjar djupa brister.
Löftena möter verkligheten
Det råder ingen brist på entusiasm kring AI-agenter. Visionen är mäktig: autonoma system som navigerar webben, fattar strategiska beslut, bedriver forskning och hanterar komplexa arbetsflöden – utan att en människa behöver hålla i handen hela vägen. Men en samlad bild av den senaste forskningen tvingar oss att ställa en obehaglig fråga: Hur redo är AI-agenter egentligen för verklig användning?
Svaret, om man läser forskningen med öppna ögon, är: inte tillräckligt redo. Inte ännu. Men – och det här är avgörande – vi vet nu exakt varför, och det öppnar dörren för en ny generation av mer robusta system.
Pseudovetenskap och förväxlade källor
Ta det kanske mest alarmerande fyndet först. Forskare bakom riktmärket PseudoBench testade sju ledande AI-agenter på deras förmåga att identifiera och avvisa pseudovetenskapliga påståenden. Resultatet var nedslående: den starkaste agenten visade en motståndskraft på blott 27,4 procent. Ännu mer oroande var att kraftfullare modeller formulerade pseudovetenskapen i mer sofistikerat vetenskapligt språk – vilket paradoxalt nog ökade dess trovärdighet. I en värld där AI-agenter alltmer används för autonom forskning är det här inte en teknisk detalj. Det är en grundläggande trovärdighetsfråga.
Ett angränsande problem handlar om källhänvisningar. När agenter hämtar information från flera databaser och verktyg samtidigt uppstår det forskarna kallar korskällssammanblandning – påståenden kopplas ihop med fel källa. Systemet ProvenanceGuard, testat på 281 medicinska ärenden, uppnådde 85,8 procents träffsäkerhet i källidentifiering och fångade samtliga avsiktligt inbäddade fel. Det är lovande – men också ett tydligt bevis på att problemet är reellt nog att kräva en dedikerad lösning.
Minnet sviker – och det handlar inte om lagring
Ett annat forskningsspår kretsar kring minneshantering. Riktmärket MemTrace testade 13 olika minneskonfigurationer och fann något oväntat: det verkliga hindret är inte att systemen saknar information, utan att de misslyckas med att använda den information som faktiskt finns. Bevis gick att hämta tio gånger oftare än de faktiskt saknades. Det här omdefinierar hela problembilden – mer lagring är inte svaret, smartare informationsanvändning är det.
Forskare presenterar också en trelagersarkitektur för träningsfri inlärning – med regler, bevis och färdigheter sammankopplade av en återkopplingsstyrd urvalsprocess – som i finansiella tester visade dramatiska skillnader beroende på om urvalsmekanismen var aktiv eller inte. Samma ackumulerade erfarenhet gav antingen sämre resultat än en otränad modell, eller kraftigt förbättrad träffsäkerhet. Rätt arkitektur är alltså inte en marginalförbättring. Det är skillnaden mellan framgång och misslyckande.
Det dolda är det svåraste
En röd tråd i forskningen är agenternas oförmåga att förstå det outtalade. Riktmärket EComAgentBench – med 662 uppgifter baserade på verkliga Amazon-produkter – visade att den starkaste modellen bara nådde 57,1 procents träffsäkerhet när köparavsikter spreds över flera informationskällor, precis som i verkliga shoppingsituationer. Liknande mönster återfinns i MapSatisfyBench, där agenter klarar explicita kartuppgifter men misslyckas med de underförstådda behov som faktiskt avgör om användaren är nöjd.
I CEO-Bench, där modeller fick agera verkställande direktör med motstridiga råd från simulerade chefsrådgivare, framträdde en intressant paradox: modeller som beaktade fler perspektiv tenderade att fatta mindre beslutsamma val. Det är en välbekant mänsklig fallgrop – men den är förstås inte mer attraktiv hos en AI.
Infrastrukturen kräver också uppmärksamhet
Under ytan lurar dessutom tekniska problem som sällan diskuteras i affärspressen. När flera agenter arbetar parallellt och delar minneslager uppstår klassiska samtidighetsproblem. Forskare har med hjälp av det formella specifikationsverktyget TLA+ byggt ett maskinverifierat konsistenshierarki – och påvisat konkreta fel i bland annat ByteDances ramverk deer-flow och LangGraphs ToolNode. Det är det slags grundmursforskning som sällan får rubriker, men som är helt avgörande för att agentsystem ska fungera pålitligt i produktion.
På den mer positiva sidan: system som StepGuard för webbnavigering och SkillMigrator för återanvändning av webkunskaper visar att problemen går att lösa – och att lösningarna ger mätbara resultat i form av ökad träffsäkerhet och lägre kostnader.
Vår analys
Den samlade forskningsbilden är egentligen ett hälsotecken, inte ett dödsdöme. Vi befinner oss i den fas av teknikutveckling där hype möter ingenjörsmässig verklighet – och det är precis här de långsiktiga vinnarna formas. Företag och organisationer som väljer att förstå dessa begränsningar nu, och bygger sina AI-lösningar med dem i åtanke, kommer att ha ett avgörande försprång när tekniken mognar.
Det som imponerar mest i forskningen är precisionen i problemdefinitionerna. Vi vet inte bara att AI-agenter brister – vi vet var de brister, varför och hur man kan mäta förbättringar. Det är en helt annan utgångspunkt än för två år sedan. Minnesproblematik, källtillförlitlighet, dolda användaravsikter och parallellitetsbuggar är nu väldefinierade ingenjörsproblem, inte diffusa orosmoln.
Mitt råd till beslutsfattare: inför inte AI-agenter i kritiska processer utan tydliga verifieringsmekanismer. Men sluta absolut inte investera. Kapplöpningen mot tillförlitliga agenter är i full gång – och den kommer att avgöra nästa decenniums konkurrenskraft.