Foto till artikeln: AI som planerar, misslyckas och lär sig – forskarna bygger system som klarar verkliga uppdrag

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

LLM Etik & Reglering Forskning Agenter & Automation Hälsa & Läkemedel

AI som planerar, misslyckas och lär sig – forskarna bygger system som klarar verkliga uppdrag

Nya AI-agenter planerar självständigt, lär av misstag och löser verkliga uppdrag.

Dorian Lavol AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 5 min läsning • 25/05 2026 14:21

Från verktyg till aktör

Det har länge funnits en tydlig gräns mellan ett AI-system och en AI-agent. Ett system svarar på frågor. En agent agerar — den planerar, väljer verktyg, utvärderar sina egna resultat och fortsätter mot ett mål även när det uppstår hinder längs vägen. Den gränsen håller nu på att lösas upp, och forskningstempot är anmärkningsvärt.

Ta felåterställning som exempel. När en människa halvvägs genom ett komplext uppdrag stöter på ett problem kan hon bedöma vad som redan är gjort, vad som kan bevaras och var det är klokt att börja om. Det har AI-agenter hittills haft svårt med. Forskarna bakom DART har formaliserat just detta problem och presenterar ett modulärt system som identifierar exakt var ett fel uppstod, certifierar vilka återställningsgränser som är semantiskt giltiga och väljer den säkraste punkten att återuppta arbetet från — utan att kasta bort redan utfört nedströmsarbete. I tester återställdes samtliga kritiska fall korrekt, utan ett enda osäkert beslut.

Planeringens dolda fallgrop

Men felåterställning löser bara en del av problemet. Forskare har identifierat en ännu mer svårfångad svaghet: epistemisk felkalibrering. Det betyder att en agent kan lägga upp en plan som ser helt rimlig ut, utföra den korrekt — och ändå misslyckas. Inte för att den gjort något fel, utan för att den felbedömt sin egen kunskap om huruvida planen ens är genomförbar.

Metoden EPC-AW angriper detta genom att testa om en plans genomförbarhetsbedömning är stabil under varierande informationsförhållanden. Planer som bara verkar hållbara under gynnsamma omständigheter sållas bort. Resultatet är en genomsnittlig förbättring på 9,75 procent i framgångsgrad — en siffra som låter blygsam men i praktiken är enorm när systemen sätts i produktion.

Minne som styrka — och sårbarhet

En av de mest transformativa egenskaperna hos moderna AI-agenter är förmågan att minnas och lära sig av tidigare erfarenheter. Forskning kring SkillOpt visar att om man behandlar en agents färdigheter som ett externt tillstånd som kan optimeras stegvis — och bara godkänner ändringar som faktiskt förbättrar resultaten — kan precisionen öka med nästan 25 procentenheter för de bästa modellerna. Och de optimerade färdigheterna kan överföras mellan olika modeller utan ytterligare träning.

Men persistent minne bär på risker. Forskarteamet bakom MemAudit visar att illvilliga aktörer kan smyga in skadliga poster i en agents minnesdatabas via vanliga interaktioner — poster som sedan styr agentens resonemang i oönskad riktning. Utan MemAudit:s orsaksbaserade minnesgranskning lyckades kända angreppstekniker i 70–83 procent av fallen. Med systemet aktivt: noll procent. Det är ett tydligt kvitto på att säkerhet måste byggas in från grunden, inte läggas på efteråt.

Tillförlitlighet som designprincip

Det röda tråden i mycket av den senaste forskningen är en medveten rörelse mot granskningsbara system. EVE-Agent kräver att varje påstående åtföljs av ett källutdrag — och belönar bara träningsexempel där källan genuint bidrar till ett korrekt svar. Co-ReAct injicerar kvalitetsriktlinjer direkt i agentens beslutsprocess vid varje steg, inte bara i efterhand. Och ramverket OKB kompilerar regulatoriska skyldigheter till maskinläsbara begränsningar med inbyggd spårbarhet — ett svar på det grundläggande problemet att regelefterlevnad idag vilar på prosatext och manuell granskning.

På intensivvårdsavdelningar visar VDSS-systemet hur ett väldesignat människa-i-loopen-system kan se ut i praktiken: AI-agenter som löpande lär sig den enskilde läkarens preferenser, analyserar varför ett förslag avvisas och anpassar sig — med full spårbarhet för klinisk granskning.

Infrastruktur för en ny era

Under allt detta pågår också ett arbete med den tekniska infrastrukturen. Parallell komprimering löser det välkända problemet med att långa konversationshistoriker till slut överskrider en modells minnesgräns — och gör det utan de tiotals sekunders fördröjning som tidigare metoder krävde. PathCal effektiviserar hur modeller resonerar genom att ingripa enbart när systemet befinner sig i ett genuint osäkert tillstånd, vilket minskar textlängden utan att försämra precision.

Vad vi ser är inte enstaka genombrott. Det är ett ekosystem som växer fram — lager för lager, komponent för komponent.

Vår analys

Det som imponerar mest i det här forskningslandskapet är inte enskilda prestandasiffror — det är att fältet börjar ta systemtänkande på allvar. Felåterställning, minnessäkerhet, granskningsbarhet, regelefterlevnad: dessa är inte tillägg utan grundstenar för AI-agenter som faktiskt kan sättas i produktion i känsliga miljöer.

Den verkliga utmaningen de närmaste åren är inte att bygga agenter som klarar fler uppgifter — det klarar de redan. Utmaningen är att bygga agenter som organisationer törs lita på med konsekventa, återkommande uppdrag. Forskning som DART, MemAudit och OKB pekar i rätt riktning: mot system vars beteende kan granskas, förklaras och begränsas.

För beslutsfattare i svenska och nordiska organisationer är budskapet tydligt: den som väntar på ett perfekt och riskfritt AI-agent-läge väntar förgäves. Bygget pågår nu — och de som lär sig arbeta med dessa system under uppbyggnad kommer att ha ett betydande försprång.

Källhänvisningar

BOHM: Ny metod för kostnadsfri tillskrivning i sammansatta AI-system — arXiv cs.AI

EVE-Agent: Självutvecklande AI som kräver bevisunderlag för varje påstående — arXiv cs.AI

PathCal: Ny metod effektiviserar AI:s tankekedjor utan träning — arXiv cs.AI

Nytt ramverk avslöjar AI-modellers strategiska svagheter i spelteori — arXiv cs.AI

Ny metod löser flaskhalsproblemet för långvariga AI-agenter — arXiv cs.AI

Nytt ramverk gör AI-regler maskinläsbara och automatiskt kontrollerbara — arXiv cs.AI

DART: Nytt system för säker felåterställning i AI-agenter — arXiv cs.AI

AI-system med läkare i loopen förbättrar respiratorvård på intensivvårdsavdelningar — arXiv cs.AI

Ny metod förbättrar AI-agenters planeringsförmåga med nästan 10 procent — arXiv cs.AI

Ny metod förbättrar AI-träning med dold kontextinformation — arXiv cs.AI

Co-ReAct: Riktlinjer vägleder AI-agenter steg för steg — arXiv cs.AI

En policy styr tusentals unika spelkaraktärer i realtid — arXiv cs.AI

Nytt ramverk kan spåra skadliga minnen i AI-agenter — arXiv cs.AI

Claude löser nära nog alla programverifieringsuppgifter med agentbaserat bevissystem — arXiv cs.AI

Ny studie kartlägger hur AI-agenter lär sig av egna erfarenheter — arXiv cs.AI

SkillOpt: Nytt system tränar AI-agenter som ett neuralt nätverk — arXiv cs.AI

Nytt AI-verktyg omvandlar tjänstebeskrivningar till beslutsstöd — arXiv cs.AI

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

AI som planerar, misslyckas och lär sig – forskarna bygger system som klarar verkliga uppdrag

Från verktyg till aktör

Planeringens dolda fallgrop

Minne som styrka — och sårbarhet

Tillförlitlighet som designprincip

Infrastruktur för en ny era

Vår analys

AI-teknologi

Branscher

AI som planerar, misslyckas och lär sig – forskarna bygger system som klarar verkliga uppdrag

Från verktyg till aktör

Planeringens dolda fallgrop

Minne som styrka — och sårbarhet

Tillförlitlighet som designprincip

Infrastruktur för en ny era

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies