Kan artificiell intelligens leda ett företag? Nya tester ger ett nedslående – men missförstått – svar
AI klarar inte av att leda företag – men missförstå inte vad det betyder.
Verkligheten möter hypen – och ingen vinner enkelt
Det är lätt att bli besviken om man tror att AI-agenter redan i dag ska kunna driva ett företag, sköta ditt hem och bota cancer – autonomt, felfritt och utan mänsklig inblandning. Den bilden är fel. Men det är också fel att tolka de senaste forskningsresultaten som ett generellt misslyckande för AI-agenter som teknik.
Låt oss ta det från grunden.
Forskare har lanserat CEO-Bench, ett riktmärke som sätter AI-agenter i rollen som verkställande direktör för ett fiktivt startup-bolag under 500 simulerade dagar. Agenten ska hantera prissättning, marknadsföring och budget – precis som en verklig företagsledare. Resultaten? Av alla testade system är det bara Claude Opus 4.8 och GPT-5.5 som lyckas bevara startkapitalet på en miljon dollar. Ingen går konsekvent med vinst. Det är ett tydligt budskap: långsiktig, adaptiv affärslogik är ett olöst problem för dagens modeller.
Samma mönster återkommer i hemmiljön. WorldLines-riktmärket testar om AI-agenter kan minnas rutiner, följa förändringar i omgivningen och agera utifrån tidigare interaktioner över tid. Trots ett lovande minnessystem kallat ObsMem – som spårar vad agenten faktiskt observerat och hur objektens tillstånd förändrats – kämpar nuvarande system fortfarande med dold information och att omsätta långtidsminne till konkreta handlingar.
Inom läkemedelsutveckling är bilden lika nykter. TxBench-PP testade 16 olika modellkonfigurationer i nästan 5 000 körningar inom preklinisk farmakologi. Den bästa konfigurationen, åter Claude Opus 4.8, klarade enbart 59,3 procent av uppgifterna. GPT-5 följde tätt med 55,3 procent. Inom ett område där fel kan få allvarliga konsekvenser är det långt ifrån tillräckligt för verklig tillämpning.
Men under ytan händer något viktigt
Här är det lätt att missa skogen för alla träd. Medan rubrikerna handlar om vad AI-agenter inte kan, pågår det parallellt ett intensivt arbete på att lösa just de grundläggande problemen.
Ta minnet – en av de mest kritiska flaskhalsarna. Ny forskning presenterar ett formellt separationsteorem: framgångsrika generella agenter kan inte enbart förlita sig på nuvarande tillståndsobservationer. De måste bära med sig distinkt, domänrelevant information. Det låter akademiskt, men det är i praktiken en karta för hur nästa generations agenter bör byggas.
Samtidigt visar SGCD (Skill-Guided Continuation Distillation) att man kan lära agenter att hantera oförutsedda situationer i grafiska gränssnitt – de tillstånd som inte fanns i träningsdatan – och lyfta framgångsfrekvensen från runt 30 till över 50 procent på ett standardiserat riktmärke. Inte perfekt, men en fördubbling är ingen trivial sak.
På träningssidan visar RODS (Reward-driven Online Data Synthesis) att det går att uppnå samma prestanda med 400 träningsexempel som traditionella metoder kräver 17 000 för. Det är 95 procent färre data – en förändring som kan demokratisera AI-träning dramatiskt.
Och i 6G-nätverkshantering – ett område där beslut måste fattas på under en sekund – har forskare löst ett allvarligt problem med förankringspartiskhet, där modeller låser sig vid sina första förslag och överdimensionerar resurser. Lösningen, en slumpmässig förankringsstrategi kombinerad med digitala tvillingar, ger energibesparingar på upp till 25 procent. En relativt liten modell med en miljard parametrar klarar det. Det är en viktig signal: storlek är inte alltid svaret.
BeliefDiffusion adderar ytterligare ett pusselbricka – ett ramverk som låter agenter navigera i delvis okända miljöer genom att aktivt föreställa sig möjliga konfigurationer via diffusionsmodeller, snarare än att kräva fullständig information. Resultaten överpresterar befintliga metoder i navigeringsuppgifter.
Vad berättar det här egentligen?
Det berättar att vi befinner oss mitt i en intensiv forskningsfas där fundamentala byggstenar – minne, anpassningsförmåga, träningseffektivitet, partiskhetskontroll – håller på att lösas ett i taget. Ingen enskild studie ger oss den autonoma AI-agenten. Men tillsammans ritar de konturen av vad som kommer.
Det vore naivt att ignorera gapet mellan löftena och nuläget. Men det vore lika naivt att inte se att gapet krymper – metodiskt, mätbart och snabbare än de flesta anar.
Vår analys
De här studierna bekräftar något jag ofta lyfter i samtal med företagsledare: AI-agenter är inte en produkt du köper i dag – de är en plattform du positionerar dig inför i morgon.
Det som imponerar mig mest är inte prestationssiffrorna i sig, utan bredden av de problem som nu angrips systematiskt. Minne, träningseffektivitet, partiskhet, navigering under osäkerhet – det är inte slumpmässiga forskningsprojekt, det är en koordinerad rörelse mot agenter som faktiskt fungerar i öppen, oförutsägbar verklighet.
För affärsutvecklare och beslutsfattare är budskapet tydligt: börja inte med att fråga "kan AI-agenten ta över det här arbetsflödet?" Fråga istället "vilka delar av arbetsflödet är väldefinierade nog för att agenter ska skapa värde redan nu?" Det är där vinsten finns i dag – och det bygger organisationens förmåga att skala när autonomin väl är mogen.
Utvecklingen är inte linjär. Men den är oundviklig.