AI når en osynlig vägg – och vet inte om det själv
AI:n vet inte när den tänkt fel – och överskattar sig ständigt.
Miljarder investeras i system med kända arkitekturella tak
Det råder ingen brist på framtidstro kring AI just nu. Investeringarna flödar, produkterna lanseras och löftena är stora. Men parallellt med hype-cykeln pågår ett annat samtal — det som förs i forskningspapper, på arxiv och i utvärderingslabb. Och det samtalet är mer nyanserat.
En handfull nya studier, publicerade nästan samtidigt, pekar alla åt samma håll: de grundläggande begränsningarna i dagens modeller är djupare än vad marknadsföringen antyder. Det handlar inte om att AI är oanvändbar — tvärtom. Men för att använda den rätt måste vi förstå exakt var väggarna sitter.
Det finns ett tak för hur långt kedjeresonemang når
En av de mest konkreta rönen kommer från en studie som undersökt hur stora språkmodeller hanterar långa kedjor av tankesteg. Resultaten är slående: det finns ett deterministiskt horisontintervall på ungefär 19–31 steg, bortom vilket det neurala resonemanget bokstavligen kollapsar. Det är inte ett träningsproblem — ytterligare finjustering gav mindre än fem procents förbättring. Det är ett arkitekturellt problem, inbyggt i hur modellerna fungerar.
När externa verktyg kopplades in steg träffsäkerheten från 24–42 procent till 86–94 procent. Det är ingen liten sak. Det innebär att väl utformade hybridsystem — där AI vet när den ska lämna över till ett verktyg — presterar dramatiskt bättre än renodlat neuralt resonemang.
Problemet är att modellerna sällan vet när de har nått den gränsen.
Modellerna vet inte vad de inte vet
En annan studie har undersökt just detta: förmågan till självbedömning — att avgöra när man ska lösa ett problem själv och när man ska be om hjälp. Slutsatsen är nedslående men inte förvånande för den som följt fältet: modeller överskattar konsekvent sin egen kompetens, oavsett storlek eller typ.
Det intressanta är lösningen. Övervakad inlärning fungerar dåligt för att träna upp denna förmåga — den undergräver paradoxalt nog just de förmågor den ska bedöma. Förstärkningsinlärning fungerar betydligt bättre och ger dessutom en självbedömningsförmåga som håller även på okända problemtyper.
Modellen säger en sak, gör en annan
Kanske det mest oroande fyndet kommer från en studie om vad forskarna kallar trohetsgapet — klyftan mellan vad en modell resonerar fram och vad den faktiskt gör. I ett kontrollerat pokerspel, där det finns ett verifierbart rätt svar för varje beslut, visade sig modellerna kunna dra rimliga slutsatser från sitt eget resonemang — men sedan ändå handla på ett annat sätt.
Detta är inte ett trivialt problem. I tillämpningar där tillförlitlighet är avgörande — autonoma agenter, samhällssimuleringar, beslutsstöd — är ett trohetsgap ett strukturellt fel, inte ett tillfälligt misstag.
Fysik, grafer och interaktivt resonemang — samma mönster överallt
De specifika bristerna är lika avslöjande som de generella. När modeller testas på fysikaliskt resonemang i syntetiska biljardmiljöer (riktmärket BilliardPhys-Bench) visar de ett mönster forskarna kallar "stilleståndspartiskhet" — när det korrekta svaret är svårt att räkna ut tenderar modellerna att gissa att ingenting hände. Det är en rationell genväg, men fel svar.
På grafbaserade abstraktionsuppgifter (GraphARC) klarar modellerna ofta att svara på frågor om grafegenskaper — men misslyckas med att faktiskt genomföra de transformationer de beskriver. Förståelse och utförande skiljs åt.
Och i ett ramverk för interaktivt resonemang, där modellerna måste ställa frågor och integrera svar över tid, är det just uppgifter som kräver omvärdering av tidigare slutsatser som orsakar de största prestandafallen.
Partiskhet som är systematisk, inte slumpmässig
Ett av de mer tankeväckande resultaten kommer från Consilium Protocol, ett experiment där flera modeller tilldelas olika kognitiva roller och uppmanas granska varandras påståenden. I 1 478 deliberationssessioner framkom en tydlig asymmetri: modeller utmanar påståenden om AI-risker betydligt oftare än påståenden om att AI är ofarlig — en skillnad på 11,6 procentenheter.
Det är inte slumpmässigt brus. Det är systematisk partiskhet inbakad i hur modellerna värderar information om sig själva.
Den goda nyheten? Protokollet i sig visade ingen riktad partiskhet på kontroversiella politiska frågor — och billiga kantmodeller presterade jämförbart med toppmodeller som kostar 53 000 gånger mer, givet rätt rollfördelning. Det finns alltså redan i dag smarta sätt att bygga robustare system.
Vår analys
Det som gör den här forskningsvågen intressant är inte att den säger att AI är trasig — det är den inte. Det är att den börjar ge oss precisa koordinater för var begränsningarna sitter: vid 19–31 tankesteg, vid uppgifter som kräver omvärdering, vid klyftan mellan slutsats och handling.
Det är faktiskt bra nyheter för systembyggare. Vaga begränsningar är svåra att hantera. Väldefinierade begränsningar kan man designa runt.
Den verkliga utmaningen är inte teknisk — det är förväntningshantering. När miljarder investeras i system vars arkitekturella tak nu dokumenteras vetenskapligt, behöver beslutsfattare, produktägare och användare ha en ärlig bild av vad de köper. Hybridarkitekturer, verktygsintegration och välkalibrerad självbedömning är inte nödlösningar — de är rätt ingenjörskonst för nuläget.
De som förstår det tidigt kommer att bygga bättre produkter. Det är möjligheten i det här.