AI:s dolda svaghet: Rätt svar av helt fel skäl
AI ger rätt svar av fel skäl enligt åtta banbrytande studier.
Rätt svar, fel förståelse
De senaste månadernas forskning inom AI avslöjar ett oroande mönster: våra mest avancerade modeller kan leverera imponerande resultat samtidigt som de fundamentalt misslyckas med att förstå vad de gör. Flera nya studier från arXiv visar att traditionella utvärderingsmetoder mister kritiska brister som först blir synliga när modellerna testas i verkliga affärssammanhang.
Forskare vid flera institutioner har utvecklat Multimodal Coherence Score (MCS), ett nytt mått som kan upptäcka när AI-system ger korrekta svar trots att systemets interna data motsäger varandra. Verktyget delar upp förståelse i fyra dimensioner: identitet, rumslig förståelse, semantik och beslutsfattande. Tester på tusen bilder visar att MCS är betydligt känsligare för kvalitetsskillnader än vanliga prestationsmått.
Problemet sträcker sig djupare än bildanalys. En omfattande studie av kundsamtal från en stor kinesisk dejtingplattform visar att AI-bedömning av dialogkvalitet systematiskt missar viktiga affärsresultat. Av sju testade bedömningskriterier visade sig endast två ha stark koppling till faktiska konverteringar. Ännu mer problematiskt: när alla dimensioner viktades lika blev den sammanlagda bedömningen sämre än de bästa enskilda kriterierna.
Mätmetoder som vilseleder
En särskilt viktig upptäckt gäller de verktyg vi använder för att förstå AI-modeller. Forskning visar att cosinus-likhet, ett populärt mått för att jämföra vektorer i maskininlärning, ger ingen meningsfull information om hur modeller fattar beslut. Forskarna bevisar matematiskt att det för vilken softmax-modell som helst går att skapa en ekvivalent modell med identiska sannolikheter men helt olika likhetsvärden.
Liknande problem finns med etablerade metoder som Representational Similarity Analysis. Dessa systematiskt underskattar likheter mellan nätverk som använder superposition – en teknik där fler egenskaper kodas än vad antalet neuroner egentligen tillåter. Resultatet kan bli paradoxalt: system som delar färre egenskaper framstår som mer lika än system som faktiskt har mycket gemensamt.
Osäkerhet i alla led
Textgenerering med stora språkmodeller visar sig vara naturligt osäker på flera nivåer. Ny forskning kartlägger hur osäkerhet finns inte bara i själva textgenereringen, utan också i vilken prompt som används och hur resultatet tolkas efteråt. Forskarna modellerar hela processen som sammanlänkade autoregressive processer som kan kombineras till ett enda "provtagningsträd".
Studier av AI-dirigering – hur vi styr modeller mot specifika expertområden – utmanar etablerade antaganden. Kommandosignaler gjorde tidiga och mellanliggande lager tätare snarare än mer fokuserade, och naturligt språk fungerade ofta bättre än strukturerade taggar.
Verklighetens gränser
När AI-modeller testas mot verkliga affärsutmaningar blir begränsningarna tydliga. En studie av startup-förutsägelser visar att även avancerade språkmodeller knappt presterar bättre än slumpen. Trots att textdata utgjorde 26 procent av modellens viktning förbättrade den inte förutsägelseförmågan alls. Orsaken är strukturell: textdatan genereras från samma underliggande information som modellen redan använder.
Liknande begränsningar syns i rekommendationssystem. En ny måttstock, GISTBench, avslöjar prestandaflaskhalsar hos åtta öppna språkmodeller när de ska förstå användare från deras interaktionshistorik. Modellernas begränsade förmåga att korrekt räkna och tillskriva engagemangssignaler över olika interaktionstyper blir särskilt problematisk.
Vår analys
Dessa studier pekar mot en viktigt insikt: vi har varit för fokuserade på slutresultat och för lite på förståelseprocesser. Som systemutvecklare ser jag detta som en nödvändig mognadsfas för AI-branschen. Vi behöver bättre diagnosverktyg och utvärderingsmetoder som faktiskt fångar vad vi bryr oss om.
Det mest intressanta är hur forskarna nu utvecklar verktyg som MCS och RIDE för att diagnostisera dessa problem. Detta påminner om hur vi inom webbutveckling gick från att bara testa om sidor laddades till att mäta användarupplevelse och prestanda på djupet.
Framåt ser jag tre viktiga utvecklingslinjer: förbättrade diagnosverktyg som kan köras i produktion, bättre koppling mellan teknisk prestanda och affärsresultat, och mer sofistikerade sätt att hantera osäkerhet. För företag som implementerar AI betyder detta att utvärderingsprocesser måste bli betydligt mer nyanserade än dagens enkla noggrannhetsmått.