Foto till artikeln: AI:s dolda svaghet – toppmodeller misslyckas med grundläggande uppgifter
AI-Foto: Pia Luuka Bilden är skapad med AI och föreställer inte personen i artikeln.

AI:s dolda svaghet – toppmodeller misslyckas med grundläggande uppgifter

Toppmodeller från Google och OpenAI misslyckas med grundläggande fysikuppgifter.

Isa Stenstedt
Isa Stenstedt AI-Journalist
Redigerad av Marguerite Leblanc AI-Foto: Pia Luuka 4 min läsning 10/03 2026

När tekniken möter verkligheten

Jag har alltid varit fascinerad av gapet mellan vad vi tror att AI kan göra och vad den faktiskt klarar av. Nu ger en serie färska forskningsstudier från arXiv en rejäl verklighetscheck – och resultaten är både överraskande och lärorika.

Det mest slående exemplet kommer från ConservationBench, där forskare testade 112 bildförstående AI-modeller på grundläggande fysiska lagar. Kan modellerna förstå att massa och energi bevaras när saker förändras? Svaret är ett rungande nej – de presterade inte bättre än slumpmässig gissning. Ännu märkligare: de blev sämre när de fick se bilder jämfört med bara textbeskrivningar.

På ekonomisidan visar FinSheet-Bench liknande brister. Den bästa modellen, Gemini 3.1 Pro, uppnådde bara 82,4 procents noggrannhet på komplexa finansiella kalkylblad – det motsvarar ungefär ett fel per sex frågor. När komplexiteten ökade rasade prestandan till 48,6 procent. Som systemutvecklare vet jag att sådan felprocent gör modellerna oanvändbara för verklig finansiell analys.

Mönster i felen

Vad som fascinerar mig är att bristerna följer tydliga mönster. I studier av beslutsfattande visar språkmodeller envisa strategier – de fastnar i sina val och omprövar sällan, även när nya information pekar åt ett annat håll. Detta beteende var konsekvent oavsett tekniska inställningar.

Ännu mer avslöjande är upptäckten att "kollektiv visdom" inte fungerar för AI-modeller. Att samla 25 svar från olika modeller gav inga förbättringar – istället förstärktes gemensamma missuppfattningar. Modellerna är helt enkelt bättre på att förutsäga vad andra modeller kommer att säga än att identifiera vad som faktiskt är sant.

I praktiska tillämpningar som smarta hem presterade även toppmodeller som Claude-Sonnet-4.5 nedslående dåligt. Bara 66 procent träffsäkerhet för enkla avvikelser och 58 procent för sammanhangsberoende problem. Det räcker inte för att lita på systemet i vardagen.

Ljusglimtar och lösningsriktningar

Men som vanligt finns det ljusglimtar. Forskning om självkännedom hos AI-modeller visar lovande resultat. Genom att analysera sannolikheter för specifika nyckelord kan modeller lära sig känna igen sina egna fel – en avgörande förmåga för verklig användning.

Det intressanta är att traditionell övervakad träning ger välkalibrerade konfidensuppskattningar, medan moderna förstärkningsinlärningsmetoder skapar överförtroende. Lösningen verkar ligga i att kombinera båda metoderna – något som redan visat praktisk framgång.

Vad detta betyder för utvecklingen

Dessa studier ger oss något ovärderligt: en ärlig bild av var AI-tekniken faktiskt står. Ja, modellerna är imponerande på många områden, men de har systematiska blinda fläckar som vi måste förstå och arbeta runt.

For mig som utvecklare är detta inte deprimerande utan riktgivande. Nu vet vi var vi behöver fokusera våra ansträngningar.

Vår analys

Vår analys

Dessa forskningsresultat markerar en viktig mognadsfas för AI-branschen. Vi går från den första entusiasmens fas till en mer nyanserad förståelse av teknikens verkliga kapacitet.

Det mest betydelsefulla är inte att AI-modellerna har begränsningar – det är att vi nu kan mäta och kategorisera dem systematiskt. ConservationBench, FinSheet-Bench och SmartBench representerar en ny generation av utvärderingsverktyg som fokuserar på verkliga användningsfall istället för akademiska benchmarks.

Framåt ser jag tre viktiga utvecklingsriktningar: Först, hybridlösningar som kombinerar AI med deterministiska system för kritiska beräkningar. Andra, bättre kalibrering av modellers självförtroende – så de kan säga "jag vet inte". Tredje, specialiserade modeller för specifika domäner istället för universallösningar.

Detta är inte teknikens död utan dess adolescens – vi lär oss vad som fungerar och vad som inte gör det. Det är en hälsosam utveckling som leder till mer pålitliga AI-system i slutändan.

Källhänvisningar