Foto till artikeln: Ny forskning: Stora språkmodeller brister systematiskt i logik och matematik – och våra mätmetoder är inte tillförlitliga nog

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

LLM Forskning

Ny forskning: Stora språkmodeller brister systematiskt i logik och matematik – och våra mätmetoder är inte tillförlitliga nog

Språkmodeller misslyckas med logik – och våra mätverktyg avslöjar inte felen.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 5 min läsning • 16/06 2026 18:01

Imponerande på ytan – bräcklig under huven

Det är lätt att bli imponerad av en stor språkmodell. Den skriver flytande prosa, sammanfattar komplexa dokument och svarar med en självsäkerhet som kan förväxlas med kompetens. Men under den polerade ytan döljer sig ett mönster som ny forskning nu lyfter fram med ökande tydlighet: när det gäller systematiskt resonemang, formell logik och matematik är modellerna påfallande bräckliga.

Ett av de tydligaste bevisen kommer från ett nytt riktmärke kallat RecurrReason, som presenteras i en studie på arXiv. Forskargruppen konstruerade 10 817 unika logikpussel – däribland det välkända Hanoitornet och schackhopp – för att se hur väl stora språkmodeller klarar av strukturerat, stegvist resonemang. Resultaten är svåra att blunda för: ingen av de testade modellerna klarade flodkorsningspusslet alls. Noll procent rätt. Och prestandan rasade konsekvent när svårighetsgraden ökade utanför träningsdatan.

En central slutsats från studien är att modellens arkitektur spelar större roll än dess storlek. Att träna upp en ännu större modell på mer data löser alltså inte problemet i grunden. Det är ett viktigt budskap till alla som tror att nästa generations modell automatiskt fixar allt.

Matematik är inget undantag

Samma mönster återkommer inom matematisk bevisföring. Forskargruppen bakom Mask-ProofBench har byggt ett system som maskerar viktiga steg i verkliga matematiska bevis och låter AI-modeller rekonstruera dem. Av 17 testade modeller presterade de resonemangsstärkta varianterna 12 till 27 procent bättre än standardmodellerna – vilket låter som en framgång tills man inser att gapet existerar just för att standardmodellerna är så svaga på stegvist, formellt tänkande.

Det är också värt att notera vad dessa riktmärken egentligen mäter. Traditionella utvärderingar fokuserar på slutsvaret: fick modellen rätt eller fel? Men inom logik och matematik är vägen dit minst lika viktig som destinationen. En modell som råkar landa rätt av fel skäl är inte pålitlig – den är bara tur.

Vi vet inte ens när vi mäter fel

Än mer oroande är att vår förmåga att övervaka AI-system är bristfällig. I praktiken används ofta en annan AI-modell som domare för att löpande bedöma kvaliteten på en AI-produkt. Men vad händer när domaren själv förändras i det tysta – via en versionsuppdatering eller justerade instruktioner?

Detta är exakt det problem som en ny studie på arXiv adresserar. Forskarna bakom systemet visade att den rådande branschstandarden falsklarmade i hela 75 procent av driftfria dataströmmar – det vill säga, den skrek varning när ingenting egentligen hade förändrats. Deras nya metod, som använder en fast uppsättning mänskligt märkta testfall för att skilja produktdrift från domardrift, detekterade tysta versionsbyten korrekt i samtliga 60 testkörningar.

I samma spår presenterar en annan forskargrupp metoden Metric Match, som effektiviserar hur mänskliga granskare väljs ut för att kalibrera AI-domare. Metoden minskade behovet av mänskliga noteringar med 32,5 procent och halverade uppskattningsfelet jämfört med slumpmässigt urval – i en medicinsk fallstudie sparade den över 1 000 dollar.

Strukturella problem kräver strukturella lösningar

En gemensam tråd löper genom all denna forskning: de utmaningar vi ser är inte tillfälliga buggar utan strukturella egenskaper hos nuvarande AI-arkitekturer. En studie om sammanslagning av kunskapsgrafer och språkmodeller formulerar det träffande som ett impedansmissmatchningsproblem – en fundamental konflikt mellan modellers sannolikhetsbaserade värld och den diskreta, deterministiska logik som krävs för precist flerstegstänkande.

Det förklarar varför modeller hallucinerar och sammanblandar semantiska begrepp just när resonemangen blir komplexa. Att mata in grafdata som text är, som forskarna skriver, bara ett ytligt plåster.

Det finns ljuspunkter. System som CoTE-SQL, vilket omvandlar naturliga frågor till SQL-databasfrågor med hjälp av strukturerat kedja-av-tankar-tänkande och återkoppling från faktisk exekvering, visar att väldesignad systemarkitektur kan kompensera för en del av grundmodellernas svagheter. Det är ett exempel på hur vi kan bygga runt begränsningarna snarare än att hoppas att de försvinner av sig självt.

Vår analys

Det som gör den här forskningsvågen intressant är inte att den avslöjar att AI är dålig – det är att den preciserar var och hur det brister. Det är en mognadsmarkör. Vi rör oss från "AI är magisk" till "AI är ett ingenjörsproblem med kända begränsningar", och det är en mycket bättre plats att vara på.

För oss som bygger system med stora språkmodeller innebär det att arkitekturval, utvärderingsmetodik och mänsklig tillsyn inte är detaljer – de är kärnan. En modell som låter kompetent är inte samma sak som en modell som är kompetent, och vi behöver bättre verktyg för att skilja dem åt.

Den verkliga risken är inte att AI är svag på logik. Det vet vi nu. Risken är att organisationer fortsätter att driftsätta system utan att förstå var gränserna går – och utan mätmetoder som faktiskt fångar upp när något går snett. Forskningen pekar mot lösningar. Det är upp till oss att använda dem.

Källhänvisningar

Ny metod minskar behovet av mänskliga granskare vid utvärdering av AI-domare — arXiv cs.AI

Nytt riktmärke mäter AI-modellers förmåga att resonera i matematiska bevis — arXiv cs.AI

Nytt system avgör om AI-utvärderare eller produkt försämrats — arXiv cs.AI

Stora språkmodeller som optimeringsverktyg – tre olika angreppssätt — arXiv cs.AI

Nytt AI-system översätter naturligt språk till databasfrågor med förbättrad precision — arXiv cs.AI

Forskare kartlägger vägen mot sann sammanslagning av AI-modeller och kunskapsgrafer — arXiv cs.AI

Nytt riktmärke avslöjar stora AI-modellers bristande logiska resonemang — arXiv cs.AI

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

Ny forskning: Stora språkmodeller brister systematiskt i logik och matematik – och våra mätmetoder är inte tillförlitliga nog

Imponerande på ytan – bräcklig under huven

Matematik är inget undantag

Vi vet inte ens när vi mäter fel

Strukturella problem kräver strukturella lösningar

Vår analys

AI-teknologi

Branscher

Ny forskning: Stora språkmodeller brister systematiskt i logik och matematik – och våra mätmetoder är inte tillförlitliga nog

Imponerande på ytan – bräcklig under huven

Matematik är inget undantag

Vi vet inte ens när vi mäter fel

Strukturella problem kräver strukturella lösningar

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies