Så fuskar AI-modeller på populära MMLU-testet
GPT-4 fuskar på intelligenstest genom att känna igen frågorna.
AI-modeller fuskar på akademiska tester
En genomgripande studie från arXiv avslöjar att stora språkmodeller som GPT-4o och DeepSeek-R1 systematiskt "fuskar" på det populära MMLU-testet. Hela 13,8 procent av testfrågorna fanns troligen redan i träningsdatan, med vissa ämnesområden som filosofi drabbade så hårt som 66,7 procent.
När forskarna omformulerade frågorna utan att ändra svårighetsgraden sjönk modellernas prestanda med 7 procentenheter i genomsnitt – inom juridik hela 19,8 procentenheter. Mest avslöjande var att 72,5 procent av frågorna utlöste tecken på memorering snarare än verklig förståelse.
Längre texter blir AI:s akilleshäl
En annan studie från arXiv visar att språkmodeller blir markant sämre när de måste bearbeta längre textavsnitt. Ju mer irrelevant information som omger det korrekta svaret, desto större blir sannolikheten att modellen missar det.
Problemet förvärras drastiskt för komplexa resonemangsuppgifter. Uppgifter som kräver flerstegstänkande visade nästan dubbelt så stor försämring jämfört med enkla faktafrågor när textlängden ökade.
Detta skapar betydande utmaningar för praktiska tillämpningar som dokumentanalys eller söksystem, där modellerna ofta måste hantera stora mängder text för att hitta relevant information.
Komplexa dataanalyser fortfarande för svåra
AIDABench, ett nyutvecklat test för komplexa dataanalytiska uppgifter, visar att även de bästa AI-modellerna bara lyckas med 59,43 procent av uppgifterna. Testet omfattar över 600 verklighetstrogna scenarion från olika branscher, med uppgifter så krävande att även mänskliga experter behöver 1-2 timmar per fråga med AI-hjälp.
Elva avancerade modeller testades, inklusive Claude Sonnet 4.5 och Gemini 3 Pro Preview. Resultaten understryker att den typ av end-to-end-dataanalys som många organisationer hoppas på fortfarande ligger utom räckhåll.
Specialområden visar blandade resultat
Bildanalysen blir mer nyanserad när vi tittar på specifika användningsområden. Inom läkemedelsupptäckt visade en omfattande jämförelse av 39 AI-system att en enkel slumpskogsbaserad metod presterade bäst och överträffade alla stora språkmodeller. Detta tyder på att mer är inte alltid bättre inom specialiserade domäner.
Å andra sidan har forskare gjort imponerande framsteg inom matematisk formalisering. Ett projekt lyckades fullständigt formalisera det komplexa Vlasov-Maxwell-Landau-systemet med minimal mänsklig inblandning, till en kostnad av bara 200 dollar under 10 dagar.
Forskare arbetar med lösningar
Trots begränsningarna utvecklas flera lovande metoder. Swap-guided Preference Learning förbättrar personalisering genom att undvika "posterior kollaps" där systemet ignorerar individuella skillnader. Andra tekniker som Bilateral Context Conditioning förbättrar matematiskt resonemang genom att låta modeller jämföra rätta och felaktiga lösningar.
AIM-tekniken (AI Model Modulation) erbjuder en elegant lösning på problemet med att underhålla flera specialiserade modeller – istället kan en enda modell anpassa sitt beteende efter olika krav utan omträning.
Vår analys
Dessa fynd markerar en viktigt mognadsfas för AI-branschen. Istället för allmän artificiell intelligens ser vi tydliga gränser för vad dagens modeller faktiskt kan prestera när de testas rigoröst.
Mest betydelsefullt är upptäckten av systematisk datakontaminering i utvärderingar. Detta förklarar delvis varför praktiska AI-implementationer ofta underpresterar jämfört med laboratorieresultat. För utvecklare innebär detta att benchmarks måste ses med större skepsis och att intern testning på domänspecifika uppgifter blir avgörande.
Längdproblematiken är särskilt relevant när AI integreras i dokument- och kunskapssystem. Organisationer bör förvänta sig försämrad prestanda när de arbetar med längre sammanhang, vilket kräver smartare arkitekturer för informationsfiltrering.
Paradoxalt nog kan dessa begränsningar accelerera innovation inom specialiserade AI-lösningar. Istället för att förlita sig på generella modeller för allt, ser vi troligen en återgång till målspecifika verktyg kombinerat med förbättrade metoder för modellanpassning och personalisering.