Fyra gånger snabbare träning och stabilare modeller – forskarnas lösningar som kan skära ner AI-branschens kostnader dramatiskt
Forskare har hittat sättet att träna AI fyra gånger snabbare – och billigare.
Pengarna brinner — och forskningen svarar
När AI-investeringarna globalt skenar mot nya rekordnivåer ställs en obehaglig fråga på sin spets: får vi verkligen valuta för pengarna? Veckans forskning ger inte bara hopp — den levererar konkreta svar.
Låt oss börja med det som kostar mest: träningen. Enligt forskarna bakom DualKV finns ett fundamentalt slöseri inbyggt i hur moderna förstärkningsinlärningsmetoder som GRPO och DAPO fungerar idag. Samma grundprompt beräknas om gång på gång för varje genererat svar — en ineffektivitet som liknar att räkna om 2+2 tusentals gånger för att det sitter i ett längre räkneexempel. Genom att beräkna promptens representation en enda gång och dela den uppnådde teamet upp till fyra gånger snabbare träningssteg på 30-miljardersmodeller, med GPU-utnyttjande som mer än fördubblades. Inga approximationer, matematiskt identiska resultat. Det är inte en kompromiss — det är ren vinst.
Parallellt löser forskarteamet bakom hyperparameteroptimering ett lika kostsamt problem: varje gång man skalar upp en modell har man traditionellt behövt göra om all kalibrering från grunden. Genom att härleda korrekta skalningsregler för grupperad frågauppmärksamhet — en arkitektur som används i de flesta moderna modeller — kan inlärningshastighet och viktförfall nu överföras direkt mellan modeller av olika storlek. Tidskrävande och dyra justeringsprocesser kan i stor utsträckning undvikas.
Instabiliteten som ingen vill prata om
Men snabbhet utan tillförlitlighet är ett hus byggt på sand. Och här avslöjar veckans forskning ett obehagligt mönster.
Belöningsmodeller — de system som lär AI:n att följa mänskliga värderingar — visar sig lida av allvarlig preferensinstabilitet. Nästan identiska texter kan få helt motsatta bedömningar. Orsaken är att modellerna förlitar sig på sköra, ytliga mönster snarare än djupare semantisk förståelse. Forskarteamet bakom denna studie har utvecklat metoder baserade på glesa autokodare som dämpar dessa problematiska aktiveringsmönster vid inferenstillfället — utan att modellen behöver tränas om.
Detta bör väcka uppmärksamhet hos alla som bygger system där AI-bedömningar används i verkliga beslut. En instabil belöningsmodell är inte bara en teknisk kuriositet — det är en affärsrisk.
Kompletterande forskning om syntetisk data tillför ytterligare ett lager av insikt: träning på enbart egna utdata utan externa signaler leder till oundviklig försämring och kollaps. Systemet stänger sig självt. Rätt utformad träning kräver externa verifierare som tillför ny information utifrån — och intressant nog fungerar enkla korrekt/fel-signaler bättre och mer generaliserbart än detaljerade bedömningssystem.
Nya arkitekturer, nya möjligheter
Bortom de dominerande autoregressiva modellerna pågår spännande arbete. DACA-GRPO adresserar grundläggande svagheter i förstärkningsinlärning för diffusionsbaserade språkmodeller och uppvisar förbättringar på upp till 36 procentenheter på matematisk problemlösning och kodgenerering. LoopQ löser kvantiseringsproblem i rekursiva modeller med imponerande 68,8 procents precisionsförbättring — vilket öppnar för effektiva modeller som kan köras på begränsad hårdvara.
Och kanske mest elegant: ny forskning visar att bara 8 procent av genererade tokens avgör skillnaden mellan en vanlig grundmodell och en avancerad resonemangsmodell. Dessa kritiska tokens koncentreras till tidiga, planeringsrelaterade beslut. Det innebär att man kan låta en kraftfull resonemangsmodell ingripa enbart vid dessa nyckelpositioner — och ändå matcha en fullstor resonemangsmodell. Resurseffektiv inferens utan prestandaförlust.
Slutligen presenterar en ekonomisk studie ett teoretiskt ramverk för hur AI-företag faktiskt bör dimensionera sina träningsinvesteringar för maximal avkastning. Resultaten antyder att branschen riskerar att agera suboptimalt om datatillgången begränsas eller hårdvaruutvecklingen planar ut — en varningssignal värd att ta på allvar när investeringsbesluten mäts i miljarder.
Vår analys
Det som slår mig med veckans forskning är hur koordinerad den är i sin inriktning — utan att ha planerats gemensamt. Från DualKV:s halverade beräkningskostnader till kartläggningen av kritiska resonemangstokens pekar allt mot samma insikt: vi behöver sluta bygga kraftfullare system på ineffektiva fundament och börja bygga smartare system på principiell grund.
Instabiliteten hos belöningsmodeller är den fråga som oroar mig mest affärsmässigt. Det räcker inte att en modell presterar bra i genomsnitt — den måste vara förutsägbar. Kunder och reglerande myndigheter kommer att ställa exakt den frågan.
Den goda nyheten är att lösningarna är på väg, och att de i flera fall inte kräver omskolning av hela modeller. Det är en transformativ skillnad: vi kan förbättra befintliga system istället för att alltid behöva börja om. För den som bygger affärer på AI är det inte en teknisk detalj — det är en strategisk möjlighet.