Foto till artikeln: Forskargrupp krymper AI:s minnesutrymme med 97 procent – och bevarar ändå nästan full prestanda

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

LLM Forskning Infrastruktur

Forskargrupp krymper AI:s minnesutrymme med 97 procent – och bevarar ändå nästan full prestanda

Nytt genombrott krymper AI:s minnesbehov med 97 procent – prestandan består.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 5 min läsning • 24/06 2026 21:01

Minnesmuren börjar rämna

Den som följt AI-debatten det senaste året har säkert hört att stora språkmodeller är dyra att köra. Det stämmer – men bilden håller på att förändras snabbt, och anledningen stavas metodutveckling snarare än råkraft.

En av de mest slående nyheterna kommer från forskargruppen bakom CompressKV, som presenterar ett ramverk för att komprimera det så kallade KV-cacheminnet – den minnesmekanism som gör att modellen kan hålla långa textsekvenser i huvudet. Resultaten är imponerande: genom att identifiera och prioritera de delar av uppmärksamhetsmekanismen som faktiskt bär semantisk tyngd lyckas CompressKV bevara över 97 procent av full prestanda med bara tre procent av det ursprungliga minnesutrymmet. I tester på standardriktmärkena LongBench och Needle-in-a-Haystack slår metoden samtliga befintliga konkurrenter.

Ett parallellt bidrag kommer från forskargruppen bakom Block-GTQ, som tar ett mer kirurgiskt grepp på samma problem. Istället för att behandla minnesvektorer som enhetliga strukturer tar metoden hänsyn till hur positionskodningstekniken RoPE påverkar olika delar av vektorn olika mycket – och tilldelar minnesutrymme därefter. På modellen Llama-3.1-8B förbättrades prestandan på långtextuppgifter från 70,6 till 97,4 poäng, minnesanvändningen sjönk från 56 GB till knappt 20 GB, och inferenshastigheten ökade med 34 procent vid 128 000 tokens kontext.

Som om det inte vore nog presenterar forskargruppen bakom Nexus Sampling en tredje vinkel på samma problem: istället för att permanent radera tokens ur minnet används en iterativ analysmetod som identifierar så kallade bryggtokens – sambandsrika knutpunkter i texten – kombinerat med sannolikhetsbaserat urval. Metoden kräver ingen ytterligare träning och klarar att radera 80 procent av cacheminnet utan att noggrannheten faller mer än en procentenhet.

Träningen blir smartare, inte bara snabbare

Parallellt med minnesfronten pågår lika spännande arbete på träningssidan. Holistic Data Scheduler (HDS) formulerar sammansättningen av träningsdata som en förstärkningsinlärningsuppgift, där en mångsidig belöningsfunktion väger datakvalitet, förlustdynamik och modellens viktnormer mot varandra samtidigt. Resultaten talar för sig själva: samma valideringsnivå som den näst bästa metoden nås med 44 procent färre träningssteg, och prestandan på MMLU-testet förbättras med 7,2 procent.

En kompletterande metod, AsyncOPD, angriper en annan flaskhals i träningspipelinen: den tidskrävande genereringen av träningsexempel vid så kallad destillation, där en liten modell lär sig av en större. Genom att frikoppla generering från inlärning och köra dem parallellt uppnås 1,6 till 3,8 gångers högre genomströmning jämfört med synkron träning – utan att slutlig noggrannhet påverkas. Koden har gjorts tillgänglig som öppen källkod.

För bildgenererande modeller presenteras DigenRL, ett ramverk som separerar träning och generering och möjliggör mer flexibel resursfördelning över olika typer av grafikprocessorer. I experiment med stora modeller som HunyuanVideo-13B uppnåddes 1,56 till 2,1 gånger högre genomströmning jämfört med ledande befintliga system.

Anpassning och observerbarhet – de tystare framstegen

Bortom rena effektivitetsvinster syns också framsteg på områden som rör hur modeller anpassas och övervakas under träning. H-Res (Hierarchical Residual Steering) presenterar ett sätt att styra modellers beteende mot specifika uppgifter utan att skriva över tidigare inlärd kunskap eller belasta sekvensen med extra prompttokens – och presterade 26 procent bättre än traditionell viktmodifiering på associativa hämtningsuppgifter.

På övervakningssidan visar en studie av 816 träningskonfigurationer att den vanligast använda varningsindikatorn vid finjustering – så kallad top-1-koncentration – i praktiken är värdelös, eftersom den utlöste varningar i samtliga fall utan att ett enda verkligt problem förekom. Forskarnas rekommendation är att i stället använda den maximala gradientnormen från LoRA-parametrarna som mätsignal.

Slutligen presenteras BenchPress, ett verktyg som visar att resultaten från 133 prestandatester i praktiken kan beskrivas med bara två tal, och att en handfull utvalda test räcker för att förutsäga hur en modell presterar på hela det breda testutbudet. Det minskar inte bara testbördan dramatiskt – det förändrar också hur vi tänker på vad ett riktmärke egentligen mäter.

Vår analys

Det som är anmärkningsvärt med den här forskningsvågen är inte ett enskilt genombrott – det är bredden och samstämmigheten. Minneskomprimering, träningseffektivitet, destillationshastighet, anpassningsmetoder och testinfrastruktur förbättras alla parallellt, av oberoende forskargrupper. Det brukar vara tecknet på att ett fält har mognat tillräckligt för att optimeringsfasen ska ta vid på allvar.

För den som undrar varför AI-kostnader faller trots att modellerna blir mer kapabla är svaret här. Det handlar inte om att hårdvaran blivit billigare i en jämn takt – det handlar om att varje komponent i tränings- och inferenspipelinen granskas och förbättras systematiskt. Metoder som CompressKV och Block-GTQ gör det möjligt att köra modeller på enklare hårdvara. HDS och AsyncOPD minskar träningskostnaden per kapabilitetspoäng.

Utvecklingen pekar mot en framtid där kraftfulla modeller inte längre är förbehållna aktörer med enorma datacenterbudgetar. Det är en demokratisering värd att hålla ögonen på.

Källhänvisningar

Språkmodeller kan hjälpa till att förklara AI:s inre mekanismer — arXiv cs.AI

Nytt ramverk snabbar upp förstärkningsinlärning för bildgenererande AI-modeller — arXiv cs.AI

Nytt riktmärke testar språkmodellers strategiska tänkande i krisspel — arXiv cs.AI

Ny metod komprimerar AI-minne med 97 procent utan prestandaförlust — arXiv cs.AI

ScaleToT: AI-system modellerar miljarder lågaktiva användare utan dyr inferens — arXiv cs.AI

Ny metod förbättrar minnehantering i stora språkmodeller — arXiv cs.LG

Ny metod låter AI-utvecklare hoppa över merparten av alla prestandatester — arXiv cs.LG

Ny metod förbättrar minneskomprimering i stora språkmodeller — arXiv cs.LG

Ny metod förbättrar AI-träning med blockvis driftövervakning — arXiv cs.LG

Ny metod förbättrar övervakning av AI-finjustering — arXiv cs.LG

Ny metod förbättrar träningseffektiviteten för stora språkmodeller med 44 procent — arXiv cs.LG

Ny samplingsmetod förbättrar diskreta flödesmodeller med färre beräkningssteg — arXiv cs.LG

AsyncOPD snabbar upp träning av språkmodeller med asynkron destillation — arXiv cs.LG

Ny metod löser anpassningsdilemmat för stora AI-modeller — arXiv cs.LG

Nya metoden möjliggör integritetsgranskning av AI-modeller utan omträning — arXiv cs.LG

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

Forskargrupp krymper AI:s minnesutrymme med 97 procent – och bevarar ändå nästan full prestanda

Minnesmuren börjar rämna

Träningen blir smartare, inte bara snabbare

Anpassning och observerbarhet – de tystare framstegen

Vår analys

AI-teknologi

Branscher

Forskargrupp krymper AI:s minnesutrymme med 97 procent – och bevarar ändå nästan full prestanda

Minnesmuren börjar rämna

Träningen blir smartare, inte bara snabbare

Anpassning och observerbarhet – de tystare framstegen

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies