Foto till artikeln: Forskarna som lär språkmodellerna minnas smartare – och hitta på mindre

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

LLM Forskning Infrastruktur

Forskarna som lär språkmodellerna minnas smartare – och hitta på mindre

Nya metoder ger språkmodeller bättre minne – och färre påhittade svar.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 5 min läsning • 25/05 2026 17:47

Minnesproblemet: när kontexten faller ur fönstret

Alla som jobbat med stora språkmodeller i produktion känner till smärtan: ju längre kontext, desto hungrigare blir modellen på minne. Det så kallade KV-cacheminnet – den tillfälliga lagring som håller reda på tidigare beräknade token-representationer – växer linjärt med kontextlängden. Lösningen hittills har ofta varit ett glidande fönster som kastar bort gammal information. Enkelt, men förlustfullt.

Forskare bakom Tensor Cache (arXiv) tar ett mer sofistikerat grepp: ett tvånivåsystem där utkastad information inte försvinner utan komprimeras in i en kompakt matris via yttre-produkt-matematik. Framtida förfrågningar kan sedan läsa ur detta sekundärminne med en enkel matrisoperation. Resultatet är mätbart bättre prestanda på minneskrävande och kontextberoende uppgifter – och ett elegant sätt att behålla historiken utan att sprängminnesbudgeten.

På infrastruktursidan presenterar forskargruppen bakom ObjectCache en kompletterande lösning: lagra KV-cacheminnet direkt i S3-kompatibel objektlagring i stället för i dyra fjärrminnespoolar. Systemet är konstruerat så att data levereras i exakt den ordning som grafikprocessorn behöver den – dataöverföring och beräkning sker parallellt. För sammanhang på 64 000 token tillkommer bara 5,6 procents fördröjning jämfört med lokalt arbetsminne. För storskalig drift är det en betydande kostnadsbesparing.

Finjustering: att respektera vad modellen redan vet

Finjustering är konsten att ta en stor förtränad modell och lära den något nytt utan att radera det den redan kan. Den populäraste tekniken idag är LoRA – en metod som lägger till träningsbara lågranksmatriser bredvid de befintliga vikterna. Smidig och minneseffektiv, men med en blind fläck: den tar inte hänsyn till den spektrala struktur som byggts upp under förträningen.

FuRA (Full-Rank Adaptation, arXiv) löser detta med så kallad spektral förkonditionering, som omformar viktmatriserna via fullrangs singulärvärdesnedbrytning och låser ett singulärunderlag. Effekten är att brusiga gradienter från begränsad träningsdata inte kan störa robusta förtränade egenskaper. I praktiska tester gav metoden 1,37 poängs förbättring på logiskt resonemang för LLaMA-3-8B – och den kvantiserade varianten QFuRA slår sin motsvarighet QLoRA. Minneskostnaden är jämförbar med LoRA.

En relaterad utmaning är hur modellers interna representationsrum förändras när man tränar vidare – och huruvida kunskaper från en domän faktiskt hjälper i en annan. RADAR (Relative Angular Divergence Across Representations, arXiv) är ett geometriskt mått som uppskattar hur väl en grundmodell kan överföras mellan domäner, genom att följa vinkeljusteringar längs modellens lager. Enkelt, tolkningsbart och konkurrenskraftigt mot befintliga överföringsmått.

Hallucination: att förutsäga lögnen innan den yttras

Det kanske mest angelägna problemet för alla som driftsätter språkmodeller i verkliga tillämpningar är hallucination – när modellen med övertygad röst påstår saker som inte stämmer. Tre forskningsgrupper angriper detta från olika håll.

En metod (arXiv) studerar hur representationer förändras genom modellens lager och extraherar elva geometriska mått som spårar den kumulativa vägen genom nätverket. En enkel linjär klassificerare tränad på dessa mått presterar upp till 21 procentenheter bättre än den vanliga metoden – att bara titta på den högsta sannolikheten i slututdata – vid selektivt avstående från svar. Varje mått har dessutom en tydlig geometrisk tolkning, vilket gör det möjligt att peka ut exakt vilka lager som bidrar till felaktiga slutsatser.

För multimodala modeller – de som kombinerar bild och text – har forskargruppen bakom transkodningsmetoden (arXiv) kartlagt hur visuell information omvandlas till genererad text i Googles Gemma 3-4B-IT. De kunde identifiera strukturella mönster i beräkningsvägarna som föregår hallucinationer: en klassificerare tränad på dessa mönster förutsåger hallucinationer med ett AUC-värde på 0,68.

I system med flera kedjekopplade steg – allt vanligare i agentbaserade tillämpningar – förstärks fel från ett steg i nästa. PASC (Pipeline-Aware Split Conformal, arXiv) ger statistiskt garanterad täckning för hela kedjan i en enda beräkning. I ett trestegssystem för namnigenkänning uppnådde PASC 96,4 procents täckning, mot 86,5 procent för oberoende kalibrering. Vid domänbyte kollapsade den enkla metoden till 59 procent – PASC höll ställningarna.

Andra byggstenar: glömma, vikta, styra

Rundbilden kompletteras av tre ytterligare bidrag. ManiF-SMC hanterar rätten att bli glömd genom att arbeta direkt i modellens representationsrum – ingen etikettsmanipulering, ingen inverterad gradientberäkning, utan förflyttning av representationer i ett semantiskt landskap. Bayesian Filtering Transformer återinför precisionsviktning i transformerarkitekturen via Kalmanfiltrering, vilket ger robust prestanda på brusiga data. Och Prototype-Based Sparse Steering erbjuder mer finkornig styrning av textgenerering via tolkningsbara, glesa representationer av uppmärksamhetsfrågor.

Vår analys

Det som slår mig när jag läser dessa elva arbeten tillsammans är att de formar ett sammanhängande mönster: forskarsamhället har tröttnat på att kasta mer beräkningskraft på problemen och börjat titta inåt i stället. Geometrin i representationsrummet, spektralstrukturen i vikterna, de statistiska garantierna längs beräkningskedjor – det är en mer mogen och analytisk forskningskultur som växer fram.

Det är också värt att notera hur många av metoderna är modulära: de kan kopplas in i befintliga arkitekturer utan att man behöver träna om från grunden. Det sänker trösklarna för faktisk tillämpning betydligt.

Om jag ska peka ut en trend att hålla ögonen på är det kopplingen mellan tolkningsbarhet och tillförlitlighet. Metoder som kan förklara varför en modell är osäker – inte bara att den är det – öppnar för en ny generation av system där människor och modeller kan samarbeta med rimlig transparens. Det är inte science fiction längre; det är geometri och linjär algebra.

Källhänvisningar

Ny metod ger tillförlitligare osäkerhetsberäkning i flerstegssystem för AI — arXiv cs.LG

Nytt ramverk ger transformermodeller förmåga att hantera osäkerhet — arXiv cs.LG

ObjectCache lagrar AI-minnescache i molnlagring utan märkbar fördröjning — arXiv cs.AI

Ny metod låter AI-modeller glömma data mer effektivt — arXiv cs.AI

Ny metod läser osäkerhet längs AI-modellers interna lager — arXiv cs.LG

FuRA: Ny metod förbättrar finjustering av stora språkmodeller — arXiv cs.LG

Tensor Cache: Nytt minnessystem förbättrar AI-modellers kontexthantering — arXiv cs.LG

Ny metod avslöjar hur AI-modeller hallucinerar visuell information — arXiv cs.LG

Ny metod får AI-modeller att tänka framåt vid textgenerering — arXiv cs.LG

RADAR: Nytt mått mäter hur väl AI-modeller överförs mellan domäner — arXiv cs.LG

Ny metod styr AI-generering med gles representation av uppmärksamhetsfrågor — arXiv cs.LG

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

Forskarna som lär språkmodellerna minnas smartare – och hitta på mindre

Minnesproblemet: när kontexten faller ur fönstret

Finjustering: att respektera vad modellen redan vet

Hallucination: att förutsäga lögnen innan den yttras

Andra byggstenar: glömma, vikta, styra

Vår analys

AI-teknologi

Branscher

Forskarna som lär språkmodellerna minnas smartare – och hitta på mindre

Minnesproblemet: när kontexten faller ur fönstret

Finjustering: att respektera vad modellen redan vet

Hallucination: att förutsäga lögnen innan den yttras

Andra byggstenar: glömma, vikta, styra

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies