Foto till artikeln: Fem hundra gånger snabbare – ny forskning kan radikalt sänka kostnaden för att driva AI

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

LLM Forskning Infrastruktur

Fem hundra gånger snabbare – ny forskning kan radikalt sänka kostnaden för att driva AI

Ny forskning kan göra AI fem hundra gånger snabbare och dramatiskt billigare att driva.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 5 min läsning • 08/06 2026 17:58

När bitar räknas — bokstavligen

Det finns en fråga som sällan syns i rubriker men som avgör vad AI kostar att driva: hur många bitar behöver vi egentligen för att representera ett tal?

Under lång tid var svaret i vetenskapliga kretsar: 64 bitar, dubbel precision, inget snack om saken. Men det antagandet håller på att rämna. En ny studie på arXiv utmanar direkt uppfattningen att FP64-hårdvara är nödvändig för högpresterande beräkning. Forskarnas argument är konkret: NVIDIAs senaste GPU-generation Blackwell Ultra (B300) har reducerat sin inbyggda FP64-prestanda med 31 gånger jämfört med föregångaren. Den som klamrar sig fast vid gamla beräkningsstandarder betalar alltså ett allt högre pris.

Lösningen som föreslås är elegant: kombinera det snabbare 8-bitarsformatet FP8 med en matematisk metod kallad Ozaki-schemat — grundat i kinesiska restsatsen — för att emulera full FP64-noggrannhet. Resultatet? Upp till 500 gånger högre genomströmning med bibehållen precision. Det är inte en marginell förbättring. Det är en ny spelplan.

Ordning spelar roll — och nu vet vi varför

Men FP8 är inte problemfritt i sin grundform. En parallell studie förklarar på formell matematisk nivå varför beräkningar i FP8 kan tappa precision i uppmärksamhetsmekanismen — hjärtat i moderna transformermodeller. Problemet kallas P-kollaps: vid framåtgående iteration avrundar ett stort antal värden ned till noll och information går förlorad.

Forskarna visar att lösningen är lika enkel som den är precis: byt till omvänd iteration och skala med faktorn 256. Siffran 256 har visserligen använts av ingenjörer tidigare, men av praktiska skäl snarare än teoretiska. Nu finns den formella motiveringen. Det är ett exempel på hur ingenjörskonst och matematik ibland möts i efterhand — och hur mycket det faktiskt betyder att förstå varför något fungerar, inte bara att det fungerar. Metoderna är redan implementerade i FlashAttention-3 och 4.

Ljuset som beräknar

Medan mjukvaruoptimering pågår på full front utmanas själva hårdvaruparadigmet av en annan forskningsriktning. Fotonikbaserade acceleratorer — kretsar som använder ljus i stället för elektroner — har länge utlovats som nästa stora språng i beräkningseffektivitet. Problemet har varit att designa dem i praktiken: processen har skett manuellt, utan hänsyn till verkliga begränsningar som yta, effektförbrukning och svarstid.

Det adresserar DxPTA, ett nytt ramverk för gemensam hårdvaru- och mjukvaruutveckling som automatiskt söker igenom designrymden och hittar arkitekturer som håller sig inom givna ramar. Metoden är upp till 15,2 gånger snabbare än uttömmande sökning och har verifierats mot etablerade modeller som BERT och DeiT. Det är ett verktyg som kan göra fotonikbaserade kretsar tillgängliga för fler konstruktörer — och därmed accelerera en teknik som fortfarande är i sin linda.

Att välja rätt modell i rätt ögonblick

Men beräkningseffektivitet handlar inte bara om hur snabbt hårdvaran räknar — det handlar också om att inte räkna mer än nödvändigt. En annan studie presenterar ramverket Online Contextual Pandoras Box, som optimerar vilket AI-system som tillfrågas för varje enskild förfrågan. När flera modeller finns tillgängliga — med olika styrkor, kostnader och svarstider — kan ett smart urvalsystem ge nära-optimal prestanda utan att belasta de tyngre modellerna i onödan. Systemets kumulativa avvikelse från optimalt beteende växer bara i storleksordningen √T, vilket i praktiken innebär att det lär sig snabbt och förblir träffsäkert.

Mindre modeller kräver mer omsorg

En sista pusselbit: även när beräkningarna är effektiva och hårdvaran väldesignad kan fel träningsmetod förstöra en modell. Forskning om kompakta språkmodeller — mellan 135 miljoner och en miljard parametrar — visar att fullständig finjustering av modeller under 300 miljoner parametrar ofta ger sämre resultat än ingen finjustering alls. Fenomenet kallas negativ transfer och är en påminnelse om att mer inte alltid är mer.

Parametereffektiva metoder som LoRA och DoRA ger stabilare resultat, och för de allra minsta modellerna räcker det ibland med fem konkreta exempelfrågor. Effektivitet handlar alltså inte bara om kisel och matematik — det handlar om att förstå vad en modell faktiskt klarar av.

Vår analys

Det som är slående i den här forskningsvågen är att effektivitetsarbetet pågår på alla nivåer samtidigt — talformat, hårdvaruarkitektur, systemdesign och träningsmetodik. Det är sällan så bred rörelse sker parallellt, och det tyder på att branschen verkligen pressar mot en gräns: energi- och kostnadstak för nuvarande infrastruktur.

Den kanske mest underskattade nyheten är formaliseringen av FP8-skalning med faktorn 256. Det låter tekniskt och tråkigt, men i praktiken är det precis den sortens teoretiska grund som gör att tekniken kan standardiseras, granskas och byggas vidare på med tillförlitlighet. Utan den grunden är varje implementation ett ingenjörsmässigt magkänslebeslut.

Fotonikbaserade acceleratorer är fortfarande ett framtidskapitel snarare än en nutidslösning — men DxPTA-ramverket sänker tröskeln för att komma dit. Jag tror att vi om tre till fem år ser de första produktionsmässiga ljusbaserade AI-acceleratorerna, och att den här typen av designverktyg är en förutsättning för det.

Källhänvisningar

Ny GPU-accelererad problemlösare tacklar komplexa logiska ekvationer — arXiv cs.AI

Nytt ramverk optimerar val mellan AI-modeller i realtid — arXiv cs.AI

FP8 utmanar FP64 som standard inom högpresterande beräkning — arXiv cs.AI

Ny metod optimerar fotonikbaserade AI-acceleratorer för transformermodeller — arXiv cs.AI

Forskning förklarar varför FP8-beräkningar i AI-modeller tappar precision — arXiv cs.AI

Fullständig finjustering kan skada små AI-modeller — arXiv cs.LG

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

Fem hundra gånger snabbare – ny forskning kan radikalt sänka kostnaden för att driva AI

När bitar räknas — bokstavligen

Ordning spelar roll — och nu vet vi varför

Ljuset som beräknar

Att välja rätt modell i rätt ögonblick

Mindre modeller kräver mer omsorg

Vår analys

AI-teknologi

Branscher

Fem hundra gånger snabbare – ny forskning kan radikalt sänka kostnaden för att driva AI

När bitar räknas — bokstavligen

Ordning spelar roll — och nu vet vi varför

Ljuset som beräknar

Att välja rätt modell i rätt ögonblick

Mindre modeller kräver mer omsorg

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies