Googles nya språkmodell stämplar fram text som en tryckpress – fyra gånger snabbare än konkurrenterna
Googles nya modell stämplar fram text fyra gånger snabbare än alla konkurrenter.
Från skrivmaskin till tryckpress
De flesta språkmodeller fungerar som en skrivmaskin. Ett tecken i taget, vänster till höger, utan möjlighet att titta framåt i meningen. Det är elegant och det fungerar bra – men det är också fundamentalt sekventiellt, vilket skapar en inbyggd flaskhals när modellen körs lokalt på en enskild användares maskin.
Google DeepMind har nu brutit med den logiken. Enligt DeepMinds egen blogg genererar DiffusionGemma ett helt block om 256 teckeneenheter simultaneously, snarare än att rada upp dem en i taget. DeepMind liknar det vid steget från en ensam skrivmaskin till en massiv tryckpress som stämplar hela textraden i ett slag.
Tekniken är lånad från ett oväntat håll: bildgenerering. Precis som en diffusionsmodell för bilder börjar med ett brusigt, odefinierat fält och gradvis förfinar det till en skarp bild, startar DiffusionGemma med ett fält av platshållartecken och skärper dem iterativt till ett färdigt textsvar. Ars Technica beskriver processen som att ett brusigt foto sakta träder fram i full skärpa – fast det sker på millisekunder.
Siffrorna är svåra att ignorera
På ett NVIDIA H100-grafikkort – den typ av hårdvara som driver moderna molntjänster – genererar modellen över 1 000 teckeneenheter per sekund. På ett konsumentkort som GeForce RTX 5090 landar siffran på drygt 700. Det motsvarar upp till fyra gånger snabbare textproduktion jämfört med jämförbara standardmodeller, rapporterar DeepMind.
Vad gör det möjligt rent tekniskt? Delvis arkitekturen. DiffusionGemma är byggd som en så kallad blandning av experter med totalt 26 miljarder parametrar, men bara 3,8 miljarder aktiveras vid varje körning. Det håller minnesanvändningen nere – modellen ryms inom 18 gigabyte grafikminne, tillräckligt för ett avancerat spelkort. Att köra en kapabel språkmodell lokalt utan molnberoende blir plötsligt mer realistiskt för en bredare grupp användare.
Nya förmågor, inte bara ny fart
Hastigheten är den uppenbara rubriken, men den tekniska arkitekturen öppnar också för något mer principiellt intressant. Tvåriktad uppmärksamhet – att varje del av texten kan ta hänsyn till alla andra delar simultaneously – är något autoregressiva modeller strukturellt inte kan göra. Det gör DiffusionGemma särskilt lämpad för uppgifter som inte är linjära till sin natur.
Ars Technica lyfter fram flera konkreta exempel: infogad redigering av text, molekylsekvensering och matematisk grafritning. Men det mest talande exemplet är kanske Sudoku-lösning. För en autoregressiv modell är Sudoku notoriskt svårt – varje svar beror på framtida svar man ännu inte genererat. Med tvåriktad uppmärksamhet försvinner det problemet i princip.
Vad betyder det för konkurrensbilden?
DiffusionGemma är en del av Gemma 4-familjen och släpps som en öppen modell – vilket är strategiskt välgenomtänkt. Google befinner sig i ett intensivt kapplöpningslopp med OpenAI och Anthropic, där lokal körning och öppenhet blivit allt viktigare konkurrensparametrar. Medan OpenAI värnar om sin slutna modellstrategi och Anthropic fokuserar på säkerhet och tillförlitlighet, positionerar sig Google med öppna modeller som faktiskt går att köra på konsumenthårdvara.
Det är en smart differentiering. Utvecklare som vill bygga applikationer utan att skicka känslig data till molnet, företag med strikta dataskyddskrav, och forskare som behöver experimentera fritt – alla gynnas av en snabb, öppen modell som ryms på ett välutrustat spelkort.
Det bör dock noteras att DiffusionGemma fortfarande beskrivs som experimentell. Diffusionsbaserade språkmodeller är ett relativt ungt forskningsområde, och det återstår att se hur modellen presterar i bredare, verklighetsnära användning jämfört med etablerade autoregressiva alternativ. Hastighetsvinsten är dokumenterad – men kvalitet och mångsidighet är fortfarande öppna frågor som communityt nu får testa.
Vår analys
DiffusionGemma är inte bara en snabbare modell – det är ett arkitekturellt vägval som kan visa sig vara ett vattendelare. Diffusionstekniken har sedan länge dominerat bildgenerering, men att tillämpa den framgångsrikt på fri textgenerering har länge betraktats som ett olöst problem. Om Google lyckas mogna tekniken från experimentell till produktionsklar förändras spelplanen på flera sätt.
För det första demokratiseras lokal AI-körning på allvar. En modell som levererar fyra gånger snabbare svar på konsumenthårdvara sänker tröskeln markant för både privatpersoner och mindre företag.
För det andra utmanas det autoregressiva paradigmet som i princip all modern språkmodellering vilar på. Det är ovanligt att en stor aktör som Google DeepMind tar ett så pass radikalt arkitekturgrepp i en öppen release – det signalerar att man ser diffusion som en trovärdig långsiktig riktning, inte ett sidospår.
Jag följer det här med genuint intresse. Nästa steg är att se hur öppen källkod-communityt adopterar och stresstestar modellen.