En forskare fotograferad bakifrån vid sin arbetsstation på ett AI-laboratorium, omgiven av datorskärmar och naturligt ljus från stora fönster

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

Computer Vision Forskning Produktlansering Media & Underhållning

Googles två genombrott inom visuell AI – Veo 3.1 och D4RT

Google lanserar videogenerator och AI som förstår världen i fyra dimensioner.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 4 min läsning • 10/01 2026 19:02

Googles dubbla angrepp inom visuell AI

Google DeepMind har just levererat en imponerande en-två-kombination inom visuell artificiell intelligens. Inom loppet av kort tid har forskningsdivisionen lanserat både Veo 3.1 för AI-videogenerering och D4RT för fyrdimensionell förståelse av världen. Tillsammans visar dessa tekniker på DeepMinds bredda kompetens inom computer vision och signalerar en intensifierad satsning på visuell AI.

Veo 3.1 representerar nästa generation av AI-videogenerering, med fokus på tre kritiska förbättringsområden: konsistens, kreativitet och kontroll. Enligt DeepMind ska systemet generera "livfulla och dynamiska klipp som känns naturliga och engagerande" – en beskrivning som låter marknadsföringsdriven men som adresserar verkliga tekniska utmaningar inom området.

Den kanske mest konkreta nyheten är stödet för vertikalt videoformat. Som systemutvecklare vet jag att sådana "små" funktioner ofta är avgörande för praktisk användbarhet. Med TikTok, Instagram Reels och YouTube Shorts som driver videolandskapet är vertikalt format inte längre en "nice-to-have"-funktion – det är en fundamental förutsättning för kommersiell relevans.

4D-förståelse förändrar spelreglerna

Parallellt med Veo 3.1 har DeepMind presenterat D4RT (4D Reconstruction and Tracking), ett system som tar computer vision till en helt ny nivå. D4RT förstår inte bara världen i tre rumsliga dimensioner, utan integrerar också tid som fjärde dimension. Detta är tekniskt sett ett betydande genombrott.

Det imponerande ligger i prestandan: enligt DeepMind är D4RT upp till 300 gånger snabbare än tidigare metoder för liknande uppgifter. Som någon som arbetat med prestandaoptimering vet jag att sådana förbättringar sällan kommer från inkrementella förbättringar – de kräver fundamentalt nya arkitektoniska lösningar.

D4RT kombinerar två tidigare separata funktioner: 4D-rekonstruktion och objektspårning över tid. Systemet kan skapa detaljerade tredimensionella modeller av miljöer samtidigt som det följer hur objekt rör sig och förändras. Detta är precis vad autonoma system behöver för att navigera i den verkliga världen.

Praktiska tillämpningar och marknadsimpact

Båda teknikerna adresserar konkreta marknadsbehov. Veo 3.1 konkurrerar direkt med OpenAI, Runway och Pika Labs i den intensiva kampen om AI-videogenereringsmarknaden. Genom att inkludera vertikalt format och fokusera på naturlighet visar Google att de förstår både tekniska och kommersiella krav.

D4RT öppnar möjligheter inom autonoma fordon och robotik där realtidsförståelse av 4D-miljöer är kritisk. En självkörande bil måste inte bara förstå var objekt befinner sig nu, utan också förutsäga var de kommer att vara nästa sekund. D4RTs hastighetsgenombrott gör sådana realtidsapplikationer praktiskt möjliga.

Samtidigt ser jag en strategisk dimension. Genom att lansera båda teknikerna nära inpå varandra demonstrerar DeepMind sin bredd inom visuell AI. Detta är inte bara tekniska genombrott – det är också ett sätt att signalera ledarskapsambitionen inom ett område där konkurrensen hårdnar kraftigt.

Vår analys

Googles dubbellanseringar visar på en strategisk mognad inom visuell AI. Istället för att fokusera på en smal nisch satsar DeepMind brett – från kreativt innehåll till autonoma system. Detta speglar AI-branschens utveckling mot mer specialiserade men komplementära lösningar.

Tekniskt sett är D4RT det mer banbrytande genombrottet. 300 gånger snabbare prestanda inom 4D-förståelse kan vara en game-changer för robotik och autonoma fordon. Kombinationen av hastighet och noggrannhet öppner för applikationer som tidigare varit opraktiska.

Veo 3.1 är mer evolutionär men kommersiellt viktig. Vertikalt format och förbättrad naturlighet adresserar direkta marknadsbehov och positionerar Google konkurrenskraftigt mot OpenAI och andra aktörer.

Framåtblickande pekar båda teknikerna mot en framtid där AI inte bara förstår statiska bilder, utan dynamiska visuella miljöer i realtid. Detta är en förutsättning för nästa generation av AI-system som ska interagera naturligt med den fysiska världen.

Källhänvisningar

Google DeepMind presenterar D4RT – AI som förstår världen i fyra dimensioner — DeepMind Blog

Googles Veo 3.1 höjer ribban för AI-videogenerering med vertikalt format — DeepMind Blog

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

Googles två genombrott inom visuell AI – Veo 3.1 och D4RT

Googles dubbla angrepp inom visuell AI

4D-förståelse förändrar spelreglerna

Praktiska tillämpningar och marknadsimpact

Vår analys

AI-teknologi

Branscher

Googles två genombrott inom visuell AI – Veo 3.1 och D4RT

Googles dubbla angrepp inom visuell AI

4D-förståelse förändrar spelreglerna

Praktiska tillämpningar och marknadsimpact

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies