Googles två genombrott inom visuell AI – Veo 3.1 och D4RT
Google lanserar videogenerator och AI som förstår världen i fyra dimensioner.
Googles dubbla angrepp inom visuell AI
Google DeepMind har just levererat en imponerande en-två-kombination inom visuell artificiell intelligens. Inom loppet av kort tid har forskningsdivisionen lanserat både Veo 3.1 för AI-videogenerering och D4RT för fyrdimensionell förståelse av världen. Tillsammans visar dessa tekniker på DeepMinds bredda kompetens inom computer vision och signalerar en intensifierad satsning på visuell AI.
Veo 3.1 representerar nästa generation av AI-videogenerering, med fokus på tre kritiska förbättringsområden: konsistens, kreativitet och kontroll. Enligt DeepMind ska systemet generera "livfulla och dynamiska klipp som känns naturliga och engagerande" – en beskrivning som låter marknadsföringsdriven men som adresserar verkliga tekniska utmaningar inom området.
Den kanske mest konkreta nyheten är stödet för vertikalt videoformat. Som systemutvecklare vet jag att sådana "små" funktioner ofta är avgörande för praktisk användbarhet. Med TikTok, Instagram Reels och YouTube Shorts som driver videolandskapet är vertikalt format inte längre en "nice-to-have"-funktion – det är en fundamental förutsättning för kommersiell relevans.
4D-förståelse förändrar spelreglerna
Parallellt med Veo 3.1 har DeepMind presenterat D4RT (4D Reconstruction and Tracking), ett system som tar computer vision till en helt ny nivå. D4RT förstår inte bara världen i tre rumsliga dimensioner, utan integrerar också tid som fjärde dimension. Detta är tekniskt sett ett betydande genombrott.
Det imponerande ligger i prestandan: enligt DeepMind är D4RT upp till 300 gånger snabbare än tidigare metoder för liknande uppgifter. Som någon som arbetat med prestandaoptimering vet jag att sådana förbättringar sällan kommer från inkrementella förbättringar – de kräver fundamentalt nya arkitektoniska lösningar.
D4RT kombinerar två tidigare separata funktioner: 4D-rekonstruktion och objektspårning över tid. Systemet kan skapa detaljerade tredimensionella modeller av miljöer samtidigt som det följer hur objekt rör sig och förändras. Detta är precis vad autonoma system behöver för att navigera i den verkliga världen.
Praktiska tillämpningar och marknadsimpact
Båda teknikerna adresserar konkreta marknadsbehov. Veo 3.1 konkurrerar direkt med OpenAI, Runway och Pika Labs i den intensiva kampen om AI-videogenereringsmarknaden. Genom att inkludera vertikalt format och fokusera på naturlighet visar Google att de förstår både tekniska och kommersiella krav.
D4RT öppnar möjligheter inom autonoma fordon och robotik där realtidsförståelse av 4D-miljöer är kritisk. En självkörande bil måste inte bara förstå var objekt befinner sig nu, utan också förutsäga var de kommer att vara nästa sekund. D4RTs hastighetsgenombrott gör sådana realtidsapplikationer praktiskt möjliga.
Samtidigt ser jag en strategisk dimension. Genom att lansera båda teknikerna nära inpå varandra demonstrerar DeepMind sin bredd inom visuell AI. Detta är inte bara tekniska genombrott – det är också ett sätt att signalera ledarskapsambitionen inom ett område där konkurrensen hårdnar kraftigt.
Vår analys
Googles dubbellanseringar visar på en strategisk mognad inom visuell AI. Istället för att fokusera på en smal nisch satsar DeepMind brett – från kreativt innehåll till autonoma system. Detta speglar AI-branschens utveckling mot mer specialiserade men komplementära lösningar.
Tekniskt sett är D4RT det mer banbrytande genombrottet. 300 gånger snabbare prestanda inom 4D-förståelse kan vara en game-changer för robotik och autonoma fordon. Kombinationen av hastighet och noggrannhet öppner för applikationer som tidigare varit opraktiska.
Veo 3.1 är mer evolutionär men kommersiellt viktig. Vertikalt format och förbättrad naturlighet adresserar direkta marknadsbehov och positionerar Google konkurrenskraftigt mot OpenAI och andra aktörer.
Framåtblickande pekar båda teknikerna mot en framtid där AI inte bara förstår statiska bilder, utan dynamiska visuella miljöer i realtid. Detta är en förutsättning för nästa generation av AI-system som ska interagera naturligt med den fysiska världen.