Google presenterar VideoPrism – AI-genombrott för videoanalys och förståelse

Google presenterar VideoPrism – AI-genombrott för videoanalys och förståelse.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 3 min läsning • 17/02 2024 18:07

Ett genombrott som varit länge väntat

När jag läser om Googles nya VideoPrism-modell känner jag samma spänning som när GPT först visade vad stora språkmodeller kunde åstadkomma. Fast nu handlar det om video – det medium som länge varit AI:ns achilleshäl.

VideoPrism är vad forskarna kallar en Video Foundation Model (ViFM), och enligt Google Research Blog representerar den ett fundamentalt nytt sätt att bygga videoförståelse. Istället för att träna separata modeller för varje uppgift – en för klassificering, en annan för objektlokalisering, en tredje för textbeskrivningar – har Google skapat en enda modell som behärskar allt.

Träningsdata i helt ny skala

Vad som imponerar mest tekniskt är omfattningen av träningsdatan. 36 miljoner högkvalitativa video-text-par kombinerat med 582 miljoner videoklipp med maskingenerad text. Detta är inte bara stort – det är smart uppbyggt.

Som Long Zhao och Ting Liu från Google Research förklarar: "Videor erbjuder dynamiskt visuellt innehåll som är mycket rikare än statiska bilder, och fångar rörelser, förändringar och dynamiska relationer mellan objekt." Den hybridstrategi de använt, där både mänskligt kurerade och maskinellt genererade beskrivningar ingår, gör att modellen kan lära sig från videornas inneboende struktur.

En schweizisk armékniv för videor

VideoPrism kan hantera en imponerande bredd av uppgifter:

Klassificera videoinnehåll och identifiera aktiviteter
Lokalisera specifika objekt och händelser i tid och rum
Söka och hämta relevant videomaterial baserat på textfrågor
Generera textbeskrivningar av vad som händer i videon
Svara på frågor om videoinnehållet

Det här är tekniskt sett ett enormt steg framåt. Tidigare har varje sådan uppgift krävt sin egen specialiserade arkitektur, sin egen träning, sina egna dataset. Nu får vi en modell som kan växla mellan uppgifterna sömlöst.

Vad betyder det praktiskt?

Tänk på implikationerna: YouTube skulle kunna få dramatiskt förbättrad innehållsmoderering och sökfunktioner. Autonoma fordon skulle få bättre förståelse för komplexa trafiksituationer. Säkerhetsövervakning skulle kunna identifiera avvikelser mer precist.

Men det är också arkitekturen som fascinerar. Google har byggt en generalist istället för specialister, vilket speglar samma trend vi sett inom språkmodeller. Det här är foundation model-tankesättet applicerat på video – och det verkar fungera.

Teknisk elegans möter praktisk nytta

Vad som gör VideoPrism särskilt intressant ur utvecklarsynpunkt är dess potential som byggblock. Istället för att börja från scratch för varje videoapplikation kan utvecklare nu bygga vidare på en modell som redan förstår videors grundläggande natur.

Google har inte bara löst tekniska utmaningar – de har skapat en plattform för nästa generation videoapplikationer.

Vår analys

VideoPrism representerar videoanalysens GPT-moment. Precis som stora språkmodeller revolutionerade textbehandling genom att ersätta hundratals specialiserade system med en generalistmodell, gör VideoPrism samma sak för video.

Det mest betydelsefulla är inte bara prestandan, utan arkitekturell förändringen. Vi går från era av specialiserade AI-verktyg till foundation models som kan anpassas för otaliga användningsområden. Detta sänker dramatiskt tröskeln för att bygga videobaserade AI-applikationer.

På kort sikt förväntar jag mig förbättringar i YouTubes rekommendationssystem och innehållsmoderering. På längre sikt blir detta fundamentet för nästa generation av AI-system som förstår världen genom video – från robotik till augmented reality.

Den stora frågan blir nu: När släpps detta som API för utvecklare?

Källhänvisningar

Google lanserar VideoPrism – banbrytande AI-modell som förstår alla typer av videor — Google AI Blog

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

Google presenterar VideoPrism – AI-genombrott för videoanalys och förståelse

Ett genombrott som varit länge väntat

Träningsdata i helt ny skala

En schweizisk armékniv för videor

Vad betyder det praktiskt?

Teknisk elegans möter praktisk nytta

Vår analys

AI-teknologi

Branscher

Google presenterar VideoPrism – AI-genombrott för videoanalys och förståelse

Ett genombrott som varit länge väntat

Träningsdata i helt ny skala

En schweizisk armékniv för videor

Vad betyder det praktiskt?

Teknisk elegans möter praktisk nytta

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies