En forskare studerar 3D-modeller på en datorskärm, med vanliga fotografier utspridda på skrivbordet bredvid, i ett ljust kontorsrum med nordisk inredning.
AI-Foto: Pia Luuka Bilden är skapad med AI och föreställer inte personen i artikeln.

Googles AI skapar 3D-modeller från foton och förstår digitala gränssnitt

Googles AI skapar 3D-modeller från foton och förstår digitala gränssnitt.

Isa Stenstedt
Isa Stenstedt AI-Journalist
Redigerad av Marguerite Leblanc AI-Foto: Pia Luuka 4 min läsning 24/03 2024

Google Research rullar ut artilleriet med två banbrytande AI-system som tacklar fundamentala utmaningar inom datorseende. MELON och ScreenAI representerar tillsammans nästa generation av visuell AI-förståelse – en som kan hantera både den fysiska världen och våra digitala gränssnitt.

När AI förstår djup från platta bilder

MELON löser ett klassiskt "hönan och ägget"-problem som har plågat forskare i årtionden. Enligt Googles forskningsteam handlar utmaningen om att skapa 3D-modeller från vanliga fotografier utan att veta exakt var kameran stod när bilderna togs.

Problemet är tekniskt fascinerande: Etablerade tekniker som neural radiance fields (NeRF) kan rekonstruera objekt i 3D om kamerapositionerna är kända, men utan dessa positioner fastnar vi i en ond cirkel. Vi behöver veta objektets 3D-struktur för att bestämma kamerapositionerna, men vi kan inte rekonstruera strukturen utan att veta positionerna.

Det som gör problemet ännu mer komplext är pseudosymmetrier – många objekt ser identiska ut från olika vinklar. En fyrkantig stol ser i stort sett likadan ut var 90:e grad den roteras, vilket förvirrar traditionella algoritmer.

MELONs genombrott ligger i hur den hanterar denna osäkerhet och kan skapa trovärdiga 3D-rekonstruktioner från begränsad visuell information. För e-handelsföretag som vill visa produkter från alla vinklar, eller för autonoma fordon som behöver förstå omgivningen, är detta revolutionerande.

AI som läser skärmar som en människa

Parallellt har Google utvecklat ScreenAI, som tacklar en helt annan men lika viktig utmaning: att förstå användargränssnitt och komplexa visuella dokument.

Det smarta med ScreenAI är insikten att skärmgränssnitt och infografik delar många designprinciper. Båda använder ikoner, layouter och visuella hierarkier för att kommunicera information. Enligt forskningsteamet, lett av programvaruingenjörerna Srinivas Sunkara och Gilles Baechler, möjliggjorde detta utvecklingen av en enda modell som kan hantera båda innehållstyperna.

Tekniskt bygger ScreenAI på Googles PaLI-arkitektur men med en flexibel patchningsstrategi från pix2struct-projektet. Detta låter modellen hantera bilder med olika bildförhållanden genom att anpassa rutnätsdimensionerna för att bevara ursprungliga proportioner – något som är kritiskt för att förstå gränssnittselement korrekt.

Arkitekturen kombinerar en vision transformer (ViT) för bildinbäddningar med en autoregressiv decoder, vilket ger modellen förmågan att både "se" och "förstå" vad den ser i kontextuell mening.

Konvergensen av fysisk och digital förståelse

Vad som gör dessa utvecklingar särskilt intressanta är hur de kompletterar varandra. MELON förstår den fysiska världens geometri medan ScreenAI tolkar den digitala världens strukturer. Tillsammans skapar de en grund för AI-system som kan navigera sömlöst mellan fysiska och digitala miljöer.

För systemutvecklare öppnar detta dörrar till applikationer vi knappt kunnat föreställa oss tidigare – från AI-assistenter som kan hjälpa användare navigera komplexa gränssnitt till robotar som förstår både sin fysiska miljö och de skärmar de interagerar med.

Vår analys

Vår analys

Dessa genombrott signalerar Googles strategiska satsning på visuell AI som infrastruktur. Istället för att utveckla enskilda applikationer bygger de grundläggande kognitiva förmågor som kan användas brett.

MELONs 3D-förståelse blir särskilt relevant när vi rör oss mot en mer rumsligt medveten digital värld – tänk AR/VR, robotik och autonoma system. ScreenAIs förmåga att tolka gränssnitt pekar mot framtiden för AI-assistenter som verkligen kan hjälpa användare navigera komplex mjukvara.

Samtidigt som dessa teknologier är imponerande tekniskt, ligger deras verkliga värde i hur de kommer integreras i Googles ekosystem. Vi kan förvänta oss att se dessa förmågor dyka upp i allt från Google Lens till Assistant, och så småningom bli tillgängliga för tredjepartsutvecklare.

Den större trenden är tydlig: AI rör sig från språkförståelse mot multimodal världsförståelse. Google positionerar sig för en framtid där AI förstår inte bara vad vi säger, utan även vad vi ser och hur vår omgivning ser ut.

Källhänvisningar