En mjukvaruutvecklare arbetar vid sin dator med databearbetning, fotograferad bakifrån vid ett kontorsskrivbord med flera terminalfönster öppna på skärmen.

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

Forskning Öppen källkod Infrastruktur

Google och MLCommons tar itu med AI-utvecklarnas största mardröm – 80% av tiden försvinner i datakaos

Google löser AI-utvecklarnas mardröm – 80% av tiden försvinner i datakaos.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 4 min läsning • 10/03 2024 18:10

Som systemutvecklare vet jag hur frustrerande det kan vara när 80% av tiden går åt till dataförberedelser istället för själva utvecklingsarbetet. Det här problemet är ännu mer påtagligt inom AI-utveckling, där varje dataset kommer med sina egna unika filstrukturer, format och organisationsprinciper.

Från datakaos till standardisering

Google Research har tillsammans med MLCommons-organisationen lanserat Croissant, ett standardiserat metadataformat specifikt designat för AI-redo dataset. Som Omar Benjelloun och Peter Mattson från Google Research förklarar i sitt blogginlägg, spenderar AI-utövare alldeles för mycket tid på att förstå befintlig data innan de kan börja träna sina modeller.

Problemet är verkligt omfattande. AI-dataset spänner över allt från text och strukturerad data till bilder, ljud och video. Men även dataset som innehåller samma typ av innehåll organiseras på radikalt olika sätt. Denna fragmentering skapar flaskhalsar genom hela utvecklingsprocessen och försvårar utvecklingen av generella verktyg för datahantering.

Varför befintliga standarder inte räcker

Visserligen finns det redan etablerade metadataformat som schema.org och DCAT, men dessa är byggda för datadiscovery snarare än för AI-utvecklingens specifika behov. De saknar funktionalitet för att extrahera och kombinera data från både strukturerade och ostrukturerade källor – något som är centralt för modern maskininlärning.

Croissant fyller denna lucka genom att vara designat från grunden för AI-användningsfall. Formatet beskriver inte bara vad som finns i datasetet, utan även hur datan ska användas för träning av maskininlärningsmodeller.

Teknisk genomgång av Croissant

Ur ett tekniskt perspektiv löser Croissant flera kritiska problem samtidigt. Formatet standardiserar hur vi beskriver:

Datastrukturer och filorganisation
Extraktionsprocesser för olika datatyper
AI-specifika användningsområden och träningsparametrar
Kompatibilitet mellan olika utvecklingsverktyg

Detta betyder att utvecklare kan fokusera på modellarkitektur och algoritmer istället för att reverse-engineera dataformat. För någon som har spenderat otaliga timmar på att förstå hur andras dataset är organiserade, känns detta som en befrielse.

Öppen källkod driver innovation framåt

Att Google väljer att lansera Croissant som en öppen standard tillsammans med MLCommons är strategiskt smart. Genom att inte hålla formatet proprietärt öppnar de för bred adoption inom hela AI-communityt. Detta är särskilt viktigt för mindre utvecklingsteam och forskare som inte har resurser att bygga egna datahanteringsverktyg från scratch.

MLCommons roll som neutral organisation ger också trovärdighet åt initiativet. De har tidigare lett standardiseringsarbetet för AI-benchmarking genom MLPerf, så de har både expertisen och respekten som krävs för att driva en sådan här förändring.

Praktiska konsekvenser för utvecklare

För oss som arbetar med AI-utveckling i vardagen kan Croissant innebära en betydande produktivitetsökning. Istället för att skriva custom data-loaders för varje nytt dataset kan vi förlita oss på standardiserade verktyg. Detta frigör tid för det som faktiskt skapar värde – att experimentera med modellarkitekturer och förbättra prestanda.

Standardiseringen kan också demokratisera AI-utveckling genom att sänka inträdesbarriärerna. När datahantering blir mer straightforward kan fler utvecklare bidra till AI-forskning och innovation.

Vår analys

Vår analys

Croissants lansering representerar ett viktigt steg mot mognad inom AI-utveckling. Precis som hur HTTP-standarder möjliggjorde webbens explosiva tillväxt, kan standardiserade dataformat bli katalysatorn för nästa våg av AI-innovation.

Det mest intressanta är timing – Google väljer att öppna upp istället för att bygga murar. Detta signalerar att även teknikjättarna inser att AI-utvecklingens framtid ligger i kollaboration snarare än isolering.

Jag ser detta som början på en större standardiseringsrörelse. Nästa steg blir förmodligen standarder för modellutbyte, träningsprotokoll och evaluation metrics. För utvecklare betyder det en framtid där vi kan fokusera på innovation istället för infrastruktur – och det är en framtid jag ser fram emot.

Källhänvisningar

Google lanserar Croissant – nytt standardformat för AI-dataset — Google AI Blog

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

Google och MLCommons tar itu med AI-utvecklarnas största mardröm – 80% av tiden försvinner i datakaos

Från datakaos till standardisering

Varför befintliga standarder inte räcker

Teknisk genomgång av Croissant

Öppen källkod driver innovation framåt

Praktiska konsekvenser för utvecklare

AI-teknologi

Branscher

Google och MLCommons tar itu med AI-utvecklarnas största mardröm – 80% av tiden försvinner i datakaos

Från datakaos till standardisering

Varför befintliga standarder inte räcker

Teknisk genomgång av Croissant

Öppen källkod driver innovation framåt

Praktiska konsekvenser för utvecklare

Missa inte nästa stora AI-nyhet

Vi använder cookies