Större AI-modeller löser inte säkerhetsproblemen
Större AI-modeller löser inte grundläggande säkerhetsproblem inom kirurgi och trafik.
Skalning räcker inte längre
När jag läser de senaste forskningsrönen från arXiv börjar ett tydligt mönster framträda. Vi har länge trott att AI:s begränsningar skulle lösas genom att bygga större modeller med mer träningsdata. Men verkligheten visar sig vara mer komplex.
Ta kirurgi som exempel. I en färsk studie testade forskare de mest avancerade AI-modellerna på den till synes enkla uppgiften att upptäcka kirurgiska verktyg under neurokirurgi. Resultatet? Även modeller med miljarder parametrar presterade nedslående dåligt. Värre än så – skalningsexperiment visade att större modeller och längre träningstid bara gav marginella förbättringar.
Det här är inte bara ett isolerat problem inom medicinen. Parallella studier av självkörande bilar avslöjar systematiska skillnader i hur olika AI-modeller bedömer risker i identiska trafiksituationer. När forskare testade tre modeller på samma körscenarios nära fotgängare och cyklister kom de fram till helt olika slutsatser om riskgrad och lämpliga åtgärder.
Grundläggande kognitiva brister
Vad som gör dessa fynd särskilt intressanta är att de pekar på djupare strukturella begränsningar än vad många av oss förväntade. En tredje studie som utvecklat testet CARV (Compositional Analogical Reasoning in Vision) visar att även Googles mest avancerade modell Gemini-2.5 Pro bara uppnår 40,4 procent träffsäkerhet på analogiskt resonemang – något människor löser perfekt.
Problemet ligger inte i tekniska fel utan i fundamentala kognitiva processer. AI-systemen kämpar med att:
- Integrera olika datatyper på det sätt som krävs i kirurgiska sammanhang
- Hantera tvetydiga situationer där risker kan tolkas på flera sätt
- Översätta visuella förändringar till symboliska regler och tillämpa dessa konsekvent
Varför detta spelar roll nu
Som systemutvecklare ser jag här en viktig vändpunkt i AI-utvecklingen. Vi närmar oss gränsen för vad som kan uppnås genom enbart skalning. Miljontals timmar kirurgisk videodata genereras årligen, men att bearbeta denna data kräver inte bara beräkningskraft utan djup medicinsk expertis och nya metodologiska genombrott.
Det betyder inte att AI är opålitlig – snarare att vi måste vara mer precision i hur vi tillämpar tekniken. Inom områden där "nästan rätt" kan få katastrofala konsekvenser behöver vi erkänna att dagens AI-system fortfarande har systematiska blindfläckar.
För trafiksäkerhet innebär detta att ADAS-system måste utformas med tydliga protokoll för att hantera situationer där modeller är oeniga om riskbedömningar. Inom kirurgin kanske vi behöver fokusera på specifika deluppgifter där AI verkligen kan bidra, snarare än att försöka automatisera hela procedurer.
En nödvändig mognad
Dessa studier representerar mognaden i AI-fältet. Vi går från "AI kan allt" till "AI kan mycket, men här är gränserna". Det är faktiskt en positiv utveckling. Genom att förstå var nuvarande teknik inte räcker till kan vi fokusera på områden där den verkligen skapar värde.
Vår analys
Dessa fynd markerar en kritisk övergång i AI-utvecklingen från kvantitativa till kvalitativa genombrott. Som bransch måste vi erkänna att "skala upp" inte längre är den universella lösningen.
Framöver kommer vi sannolikt att se mer specialiserade AI-arkitekturer för kritiska tillämpningar, med inbyggda säkerhetsmekanismer och transparens. Regulatoriska ramverk kommer att kräva explicit hantering av osäkerhet i säkerhetskritiska system.
Detta är inte ett bakslag utan en naturlig mognad. Precis som mjukvaruindustrin lärde sig att hantera komplexitet genom moduläritet och testning, måste AI-industrin utveckla rigorös kvalitetssäkring för kritiska tillämpningar. De företag som först löser dessa utmaningar kommer att ha betydande konkurrensfördelar inom hälsovård, transport och andra högkänsliga sektorer.