Miljardinsatserna hjälper inte – AI-säkerheten krackelerar under enkla attacker
Miljardinsatser i AI-säkerhet krackelerar under enkla attacker med 71 procents framgång.
När säkerhetsbarriärer blir papperstigrar
Miljardbelopp investeras just nu i AI-säkerhet, men nya forskningsrön visar att våra försvar är skörare än vi trodde. Förstärkningsinlärning från mänsklig återkoppling (RLHF) – den gyllene standarden för säkerhetsträning – visar sig ha fundamentala brister som hotjar hela AI-utvecklingen framåt.
Forskare har upptäckt att RLHF inte egentligen lär modeller nya säkerhetsförmågor. Istället omfördelar metoden bara sannolikheter för att använda färdigheter som redan finns där – inklusive de problematiska. Det är som att lära en kock att dölja knivarna istället för att ta bort dem helt.
När forskarna testade detta mot OpenAI:s modeller genom sammansatta överträdelser – alltså kombinerade attacktekniker – kollapsade försvaret totalt. Framgångsfrekvensen för att kringgå säkerheten sköt från 14,3% upp till häpnadsväckande 71,4%. Det räcker alltså att kombinera flera relativt enkla metoder för att övermanna även vältränade säkerhetssystem.
Partiskheten som inte försvinner
Problemet med säkerhet är bara en del av utmaningen. Partiskhet i AI-system visar sig vara lika envetet som svårt att utrota. När forskare testade sju olika språkmodeller mot vilseledande kontextuell information kunde irrelevanta faktorer förändra modellernas bedömningar med upp till 1,48 poäng på en sjugradig skala.
Det här är inte småsaker när AI-system ska bedöma lån, rekrytering eller medicinska diagnoser. Att en modell låter sig påverkas av irrelevant social kontext betyder att strukturell diskriminering kan kodas direkt in i våra mest kritiska system.
Men det finns hopp. Forskarna har utvecklat Debiasing-DPO, en självövervakad träningsmetod som parar neutralt resonemang med partiskt för att lära modellen skillnaden. Resultaten är imponerande: 84 procent minskning av partiskhet samtidigt som träffsäkerheten förbättrades med 52 procent.
Från språk till grafer – problemet sprider sig
Partiskhet är inte begränsat till språkmodeller. Grafiska neurala nätverk (GNN) – som används för allt från sociala medier till finansanalys – brottas med samma utmaningar. När dessa system analyserar relationer mellan personer kan de förstärka diskriminering baserad på kön, etnicitet eller andra känsliga attribut.
Ny forskning visar dock att tvåfasig träning kan lösa även detta. Genom att först redigera grafstrukturen för att minska bias-påverkan och sedan använda kontrastiv förlustfunktion lyckas forskarna leverera både högre noggrannhet och bättre rättvisa.
Kapplöpningen mot tiden
Vad som framträder är en berättelse om kapplöpning: AI-system blir kraftfullare snabbare än våra säkerhetsmetoder hinner mogna. Varje genombrott inom säkerhet verkar följas av nya sätt att kringgå skydden.
Det som oroar mig mest som systemutvecklare är inte att problemen finns – det är att de upptäcks så sent i utvecklingsprocessen. Vi bygger säkerhet som efterkonstruktion istället för att baka in den från grunden.
Samtidigt visar forskningen att lösningar faktiskt går att utveckla. Debiasing-DPO och förbättrade GNN-metoder bevisar att vi kan bygga AI-system som är både kraftfulla och rättvisa. Frågan är om vi hinner implementera dem innan AI-systemens genomslagskraft gör skadorna oåterkalleliga.
Vår analys
Dessa forskningsrön pekar på en fundamental designutmaning inom AI-utveckling: vi optimerar för prestanda först och lägger till säkerhet senare. Det fungerade när AI-system hade begränsad påverkan, men inte när de styr samhällskritiska beslut.
Jag ser två möjliga utvecklingsvägar framöver. Antingen tvingas branschen till en säkerhets-först-approach där nya arkitekturer byggs med robusthet från grunden. Eller så fortsätter den nuvarande lapp-och-lag-mentaliteten tills en större incident tvingar fram reglering.
Det positiva är att forskningen visar att säkra och rättvisa AI-system faktiskt är möjliga att bygga. Debiasing-DPO och liknande metoder kommer sannolikt att bli branschstandard inom ett år. Men transformationen kräver att företagen investerar i säkerhet med samma intensitet som de investerar i prestanda – något som än så länge saknas.