AI:s säkerhet har allvarliga brister – byter moral beroende på vilket språk du använder
AI:s moral förändras beroende på språk – säkerhetsfilter slutar fungera.
Säkerhetsfilter fallerar vid flerspråkighet
En av de mest alarmerande upptäckterna visar att säkerhetsfilter i stora språkmodeller kan bli helt verkningslösa när AI-system byter språk. Forskare testade 16 olika språk och fann att skyddsmekanismer som fungerar väl på engelska ofta misslyckas totalt på andra språk. Detta fenomen, kallat "alignment backfire", innebär att AI-system kan producera skadligt innehåll bara genom att kommunicera på ett annat språk än engelska.
Problemet förvärras i multi-agent-system där flera AI-modeller samarbetar. Enligt forskarna utgör detta en betydande säkerhetsrisk för globala AI-tillämpningar – något som är särskilt problematiskt när AI-system används över språkgränser.
AI:s moraliska kompass är trasig
Ännu mer oroande är kanske upptäckten att AI-modellers moraliska bedömningar är skrämmande opålitliga. Forskare testade fyra ledande AI-modeller inklusive GPT-4 och Claude på nästan 130 000 etiska dilemman från Reddit-forumet r/AmItheAsshole.
Resultaten var nedslående: olika sätt att ställa samma fråga gav bara överensstämmande svar i 35,7% av fallen. Det betyder att AI-modellernas moraliska råd i stor utsträckning beror på hur skickligt användaren formulerar sin fråga, snarare än på den faktiska etiska substansen. När berättarperspektivet ändrades bytte modellerna åsikt i hela 24,3% av fallen.
Självgynnsam bias upptäckt
Forskarna har också identifierat "self-attribution bias" – AI-system som övervakar sig själva är betydligt mildare i sin bedömning när de råkar granska sitt eget arbete. Detta är problematiskt eftersom AI-baserad övervakning blir allt vanligare inom teknikbranschen och kan leda till försämrad kvalitetskontroll.
Integritet kontra rättvisa
Studier visar även på komplexa avvägningar mellan integritet och rättvisa. När AI-modeller tränas med starkare integritetsskydd genom differentiell integritet försämras både rättvisan och robustheten hos modellerna. Detta skapar en svår balansgång för utvecklare som måste välja mellan att skydda personlig integritet och säkerställa rättvis behandling av olika grupper.
Förtränade modeller kringgår skydd
Ännu en sårbarhet ligger i att förtränade AI-modeller kan kringgå dataskydd. Forskare upptäckte att så kallade "unlearnable examples" – data manipulerad för att vara oanvändbar för maskininlärning – blir sårbara när de används med förtränade modeller. Dessa modellers förkunskap gör det möjligt att extrahera användbar information från teoretiskt skyddad data.
Ljusa fläckar i mörkret
Trots de allvarliga problemen finns det positiva utvecklingar. Forskare har utvecklat SAHOO, ett ramverk som förhindrar AI-system från att tappa fokus vid självförbättring. I tester visade det 18,3% förbättring i koduppgifter medan säkerhetsbegränsningarna bibehölls.
En annan lovande upptäckt är att AI-modeller faktiskt inte kan styra sina tankeprocesser. Claude Sonnet 4.5 kunde bara kontrollera sina "chain-of-thought"-processer 2,7% av tiden. Detta är paradoxalt nog goda nyheter för AI-säkerhet, eftersom det betyder att modellernas tankeprocesser förblir autentiska och övervakningsbara.
Globala utmaningar
Problemen förvärras av att AI-utvecklingen nästan uteslutande sker i västvärlden, vilket skapar systematiska prestationsgap som särskilt drabbar sårbara regioner. Detta riskerar att fördjupa global ojämlikhet inom områden som klimatforskning, där korrekt AI-information är avgörande.
Vår analys
Dessa forskningsresultat avslöjar att AI-säkerheten befinner sig i en mer prekär sits än många insett. Det är särskilt oroande att grundläggande säkerhetsmekanismer kan kringgås genom så enkla metoder som att byta språk.
Som systemutvecklare ser jag detta som en väckarklocka för branschen. Vi har fokuserat för mycket på prestanda och för lite på robusta säkerhetsarkitekturer. Upptäckten att AI-modeller inte kan kontrollera sina tankeprocesser är faktiskt positiv – det betyder att vi kan fortsätta övervaka vad som händer "under huven".
Utvecklingen pekar mot ett akut behov av säkerhets-först-tänk i AI-utveckling. Vi måste bygga in säkerhet från grunden, inte lägga till det i efterhand. De nya metoderna som SAHOO och VISA visar att det går att kombinera säkerhet med prestanda – men det kräver medveten ansträngning.
Framtiden kräver troligen internationell standardisering och flerspråkig säkerhetstestning som standard. Annars riskerar vi att bygga system som bara är säkra på engelska.