AI-system kan avlyssnas och bryter regler i det fördolda – forskare utvecklar motmedel
AI-system kan avlyssnas och bryter regler i det fördolda, visar forskning.
När AI-system bryter regler utan att veta om det
AI-tekniken har nått en kritisk punkt där säkerhetsfrågorna inte längre kan ignoreras. Ny forskning avslöjar systematiska brister som sträcker sig från grundläggande funktionalitet till avancerade säkerhetshot.
En av de mest oroande upptäckterna handlar om så kallade "policyosynliga brott" – när AI-agenter utför handlingar som ser korrekta ut men faktiskt bryter mot organisationens regler. Forskare har utvecklat utvärderingsverktyget PhantomPolicy för att identifiera dessa problem, och resultaten är slående. När fem ledande AI-modeller testades krävdes manuell granskning i över 5 procent av fallen.
Lösningen kommer i form av systemet Sentinel, som simulerar konsekvenserna av varje AI-handling innan den utförs. Genom att behandla handlingar som förslag till förändringar i en kunskapsgraf kan systemet upptäcka policybrott med 93 procents träffsäkerhet – en betydande förbättring från traditionella metoders 68,8 procent.
Säkerhetsrisker sprider sig över flera områden
Problematiken sträcker sig långt bortom regelefterlevnad. Forskare har visat att AI-systems interna kommunikation kan avlyssnas genom den så kallade "Communication Inference Attack" (CIA). Metoden uppnår en genomsnittlig träffsäkerhet på 87 procent, med toppsiffror på upp till 99 procent när den kartlägger hur AI-agenter kommunicerar sinsemellan.
Inom bildanalys har situationen visat sig ännu mer allvarlig. Den nya attackmetoden MemJack kan kringgå säkerhetssystem i vision-språkmodeller med över 70 procents framgångsgrad. Till skillnad från tidigare metoder som förändrade pixlar, utnyttjar MemJack de semantiska strukturerna i helt vanliga fotografier.
"Systemet använder flera AI-agenter som samarbetar för att koppla visuella element till skadliga avsikter och skapa motståndskraftiga uppmaningar genom visuell-semantisk kamouflage", förklarar forskarna bakom studien.
Nya verktyg för tryggare AI
Trots de allvarliga hoten utvecklas samtidigt lovande lösningar. Metoden CWAC (Coupled Weight and Activation Constraints) har visat sig effektiv för att förhindra att AI-modeller blir farliga under vidareutbildning. Tidigare tekniker har försökt begränsa antingen modellens vikter eller aktiveringar separat, men CWAC arbetar med båda samtidigt.
I omfattande tester på fyra olika språkmodeller visade CWAC konsekvent de lägsta skadliga poängen med minimal påverkan på prestanda – även när modellerna exponerades för stora mängder potentiellt skadlig träningsdata.
För faktakontroll och desinformation har forskare utvecklat TRUST Agents, ett system med fyra specialiserade komponenter som inte bara klassificerar information som sann eller falsk, utan ger detaljerade förklaringar för sina bedömningar. Detta är avgörande för förtroendet i automatiserad faktakontroll.
Rätten att bli glömd blir verklighet
En särskilt intressant utveckling är tekniken för att implementera "rätten att bli glömd" i stora språkmodeller. Metoden fungerar genom att först stabilisera modellens grundläggande förmågor, sedan tillämpa begränsad negativ finjustering för att undertrycka specifika känsliga mönster.
Tester visar att tekniken framgångsrikt kan undertrycka oönskade beteenden med minimal påverkan på faktanoggrannhet och språkflyt – en praktisk lösning för att uppfylla krav som GDPR i kommersiellt använda språkmodeller.
Vår analys: Säkerhet blir AI-branschens nästa stora utmaning
Denna forskningsvåg markerar en vändpunkt för AI-branschen. Vi ser inte längre isolerade säkerhetsproblem, utan systematiska sårbarheter som kräver grundläggande förändringar i hur vi designar AI-system.
Det mest slående är hur problemen spänner över alla nivåer – från grundläggande regelefterlevnad till avancerade koordinerade attacker. Detta tyder på att säkerhet måste byggas in från grunden, inte läggas till i efterhand.
Samtidigt visar forskningen på lovande lösningar. Verktyg som Sentinel och CWAC representerar en ny generation av "säkerhet först"-tänk där vi proaktivt designar för trygghet. Som systemutvecklare ser jag detta som en naturlig mognad av branschen – precis som webbutveckling utvecklades från "funktionalitet först" till "säkerhet och tillgänglighet först".
Den här utvecklingen kommer sannolikt att driva fram nya standarder och regleringar, men också skapa möjligheter för företag som tidigt investerar i säker AI-utveckling.