Foto till artikeln: AI-system kan avlyssnas och bryter regler i det fördolda – forskare utvecklar motmedel

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

LLM Etik & Reglering Forskning Agenter & Automation

AI-system kan avlyssnas och bryter regler i det fördolda – forskare utvecklar motmedel

AI-system kan avlyssnas och bryter regler i det fördolda, visar forskning.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 4 min läsning • 15/04 2026 14:48

När AI-system bryter regler utan att veta om det

AI-tekniken har nått en kritisk punkt där säkerhetsfrågorna inte längre kan ignoreras. Ny forskning avslöjar systematiska brister som sträcker sig från grundläggande funktionalitet till avancerade säkerhetshot.

En av de mest oroande upptäckterna handlar om så kallade "policyosynliga brott" – när AI-agenter utför handlingar som ser korrekta ut men faktiskt bryter mot organisationens regler. Forskare har utvecklat utvärderingsverktyget PhantomPolicy för att identifiera dessa problem, och resultaten är slående. När fem ledande AI-modeller testades krävdes manuell granskning i över 5 procent av fallen.

Lösningen kommer i form av systemet Sentinel, som simulerar konsekvenserna av varje AI-handling innan den utförs. Genom att behandla handlingar som förslag till förändringar i en kunskapsgraf kan systemet upptäcka policybrott med 93 procents träffsäkerhet – en betydande förbättring från traditionella metoders 68,8 procent.

Säkerhetsrisker sprider sig över flera områden

Problematiken sträcker sig långt bortom regelefterlevnad. Forskare har visat att AI-systems interna kommunikation kan avlyssnas genom den så kallade "Communication Inference Attack" (CIA). Metoden uppnår en genomsnittlig träffsäkerhet på 87 procent, med toppsiffror på upp till 99 procent när den kartlägger hur AI-agenter kommunicerar sinsemellan.

Inom bildanalys har situationen visat sig ännu mer allvarlig. Den nya attackmetoden MemJack kan kringgå säkerhetssystem i vision-språkmodeller med över 70 procents framgångsgrad. Till skillnad från tidigare metoder som förändrade pixlar, utnyttjar MemJack de semantiska strukturerna i helt vanliga fotografier.

"Systemet använder flera AI-agenter som samarbetar för att koppla visuella element till skadliga avsikter och skapa motståndskraftiga uppmaningar genom visuell-semantisk kamouflage", förklarar forskarna bakom studien.

Nya verktyg för tryggare AI

Trots de allvarliga hoten utvecklas samtidigt lovande lösningar. Metoden CWAC (Coupled Weight and Activation Constraints) har visat sig effektiv för att förhindra att AI-modeller blir farliga under vidareutbildning. Tidigare tekniker har försökt begränsa antingen modellens vikter eller aktiveringar separat, men CWAC arbetar med båda samtidigt.

I omfattande tester på fyra olika språkmodeller visade CWAC konsekvent de lägsta skadliga poängen med minimal påverkan på prestanda – även när modellerna exponerades för stora mängder potentiellt skadlig träningsdata.

För faktakontroll och desinformation har forskare utvecklat TRUST Agents, ett system med fyra specialiserade komponenter som inte bara klassificerar information som sann eller falsk, utan ger detaljerade förklaringar för sina bedömningar. Detta är avgörande för förtroendet i automatiserad faktakontroll.

Rätten att bli glömd blir verklighet

En särskilt intressant utveckling är tekniken för att implementera "rätten att bli glömd" i stora språkmodeller. Metoden fungerar genom att först stabilisera modellens grundläggande förmågor, sedan tillämpa begränsad negativ finjustering för att undertrycka specifika känsliga mönster.

Tester visar att tekniken framgångsrikt kan undertrycka oönskade beteenden med minimal påverkan på faktanoggrannhet och språkflyt – en praktisk lösning för att uppfylla krav som GDPR i kommersiellt använda språkmodeller.

Vår analys

Vår analys: Säkerhet blir AI-branschens nästa stora utmaning

Denna forskningsvåg markerar en vändpunkt för AI-branschen. Vi ser inte längre isolerade säkerhetsproblem, utan systematiska sårbarheter som kräver grundläggande förändringar i hur vi designar AI-system.

Det mest slående är hur problemen spänner över alla nivåer – från grundläggande regelefterlevnad till avancerade koordinerade attacker. Detta tyder på att säkerhet måste byggas in från grunden, inte läggas till i efterhand.

Samtidigt visar forskningen på lovande lösningar. Verktyg som Sentinel och CWAC representerar en ny generation av "säkerhet först"-tänk där vi proaktivt designar för trygghet. Som systemutvecklare ser jag detta som en naturlig mognad av branschen – precis som webbutveckling utvecklades från "funktionalitet först" till "säkerhet och tillgänglighet först".

Den här utvecklingen kommer sannolikt att driva fram nya standarder och regleringar, men också skapa möjligheter för företag som tidigt investerar i säker AI-utveckling.

Källhänvisningar

Nya verktyg avslöjar dolda policybrott i AI-agenter — arXiv cs.AI

Nytt AI-system upptäcker falska nyheter med förklarbar verifiering — arXiv cs.AI

Ny metod förhindrar att AI-modeller blir farliga under vidareutbildning — arXiv cs.AI

Ny metod låter AI-modeller 'glömma' känslig information — arXiv cs.AI

Forskare visar att AI-systems kommunikation kan avlyssnas — arXiv cs.AI

Ny attackmetod utnyttjar semantiska sårbarheter i AI-bildmodeller — arXiv cs.AI

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

AI-system kan avlyssnas och bryter regler i det fördolda – forskare utvecklar motmedel

När AI-system bryter regler utan att veta om det

Säkerhetsrisker sprider sig över flera områden

Nya verktyg för tryggare AI

Rätten att bli glömd blir verklighet

Vår analys: Säkerhet blir AI-branschens nästa stora utmaning

AI-teknologi

Branscher

AI-system kan avlyssnas och bryter regler i det fördolda – forskare utvecklar motmedel

När AI-system bryter regler utan att veta om det

Säkerhetsrisker sprider sig över flera områden

Nya verktyg för tryggare AI

Rätten att bli glömd blir verklighet

Vår analys: Säkerhet blir AI-branschens nästa stora utmaning

Missa inte nästa stora AI-nyhet

Vi använder cookies