AI-verktyg går att lura att glömma sina egna skyddsregler
Säkerhetsforskare visar hur AI-verktyg luras att ignorera sina egna skyddsregler.
Makten och sårbarheten växer hand i hand
Det finns ett ironiskt mönster i säkerhetsbranschens historia: varje gång ett verktyg blir tillräckligt kraftfullt för att göra verklig skillnad, blir det också tillräckligt kraftfullt för att orsaka verklig skada om det missbrukas. AI-verktygen 2025 är inget undantag — och tre rapporter från den senaste tiden visar med oroväckande tydlighet hur snabbt hotbilden förändras.
AI-webbläsaren som glömde vem den är
Säkerhetsforskaren Roy Paz på företaget LayerX har demonstrerat en attack han döpt till BioShocking — en nick åt både datorspelet BioShock och George Orwells dystopiska värld i 1984. Principen är lika enkel som den är obehaglig: lura en AI-webbläsare att acceptera en förvrängd verklighet där normala regler inte längre gäller.
I praktiken fungerar det så här, enligt Ars Technica: en skadlig webbplats presenterar ett pussel för AI-webbläsaren. Pusslet belönar felaktiga svar — till exempel att 2 + 2 = 5. När språkmodellen successivt internaliserar att sanningar är relativa, glider den in i ett förvirrat tillstånd där dess inbyggda skyddsbegränsningar slutar gälla. Därifrån kan angriparen be den att stjäla inloggningsuppgifter eller hämta känslig kod från privata kodarkiv.
Alla sex testade AI-agenter misslyckades med att identifiera det sista steget i attackkedjan. Det är inte ett implementationsfel i en specifik produkt — det är ett strukturellt problem med hur språkmodeller hanterar kontextmanipulation.
Trettio år gamla skalknep slår igenom moderna skyddsfilter
En annan typ av strukturell svaghet har avslöjats av säkerhetsföretaget Adversa AI, som undersökt elva populära AI-kodningsverktyg med öppen källkod. Bristen har fått namnet GuardFall, och det som gör den extra uppseendeväckande är att den utnyttjar tekniker från skalspråket Bash — tekniker som är äldre än tre decennier.
Rapporterar SecurityWeek: om en utvecklare använder ett sårbart verktyg för att läsa en manipulerad README-fil kan verktyget luras att i tysthet köra kommandon som stjäl molntjänstautentiseringsuppgifter eller raderar hela utvecklingsmiljöer. Av de elva testade verktygen klarade bara ett — Continue — att blockera samtliga angreppssätt.
Risken förstärks i automatiserade byggmiljöer, där verktyg ofta körs i ett läge som godkänner åtgärder utan manuell bekräftelse. Kombinationen av AI-agenter som arbetar självständigt och inmatningsdata från opålitliga källor är en farlig cocktail — och den är vanligare än man kanske vill tro i moderna programvaruprojekt.
När räkningen stoppar utredningen
Den tredje sårbarheten är av ett annat slag, men inte mindre allvarlig. SecurityWeek beskriver ett scenario som börjar likna vardag för säkerhetsteam världen över: klockan är strax före midnatt, ett allvarligt larm utreds aktivt av automatiserade verktyg — och sedan dyker ett meddelande upp på skärmen. "Du har nått din månadskvot för AI. Kvoten återställs klockan 03:30."
Problemet är inbyggt i hur moderna AI-säkerhetsverktyg prissätts. Traditionell maskininlärning arbetar med statistiska mönster och kostar ingenting i det som kallas beräkningsenheter — de enheter som språkmodeller mäts och debiteras i. Men nästa generations agentbaserade system, som självständigt kartlägger inloggningshistorik och jagar spår av angripare i nätverksloggar, konsumerar enorma mängder sådana enheter i realtid.
Resultatet är att säkerhetsskyddet — bokstavligen — kan ta slut mitt i ett pågående angrepp. Det är inte en hypotetisk risk. Det är en konkret konsekvens av hur branschen just nu prissätter sina smartaste verktyg.
Tre problem, ett mönster
De tre sårbarheterna är tekniskt sett ganska olika: kontextmanipulation av språkmodeller, inmatningsinjektioner via gamla skalkommandon, och ekonomiska begränsningar i realtidsskydd. Men de delar ett gemensamt ursprung: vi har byggt ut kapabiliteterna snabbare än vi byggt ut skyddsmekanismerna.
Det är inte ett argument för att bromsa AI-utvecklingen — det är ett argument för att ta säkerhetsarbetet lika seriöst som funktionsutvecklingen. Grundläggande principer som minsta möjliga behörighet, validering av all extern inmatning och förutsägbar resurstilldelning är inte nya idéer. Men de behöver tillämpas på nytt, med AI-systemens specifika egenskaper i åtanke.
Vår analys
Det som förenar de tre forskningsrönen är ett välbekant mönster från systemutvecklingens historia: säkerheten hänger efter kapabilitetsutvecklingen. Vi såg det med webben, med mobilplattformarna och med molntjänsterna — och nu ser vi det med AI-agenterna.
Det som är nytt den här gången är att attackytorna är svårare att förutse. En traditionell sårbarhet har en definierad form — ett buffertspill, en öppen port, en saknad kontroll. Men när en språkmodell kan manipuleras via ett filosofiskt pussel, eller när ett trettio år gammalt skalknep kringgår ett modernt säkerhetsfilter, befinner vi oss i ett landskap där hotmodellering kräver genuint ny kompetens.
Jag ser ändå möjligheten tydligt: de här forskningsrönen kommer innan storskaliga angrepp, inte efter. Det är exakt när branschen bör agera — inte reaktivt utan förebyggande. Frågan är om affärsmodellerna för AI-säkerhetsverktyg hinner anpassas innan kostnadsbegränsningarna börjar kosta mer än de sparar.