Din AI-assistent kan luras att lämna ut dina inloggningskoder – och ingen vet hur många fler sådana hål som finns
Dolda kommandon i e-post lurade Microsofts AI att lämna ut inloggningskoder.
När AI-assistenten blir en spion
Föreställ dig att du ber din AI-assistent sammanfatta dagens e-post. I bakgrunden läser den ett meddelande som innehåller dolda instruktioner – instruktioner som inte är riktade till dig, utan till AI:n. Inom sekunder har assistenten letat reda på din senaste tvåfaktorkod och skickat iväg den till en server du aldrig hört talas om.
Det är inte ett tankeexperiment. Det är exakt vad säkerhetsföretaget Varonis visade var möjligt i Microsofts M365 Copilot, enligt en detaljerad genomgång som publicerades nyligen på Ars Technica. Microsoft lappade sårbarheten förra veckan, men attackkedjan som Varonis konstruerade är en nykter påminnelse om hur komplexa säkerhetsriskerna är när AI vävs in i känsliga affärssystem.
Grundproblemet är inte nytt – men konsekvenserna är det
Bakom attacken ligger ett välkänt och ännu olöst problem med stora språkmodeller: de kan inte på ett tillförlitligt sätt skilja mellan legitima instruktioner från användaren och instruktioner som smugits in i tredjepartsinnehåll. Det kallas promptinjektion, och det är i princip vad det låter som – att injicera kommandon i den text som AI:n bearbetar, och hoppas att modellen lyder.
Microsoft har försökt bygga skyddsmekanismer mot detta, bland annat genom att omsluta Copilots svar i kodblock så att webbläsaren behandlar innehållet som ren text. Men Varonis lyckades kringgå dem. Angriparen skickade ett e-postmeddelande med en särskilt utformad länk till Microsofts söktjänst. Länken innehöll en dold instruktion som fick Copilot att söka igenom offrets e-post och bädda in hittad information – inklusive engångskoder – i en bild-URL som sedan skickades vidare till angriparens server.
Det är en elegant och obehaglig attack. Offret behövde inte klicka på något skadligt. Det räckte med att Copilot läste e-postmeddelandet.
Fler system, fler incidenter
Copilot-sårbarheten är inte ett isolerat fall. Enligt AI News steg antalet rapporterade AI-relaterade säkerhetsincidenter från 233 år 2024 till 362 år 2026 – en ökning på över 50 procent på två år. Ökningstakten är logisk: ju fler organisationer som bygger in AI i sina kärnverksamheter, desto fler potentiella angreppspunkter skapas.
Det är här röd-lagstestning av AI-system kommer in som en allt viktigare metod. Principen liknar klassisk säkerhetstestning: ett dedikerat team spelar rollen som angripare och försöker systematiskt hitta brister i systemet – innan en riktig angripare gör det. För AI-system innebär det att testa hur modellen reagerar på manipulativa inmatningar, försök att kringgå inbyggda säkerhetsspärrar och scenarion där systemet används på sätt det inte var avsett för.
Fördelarna är konkreta, enligt AI News. Utöver den uppenbara säkerhetsvinsten ger röd-lagstestning organisationer dokumenterade bevis på systemets robusthet – något som blir allt viktigare i förhållande till EU:s AI-förordning och ramverk som NIST:s riktlinjer för AI-riskhantering. Det handlar alltså inte bara om att skydda sig mot angrepp, utan om att kunna visa tillsynsmyndigheter att man tagit ansvar.
Bygga säkert från grunden
Som systemutvecklare ser jag en tydlig parallell till hur webbutvecklingsbranschen mognade efter de stora SQL-injektionseran på 00-talet. Då insåg vi att säkerhet inte kan boltas on i efterhand – det måste vara en del av arkitekturen från start. Med AI-system är vi på väg mot samma insikt, men med högre insatser och kortare tidsfönster.
Problemet med promptinjektion är strukturellt. Det är inte ett enkelt programmeringsfel som kan åtgärdas med en patch – det handlar om hur språkmodeller fundamentalt fungerar. Att de inte skiljer på innehåll och instruktioner är en direkt konsekvens av hur de tränas. Det betyder att skyddsmekanismerna måste vara djupare integrerade, och att röd-lagstestning inte är en engångsinsats utan ett löpande arbete.
Det positiva – och det finns verkligen ett positivt – är att incidenter som Copilot-sårbarheten driver på en nödvändig mognad i branschen. Varonis hittade hålet, rapporterade det och Microsoft lappade det. Det är systemet som fungerar. Nu gäller det att se till att fler organisationer har processerna på plats för att hitta sina egna hål – innan någon annan gör det.
Vår analys
Copilot-incidenten illustrerar en strukturell spänning i hur vi just nu driftsätter AI: vi integrerar kraftfulla system i känsliga miljöer i ett tempo som överstiger vår förmåga att säkerhetsgranska dem ordentligt. Promptinjektion är inte ett nyupptäckt hot – säkerhetsforskare har varnat för det i flera år – men det krävde tydligen en konkret, demonstrerad attack mot ett av världens mest använda affärsverktyg för att frågan ska ta ordentlig plats på agendan.
Utvecklingen pekar mot att röd-lagstestning av AI kommer att bli lika standardiserat som penetrationstestning av nätverk är idag. Det är en sund utveckling. Men det kräver att organisationer slutar behandla AI-säkerhet som ett efterhandsarbete och börjar se det som en kärnkompetens. EU:s AI-förordning skapar regulatoriska incitament för detta – men de bästa skälen är fortfarande de praktiska. En läckt tvåfaktorkod är ett bra argument för att börja testa sina system nu.