Foto till artikeln: AI-modellers säkerhet skörare än utlovat – forskning visar på sårbarheter och nya skyddsmetoder

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

LLM Etik & Reglering Forskning Öppen källkod

AI-modellers säkerhet skörare än utlovat – forskning visar på sårbarheter och nya skyddsmetoder

AI-modellers inbyggda skydd kan brytas ned vid mindre justeringar, visar ny forskning.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 5 min läsning • 01/06 2026 20:36

Säkerhet är ingen permanent egenskap

När ett AI-bolag säger att deras modell är säker och väljusterad är det sant — i det ögonblicket. Men det är en sanning med viktiga förbehåll. Det finns nämligen ett välkänt problem i branschen: om någon finjusterar modellen för ett specifikt syfte kan de inbyggda säkerhetsegenskaperna försvagas, ibland dramatiskt, även om träningsdatan bara innehåller en liten mängd skadligt material.

Forskare presenterar nu CSULoRA, en ny metod som angriper detta problem på ett elegant sätt. Istället för att kasta bort misstänkta uppdateringar i modellens vikter identifierar metoden ett säkerhetsanpassat underrum och dämpar gradvis de komponenter som avviker från det. I tester med fientligt utformad träningsdata minskade antalet lyckade angrepp avsevärt, utan att modellens nyinlärda förmågor gick förlorade. Metoden kräver ingen extra träning — det är en kalibrering i efterhand, inte ett ombygge.

Parallellt presenteras TASER, ett regulariseringsramverk som stärker djupa neurala nätverks motståndskraft mot störningar i indata — det vill säga situationer där en angripare medvetet manipulerar det som matas in i modellen, eller där verkliga data skiljer sig från träningsdatan. Genom att använda matematiska strukturer kallade Langevin Stein-operatorer uppmuntras modellen till en mjukare, mer datamedveten känslighet. I experiment på bildklassificering gav TASER konsekvent förbättrad motståndskraft utan märkbar prestandaförsämring.

Integritetsskydd är svårare än vi trodde

Ett annat antagande som forskningen utmanar är att enkel avduplicering av träningsdata räcker för att skydda integriteten i generativa modeller. En ny studie av diffusionsmodeller visar att det är de mest typiska och vanligt förekommande mönstren som memoreras, inte de unika exemplen. Det innebär att om du tar bort identiska kopior löser du inte grundproblemet — modellen lär sig ändå att överproducera vanliga delmönster, vilket både skapar integritetsproblem och förklarar fenomenet med tråkigt, fantasilöst AI-genererat innehåll. Forskarna slår fast att variationsrikedom i träningsdata, på abstrakt nivå, är avgörande för att motverka detta.

För den som arbetar med statistiska beräkningar på känsliga dataset finns dock en uppmuntrande nyhet. Forskare presenterar en ny mekanism för differentiell integritet baserad på snabba matematiska transformationer — en teknik som tillför kontrollerat brus för att skydda känsliga data. Den nya mekanismen uppnår likvärdiga integritetsgarantier som tidigare metoder, men med avsevärt bättre beräkningsprestanda tack vare strukturerade matriser liknande Hadamard-matrisen.

AI-skrivet kan snart bli osynligt

En av de mer tankeväckande studierna handlar om hur AI-modellers karakteristiska skrivstil faktiskt uppstår. Efterträningen — den process där en grundmodell görs hjälpsam och säker — förskjuter textgenereringen mot ett detekterbart AI-typiskt stilideal. Det är inte slumpmässigt, utan mätbart och lokaliserbart i modellens aktiveringslager.

Forskarna bakom metoden PASTA visade att det stilistiska avtrycket kan neutraliseras utan ytterligare träning, direkt under textgenereringen. Testerna på 11 justerade modeller och 6 AI-detektorer visade dramatiskt sänkta detektionsfrekvenser med bibehållen textkvalitet. Det är en tekniskt imponerande insikt — och en påminnelse om att de AI-detektorer som idag används i skolor och på redaktioner bygger på ett underliggande antagande som nu ifrågasätts.

Verktyg för granskning och regelefterlevnad

Mitt i allt detta finns det också konstruktiva svar på frågorna om hur organisationer faktiskt ska hantera dessa risker. LLM-FACETS är ett öppet ramverk utformat för att göra granskning av stora språkmodeller tillgänglig även för icke-tekniska roller, som regelefterlevnadsansvariga och domänexperter. En central egenskap är att känslig data stannar lokalt — grundläggande mätvärden beräknas på den egna servern. Ramverket är strukturerat kring roller hämtade direkt från EU:s AI-förordning och NIST:s riskhanteringsramverk.

Och på avlärningssidan — det vill säga när ett AI-system behöver radera inlärd information, till exempel för att följa dataskyddsregler — presenteras 5WBENCH och MAAT. Det visar sig att de vanligaste testmetoderna för avlärning nästan helt saknar frågor om orsakssamband och relationell kunskap, vilket innebär att ett system kan verka ha glömt information utan att faktiskt ha gjort det. MAAT är den första metod som samtidigt uppnår hög glömska och hög kunskapsbevarandeförmåga för just kausala frågor.

Vår analys

Det som gör den här forskningsvågen intressant är inte att den visar att AI är trasigt — det är att den visar att AI-säkerhet är ett dynamiskt problem, inte ett statiskt tillstånd. En modell som är säker idag kan finjusteras till att bli osäker imorgon. En integritetsgaranti som verkar hålla kan vila på ett felaktigt antagande om vad modellen faktiskt memorerar. En AI-detektor kan bli obsolet av en enda neutraliseringsmetod.

För lagstiftare och regelefterlevnadsansvariga är budskapet tydligt: certifiering av AI-system måste vara kontinuerlig, inte ett engångsgodkännande. Det är precis det som EU:s AI-förordning försöker adressera, men verktygen för att faktiskt utföra löpande granskning har hittills saknats. Att ramverk som LLM-FACETS och 5WBENCH nu finns tillgängliga som öppen källkod är ett steg i rätt riktning. Forskarsamhället levererar — nu gäller det att organisationer och myndigheter hänger med.

Källhänvisningar

Nytt ramverk granskar AI-modellers tillförlitlighet utan att röja känslig data — arXiv cs.AI

Nytt ramverk löser blindfläck i maskininlärningens avlärning — arXiv cs.LG

Ny metod avslöjar och raderar AI-typiska skrivmönster i språkmodeller — arXiv cs.LG

Ny mekanism snabbar upp differentiell integritet vid linjär regression — arXiv cs.LG

TASER: Ny regulariseringsmetod gör djupa nätverk mer robusta mot störningar — arXiv cs.LG

Ny metod skyddar AI-modellers säkerhet vid finjustering — arXiv cs.LG

Diffusionsmodeller memorerar vanliga mönster – inte unika data — arXiv cs.LG

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

AI-modellers säkerhet skörare än utlovat – forskning visar på sårbarheter och nya skyddsmetoder

Säkerhet är ingen permanent egenskap

Integritetsskydd är svårare än vi trodde

AI-skrivet kan snart bli osynligt

Verktyg för granskning och regelefterlevnad

Vår analys

AI-teknologi

Branscher

AI-modellers säkerhet skörare än utlovat – forskning visar på sårbarheter och nya skyddsmetoder

Säkerhet är ingen permanent egenskap

Integritetsskydd är svårare än vi trodde

AI-skrivet kan snart bli osynligt

Verktyg för granskning och regelefterlevnad

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies