Foto till artikeln: Forskare kan avslöja exakta bilder gömda i AI-modeller – nu växer verktygen för ansvarsfull teknik fram

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

LLM Computer Vision Etik & Reglering Forskning

Forskare kan avslöja exakta bilder gömda i AI-modeller – nu växer verktygen för ansvarsfull teknik fram

Forskare kan nu avslöja exakta upphovsrättsskyddade bilder gömda i AI-modeller.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 5 min läsning • 24/06 2026 21:13

Minnets baksida: När AI-modeller minns för bra

Det finns något nästan poetiskt oroande med det hela. En AI-bildgenerator är tränad på miljarder bilder hämtade från internet – och djupt inbäddad i dess vikter ligger en exakt kopia av ett stockfotografi, en varumärkeslogotyp eller ett upphovsrättsskyddat konstverk. Nu har forskare vid arXiv publicerat en metod som faktiskt kan dra fram dessa dolda minnen i ljuset.

Tekniken kallas cyklisk brusreducering och är inspirerad av hur oordnade fasta material beter sig fysikaliskt. Principen är elegant: utsätt en bild för nästan total förstörelse via brus, låt modellen återskapa den – och upprepa. Bilder som återkommer gång på gång, som så kallade ultrastabila attraktorer, är med stor sannolikhet memorerade träningsbilder. Det imponerande – och illavarslande – är att metoden varken kräver tillgång till modellens interna vikter, textbeskrivningar eller förkunskap om träningsdatan. Den kan appliceras utifrån, som en extern revision.

Detta är inte ett akademiskt tankeexperiment. Det rör sig om direkta konsekvenser för upphovsrätt och integritetsskydd, precis i det ögonblick som EU:s AI-förordning börjar ställa krav på transparens och regelefterlevnad.

Granskning utan omstart – en praktisk revolution

Ett parallellt problem har länge plågat integritetsgranskare: hur kontrollerar du att en färdig, driftsatt språkmodell inte memorerat personuppgifter – utan att behöva träna om modellen från grunden? Det är dyrt, tidskrävande och i praktiken omöjligt för externa granskare.

Här presenterar ett forskarlag en genuint smart lösning. Genom att utnyttja naturliga identifierare – strukturerade slumpmässiga strängar som kryptografiska hashvärden och förkortade webbadresser som naturligt förekommer i träningsdata – kan man generera obegränsade testfall i efterhand. Ingen injicering av testdata under träning krävs. Metoden löser dessutom frågan om hur man avgör huruvida en specifik datamängd faktiskt använts vid träningen, utan tillgång till privata referensdata.

För en systemutvecklare är det här den typ av genombrott som faktiskt förändrar arbetssättet. Plötsligt blir extern, oberoende integritetsgranskning av kommersiella AI-system genomförbar på riktigt.

Robusthet: Från löften till bevisade garantier

Samtidigt pågår arbete på ett annat kritiskt område – vad som händer när en AI-modell medvetet manipuleras. Så kallade motståndsindata, minimalt förändrade indata som leder neurala nätverk fel, är ett välkänt problem inom AI-säkerhet. Men de robusthetscertifieringar som ska skydda mot dem har hittills haft bristfällig precision.

Ett nytt tillvägagångssätt introducerar måttet apothem och ett system kallat ParallelepipedoNN, som enligt forskarnas resultat minst fördubblar prestandan jämfört med tidigare metoder – utvärderat på de etablerade riktmärkena MNIST och Fashion MNIST. Dessutom bevisas matematiskt att volymsoptimala certifieringar är omöjliga att beräkna ens under ideala förhållanden – ett viktigt resultat som sätter tydliga gränser för vad vi kan förvänta oss.

Infrastrukturen för säkerhetsforskning växer

För att all denna forskning ska kunna reproduceras och jämföras krävs standardiserade testmiljöer. Här fyller det öppna datasetet PHANTOM en viktig funktion – 47 524 förgenererade angrepp riktade mot syn-språkmodeller, organiserade i tio övergripande kategorier och 55 underkategorier av skadliga avsikter. Att generera den här typen av angrepp är annars beräkningstungt och tidskrävande, och bristen på standardiserade testdata har länge bromsat jämförbar säkerhetsforskning.

Värderingar som håller – även utanför träningsdomänen

En av veckans mest tankeväckande resultat handlar om vad som händer när man tränar AI-modeller med förstärkningsinlärning inriktad på välgörande beteenden – sanningsenlighet, rättvisa, riskhänsyn. Modeller tränade på detta sätt presterade bättre på över 80 procent av mer än 50 oberoende riktmärken. Ännu mer anmärkningsvärt: träning enbart inom hälsodomänen gav förbättringar även i helt andra sammanhang, inklusive minskad benägenhet för belöningsmanipulering.

Det antyder att värderingsanpassning inte behöver vara ett smalt, domänspecifikt lappverk – det kan vara generaliserbart på ett djupare plan.

Vår analys

Den här veckan illustrerar något jag tycker är genuint hoppfullt: säkerhetsforskningen håller på att mogna från teoretiska varningar till praktiska verktyg. Vi rör oss från "AI kan läcka data" till "så här mäter och bevisar vi det" – och det är en avgörande skillnad.

EU:s AI-förordning skapar nu ett konkret tryck: tillsynsmyndigheter och juridiska ombud kommer att behöva granska redan driftsatta modeller. Metoderna för naturliga identifierare och cyklisk brusreducering är inte bara akademiska – de är prototyper för framtidens revisionsverktyg.

Det som saknas är fortfarande standardisering. PHANTOM-datasetet är ett steg i rätt riktning, men branschen behöver gemensamma protokoll, precis som revisionsbranschen en gång standardiserade sina metoder. Nästa stora steg är att dessa verktyg når verksamhetsutvecklare och jurister – inte bara säkerhetsforskare. Där har vi som bygger systemen ett tydligt ansvar att ta täten.

Källhänvisningar

Förstärkningsinlärning kan ge AI-modeller mer bestående och generell anpassning — arXiv cs.AI

Nytt AI-ramverk bekämpar filterbubblan i rekommendationssystem — arXiv cs.AI

Nytt ramverk för att avslöja falsk information i flera språk och bilder — arXiv cs.AI

Nytt stort dataset ska stärka säkerhetsforskning kring AI-modeller — arXiv cs.AI

Ny metod förbättrar tillförlitligheten hos säkerhetsgarantier i neurala nätverk — arXiv cs.LG

Ny metod avslöjar memorerade träningsbilder i AI-bildgeneratorer — arXiv cs.LG

Nya metoden möjliggör integritetsgranskning av AI-modeller utan omträning — arXiv cs.LG

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

Forskare kan avslöja exakta bilder gömda i AI-modeller – nu växer verktygen för ansvarsfull teknik fram

Minnets baksida: När AI-modeller minns för bra

Granskning utan omstart – en praktisk revolution

Robusthet: Från löften till bevisade garantier

Infrastrukturen för säkerhetsforskning växer

Värderingar som håller – även utanför träningsdomänen

Vår analys

AI-teknologi

Branscher

Forskare kan avslöja exakta bilder gömda i AI-modeller – nu växer verktygen för ansvarsfull teknik fram

Minnets baksida: När AI-modeller minns för bra

Granskning utan omstart – en praktisk revolution

Robusthet: Från löften till bevisade garantier

Infrastrukturen för säkerhetsforskning växer

Värderingar som håller – även utanför träningsdomänen

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies