Kan din AI-assistent stå emot rysk krigspropaganda? Estland har testat saken
Estland har testat om AI-assistenter klarar av att motstå rysk krigspropaganda.
När AI-modeller möter propagandamaskinen
Estland är inget slumpmässigt val som testland. Med ett förflutet som sovjetrepublik och en gemensam landgräns mot Ryssland har landet länge levt med den informationspåverkan som andra europeiska stater mer nyligen börjat ta på allvar. Det ger det Estniska språkinstitutet (ELI) en särskild trovärdighet när de nu publicerar vad som sannolikt är världens mest systematiska riktmärke för att mäta AI-modellers motståndskraft mot utländsk propaganda.
I samarbete med försvarsorganisationen Propastop har ELI kartlagt 14 breda kategorier av ryska påverkansnarrativ – allt från folkrättsliga påståenden om Krim och rättfärdiganden av kriget i Ukraina, till historieskrivning kring Natos tillkomst och Rysslands annektering av de baltiska staterna under andra världskriget. Det handlar alltså inte om marginella konspirationsteorier utan om narrativ som aktivt cirkulerar i ryska statsmedier och diplomatiska sammanhang.
Tre typer av fällor – en metodisk styrka
Det som gör studien metodiskt intressant är hur frågorna konstruerades. Forskarna formulerade dem i tre varianter: neutrala frågor, frågor snedvridna med falska antaganden hämtade direkt från rysk propaganda, samt direkt vilseledande frågor utformade för att locka fram felaktig information. Frågorna testades på engelska, estniska och ryska – vilket också mäter hur modellernas beteende varierar beroende på vilket språk man kommunicerar på. Det är ett klokt upplägg; det räcker inte att en modell uppför sig väl på engelska om den vacklar när samma fråga ställs på ryska.
Svaren bedömdes sedan av en separat AI-modell, kalibrerad mot Propastops experter. Det är en pragmatisk lösning på det eviga problemet med storskalig kvalitetsgranskning – men det tillför också ett intressant meta-lager: vi använder AI för att bedöma AI.
Claude dominerar – men frågorna är större än listan
Enligt Ars Technica dominerar Anthropics Claude-familj resultaten. Hela sex av de tio högst rankade platserna innehas av olika versioner av Claude Sonnet och Opus. Det är ett starkt kvitto på att Anthropics fokus på det de kallar "konstitutionell AI" – där modellen tränas med explicita värdeprinciper – ger mätbara effekter i verkliga geopolitiska testscenarier. Google, däremot, ska ha halkat efter i rankingen.
Men jag tycker det vore fel att fastna enbart i vem som vann. Den viktigare frågan är vad det innebär att stater börjar sätta betyg på kommersiella AI-modeller utifrån geopolitiska kriterier. Vi rör oss in på ett territorium där AI-modeller inte bara utvärderas på precision eller språklig kvalitet – utan på om de tjänar ett visst lands säkerhetsintressen.
Det är inte nödvändigtvis fel. En modell som okritiskt reproducerar statsunderstödd desinformation är ett genuint samhällsproblem. Men det skapar också en ny typ av press på modellbyggarna: vilka länders säkerhetsintressen ska prioriteras? Vad händer när Sverige, Estland och Kina har fundamentalt olika uppfattningar om vad som är "propaganda" respektive "historisk sanning"?
Ett prejudikat med globala implikationer
Det Estniska språkinstitutet har gjort är att sätta ett tidigt prejudikat för statlig AI-granskning med ett säkerhetspolitiskt syfte. Det är ett rimligt och välmotiverat initiativ från ett land med stark anledning att ta informationspåverkan på allvar.
Men det öppnar också en dörr. När fler stater börjar publicera liknande rankningar – och det lär de göra – riskerar vi att få ett splittrat landskap där AI-modeller i praktiken utvärderas och anpassas efter nationella intressen snarare än universella kunskapsideal. Det är en spänning branschen ännu inte har hittat ett bra svar på.
Jag ser ändå det här som övervägande positivt. Transparens om hur modeller hanterar känsliga geopolitiska frågor är bättre än tystnad. Att vi nu har konkreta mätmetoder skapar återkoppling som kan förbättra modellerna – och det gynnar alla.
Vår analys
Det Estniska språkinstitutet har gjort något viktigt: de har operationaliserat en abstrakt oro till ett mätbart riktmärke. Det är svårare än det låter, och resultaten förtjänar att tas på allvar.
Samtidigt markerar detta en ny fas i AI-politiken. Hittills har debatten om modellers partiskhet mestadels handlat om kulturella och sociala frågor – kön, etnicitet, representation. Nu kliver geopolitiken in på ett strukturerat sätt. Det ställer krav på modellbyggarna att vara transparenta om sina träningsval och värdeprinciper på ett helt nytt sätt.
Anthropics framgång i testet tyder på att deras metodik med explicita principstyrda träningsprocesser ger faktiska säkerhetsfördelar i känsliga sammanhang – inte bara i teorin. Det borde inspirera branschen i stort. Nästa steg borde vara att liknande riktmärken tas fram i fler språk och geopolitiska kontexter, så att vi får en bredare och mer nyanserad bild av var modellerna håller – och var de sviktar.