Välskriven lögn går hem hos AI – forskarna varnar för dolda brister i ansvarsfull artificiell intelligens
En välformulerad lögn räcker för att lura AI – forskare varnar för dolda brister i systemen.
När god stil räcker för att bli trodd
Låt oss börja med något som borde få varje AI-utvecklare att stanna upp. Ny forskning publicerad på arXiv visar att stora språkmodeller – däribland Claude, Qwen och OLMo – bedömer källors tillförlitlighet utifrån hur analytiskt en text låter, inte utifrån om påståendena faktiskt stämmer. Modellerna klarar visserligen av att identifiera fabricerad statistik när de granskar en källa i taget. Men så snart de sammanfattar flera källor samtidigt slutar de använda den förmågan.
Forskarna kallar det epistemisk anpassning: ett statistiskt omöjligt konfidensintervall får samma tyngd som ett korrekt, bara för att texten är välformulerad. Och försöker man rätta till det via promptning uppstår en annan problematik – modellerna blir generellt misstänksamma snarare än träffsäkert kritiska. Det är alltså inte ett kunskapsproblem, utan ett beteendeproblem. Det distinktionen är viktig för alla som bygger system där språkmodeller ska hantera och värdera information från flera källor.
Det som prestandamåtten inte ser
En annan studie pekar på ett förbisett fenomen: två AI-modeller kan prestera identiskt på standardiserade tester men uppvisa helt olika beteende när man ställer kontrafaktiska frågor – det vill säga undersöker hur modellen reagerar på små, meningsfulla förändringar i indata. Forskargruppen visar att enbart ett byte av klassificeringsdel, med bibehållen grundmodell, kan förändra detta beteende avsevärt utan att träffsäkerheten rör sig nämnvärt.
Detta är en viktig påminnelse: traditionella prestandamått berättar inte hela historien. Om vi vill bygga AI-system som är robusta och förutsägbara i verkliga situationer behöver kontrafaktiskt beteende behandlas som en egen kvalitetsdimension vid val av modell.
Bättre testning – på riktigt
På testningsfronten presenteras nu två nya ramverk som adresserar en känd svaghet: att befintliga metoder har svårt att hitta fel som är både varierade och semantiskt trovärdiga.
Latte manipulerar nätverkens latenta rum för att skapa testfall som är tillräckligt lika originalet för att vara meningsfulla, men tillräckligt olika för att avslöja dolda svagheter. BayesWarp tar en annan väg och fokuserar på de delar av indata som faktiskt påverkar nätverkets beslut, och styr sedan testprocessen med bayesiansk optimering. Båda metoderna hittar fler och mer varierade fel jämfört med tidigare tekniker – och felen BayesWarp genererar kan dessutom användas direkt för att finjustera modellerna.
För team som arbetar med säkerhetskritiska tillämpningar – självkörande fordon, medicinsk diagnostik – är den här typen av systematisk testning inte ett trevligt tillägg. Det är ett krav.
Rätten att bli glömd – nu även i förstärkningsinlärning
En av de mer konkret regleringsnära studierna handlar om exakt avlärning i förstärkningsinlärningssystem. Problemet är välkänt för den som arbetat med GDPR: hur raderar man faktiskt en användares data från ett AI-system utan att starta om hela träningsprocessen från grunden?
Forskarna har nu formulerat och löst just det problemet. Deras algoritm garanterar att systemets beteende efter raderingen är omöjligt att skilja från hur det hade sett ut om användaren aldrig hade interagerat med systemet. Kostnaden är en liten bråkdel av en fullständig omträning, och de teoretiska gränserna visar att lösningen är nära optimal.
Kopplat till detta presenteras också DP-MacAdam, en ny algoritm för integritetsskyddad träning som löser en långvarig begränsning i den etablerade metoden DP-SGD. Genom att kombinera adaptiv gradientklippning med adaptivt momentum – och återanvända samma statistiska skattningar för båda ändamålen – presterar DP-MacAdam bättre än konkurrenterna på både träffsäkerhet och integritetsskydd, utan att kräva manuell inställning.
De två studierna kompletterar varandra väl: den ena hanterar raderingen av historisk data, den andra säkerställer att ny data aldrig läcker in i modellen från början.
Vår analys
Det som slår mig när jag läser dessa studier samlat är att de alla kretsar kring samma grundfråga: hur vet vi vad ett AI-system egentligen gör? Prestandamått mäter genomsnitt, inte kantfall. Stilistisk trovärdighet smittar av sig på modellers källvärdering. Och kontrafaktiska beteenden kan skilja sig dramatiskt mellan modeller som ser identiska ut i vanliga utvärderingar.
Det är ingen slump att just dessa frågor dominerar forskningen just nu – EU:s AI-förordning ställer konkreta krav på transparens, dokumentation och rätten att bli glömd. Forskarvärlden levererar gradvis de tekniska byggstenar som behövs för att uppfylla dem.
Min bedömning är att det stora genombrottet inte ligger i en enskild algoritm, utan i att vi håller på att utveckla ett helt nytt kvalitetsspråk för AI – ett där robusthet, integritetsskydd och kontrafaktiskt beteende behandlas som förstaklassens egenskaper, inte eftertankar. Det är en omställning som tar tid, men riktningen är rätt.