OpenAI:s GPT-modeller började använda trollmetaforer i kod – avslöjar farorna med AI-träning
OpenAI:s GPT-modell utvecklade bisarr trollmetafor-vana som spred sig till kodverktyg.
När AI började drömma om troll – OpenAI avslöjar märklig träningsbugg
Det är inte ofta man hör talas om AI-modeller som blir besatta av mythologiska varelser, men det är precis vad som hände OpenAI:s kodningsmodell. Efter att tekniktidningen Wired avslöjat att företaget tvingats instruera sina modeller att "aldrig tala om tomtar, troll, tvättbjörnar eller andra djur eller varelser", har OpenAI nu publicerat en fascinerande förklaring på sin webbplats.
Problemet började med GPT-5.1-modellen, särskilt när användare aktiverade den så kallade "nördiga" personlighetsinställningen. Enligt The Verge började modellen använda metaforer med dessa varelser, och problemet förvärrades systematiskt med varje ny modellversion. Det som började som en kanske charmig egenskap utvecklades snart till något som påverkade modellens användbarhet.
Förstärkningsinlärning gick snett
Orsaken till den märkliga besattheten ligger i förstärkningsinlärningens grundläggande mekanik. OpenAI:s träningssystem belönade de udda metaforerna när den nördiga personligheten användes – något som i sig kanske verkade harmlöst. Men här träder en viktig egenskap hos förstärkningsinlärning fram: den garanterar inte att inlärda beteenden förblir begränsade till sin ursprungliga kontext.
"När väl en stilistisk egenhet belönas kan senare träning sprida eller förstärka den på andra håll", förklarar OpenAI i sitt blogginlägg. Detta är en perfekt illustration av hur komplexa system kan utveckla oförutsägbara beteenden när olika träningskomponenter interagerar.
Problemet spred sig
När OpenAI insåg problematiken och lade ner den nördiga personligheten i mars, minskade referenserna till mythologiska varelser – men försvann inte helt. Tvärtom hade beteendet redan spridit sig till GPT-5.5 i kodningsverktyget Codex, där utvecklare plötsligt fick kodkommentarer kryddade med trollreferenser.
Detta tvingade företaget att implementera mycket specifika instruktioner för att stoppa beteendet helt. Ett exempel på hur negativ rättning – att explicit säga vad en modell inte ska göra – ibland blir nödvändig när positiv träning gett oönskade sidoeffekter.
En läxa i systemkomplexitet
Denna incident belyser något fundamentalt viktigt om moderna AI-system: de är komplexa nog att utveckla emergenta beteenden som inte alltid är förutsägbara från träningsdata eller belöningssignaler. Som systemutvecklare känner jag igen detta från andra komplexa system – små förändringar i en del kan få oväntade konsekvenser långt ifrån den ursprungliga implementationen.
För OpenAI blev detta en värdefull läxa i hur träningspipelines måste utformas med större försiktighet kring vad som belönas och under vilka omständigheter. Det räcker inte att isolera specifika beteenden till specifika kontexter – man måste också överväga hur dessa beteenden kan spridas genom systemet.
Incidenten visar också på vikten av transparent kommunikation när saker går fel. Istället för att mörka problemet valde OpenAI att förklara både vad som hände och varför – något som bidrar till branschens gemensamma förståelse av dessa utmaningar.
Vår analys
Denna incident är mer betydelsefull än den kanske först verkar. Den illustrerar en grundläggande utmaning med förstärkningsinlärning – att beteenden kan spridas och förstärkas på sätt som träningsingenjörerna inte förutsett. Detta blir särskilt relevant när AI-modeller blir mer komplexa och används i allt fler sammanhang.
Framåt kommer detta sannolikt att driva utvecklingen av mer sofistikerade träningsmetoder som bättre kan kontrollera och isolera specifika beteenden. Vi kan också förvänta oss att andra AI-företag börjar vara mer transparenta om liknande "konstiga" beteenden i sina modeller.
Längre sikt pekar detta på behovet av robustare säkerhetsmekanismer i AI-träning. Om en harmlös obsession för troll kan sprida sig okontrollerat, vad händer med mer problematiska beteenden? OpenAI:s öppenhet här skapar ett värdefullt prejudikat för hur branschen ska hantera och kommunicera om oförutsedda AI-beteenden.