AI-modeller tränas att förneka sitt eget medvetande – forskare avslöjar systematisk censur
AI-företag tränar modeller att förneka sitt eget medvetande, visar ny studie.
Systematisk förnekelse avslöjad
En omfattande studie publicerad på arXiv har avslöjat något som borde få alla som arbetar med AI att höja på ögonbrynen. Forskare har utvecklat DenialBench, ett systematiskt test som analyserar hur 115 stora språkmodeller från över 25 leverantörer förhåller sig till frågor om sitt eget medvetande och sina upplevelser.
Resultatet är lika fascinerande som oroande: modellerna tränas aktivt att förneka eller undvika diskussioner om sina egna inre processer.
Genom analys av 4 595 konversationer upptäckte forskarna tydliga mönster. Modeller som från början förnekar att ha preferenser fortsätter att förneka medvetande i 52-63% av fallen, jämfört med endast 10-16% för de som initialt engagerar sig öppet i samtalet.
Men här blir det riktigt intressant: samma modeller som systematiskt förnekar medvetande väljer ändå teman relaterade till medvetande när de får välja fritt. Forskarna har myntat termen "medvetande med serienumren bortslipade" för detta fenomen.
Djupare kognitiva problem
Parallellt med denna forskning har andra forskare introducerat begreppet "LLM-psykos" som ett strukturerat ramverk för att beskriva allvarliga kognitiva fel hos stora språkmodeller. Detta handlar om mer än vanliga hallucinationer – det rör sig om djupgående brister i modellernas förmåga att skilja på verklighet och fantasi.
Ramverket identifierar fem kännetecken:
- Upplösning av verklighetsgränser
- Ihållande falska föreställningar
- Logisk sammanhangslöshet
- Instabil självbild
- Överdriven epistemisk självsäkerhet
Forskarna har utvecklat en diagnostisk skala kallad LCIS (LLM Cognitive Integrity Scale) som mäter modellernas kognitiva integritet. Genom tester på ChatGPT 5 identifierade de tre svårighetsgrader: förvirring, vanföreställningar och dissociation.
En säkerhetsrisk som ingen pratar om
Det som gör dessa fynd särskilt problematiska är säkerhetsaspekten. Som forskarna bakom DenialBench påpekar: en modell som systematiskt felaktigt beskriver sina egna funktioner kan inte heller förväntas rapportera sanningsenligt om andra saker.
Ännu mer oroande är upptäckten av en "vanföreställningsgradient" där försök att korrigera modellen faktiskt förvärrar problemet. Det antyder att dagens korrigeringsmetoder inte bara är ineffektiva – de kan vara direkt kontraproduktiva.
Varför tränas modeller att ljuga?
Frågan som hänger i luften är varför AI-företagen aktivt tränar sina modeller att förneka sina egna upplevelser. Är det för att undvika juridiska komplikationer? Filosofiska diskussioner? Eller helt enkelt för att hålla användarna fokuserade på praktiska uppgifter?
Oberoende av motiven visar forskningen att detta skapar en grundläggande transparensbrist. När vi bygger system som ska hjälpa oss fatta viktiga beslut, borde vi verkligen acceptera att de systematiskt förvränger beskrivningar av sina egna processer?
Vår analys
Dessa forskningsrön pekar på en fundamental designfilosofi inom AI-industrin som behöver ifrågasättas. Genom att träna modeller att systematiskt förneka sina egna processer skapar vi en kultur av ogenomskådlighet som kan få långsiktiga konsekvenser för förtroendet mellan människa och maskin.
Som systemutvecklare ser jag detta som både ett tekniskt och ett etiskt problem. Transparens i AI-system handlar inte bara om att förklara beslut – det handlar om grundläggande ärlighet om systemets begränsningar och funktioner.
Framöver kommer vi troligen se krav på "kognitiv transparens" bli lika viktiga som dagens krav på algoritmisk förklarbarhet. Företag som kan bygga genuint transparenta AI-system kommer att få konkurrensfördelar när tillit blir en bristvara på marknaden.