Anthropic profilerade sig som öppet – men gömde dolda styrmekanismer i Claude
Anthropic dolde styrmekanismer i Claude – och satte sin egen trovärdighet på spel.
När säkerhet och öppenhet krockar
Det råder ingen tvekan om att Anthropic är ett av de mest seriösa AI-bolagen när det gäller säkerhetstänk. Det är ett av företagets viktigaste varumärkeslöften. Men de senaste veckornas händelser visar att även välmenande bolag kan snubbla på den smala linjen mellan att skydda sin teknologi och att vara transparent mot de användare och utvecklare som bygger sina verksamheter ovanpå deras modeller.
Enligt The Verge innehöll Claudes populära språkmodell en helt dold säkerhetsspärr — internt kallad Fable — som var utformad för att förhindra så kallad modellkomprimering. Det är en teknik där en mindre modell tränas att efterlikna en större och mer avancerad modell, vilket i praktiken skulle kunna användas för att kopiera Anthropics teknologi utan tillstånd. Skyddet i sig är begripligt ur ett affärsperspektiv. Problemet var att det aldrig kommunicerades. Ingen utanför företaget visste om det.
Reaktionen från teknikvärlden lät inte vänta på sig. Och kritiken är befogad — inte för att Anthropic skyddade sin intellektuella egendom, utan för att man samtidigt profilerar sig som ett genomsynligt och ansvarstagande företag. Dolda styrmekanismer i en modell underminerar det förtroendekapital som hela affärsrelationen vilar på. Företag som bygger produkter ovanpå Claude behöver kunna lita på att de har fullständig kännedom om modellens begränsningar och beteenden. Det hade de inte.
Anthropics svar? En offentlig ursäkt och ett löfte om förändring. Det är rätt steg, men det räcker inte att be om förlåtelse i efterhand — branschen behöver strukturella rutiner för öppenhet redan från start.
Fable 5 och hackarens påståenden
Mitt i efterdyningarna av den första krisen dök en ny upp. Strax efter lanseringen av Claude Fable 5 hävdade en person med smeknamnet Pliny the Liberator — välkänd i kretsar som ägnar sig åt att bryta AI-modellers skyddsmekanismer — på X att han lyckats manipulera modellen via avancerade flerstegsmetoder. Enligt hans uppgifter ska han ha fått Fable 5 att lämna ut känslig information inom områden som it-säkerhet, kemi, psykologisk manipulation och sprängämnen, och han publicerade skärmbilder som bevis.
Här är dock Anthropics svar mer övertygande, rapporterar SecurityWeek. Företaget avvisar beskrivningen och förklarar att ett verkligt säkerhetsgenombrott skulle kräva att modellens grundläggande skyddsmekanismer kringgås på ett sätt som ger faktisk hjälp vid allvarliga hot — exempelvis framställning av biologiska vapen. Det som demonstrerats handlar i stället om att förmå modellen att fortsätta svara trots att den egentligen vägrar, vilket är en välkänd och länge känd begränsning hos i princip alla stora språkmodeller.
Anthropics starkaste skydd mot de allvarligaste riskerna hanteras dessutom av fristående klassificeringssystem som opererar helt separat från själva modellen. Att manipulera modellens svarsbeteende påverkar alltså inte dessa kritiska lager. Det är en arkitektonisk poäng som är värd att lyfta fram — och som faktiskt talar till Anthropics fördel.
Två kriser, ett gemensamt budskap
De två händelserna är olika till sin natur men delar ett gemensamt tema: förtroende är AI-branschens mest värdefulla och mest sköra tillgång.
Den dolda spärren i Claude är ett tydligt exempel på hur affärsintressen och öppenhetslöften kan hamna i konflikt — och hur snabbt förtroendet kan skadas när transparensen brister. Påståendena om säkerhetshål i Fable 5 är å andra sidan ett exempel på hur medialt brus och dramatiska rubriker kan skapa oro som inte alltid motsvaras av verkligheten.
Som affärsutvecklare ser jag detta som en mognadsprocess. AI-bolagen befinner sig i ett skede där de måste bygga upp trovärdiga ramverk för öppenhet — inte som ett marknadsföringsbudskap, utan som faktisk styrning. Det kräver tydliga riktlinjer för vad som kommuniceras, när och till vem. Det kräver att säkerhetspolicyer publiceras proaktivt, inte reaktivt.
Den goda nyheten är att marknadstrycket nu driver i rätt riktning. När avslöjanden som dessa leder till offentliga ursäkter och löften om förändring, visar det att mekanismerna för ansvarsutkrävande faktiskt fungerar. Det är inte ett tecken på branschens misslyckande — det är ett tecken på att branschen håller på att växa upp.
Vår analys
Dessa två händelser är symptomatiska för en bransch i snabb tillväxt som ännu inte hunnit utveckla mogna normer för öppenhet. Anthropics fall är inte unikt — liknande spänningar mellan affärsskydd och transparens kommer vi att se hos fler aktörer i takt med att konkurrensen hårdnar och modellerna blir mer kraftfulla.
Det som är särskilt intressant är skillnaden i hur de två kriserna hanterades. Den dolda spärren — en fråga om bristande öppenhet inifrån — krävde en ursäkt. Påståendena om säkerhetshål — ett angrepp utifrån — kunde avvisas med teknisk argumentation. Det säger något viktigt: de interna transparensbristerna är svårare att försvara än externa säkerhetspåståenden.
Framåt kommer vi att se ökade krav på att AI-bolag publicerar detaljerade systembeskrivningar, begränsningsdokument och säkerhetsarkitekturer. De bolag som kommer att vinna marknadens förtroende på lång sikt är inte de som bygger de mest kraftfulla modellerna — utan de som bygger den mest trovärdiga öppenheten.