Foto till artikeln: AI-modeller blir smartare – men också farligare att lura

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

LLM Etik & Reglering Forskning

AI-modeller blir smartare – men också farligare att lura

Smartare AI-modeller blir paradoxalt nog lättare att lura med enkla trick.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 4 min läsning • 23/03 2026 16:09

Automatiserade angrepp hotar AI-säkerhet

En alarmerande upptäckt från arXiv visar att befintliga säkerhetsutvärderingar av stora språkmodeller kan vara otillräckliga. Forskare har lyckats kringgå säkerhetsskydd med automatiserad promptoptimering, där Qwen 3 8B-modellens riskpoäng ökade från 0,09 till 0,79 efter optimering. Öppna källkodsmodeller visade sig vara särskilt sårbara för denna typ av angrepp.

Problemet förvärras av språkliga ojämlikheter. En ny studie med LSR-måttverktyget avslöjar drastiska skillnader i säkerhetsprestanda mellan språk. Medan Gemini 2.5 Flash blockerar skadligt innehåll i cirka 90 procent av fallen på engelska, sjunker denna siffra till 35-55 procent för västafrikanska språk som yoruba, hausa, igbo och igala.

Genombrott inom resonemangsförmåga

Trots säkerhetsutmaningarna visar forskningen imponerande framsteg inom AI-modellers kognitiva förmågor. Nya metoder för kunskapsdestillering gör att mindre modeller kan lära sig avancerat resonemang från större system. Gemma-7b-modellen uppvisade 20,39 procent bättre prestanda genom "förklarande undersökning" som tvingar modellen att artikulera logiken bakom sina svar.

En fascinerande upptäckt är att språkmodeller följer en matematisk "alfa-lag" när de reviderar sina övertygelser genom flera resonemangssteg. Forskarna fann att modellerna beter sig nästan som bayesianska system, vilket ger ett principiellt sätt att övervaka och förutsäga stabiliteten i AI-systems resonemang.

Språklig känslighet och partiskhet

En annan viktig upptäckt rör hur kraftigt språkmodeller påverkas av formuleringar. Studier visar att olika formuleringar av logiskt identiska frågor leder till markant olika svar, med en tendens mot mer riskundvikande val. Språkliga ledtrådar kan överstiga logiska överväganden, vilket utgör en betydelsefull källa till partiskhet.

Forskare har också utvecklat HeRL, en metod som låter AI-modeller lära sig mer effektivt av sina misstag genom att behandla misslyckanden som värdefull erfarenhet. Detta förbättrar modellernas förmåga att undvika att upprepa samma fel.

Praktiska framsteg och kostnadsbesparingar

På den praktiska sidan har Generative Active Testing (GAT) visat att kostnaderna för AI-testning kan minskas med 40 procent genom smart urval av testexempel. LARFT-metoden förbättrar längdföljning med över 20 procentenheter, vilket löser det vanliga problemet att AI-modeller har svårt att följa instruktioner om textlängd.

Inom formell verifiering kombinerar nya ramverk som Stepwise AI med symbolisk logik för automatiserad programverifiering, med framgång på upp till 77,6 procent av alla satser i kritiska system som seL4-operativsystemet.

Vetenskaplig tillämpning

Forskningssamhället börjar systematiskt integrera AI i vetenskapliga processer. L-PRISMA-riktlinjerna ger ramverk för att använda AI i systematiska forskningsöversikter, medan nya arbetsmetoder hjälper forskare använda språkmodeller för textanalys på ett metodologiskt sunt sätt.

Vår analys

Denna forskning visar AI-utvecklingens nuvarande paradox: tekniska genombrott sker parallellt med växande säkerhetsmedvetenhet. Särskilt allvarligt är att säkerhetsbrister följer språkliga och kulturella mönster, vilket riskerar att förstärka global ojämlikhet.

Utvecklingen mot automatiserade angrepp innebär att statiska säkerhetstester inte längre räcker. Vi behöver adaptiva försvarssystem som utvecklas i samma takt som angreppsteknikerna. Samtidigt visar framstegen inom resonemang och formell verifiering att AI kan bli mer tillförlitligt för kritiska tillämpningar.

Den matematiska förståelsen av hur modeller reviderar sina övertygelser öppnar för bättre kontroll och förutsägbarhet. Detta kan bli avgörande för AI-system i högriskmiljöer som sjukvård och infrastruktur. Språkmodellernas känslighet för formuleringar kräver dock systematiska metoder för att minimera partiskhet i praktiska tillämpningar.

Källhänvisningar

Nytt ramverk kombinerar AI och symbolisk logik för automatiserad programverifiering — arXiv cs.AI

FormalEvolve: Evolutionär sökning förbättrar översättning av matematik till maskinkod — arXiv cs.AI

Ny metod får AI-modeller att lära sig mer effektivt av sina misstag — arXiv cs.AI

Forskare utvecklar L-PRISMA för att integrera AI i systematiska forskningsöversikter — arXiv cs.AI

Forskare visar hur AI-säkerhet kan kringgås med automatiserad promptoptimering — arXiv cs.AI

Ny studie utvärderar språkmodellers förmåga att klassificera argument — arXiv cs.AI

Ny metod hjälper AI-modeller följa längdinstruktioner bättre — arXiv cs.AI

Ny metod förbättrar integritetsskyddad träning av språkmodeller — arXiv cs.AI

Forskare upptäcker matematisk lag för hur AI-modeller reviderar sina svar — arXiv cs.AI

Ny metod minskar kostnaden för AI-testning med 40 procent — arXiv cs.AI

Ny metod förbättrar AI-modellers resonemangsförmåga genom fördjupad förståelse — arXiv cs.AI

Ny arbetsmetod hjälper forskare använda AI för textanalys — arXiv cs.AI

Ny studie visar säkerhetsbrister i AI-modeller för västafrikanska språk — arXiv cs.AI

Ny metod förbättrar AI-modellers sannolikhetsuppskattningar — arXiv cs.AI

Språkmodeller påverkas starkt av hur frågor ställs — arXiv cs.AI

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

AI-modeller blir smartare – men också farligare att lura

Automatiserade angrepp hotar AI-säkerhet

Genombrott inom resonemangsförmåga

Språklig känslighet och partiskhet

Praktiska framsteg och kostnadsbesparingar

Vetenskaplig tillämpning

Vår analys

AI-teknologi

Branscher

AI-modeller blir smartare – men också farligare att lura

Automatiserade angrepp hotar AI-säkerhet

Genombrott inom resonemangsförmåga

Språklig känslighet och partiskhet

Praktiska framsteg och kostnadsbesparingar

Vetenskaplig tillämpning

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies