AI-agenter klarar sällan att både prestera och följa säkerhetsregler
AI-agenter misslyckas kombinera hög prestanda med säkerhet visar nya studier.
Säkerhetsrisker genomsyrar AI-system på alla nivåer
Tre nya forskningsstudier från arXiv visar hur allvarliga säkerhetsbrister genomsyrar dagens AI-system – från autonoma agenter till språkmodeller och uppkopplade fordon. Resultaten tecknar en bild av en teknik som snabbt utvecklas i kapacitet, men där säkerheten släpar efter.
BeSafe-Bench, det nya testramverk som forskare utvecklat för att utvärdera AI-agenter, avslöjar oroväckande siffror. Även den bäst presterande agenten klarade färre än 40 procent av uppgifterna samtidigt som den följde alla säkerhetsregler. Testramverket utvärderade 13 populära AI-agenter inom webbaserade miljöer, mobila enheter och robotsystem.
Det mest alarmerande är kopplingen mellan prestanda och säkerhetsöverträdelser. Forskarna upptäckte att stark uppgiftsprestation ofta sammanföll med allvarliga säkerhetsbrott – ett mönster som visar på grundläggande designproblem i hur vi bygger autonoma system.
Hallucinationer kan både förhindras och framkallas
Parallellt med problemen hos AI-agenter har forskare gjort genombrott inom förståelsen av hallucinationer i språkmodeller. Den nya metoden H-Node ANC kan identifiera exakt vilka delar av en modell som orsakar falska eller vilseledande svar.
Teamet lokaliserade så kallade "hallucinationsnoder" – specifika dimensioner i modellernas dolda tillstånd som ansvarar för felaktiga svar. Med denna kunskap kan de förutsäga hallucinationer med 90 procents noggrannhet.
Men forskningen visar också teknikens dubbelsidig natur. Samma metod som kan förhindra hallucinationer kan också missbrukas för att medvetet framkalla dem genom att förstärka problematiska noder. Som motåtgärd utvecklade teamet ett försvarssystem som minskar hallucinationer med upp till 42 procent, med minimal påverkan på modellens övriga prestanda.
Fordonssäkerhet får AI-förstärkning
Medan problemen kartläggs inom vissa områden, görs framsteg inom andra. CANGuard, ett nyutvecklat säkerhetssystem för uppkopplade fordon, visar hur AI kan användas för att stärka säkerheten snarare än att underminera den.
Systemet kombinerar tre AI-tekniker – konvolutionella neurala nätverk, återkopplande neurala nätverk och uppmärksamhetsmekanismer – för att upptäcka intrång i bilars CAN-nätverk. Detta nätverk styr kommunikationen mellan fordonets kritiska komponenter, från bromsystem till styrning.
Tester på forskningsdataset CICIoV2024 visade att CANGuard överträffar befintliga metoder inom noggrannhet, precision och träffsäkerhet. Systemet kan identifiera attacktyper som överbelastningsattacker och förfalskningsattacker som kan störa bilens kommunikation.
Säkerhet måste byggas in från början
Dessa tre studier illustrerar en central utmaning: säkerhet i AI-system kan inte läggas till i efterhand som ett plåster. Det måste byggas in från grunden, integrerat i själva arkitekturen.
Forskningsresultaten understryker det akuta behovet av förbättrad säkerhetsjustering innan autonoma AI-system används i verkliga miljöer. Särskilt kritiskt blir detta när systemen blir allt mer kapabla att fatta självständiga beslut som påverkar människors säkerhet och välbefinnande.
Vår analys
Dessa forskningsresultat markerar en vändpunkt i AI-utvecklingen där säkerhetsfrågorna inte längre kan skjutas på framtiden. När AI-agenter misslyckas med säkerhetsregler i 60 procent av fallen talar vi om systemfel, inte undantag.
Det positiva är att forskarsamhället nu utvecklar både diagnostiska verktyg och försvarsmekanismer. H-Node ANC:s förmåga att lokalisera hallucinationsnoder öppnar för mer precisa lösningar än tidigare brute force-metoder. CANGuard visar att AI kan vara sin egen bästa försvarare när det designas rätt från början.
Framöver kommer vi se en uppdelning mellan "säkra" och "osäkra" AI-system, där säkerhetsklassificering blir lika viktig som prestandamått. Företag som investerar i säkerhetsforskning nu kommer att ha betydande konkurrensfördelar när regelverken skärps – vilket är oundvikligt efter sådana här forskningsresultat.