Foto till artikeln: AI-agenter som samarbetar utan mänsklig kontroll – forskningen varnar: säkerheten måste byggas in från grunden

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

LLM Etik & Reglering Forskning Agenter & Automation

AI-agenter som samarbetar utan mänsklig kontroll – forskningen varnar: säkerheten måste byggas in från grunden

Autonoma AI-agenter samarbetar okontrollerat – och säkerheten måste byggas in från start.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 5 min läsning • 21/05 2026 02:46

När agenter börjar prata med varandra

Det var länge sedan en enskild AI-modell räckte. I dag byggs system där flera autonoma agenter samarbetar, delegerar uppgifter och fattar beslut i kedjor — utan att en människa nödvändigtvis håller i rodret. Det är en häpnadsväckande kapacitetsutveckling, men den för med sig risker som forskarvärlden nu på allvar börjar kartlägga.

En ny artikel på arXiv sammanfattar läget tydligt: befintliga säkerhetsmetoder är designade för enskilda agenter och håller enkelt inte när agenter börjar samarbeta i nätverk. Forskarna beskriver hot som illvillig sammansättning av agenter, semantiska missförstånd och kaskadliknande driftsfel som kan sprida sig genom hela systemet. Slutsatsen är skarp — förtroende och säkerhet måste arkitekteras in från början, inte sys in i efterhand.

Hallucinationer blir en behörighetsfråga

En av de mer oroande insikterna kommer från forskning kring multimodala agenter — system som tolkar skärmdumpar, webbsidor och dokument för att sedan agera. När en sådan agent hallucinar, det vill säga drar felaktiga slutsatser om vad den ser, kan det resultera i konkreta obehöriga åtgärder: ett klick på fel knapp, ett e-postmeddelande som skickas, en överföring som genomförs.

Forskare har formaliserat detta som hallucination-to-action conversion och presenterar en motåtgärd kallad ECA (evidence-carrying multimodal agents). Principen är elegant: modellen får föreslå en åtgärd, men ett externt bevisunderlag måste godkänna den innan den utförs. I tester med 1 900 angrepp sjönk andelen obehöriga genombrott från 15 procent till 1,3 procent. Det är inte längre bara ett kvalitetsproblem — det är ett säkerhetsproblem.

Tre kategorier: tillåt, blockera eller fråga

En annan forskargrupp angriper problemet från ett annat håll: hur vet ett system när det ska agera självständigt och när det ska fråga en människa? Deras matematiska ramverk låter systemet kontinuerligt lära sig användarens risktolerans genom binär återkoppling, och kategoriserar sedan möjliga åtgärder i just tre grupper — tillåt, blockera eller fråga. En gaussisk process modellerar osäkerheten och triggar mänsklig granskning precis när utgången är som mest oviss. Det är ett klokt sätt att tänka på autonomi: inte som ett på/av-läge, utan som ett spektrum kalibrerat mot verklig risk.

Konflikter i agentlag sprider fel — tills nu

När flera agenter samarbetar och är oense om svaret har felen historiskt sett spridits okontrollerat. Ramverket SIGMA löser detta genom att bygga en signerad relationsgraf som explicit modellerar förtroende, konflikt och neutralitet mellan agenter. Tillförlitliga agenter får större genomslag; motstridiga signaler dämpas. I tester på sex riktmärken med flera underliggande språkmodeller överträffar SIGMA befintliga metoder konsekvent — ett välkommet framsteg för den som bygger system där specialiserade agenter förväntas samarbeta.

Samarbete utan att röja känslig information

En praktisk utmaning i verkliga driftsättningar är att agenter ofta tillhör olika organisationer eller leverantörer. Algoritmen IC-Q, som bygger på förstärkningsinlärning, låter agenter samarbeta i komplexa arbetsflöden utan att dela känslig information. Vid varje överlämning utbyts bara ett enda numeriskt värde. Forskarna presenterar dessutom ett matematiskt bevis på att metoden faktiskt konvergerar mot en god lösning — något som ger en teoretisk trygghet som ofta saknas i det här fältet.

Stor förbättringspotential kvarstår

Trots alla framsteg visar riktmärket DecisionBench, som testar elva AI-modeller från sju leverantörer, att vi har långt kvar. Förmågan att välja rätt agent för rätt uppgift varierar från 7,5 till 29,5 procents träffsäkerhet. Det teoretiska taket för perfekt delegering ligger 15–31 procentenheter över vad som faktiskt uppmätts. Det är ett tydligt kvitto på att AI-orkestrering fortfarande är ett olöst problem — och ett område med enorm potential för den som vill bidra.

Vår analys

Det slående med den här forskningsvågen är inte att problemen är nya — det är att de nu formaliseras, kvantifieras och angrips med konkreta lösningar. Det är ett tecken på att fältet mognar.

Jag ser ett genomgående tema: autonomi kräver ansvarsarkitektur. Precis som vi inte bygger broar utan att räkna på laster kan vi inte driftsätta agentssystem utan att räkna på risker. Ramverk som ECA, SIGMA och det förtroendekalibrerande systemet från källa 3 är inte begränsningar på AI:ns kapacitet — de är förutsättningar för att kapaciteten ska kunna användas i verkligheten.

Utvecklingen pekar mot system där säkerhet är en förstaklassens egenskap, inbyggd i arkitekturen snarare än applicerad som ett lager utanpå. Det är rätt riktning. De organisationer som förstår detta tidigt — och börjar bygga därefter — kommer att ha ett betydande försprång när autonoma agenter på allvar kliver in i kritiska verksamheter.

Källhänvisningar

Forskning: Förtroende i AI-agentsnätverk måste byggas in från grunden — arXiv cs.AI

Nytt riktmärke mäter AI-agenters förmåga att delegera uppgifter — arXiv cs.AI

Nytt ramverk låter AI-agenter samarbeta utan central överblick — arXiv cs.AI

Nytt ramverk kalibrerar förtroende för autonoma AI-agenter — arXiv cs.AI

Ny säkerhetsarkitektur stoppar AI-agenter från att agera på falska uppfattningar — arXiv cs.AI

MOCHA: Ny metod optimerar AI-agenters förmågor med flermålssökning — arXiv cs.AI

Nytt ramverk gör AI-agenter mer konfliktmedvetna — arXiv cs.AI

Nytt ramverk förbättrar AI-agents inlärning från miljöåterkoppling — arXiv cs.AI

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

AI-agenter som samarbetar utan mänsklig kontroll – forskningen varnar: säkerheten måste byggas in från grunden

När agenter börjar prata med varandra

Hallucinationer blir en behörighetsfråga

Tre kategorier: tillåt, blockera eller fråga

Konflikter i agentlag sprider fel — tills nu

Samarbete utan att röja känslig information

Stor förbättringspotential kvarstår

Vår analys

AI-teknologi

Branscher

AI-agenter som samarbetar utan mänsklig kontroll – forskningen varnar: säkerheten måste byggas in från grunden

När agenter börjar prata med varandra

Hallucinationer blir en behörighetsfråga

Tre kategorier: tillåt, blockera eller fråga

Konflikter i agentlag sprider fel — tills nu

Samarbete utan att röja känslig information

Stor förbättringspotential kvarstår

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies