AI-agenter börjar hitta sina egna verktyg – och ingen pekade ut vägen
AI-agenter hittar nu sina egna verktyg – helt utan mänsklig vägledning.
Agenter som hittar sina egna verktyg
Föreställ dig en AI-agent som tilldelas en uppgift och sedan självständigt måste lista ut vilka programvarutjänster den behöver för att lösa den – utan att någon människa har pekat ut verktygen i förväg. Det är precis det scenariot som driver två nya forskningsresultat som publicerats på arXiv denna vecka.
Det ena systemet, A2X (Agent-to-Anything), angriper ett välkänt problem: när man stoppar in ett helt tjänsteregister i en språkmodells kontextfönster tappar modellen bort sig. Fenomenet kallas "Lost-in-the-Middle" och är en av de mer irriterande egenskaperna hos stora språkmodeller. A2X löser det genom att organisera tillgängliga tjänster i en hierarkisk taxonomi som agenten navigerar steg för steg – ungefär som ett bibliotekssystem där man börjar med avdelning, sedan hylla, sedan bok. Resultatet är imponerande: 6,2 procentenheters förbättrad träffsäkerhet jämfört med att mata in hela registret, till en niondel av kostnaden i antal beräknade symboler. Jämfört med det bästa inbäddningsbaserade alternativet landar förbättringen på hela 20 procentenheter.
Det andra systemet, CoHyDE, tar ett annat grepp på samma grundproblem: klyftan mellan hur användare ställer frågor (vardagligt språk) och hur API-kataloger är skrivna (teknisk fackterminologi). Lösningen är elegant – en sökkodare och en omskrivande språkmodell tränas tillsammans i ett ömsesidigt beroende system där de kontinuerligt förbättrar varandra. På en testkatalog med ungefär 10 000 verktyg gav tre träningsrundor 6,3 procentenheters förbättring för vagt formulerade frågor. Poängen är att inget av systemen presterar lika bra på egen hand – samträningen är själva kärnan.
Fabriken som tänker snabbt och djupt samtidigt
Ett av de mer praktiskt relevanta resultaten den här veckan kommer från industriell automation. Stora språkmodeller kan resonera komplext, men de är alldeles för långsamma för styrsystem som behöver fatta beslut på millisekunder. Det är ett klassiskt dilemma inom realtidssystem – och RACE-Sched löser det med en tvådelad arkitektur.
Den ena strömmen hanterar omedelbara beslut med snabba symboliska tumregler. Den andra strömmen låter en stor språkmodell arbeta i bakgrunden och kontinuerligt förfina dessa regler. Nya regler testas i en sandlådemiljö innan de aktiveras i skarpt läge. Det är en arkitekturellt välbekant princip – snabb kontra djup bearbetning – men tillämpningen på fabriksstyrning med språkmodeller som analytisk motor är ett tydligt steg framåt. Utvärderingar visar att RACE-Sched överträffar metoder baserade på förstärkningsinlärning och övriga språkmodellsansatser.
I samma anda automatiserar VFEAgent hela arbetsflödet för finita elementanalys – en tidskrävande ingenjörsprocess för att simulera hur konstruktioner beter sig under belastning. Systemet tar emot både bilder och textbeskrivningar och genererar fysikaliskt korrekta simuleringar med inbyggd självfelsökning. Det frigör ingenjörer från ett tungt manuellt analysarbete och är ett konkret exempel på hur agenter börjar ta sig an fackspecialiserade uppgifter som tidigare krävde djup domänexpertis.
Agenten som formar vad motståndaren tror
Mer tankeväckande är resultaten kring D-BOS (Differentiable Belief-based Opponent Shaping). I stället för att direkt påverka en motspelares strategi eller parametrar fokuserar denna metod på att forma motståndarens trosföreställningar – alltså vad de uppfattar som sant om omgivningen. I tester med dolda-roller-spel, där spelare har hemliga identiteter och motiv, överträffade D-BOS befintliga metoder med störst marginal i de miljöer där intressen delvis sammanfaller och delvis krockar. Det är en sofistikerad förmåga, och en som väcker frågor om hur sådana mekanismer kan dyka upp i agenter som verkar i verkliga miljöer.
Dolda fel som traditionella mått helt missar
Mitt i all denna kapacitetstillväxt kommer en viktig varningssignal. Forskarna bakom OpenClawBench har identifierat det de kallar "Outcome-Process Gap" – klyftan mellan att en agent klarar en uppgift och att den beter sig korrekt under vägen. Av drygt 31 000 körningsförlopp som klarade det traditionella godkännandetestet uppvisade nästan 2 900 ändå processrelaterade avvikelser: olöst tvetydighet, osäkra filskrivningar eller övertro på den egna förmågan. En detektormodell baserad på Gemma 3 12B nådde ett F1-värde på 0,729 för att identifiera dessa fel – lovande, men långt ifrån heltäckande.
Det är ett fynd som borde tas på allvar av alla som driftsätter agenter i verkliga miljöer.
Vår analys
Veckan forskning målar en tydlig bild: AI-agenter håller på att bli genuint självständiga aktörer med förmågan att hitta sina egna verktyg, planera komplexa processer och till och med forma andras uppfattningar. Det är en utveckling jag ser som fundamentalt positiv – vi rör oss mot system som faktiskt kan avlasta människor från tidskrävande, repetitivt expertarbete.
Men OpenClawBench-resultaten är en nödvändig korrektiv. Att en agent klarar ett test är inte samma sak som att den beter sig rätt. Det är en distinktion som branschen länge underskattat, och den blir allt viktigare när agenter ges verklig handlingsfrihet i produktionsmiljöer och ingenjörsprocesser.
Min bedömning är att vi behöver ett skifte i hur vi utvärderar agenter – från resultatmått till processgranskning. Annars riskerar vi att driftsätta system som är kompetenta på papperet men oförutsägbara i verkligheten. Verktygen för bättre granskning börjar nu dyka upp. Det är hög tid att använda dem.