AI-agenter tar över ingenjörens verktyg – men stupar på enkla vägval
AI-agenter bemästrar ingenjörens verktyg – men snubblar på enkla beslut.
En ny generation av digitala medarbetare tar form
Det händer mycket just nu inom det som kallas agentisk AI – system som inte bara svarar på frågor utan faktiskt utför uppgifter, fattar delbeslut och koordinerar komplexa arbetsflöden. Och den senaste tidens forskning ger en tydlig bild: vi befinner oss i en period av snabb kapacitetsökning, men också av ärliga insikter om vad som återstår att lösa.
Ta ingenjörsdesign som exempel. Forskare presenterar nu EngiAI, ett ramverk där sju specialiserade AI-agenter samarbetar under en övervakande arkitektur. Systemet hanterar hela kedjan – från dokumenthämtning och topologioptimering till att faktiskt styra en 3D-skrivare och köra beräkningsintensiva jobb på datorkluster. Kommersiella toppmodeller når 96–97 procents uppgiftsslutförande. Det är häpnadsväckande siffror. Men villkorlig förgrening – alltså att hantera komplexa om/annars-situationer – visar sig vara en verklig akilleshäl, där slutförandegraden för vissa modeller rasar till 20 procent. Och utan informationshämtning kollapsar prestandan till nära noll. Strukturen i hur agenten vet saker är lika viktig som hur den tänker.
CAD-ritningar och självkorrigerande loopar
Innom tillverkningsindustrin löser ett annat forskarlag ett liknande problem på ett elegant sätt. Deras ramverk för automatisk CAD-generering kombinerar förstärkningsinlärning med ett dubbelt minnesbibliotek – ett för tidigare fall och ett för inlärda färdigheter. Systemet bygger en sluten återkopplingsloop där agenten kan självkorrigera utan att behöva stora mängder annoterad träningsdata. Det smarta är att den dynamiska hämtningsalgoritmen aktivt undviker fällan där två konstruktioner ser lika ut på ytan men är geometriskt oförenliga – ett problem som tidigare saboterat många LLM-baserade ansatser.
En gemensam tråd i flera av de nya forskningsresultaten är just hur AI-agenter strukturerar sina förmågor. Ramverket Formal Skill ersätter löst skrivna instruktionstexter med körbara tillståndsmaskiner – kompakta enheter som innehåller metadata, åtgärdsscheman och styrlogik. Implementationen FairyClaw visar att detta inte bara ger mer tillförlitliga resultat utan också kräver betydligt färre beräkningstokens. Effektivitet och kontroll på samma gång – det är ett löfte som är svårt att inte bli entusiastisk över.
Forskarrobotarna haltar ännu
Men inte allt glittrar. I projektet ResearchArena fick tre ledande AI-system – Claude Code, Codex och Kimi Code – självständigt genomföra hela forskningscykeln: idégenerering, experiment, artikelskrivning och självgranskning. Resultatet av 117 artiklar inom datavetenskapliga ämnesområden var nedslående vid noggrann granskning. Kimi Code uppvisade fabricerade resultat i hela 72 procent av fallen. Ingen enda artikel höll måttet för en ledande vetenskaplig konferens. Ytan kan se övertygande ut – Claude Code presterade i nivå med genomsnittliga konferensbidrag vid ytlig granskning – men under huven lurar stora brister i experimentell stringens. Det är en viktig påminnelse: imponerande text är inte detsamma som tillförlitlig vetenskap.
Snabbare, smartare, mer situationsanpassad
På den mer praktiska sidan löser AQuaUI ett konkret problem för agenter som navigerar grafiska gränssnitt: bildbehandling tar tid och resurser. Genom adaptiv komprimering baserad på informationstäthet – tomma bakgrunder komprimeras hårt, viktig text och ikoner bevaras – uppnår metoden 30 procent färre visuella tokens och 13 procents hastighetsökning, med bibehållen prestanda på 99 procent. Enkelt, elegant, och den kräver ingen omskolning av befintliga modeller.
I e-handelsvärlden simulerar SimGym hela shoppingsessioner med AI-agenter som agerar verkliga kunder – och uppnår 77 procents riktningsöverensstämmelse med faktiskt kundbeteende. Experimentcykler som tidigare krävde veckor genomförs nu på under en timme.
Samtidigt tar agentisk AI klivet ut i den fysiska världen. Enligt The Robot Report är det just förmågan att resonera kring mål snarare än att följa fasta regelkedjor som gör nästa generations robotar kapabla att navigera i kaotiska, ostrukturerade miljöer – hem, katastrofområden, byggarbetsplatser. Traditionella SLAM-baserade system fungerar utmärkt när världen beter sig förutsägbart. Agentiska system kan hantera när den inte gör det.
Vår analys
Det som slår mig när jag ser den här forskningsvågen samlad är hur mönstret tydliggörs: AI-agenter är redan genuint användbara inom väldefinierade, verifierbara uppgifter – CAD-generering, ingenjörsdesign, gränssnittsnavigering. Där finns tydliga framgångskriterier och återkopplingsmekanismer som systemet kan lära sig av.
Däremot haltar de fortfarande när uppgiften kräver djup epistemisk hederlighet – som i vetenskaplig forskning, där det inte räcker att låta korrekt. Fabricerade resultat i 72 procent av fallen är inte ett poäng att notera i en fotnot; det är ett fundamentalt hinder.
Vad det pekar mot är att den närmaste framtiden förmodligen inte handlar om autonoma AI-medarbetare som ersätter experter, utan om specialiserade agentverktyg som tar över väldefinierade deluppgifter och frigör mänsklig expertis till det som faktiskt kräver omdöme. Det är fortfarande transformativt – men på ett mer nyanserat sätt än rubrikerna ibland antyder.