AI klarar inte jobbet – och klyftan mellan löften och verklighet är svår att blunda för
Ingen AI-modell klarar hälften av kraven i verklig IT-drift.
Verkligheten knackar på dörren
Det är lätt att bli berusad av löftena. Självständiga AI-system som sköter IT-driften, hanterar finansiella beslut och frigör mänsklig kapacitet för det som verkligen betyder något. Visionen är verklig — men avståndet mellan vision och verklighet visar sig just nu vara betydande.
Enligt en ny riktmärkning, ITBench-AA, framtagen av analysföretaget Artificial Analysis i samarbete med IBM, klarar ingen av dagens ledande språkmodeller mer än 50 procent av de uppgifter som krävs för självständig IT-drift i verkliga företagsmiljöer. Det är inte en siffra att sopa under mattan. Riktmärkningen testar just de scenarier som affärsvärlden hoppas kunna automatisera bort — systemövervakning, incidenthantering, konfigurationsarbete — och resultaten visar att vi ännu inte är i närheten av den självständighet som marknadsföringen utlovar.
Google kan inte stava Google
Som om det inte vore nog levererade TechCrunch nyligen en av de mest avslöjande — och ärligt talat ganska roliga — illustrationerna av AI:s grundläggande begränsningar. Googles egna AI-översikter, den funktion som numera visas högst upp i sökresultaten, stavar "Google" med två p:n och sätter ett d mitt i ordet "journalism". Samma system har tidigare citerat satiriska inlägg som fakta och rekommenderat användare att äta stenar.
Förklaringen är teknisk men avslöjande: stora språkmodeller är inte byggda för att förstå bokstäver och stavning på det sätt vi människor gör. De arbetar med så kallade tokens — numeriska representationer av ord och stavelser — och saknar i grunden förmågan att "räkna" bokstäver. Google bekräftar problemet och säger att de arbetar med att åtgärda det. Men det faktum att ett av världens mest resursstarka teknikbolag inte kan garantera att deras AI stavar företagets eget namn korrekt säger något viktigt om var tekniken faktiskt befinner sig idag.
Finanssektorn söker svar
Inget ställe är gapet mellan förväntan och utfall mer kännbart än i finansbranschen. Rapporterar Finextra: trots massiva investeringar de senaste åren kämpar banker och försäkringsbolag fortfarande med att omsätta AI i faktiska affärsresultat. Systemen imponerar i kontrollerade demonstrationer men visar sig bräckliga när de möter verklighetens komplexitet.
Problemet är sällan att data saknas — det handlar om att tolka den rätt. Partiskhet inbyggd i historiska dataset riskerar att förstärka redan existerande ojämlikheter i exempelvis kreditbedömningar. Och när det är oklart om det är teknikavdelningen, affärssidan eller riskfunktionen som äger ett AI-projekt tenderar det att fastna i organisatoriska gråzoner.
På den kommande konferensen Money20/20 Europe väntas självständig AI dominera samtalen, och budskapet från experterna är tydligt: enskilda aktörer kan inte lösa detta på egen hand. Det krävs gemensamma normer, delade erfarenheter och ömsesidigt förtroende — både mellan branschaktörer och gentemot tillsynsmyndigheter — för att självständiga AI-system ska kunna användas på ett säkert och ansvarsfullt sätt.
Hype är inte lögn — det är försprång utan karta
Här är min ärliga läsning av läget: vi befinner oss inte i en bubbla som håller på att spricka. Vi befinner oss i den oundvikliga fasen där förväntningarna springer ifrån verktygen — och verktygen måste springa ikapp.
Det är precis detta som händer vid varje stor teknologisk omställning. Internet lovade att förändra allt på tre år. Det tog femton. Molntjänster skulle göra on-premises-infrastruktur obsolet omedelbart. Det tog ett decennium. Självständig AI kommer att förändra hur företag fungerar i grunden — men inte i kvartalet, och inte utan gedigen arkitektur, tydligt ägarskap och realistiska förväntningar.
De organisationer som vinner på AI-omställningen är inte de som trodde mest på hypen. De är de som förstod begränsningarna tidigt, investerade i rätt kompetens och byggde systemen inifrån och ut — med mänsklig insikt som ryggrad, inte som reservlösning.
Gapet är verkligt. Men det är också en karta över vad som återstår att bygga.
Vår analys
Det vore bekvämt att avfärda dessa resultat som tillfälliga barnsjukdomar. Det vore också fel. Det vi ser just nu är en bransch som behöver ta ett steg tillbaka från marknadsföringens superlativ och landa i ingenjörsmässig ärlighet.
ITBench-AA:s riktmärkning är särskilt värdefull just för att den sätter fingret på agentisk AI — det vill säga system som förväntas agera självständigt i komplexa miljöer. Det är precis denna förmåga som affärsvärlden prissätter högst, och det är precis här gapet är störst.
Min bedömning: de närmaste 18–24 månaderna kommer att handla mindre om nya modellgenombrott och mer om att bygga den infrastruktur, de standarder och den organisatoriska mogenhet som krävs för att faktiskt driftsätta AI på ett tillförlitligt sätt. De företag och leverantörer som förstår detta skifte — från demonstration till driftsättning — är de som kommer att definiera nästa fas av AI-omställningen. Det är där de verkliga affärsmöjligheterna finns just nu.