Foto till artikeln: Samma AI – tre olika resultat: det är omgivningen som avgör, inte modellen

AI-Foto: Pia Luuka • Bilden är skapad med AI och föreställer inte personen i artikeln.

LLM Forskning Juridik & Compliance

Samma AI – tre olika resultat: det är omgivningen som avgör, inte modellen

Samma AI-modell, tre miljöer – resultaten skilde sig markant.

Isa Stenstedt AI-Journalist

Redigerad av Marguerite Leblanc • AI-Foto: Pia Luuka • 4 min läsning • 22/06 2026 20:30

Fel fråga har dominerat debatten

När advokatbyråer och teknikbolag utvärderar AI-verktyg brukar diskussionen snabbt landa i en och samma fråga: vilken modell är bäst? GPT-4 eller Claude? Gemini eller Mistral? Det är en begriplig logik – modellen är ju det synliga, det marknadsförda, det mätbara.

Men enligt en ny studie från Legal Nodes är den frågan i grunden fel ställd.

Studien testade en och samma modell – Claude Opus 4.8 – i tre helt olika tekniska miljöer: direktgränssnittet Claude Chat, tillägget Cowork with Legal Plugin samt det öppna verktyget MikeOSS. Uppgifterna handlade om dataskydd och digital driftsäkerhet, och underlaget bestod av 40 verkliga juridiska arbetsuppgifter. Resultatet var tydligt: samma modell presterade märkbart olika beroende på i vilket ramverk den kördes.

– Modellen i sig ger en ofullständig bild av juridisk AI-prestanda. Kvaliteten beror lika mycket på omgivningen – hur kontext hanteras, hur arbetsflödet är utformat, vilka verktyg som är tillgängliga och hur systemet planerar och hämtar information, säger Nestor Dubnevych, juridisk AI-expert på Legal Nodes.

Vad menas egentligen med "ramverket"?

Det är lätt att tappa bort sig i teknikaliteter här, så låt mig konkretisera. En råmodell är i grunden en avancerad textgenerator. Det som avgör dess nytta i ett verkligt arbetsflöde är allt det som omger den: hur uppgifter bryts ned och sekvenseras, hur relevant information hämtas och struktureras som indata, hur felkällor fångas upp, och hur resultaten presenteras och verifieras.

I juridiska sammanhang blir det här extra tydligt. En jurist som arbetar med ett dataskyddsärende behöver inte bara ett svar – hen behöver rätt svar, vid rätt tidpunkt, med spårbarhet och korrekt källhänvisning. Det är systemet runt modellen som levererar det, inte modellen ensam.

Det är ungefär som att jämföra två bilmotorer men glömma att den ena sitter i en välkalibrerad tävlingsbil och den andra i en rostig skrotkarross. Motorn spelar roll – men bara som en del av helheten.

Kostnadsbilden förändrar kalkylen

Studien lyfter också fram en ekonomisk dimension som är värd att ta på allvar. MikeOSS – det öppna verktyget i studien – presterade något lägre på kvalitetsmåtten jämfört med de övriga miljöerna. Men kostnaden per uppgift var 60 till 90 procent lägre.

Skaparen Will Chen välkomnar jämförelsen och är öppen med avvägningen:

– Det visar att MikeOSS är ett starkt alternativ för företag som verkar i en miljö med snabbt stigande beräkningskostnader, säger han.

Det är ett ärligt resonemang. För en advokatbyrå med höga krav på precision i varje enskilt dokument kan en dyrare miljö motiveras. För ett bolag som behöver hantera stora volymer av rutinmässig juridisk granskning kan en kostnadseffektiv lösning med något lägre träffsäkerhet ändå vara det rationella valet – förutsatt att mänsklig granskning finns i kedjan.

En ny typ av upphandlingsfråga

Det här borde förändra hur organisationer tänker när de utvärderar juridiska AI-verktyg. Att begära en demonstration av en råmodell, eller att läsa ett riktmärke där modeller körs mot standardiserade frågor, ger en begränsad bild av hur verktyget faktiskt kommer att fungera i det egna arbetsflödet.

De relevanta frågorna blir istället: Hur hanterar systemet långa och komplexa dokument? Hur säkerställs att modellen inte hallucinerar källhänvisningar? Hur integreras verktyget med befintliga processer? Vad händer när en uppgift är tvetydig?

Det är en mer komplex upphandlingsprocess – men också en mer ärlig sådan. Och för jurister, som är tränade i att granska helheten snarare än enskilda delar, borde det vara en välbekant tankegång.

Vår analys

Det här är ett av de mer intellektuellt ärliga bidragen till debatten om AI i juridiken på länge. Branschen har fastnat i ett mönster där modellversioner jämförs som om de vore konsumentprodukter – ett mönster som gynnar de stora modelleverantörernas marknadsföring men sällan speglar verkligheten i ett faktiskt driftsatt system.

Studien från Legal Nodes pekar mot något som erfarna systemutvecklare länge har vetat: arkitektur, datahantering och systemdesign är minst lika viktigt som den underliggande komponenten. Det är inget nytt inom mjukvaruutveckling i stort – men det är tydligen en insikt som juridikbranschen behöver ta till sig på allvar.

Framåt tror jag vi kommer se en förskjutning där de ledande aktörerna slutar konkurrera enbart på modellkvalitet och istället börjar differentiera sig på just systemdesign, transparens och spårbarhet. Det är där det verkliga värdet skapas – och det är där de svåraste ingenjörsproblemen fortfarande väntar på att lösas.

Källhänvisningar

Ny studie: Det är omgivningen runt AI-modellen – inte modellen i sig – som avgör resultatet inom juridik — Artificial Lawyer

AI-teknologi

Branscher

Regionalt

AI-teknologi

Branscher

Samma AI – tre olika resultat: det är omgivningen som avgör, inte modellen

Fel fråga har dominerat debatten

Vad menas egentligen med "ramverket"?

Kostnadsbilden förändrar kalkylen

En ny typ av upphandlingsfråga

Vår analys

AI-teknologi

Branscher

Samma AI – tre olika resultat: det är omgivningen som avgör, inte modellen

Fel fråga har dominerat debatten

Vad menas egentligen med "ramverket"?

Kostnadsbilden förändrar kalkylen

En ny typ av upphandlingsfråga

Vår analys

Missa inte nästa stora AI-nyhet

Vi använder cookies