Din journal avslöjar allt — och det gör AI-svaren markant bättre
När AI får läsa din journal blir svaren på dina hälsofrågor markant träffsäkrare.
Kontexten gör hela skillnaden
Det är egentligen ingen överraskning för den som byggt system med stora språkmodeller: modellen är aldrig bättre än den information den får att arbeta med. Ger du en allmän fråga får du ett allmänt svar. Ger du samma fråga med rik, relevant kontext — då händer något annat.
Det är precis den insikten som en forskargrupp nu testat systematiskt inom hälsoområdet. Studien, publicerad på arXiv, undersöker hur väl Googles Gemini 3.0 Flash presterar på hälsofrågor när modellen antingen arbetar utan kontext eller med tillgång till patientens personliga hälsojournal. Resultaten är tydliga och statistiskt signifikanta: journaldata förbättrar svaren längs samtliga utvärderade dimensioner — hjälpsamhet, träffsäkerhet, relevans och personanpassning.
Forskarnas testbatteri var ambitiöst. Över 2 200 frågor av tre distinkta typer ingick: enkla webbsökningsliknande frågor, chattbot-liknande samtal, och verkliga patientfrågor ställda till vårdpersonal. Den sista kategorin är särskilt intressant — det är frågor av den typ som faktiskt dyker upp i en klinisk vardag, inte konstruerade labbexempel.
Inte problemfritt — men lovande
Studien är välgjord nog att inte bara lyfta fram vad som fungerar. Forskarna identifierar också tydliga svagheter i den nuvarande tekniken.
Den mest påtagliga bristen handlar om tidsmässiga sammanhang i komplexa journaler. En patientjournal är sällan en enkel lista — den är en tidslinje av händelser, diagnoser, läkemedelsändringar och mätvärden som måste tolkas i rätt ordning. Här hade modellen ibland svårt att hålla reda på vad som gäller nu jämfört med vad som gällde för tre år sedan. Det är ett välkänt problem i systemutvecklingen: sekventiell och tidsberoende data är genuint svår att hantera rätt för språkmodeller som i grunden är tränade på att se text som en helhet snarare än en kronologi.
Dessutom uppvisade modellen i sällsynta fall faktaförvrängningar — alltså att den presenterade information som lät rimlig men inte stämde. Det är det som i branschen ibland kallas hallucination, men jag föredrar det mer precisa svenska begreppet: fabricering. Frekvensen var låg, men i ett medicinskt sammanhang är även låg frekvens ett allvarligt problem.
För att strukturera och kartlägga dessa feltyper utvecklade forskargruppen ett nytt utvärderingsramverk — vilket i sig är ett värdefullt bidrag. Utan gemensamma mätstandarder är det svårt att jämföra studier eller följa upp om tekniken faktiskt förbättras över tid.
Varför detta är viktigt just nu
Vi befinner oss i ett skede där AI-assistenter börjar integreras i patientportaler, journalsystem och hälsoappar på allvar. I Sverige har vi 1177 och framväxande digitala vårdtjänster; internationellt ser vi aktörer som experimenterar med AI-lager direkt i journalsystemen.
Den här studien ger ett viktigt empiriskt underlag för den diskussionen. Det räcker inte med att intuitivt tycka att journaltillgång borde hjälpa — vi behöver faktiska mätningar. Och nu har vi dem, åtminstone för ett specifikt scenario med en specifik modell.
Men forskarnas slutsats är ändå försiktig, och med rätta: tekniken har stor potential, men ytterligare forskning krävs innan den kan användas brett i vården. Det handlar inte bara om teknisk mognadsgrad. Det handlar om integritetsfrågor — vem äger journaldata, vem har rätt att skicka den till en molnbaserad modell? — och om regulatoriska ramverk som i de flesta länder inte är anpassade för det här användningsfallet ännu.
För oss som bygger system är lärdomen tydlig: arkitekturen spelar roll. Hur du hämtar, strukturerar och presenterar journaldata för modellen påverkar kvaliteten på svaret lika mycket som vilken modell du väljer. Det är ett ingenjörsproblem lika mycket som ett AI-problem.
Vår analys
Den här studien är ett bra exempel på hur AI-forskning mognar: från att visa att något kan fungera, till att systematiskt mäta hur väl det fungerar och var det brister. Det är den typen av rigoröst underlag som faktiskt kan flytta branschen framåt.
Vad jag ser som den viktigaste signalen är inte att resultaten är positiva — det var väntat — utan att forskargruppen tog sig tid att bygga ett eget utvärderingsramverk. Det antyder att de inte hittade befintliga verktyg som var tillräckligt bra för uppgiften. Det är ett tecken på att fältet fortfarande saknar infrastruktur för att mäta medicinsk AI-kvalitet på ett standardiserat sätt.
De närmaste åren kommer handla om tre saker: bättre hantering av tidsberoende journaldata, robusta integritetsarkitekturer som möjliggör journaltillgång utan att äventyra patientdata, och regulatorisk tydlighet. Teknikens mognad är inte längre det primära hindret — det är systemen runt omkring den.