AI träffar rätt för hjärtat – men missar målet för njuren
Medicinsk AI räddar hjärtan med råge – men misslyckas fatalt med njurdiagnostik.
Löftena är stora – men verkligheten är nyanserad
Det händer mycket inom medicinsk AI just nu. Varje vecka publiceras nya studier med lovande siffror, och entusiasmen är begriplig. Men den senaste omgången forskning påminner oss om att vägen från laboratorium till klinik är längre – och krokigare – än den ibland framstår.
Låt oss börja med det som faktiskt fungerar.
Hjärtat: Där AI börjar leverera på riktigt
Två nya studier från arXiv visar att maskininlärning kan förutsäga hjärt-kärlsjukdom med anmärkningsvärd precision – och det från undersökningar som redan görs i rutinvården.
En forskargrupp tränades på data från 1 324 patienter i den kliniska studien SCOT-HEART och lyckades förutsäga obstruktiv kranskärlssjukdom med en känslighet på 83 procent och en specificitet på nästan 94 procent. Särskilt intressant är att modellen kunde identifiera sjukdom även hos patienter med ett kalkscoringsresultat på noll – ett känt diagnostiskt blindspot som länge orsakat problem.
En parallell studie vid University Hospitals Cleveland Medical Center, baserad på 1 375 patienter, visade att så kallade kalciomik-särdrag kan förutsäga hjärtischemi med en precision på nästan 99 procent. Båda systemen använder kontraststmedelsfria datortomografier – undersökningar som redan är standard – vilket gör att tröskeln för klinisk implementering är betydligt lägre än för metoder som kräver ny utrustning eller nya provtagningsrutiner.
Federerat lärande löser integritetsproblemet – men inte hur som helst
En annan studie som förtjänar uppmärksamhet handlar om järnbristdiagnostik via federerad maskininlärning, driftsatt på riktigt vid Amsterdams universitetssjukhus och NHS Blood and Transplant i Storbritannien. Det är ett av få AI-projekt inom vården som faktiskt tagit steget från forskning till verklig klinisk miljö.
Tekniken är elegant: varje sjukhus behåller sina patientdata lokalt, och modellen tränas utan att känslig information lämnar institutionen. Men studien visade också en viktig fallgrop – standardmetoden för sammanvägning av modellerna (FedAvg) försämrade träffsäkerheten, eftersom den snedvreds mot det sjukhus som hade mest data. Den personaliserade metoden FedMAP gav istället förbättrade resultat vid båda institutionerna. Detaljer spelar roll.
Njursjukdomen: Ett varnande exempel
Men allt är inte lika uppmuntrande. En studie avslöjar ett mönster som är oroväckande vanligt inom medicinsk AI: fem klassificeringsmodeller för kronisk njursjukdom uppnådde alla perfekta resultat på sitt ursprungliga testdata – och kollapsade sedan till nästan slumpmässiga nivåer när de testades på externa patientgrupper.
Det är inte bara träffsäkerheten som sjunker. Kalibreringsfelen ökar kraftigt, vilket betyder att modellernas sannolikhetsuppskattningar – de siffror en läkare faktiskt tittar på – blir direkt vilseledande. Intern validering räcker helt enkelt inte. Klinikens verklighet är mer varierad än träningsdatats snäva urval.
Samma problematik speglas i det nya testramverket HealthCraft, som utvärderar stora språkmodeller i simulerade akutvårdsscenarier. Claude Opus 4.6 klarade bara 24,8 procent av uppgifterna, GPT-5 ännu färre. Säkerhetsrelaterade fel förekom i mer än var fjärde till var tredje interaktion. Det är siffror som bör ge alla som pratar om att driftsätta chattassistenter i akutvården rejäl anledning till eftertanke.
Infrastrukturen är lika viktig som algoritmerna
Parallellt med forskningen pågår ett bredare arbete för att bygga grunden som AI i vården faktiskt kräver. Danmark leder vägen i Norden: organisationen Digital Health Denmark samlar beslutsfattare, vårdgivare och teknikleverantörer för att bryta ned de stuprör som bromsar digitaliseringen. Det handlar inte bara om teknik, utan om att förändra arbetssätt och bygga kompetens – något som Sverige har mycket att lära av.
I USA driver det federala programmet RHTP på delstaterna att samla in bättre data om vårdgivare i glesbygd. Det låter byråkratiskt, men är i grunden en förutsättning: utan tillförlitliga data om var vården faktiskt finns och saknas, kan varken AI-system eller politiska beslut träffa rätt.
Ett automatiserat maskininlärningsramverk kallat yvsoucom-iterkit, testat på över 18 000 olika konfigurationer, visar dessutom att effektiv AI-optimering inom vården kan koncentreras till ett fåtal avgörande komponenter – vilket minskar beräkningskostnader och ökar tolkbarheten. Det är precis den typ av verktyg som behövs för att göra medicinsk AI mer reproducerbar och granskningsbar.
Vår analys
Det som framträder tydligast i veckans forskning är inte ett enskilt genombrott – det är ett mönster. AI inom vården fungerar bäst när det är smalt, väldefinierat och testat i den miljö där det faktiskt ska användas. Kranskärlsstudien och järnbristprojektet lyckas för att de inte försöker lösa allt på en gång; de tar en specifik klinisk fråga och besvarar den med rätt data.
Njursjukdomsstudien och HealthCraft-resultaten är däremot en påminnelse om att snygg intern validering kan dölja katastrofala svagheter. Det är ett strukturellt problem i hur medicinsk AI publiceras och utvärderas – och det kräver hårdare krav på extern validering innan system ens diskuteras för klinisk användning.
Danmarks samordningsmodell och USA:s datainsamlingsinitiativ pekar mot något viktigt: tekniken är sällan det svåraste. Infrastruktur, tillit och samverkan avgör om AI i vården blir transformativt eller bara ytterligare ett system som ingen använder.