Specialiserad AI snabbar upp diagnos av sällsynta sjukdomar – men GPT-modeller missbedömer var tredje diabetesfall
Specialiserad AI ställer diagnoser snabbare – men missar var tredje diabetesfall.
Samma teknik, helt olika resultat
Föreställ dig en patient som vandrar mellan specialister i år efter år utan att få ett svar. Det är verkligheten för miljontals människor som lever med sällsynta sjukdomar – tillstånd där kompetensen är gles och diagnoserna tar alldeles för lång tid. Det är just det problemet som ett forskarlag nu tagit sig an med RaDaR (Rare Disease navigatoR), en öppen språkmodell med 32 miljarder parametrar, tränad specifikt för diagnostikstöd vid sällsynta sjukdomar.
Resultaten, publicerade på arXiv, är imponerande. I ett randomiserat försök förbättrades läkarnas diagnostiska träffsäkerhet med 21,44 procentenheter när de fick tillgång till RaDaR som stöd, jämfört med kollegor som enbart förlitade sig på internetsökning. I en retrospektiv studie lyckades modellen identifiera rätt diagnos i 61 procent av fallen innan den ens dokumenterats kliniskt – med en genomsnittlig tidsvinst på nästan två månader. Och det som gör resultatet extra anmärkningsvärt: RaDaR presterade bättre än DeepSeek-R1, en modell med hela 671 miljarder parametrar. Storleken är alltså inte alltid svaret – specialisering och rätt träningsdata kan väga tyngre.
Det är en berättelse om AI som verkligen levererar på sitt löfte om att demokratisera tillgången till medicinsk expertis.
Men sedan finns diabetespatienten
Samtidigt målar ett annat forskningsresultat en betydligt mer oroande bild. Forskare har utvecklat T2D-Bench, ett reproducerbart riktmärke för att mäta hur väl stora språkmodeller hanterar rådgivning kring typ 2-diabetes. Systemet kombinerar biomedicinsk data, beräkningsbara riktlinjer från American Diabetes Association och livsstilskunskap kopplad till blodsocker.
I testerna – 100 strukturerade patientfall inom diagnos, läkemedelssäkerhet och livsstilsfrågor – misslyckades GPT-4o-mini i 35 procent av fallen. GPT-4o klarade sig marginellt bättre men misslyckades ändå i 33 procent. Det handlar inte om stilistiska missar eller otydliga svar, utan om att modellerna inte uppfyllde fördefinierade evidenskrav. I en klinisk verklighet är det skillnaden mellan rätt och fel behandling.
Typ 2-diabetes är ingen sällsynt sjukdom – det är ett av världens vanligaste kroniska tillstånd. Att en tredjedel av AI-svaren inte håller måttet är inte ett akademiskt problem. Det är ett patientsäkerhetsproblem.
Den bekvämaste slutsatsen är fel
Den enkla slutsatsen vore att säga att AI fungerar i smala, väldefinierade uppgifter men inte i breda kliniska sammanhang. Men det håller inte riktigt. RaDaR är bred nog att täcka tusentals olika sällsynta sjukdomar. Och typ 2-diabetes är ett av de mest välstuderade medicinska områdena som finns. Förklaringen tycks snarare handla om hur modellen tränats och validerats – inte om hur komplex uppgiften är.
RaDaR byggdes på nästan 50 000 verkliga patientfall och drygt 100 000 syntetiskt genererade fall, med ett tydligt kliniskt syfte. T2D-Bench avslöjar att generella modeller som GPT-4o inte fått samma riktade träning och kontroll för diabetesrådgivning – och att det syns tydligt i resultaten.
Det finns dock ett ljus i diabetesstudien som är värt att lyfta fram: forskarnas ramverk kan inte bara identifiera bristerna utan också rätta dem med begränsad omarbetning. Det pekar mot något viktigt – att beräkningsbara evidenskrav kan göra AI-brister mätbara och korrigerbara i realtid. Det är inte ett misslyckande, det är en väg framåt.
Närheten till tillförlitlighet
Hur nära är vi egentligen tillförlitlig AI i sjukvården? Svaret är: närmre än vi tror på vissa områden, och längre bort än vi hoppades på andra. RaDaR visar att rätt utformad, domänspecifik AI kan bli ett livsförändrande verktyg för patienter som annars faller mellan stolarna. T2D-Bench påminner oss om att ingen allmän språkmodell bör användas i kliniska sammanhang utan rigorös, sjukdomsspecifik validering.
Det är inte en anledning till pessimism. Det är en ritning för hur vi bygger vidare.
Vår analys
De här två studierna, lästa tillsammans, ger oss en av de skarpaste bilderna vi sett av AI:s faktiska mognadsgrad i vården. Och budskapet är tydligt: generella modeller räcker inte – specialisering är nyckeln.
RaDaR:s framgång handlar inte om att den är störst, utan om att den byggts med ett specifikt kliniskt syfte och validerats mot verkliga patientfall. Det är en modell för sjukvården, inte en modell som råkar kunna hantera sjukvård. T2D-Bench visar att distinktionen spelar enorm roll.
Framöver tror jag vi kommer se en tydlig uppdelning på marknaden: generella modeller för administration, dokumentation och kommunikation – och strikt validerade, domänspecifika modeller för kliniskt beslutstöd. Regulatorerna kommer kräva det. Patienterna förtjänar det. Och de verktyg för mätning och korrigering som T2D-Bench introducerar är precis den typ av infrastruktur som gör den resan möjlig. Det är inte hinder på vägen – det är vägens fundament.