Tekoälymallit kamppailevat todellisissa lääketieteellisissä keskusteluissa

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Keinoälytyökaluja, kuten ChatGPT:tä, mainostetaan lupauksestaan ​​vähentää kliinikon työtaakkaa tutkimalla potilaita, keräämällä sairaushistoriaa ja jopa tekemällä alustavia diagnooseja. Potilaat käyttävät jo näitä suurkielisinä malleina tunnettuja työkaluja oireidensa ja lääketieteellisten testien tulosten ymmärtämiseen. Mutta vaikka nämä tekoälymallit toimivat vaikuttavasti standardoiduissa lääketieteellisissä testeissä, kuinka hyvin ne toimivat tilanteissa, jotka jäljittelevät lähemmin todellista maailmaa? Harvard Medical Schoolin ja Stanfordin yliopiston tutkijoiden johtaman uuden tutkimuksen tulosten mukaan ei niin hienoa. Heidän analyysiinsä, julkaistu 2. tammikuuta...

Tekoälymallit kamppailevat todellisissa lääketieteellisissä keskusteluissa

Keinoälytyökaluja, kuten ChatGPT:tä, mainostetaan lupauksestaan ​​vähentää kliinikon työtaakkaa tutkimalla potilaita, keräämällä sairaushistoriaa ja jopa tekemällä alustavia diagnooseja.

Potilaat käyttävät jo näitä suurkielisinä malleina tunnettuja työkaluja oireidensa ja lääketieteellisten testien tulosten ymmärtämiseen.

Mutta vaikka nämä tekoälymallit toimivat vaikuttavasti standardoiduissa lääketieteellisissä testeissä, kuinka hyvin ne toimivat tilanteissa, jotka jäljittelevät lähemmin todellista maailmaa?

Harvard Medical Schoolin ja Stanfordin yliopiston tutkijoiden johtaman uuden tutkimuksen tulosten mukaan ei niin hienoa.

Heidän analyysiään varten, julkaistu 2. tammikuuta vuonnaLuonnonlääketiedetutkijat suunnittelivat arviointikehyksen -; tai testi -; nimeltään CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) ja käytti sitä neljässä laajakielisessä mallissa nähdäkseen, kuinka hyvin ne toimivat ympäristöissä, jotka jäljittelevät läheisesti todellista vuorovaikutusta potilaiden kanssa.

Kaikki neljä suuren kielen mallia suoriutuivat hyvin lääketieteellisten kokeiden tyylisissä kysymyksissä, mutta niiden suorituskyky heikkeni, kun he osallistuivat keskusteluihin, jotka matkivat lähemmin todellista vuorovaikutusta.

Tämä aukko korostaa tutkijoiden mukaan kaksinkertaista tarvetta: ensinnäkin luoda realistisempia arvioita, jotka arvioivat paremmin kliinisten tekoälymallien soveltuvuutta käytettäväksi todellisessa maailmassa, ja toiseksi parantaa näiden työkalujen kykyä diagnosoida realistisempien vuorovaikutusten perusteella ennen niiden käyttöä klinikalla.

Tutkimusryhmän mukaan CRAFT-MD:n kaltaiset arviointityökalut eivät ainoastaan ​​pysty arvioimaan tekoälymallien todellista kuntoa tarkemmin, vaan voivat myös auttaa optimoimaan niiden suorituskykyä klinikalla.

Työmme paljastaa silmiinpistävän paradoksin: Vaikka nämä tekoälymallit menestyvät lääketieteellisissä kokeissa, ne kamppailevat lääkärikäynnin perushyökkäyksien kanssa. Lääketieteellisten keskustelujen dynamiikka – tarve kysyä oikeita kysymyksiä oikeaan aikaan, koota yhteen hajallaan olevaa tietoa ja syitä oireiden perusteella – tuo ainutlaatuisia haasteita, jotka menevät paljon monivalintakysymyksiin vastaamista pidemmälle. Kun siirrymme standardoidusta testauksesta näihin luonnollisiin keskusteluihin, jopa kaikkein kehittyneimmät tekoälymallit osoittavat merkittäviä pudotuksia diagnostisessa tarkkuudessa."

Pranav Rajpurkar, tutkimuksen vanhempi kirjoittaja, biolääketieteellisen informatiikan apulaisprofessori Harvard Medical Schoolissa

Parempi testi tekoälyn suorituskyvyn tarkistamiseksi käytännössä

Tällä hetkellä kehittäjät testaavat tekoälymallien suorituskykyä pyytämällä niitä vastaamaan monivalintakysymyksiin, jotka tyypillisesti johdetaan valmistuvien lääketieteen opiskelijoiden kansallisesta kokeesta tai testeistä, joita asukkaat suorittavat osana sertifiointiaan.

"Tämä lähestymistapa olettaa, että kaikki asiaankuuluvat tiedot esitetään selkeästi ja ytimekkäästi, usein käyttämällä lääketieteellistä terminologiaa tai muotisanoja, jotka yksinkertaistavat diagnostiikkaprosessia, mutta todellisessa maailmassa tämä prosessi on paljon sotkuisampi", sanoi Shreya Johri, tutkimuksen ensimmäinen kirjoittaja ja tohtorikandidaatti Harvardin lääketieteellisen koulun Rajpurkar Labissa. "Tarvitsemme testauskehyksen, joka heijastaa paremmin todellisuutta ja voi siten ennustaa paremmin, kuinka hyvin malli toimisi."

CRAFT-MD kehitettiin sellaiseksi realistisemmaksi mittauslaitteeksi.

Simuloimaan todellisia vuorovaikutuksia CRAFT-MD arvioi, kuinka hyvin laajakieliset mallit voivat kerätä tietoa oireista, lääkkeistä ja sukuhistoriasta ja tehdä sitten diagnoosin. Tekoälyagentti poseeraa potilaana ja vastaa kysymyksiin keskustelulliseen, luonnolliseen tyyliin. Toinen tekoälyagentti arvioi suuren kielen mallin tarjoaman lopullisen diagnoosin tarkkuuden. Ihmisasiantuntijat arvioivat sitten kunkin kohtaamisen tuloksia kyvyn kerätä olennaisia ​​potilastietoja, hajatietojen esittämisen diagnostista tarkkuutta ja ohjeiden noudattamista.

Tutkijat käyttivät CRAFT-MD:tä neljän tekoälymallin testaamiseen –; sekä omat tai kaupalliset että avoimen lähdekoodin versiot –; suorituskykyyn 2 000 kliinisessä vinjetissä, jotka kattavat perusterveydenhuollon yleiset sairaudet ja 12 lääketieteen erikoisalaa.

Kaikissa tekoälymalleissa oli rajoituksia, erityisesti niiden kyvyssä käydä kliinisiä keskusteluja ja perustella potilaiden antamien tietojen perusteella. Tämä puolestaan ​​vaikutti heidän kykyynsä kerätä sairaushistoriaa ja tehdä asianmukainen diagnoosi. Esimerkiksi malleilla oli usein vaikeuksia kysyä oikeita kysymyksiä kerätäkseen relevanttia potilashistoriaa, heillä oli vaikeuksia saada tärkeitä tietoja historian ottamisen aikana ja heillä oli vaikeuksia syntetisoida hajallaan olevaa tietoa. Näiden mallien tarkkuus heikkeni, kun niille esitettiin avointa tietoa monivalintavastausten sijaan. Nämä mallit toimivat myös huonommin edestakaisin vaihdossa -; kuten useimmissa keskusteluissa todellisessa maailmassa –; sen sijaan, että osallistuisit yhteenvetokeskusteluihin.

Suosituksia tekoälyn suorituskyvyn optimoimiseksi käytännössä

Näiden havaintojen perusteella tiimi tarjoaa joukon suosituksia sekä tekoälymalleja suunnitteleville tekoälykehittäjille että sääntelijöille, joiden tehtävänä on arvioida ja hyväksyä näitä työkaluja.

Tämä sisältää:

  • Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
  • Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
  • Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
  • Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
  • Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können

Lisäksi arvioinnissa tulisi ottaa mukaan sekä tekoälyagentteja että ihmisasiantuntijoita, tutkijat suosittelevat, sillä pelkästään ihmisasiantuntijoihin luottaminen on työvoimavaltaista ja kallista. Esimerkiksi CRAFT-MD oli nopeampi kuin ihmisten arvioijat, ja se käsitteli 10 000 haastattelua 48–72 tunnissa sekä 15–16 tunnin asiantuntijaarviointia. Sitä vastoin ihmislähtöiset lähestymistavat vaatisivat laajaa rekrytointia ja arviolta 500 tuntia potilassimulaatioihin (lähes 3 minuuttia keskustelua kohden) ja noin 650 tuntia asiantuntija-arviointiin (lähes 4 minuuttia keskustelua kohden). Tekoälyarvioijien käyttäminen ensimmäisenä vaihtoehtona tarjoaa lisäetua, sillä se eliminoi riskin, että todelliset potilaat altistuvat vahvistamattomille tekoälytyökaluille.

Tutkijat odottavat, että myös itse CRAFT-MD päivitetään ja optimoidaan sisällyttämään siihen parannettuja potilasälymalleja.

"Lääkärinä ja tiedemiehenä olen kiinnostunut tekoälymalleista, jotka voivat parantaa tehokkaasti ja eettisesti kliinistä käytäntöä", sanoi tutkimuksen toinen vanhempi kirjailija Roxana Daneshjou, Stanfordin yliopiston biolääketieteellisen datatieteen ja dermatologian apulaisprofessori. "CRAFT-MD luo puitteet, jotka kuvastavat paremmin todellista vuorovaikutusta ja auttavat edistämään alaa, kun on kyse AI-mallien suorituskyvyn testaamisesta terveydenhuollossa."


Lähteet:

Journal reference:

Johri, S.,et ai. (2025) Arviointikehys suurten kielimallien kliiniseen käyttöön potilasvuorovaikutustehtävissä. Luonnonlääketiede. doi.org/10.1038/s41591-024-03328-5.