KI-Modelle haben in realen medizinischen Gesprächen Schwierigkeiten
Künstliche Intelligenz-Tools wie ChatGPT werden für ihr Versprechen angepriesen, die Arbeitsbelastung des Klinikpersonals zu verringern, indem sie Patienten triagieren, Krankengeschichten erheben und sogar vorläufige Diagnosen stellen.
Diese als großsprachliche Modelle bekannten Tools werden bereits von Patienten verwendet, um ihre Symptome und medizinischen Testergebnisse zu verstehen.
Aber während diese KI-Modelle bei standardisierten medizinischen Tests eine beeindruckende Leistung erbringen, wie gut schneiden sie in Situationen ab, die der realen Welt eher nachempfunden sind?
Nicht so toll, so die Ergebnisse einer neuen Studie unter der Leitung von Forschern der Harvard Medical School und der Stanford University.
Für ihre Analyse, veröffentlicht am 2. Januar in Naturmedizinentwarfen die Forscher einen Bewertungsrahmen –; oder ein Test -; namens CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) und setzte es auf vier großsprachigen Modellen ein, um zu sehen, wie gut sie in Umgebungen funktionierten, die die tatsächlichen Interaktionen mit Patienten genau nachahmen.
Alle vier großsprachigen Modelle schnitten bei Fragen im Stil einer medizinischen Untersuchung gut ab, ihre Leistung verschlechterte sich jedoch, wenn sie an Gesprächen beteiligt waren, die Interaktionen in der realen Welt besser nachahmten.
Diese Lücke, so die Forscher, unterstreiche einen zweifachen Bedarf: Erstens, realistischere Bewertungen zu erstellen, die die Eignung klinischer KI-Modelle für den Einsatz in der realen Welt besser einschätzen, und zweitens, die Fähigkeit dieser Tools zur Diagnose zu verbessern basierend auf realistischeren Interaktionen, bevor sie in der Klinik eingesetzt werden.
Bewertungstools wie CRAFT-MD, so das Forschungsteam, können KI-Modelle nicht nur genauer auf ihre reale Fitness bewerten, sondern könnten auch dazu beitragen, ihre Leistung in der Klinik zu optimieren.
Unsere Arbeit offenbart ein bemerkenswertes Paradoxon: Diese KI-Modelle zeichnen sich zwar bei ärztlichen Prüfungen aus, kämpfen jedoch mit dem grundlegenden Hin und Her eines Arztbesuchs. Die Dynamik medizinischer Gespräche – die Notwendigkeit, die richtigen Fragen zur richtigen Zeit zu stellen, verstreute Informationen zusammenzufügen und anhand von Symptomen zu argumentieren – stellt einzigartige Herausforderungen dar, die weit über die Beantwortung von Multiple-Choice-Fragen hinausgehen. Wenn wir von standardisierten Tests zu diesen natürlichen Gesprächen wechseln, zeigen selbst die ausgefeiltesten KI-Modelle erhebliche Einbußen bei der Diagnosegenauigkeit.“
Pranav Rajpurkar, leitender Autor der Studie, Assistenzprofessor für biomedizinische Informatik an der Harvard Medical School
Ein besserer Test, um die Leistung von KI in der Praxis zu überprüfen
Derzeit testen Entwickler die Leistung von KI-Modellen, indem sie sie bitten, medizinische Multiple-Choice-Fragen zu beantworten, die typischerweise aus der nationalen Prüfung für Medizinstudenten mit Abschluss oder aus Tests abgeleitet werden, die Assistenzärzte im Rahmen ihrer Zertifizierung absolvieren.
„Dieser Ansatz geht davon aus, dass alle relevanten Informationen klar und prägnant dargestellt werden, oft mit medizinischer Terminologie oder Schlagworten, die den Diagnoseprozess vereinfachen, aber in der realen Welt ist dieser Prozess weitaus chaotischer“, sagte Shreya Johri, Co-Erstautorin der Studie und Doktorandin im Rajpurkar Lab der Harvard Medical School. „Wir brauchen einen Testrahmen, der die Realität besser widerspiegelt und daher besser vorhersagen kann, wie gut ein Modell funktionieren würde.“
CRAFT-MD wurde als ein solches realistischeres Messgerät entwickelt.
Um reale Interaktionen zu simulieren, bewertet CRAFT-MD, wie gut großsprachige Modelle Informationen über Symptome, Medikamente und Familiengeschichte sammeln und dann eine Diagnose stellen können. Ein KI-Agent gibt sich als Patient aus und beantwortet Fragen in einem gesprächigen, natürlichen Stil. Ein weiterer KI-Agent bewertet die Genauigkeit der endgültigen Diagnose, die das großsprachige Modell liefert. Anschließend bewerten menschliche Experten die Ergebnisse jeder Begegnung hinsichtlich der Fähigkeit, relevante Patienteninformationen zu sammeln, der diagnostischen Genauigkeit bei der Präsentation verstreuter Informationen und der Einhaltung von Anweisungen.
Die Forscher verwendeten CRAFT-MD, um vier KI-Modelle zu testen –; sowohl proprietäre oder kommerzielle als auch Open-Source-Versionen –; für die Leistung in 2.000 klinischen Vignetten mit häufigen Erkrankungen in der Primärversorgung und in 12 medizinischen Fachgebieten.
Alle KI-Modelle zeigten Einschränkungen, insbesondere in ihrer Fähigkeit, klinische Gespräche zu führen und auf der Grundlage der von Patienten bereitgestellten Informationen zu argumentieren. Dies wiederum beeinträchtigte ihre Fähigkeit, Krankengeschichten zu erheben und eine angemessene Diagnose zu stellen. Beispielsweise hatten die Modelle oft Schwierigkeiten, die richtigen Fragen zu stellen, um eine relevante Patientengeschichte zu sammeln, sie übersahen wichtige Informationen während der Anamnese und hatten Schwierigkeiten, verstreute Informationen zu synthetisieren. Die Genauigkeit dieser Modelle nahm ab, wenn ihnen offene Informationen anstelle von Multiple-Choice-Antworten vorgelegt wurden. Diese Modelle schnitten auch schlechter ab, wenn sie sich im Hin- und Her-Austausch befanden –; wie es bei den meisten Gesprächen in der realen Welt der Fall ist –; anstatt sich an zusammengefassten Gesprächen zu beteiligen.
Empfehlungen zur Optimierung der Leistung von KI in der Praxis
Basierend auf diesen Erkenntnissen bietet das Team eine Reihe von Empfehlungen sowohl für KI-Entwickler, die KI-Modelle entwerfen, als auch für Regulierungsbehörden, die mit der Bewertung und Genehmigung dieser Tools beauftragt sind.
Dazu gehören:
- Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
- Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
- Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
- Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
- Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können
Darüber hinaus sollten in die Bewertung sowohl KI-Agenten als auch menschliche Experten einbezogen werden, empfehlen die Forscher, da es arbeitsintensiv und teuer sei, sich ausschließlich auf menschliche Experten zu verlassen. Beispielsweise war CRAFT-MD schneller als menschliche Bewerter und verarbeitete 10.000 Gespräche in 48 bis 72 Stunden plus 15 bis 16 Stunden Expertenbewertung. Im Gegensatz dazu würden menschenbasierte Ansätze eine umfangreiche Rekrutierung und schätzungsweise 500 Stunden für Patientensimulationen (fast 3 Minuten pro Gespräch) und etwa 650 Stunden für Expertenbewertungen (fast 4 Minuten pro Gespräch) erfordern. Der Einsatz von KI-Beurteilern als erste Wahl hat den zusätzlichen Vorteil, dass das Risiko eliminiert wird, dass echte Patienten nicht verifizierten KI-Tools ausgesetzt werden.
Die Forscher gehen davon aus, dass CRAFT-MD selbst ebenfalls regelmäßig aktualisiert und optimiert wird, um verbesserte Patienten-KI-Modelle zu integrieren.
„Als Arzt und Wissenschaftler interessiere ich mich für KI-Modelle, die die klinische Praxis effektiv und ethisch verbessern können“, sagte Roxana Daneshjou, Co-Seniorautorin der Studie, Assistenzprofessorin für biomedizinische Datenwissenschaft und Dermatologie an der Stanford University. „CRAFT-MD schafft einen Rahmen, der reale Interaktionen besser widerspiegelt und so dazu beiträgt, das Feld voranzubringen, wenn es darum geht, die Leistung von KI-Modellen im Gesundheitswesen zu testen.“
Quellen:
Johri, S., et al. (2025) An evaluation framework for clinical use of large language models in patient interaction tasks. Nature Medicine. doi.org/10.1038/s41591-024-03328-5.