Τα μοντέλα τεχνητής νοημοσύνης αγωνίζονται σε πραγματικές ιατρικές συνομιλίες
Τα εργαλεία τεχνητής νοημοσύνης, όπως το ChatGPT, διαφημίζονται για την υπόσχεσή τους να μειώσουν τον φόρτο εργασίας των κλινικών ιατρών μετρώντας ασθενείς, συλλέγοντας ιατρικά ιστορικά και ακόμη και κάνοντας προκαταρκτικές διαγνώσεις. Αυτά τα εργαλεία, γνωστά ως μοντέλα μεγάλων γλωσσών, χρησιμοποιούνται ήδη από τους ασθενείς για να κατανοήσουν τα συμπτώματά τους και τα αποτελέσματα των ιατρικών εξετάσεων. Όμως, ενώ αυτά τα μοντέλα AI αποδίδουν εντυπωσιακά σε τυποποιημένες ιατρικές δοκιμές, πόσο καλά αποδίδουν σε καταστάσεις που μιμούνται περισσότερο τον πραγματικό κόσμο; Όχι και τόσο σπουδαίο, σύμφωνα με τα αποτελέσματα μιας νέας μελέτης με επικεφαλής ερευνητές της Ιατρικής Σχολής του Χάρβαρντ και του Πανεπιστημίου του Στάνφορντ. Για την ανάλυσή τους, που δημοσιεύτηκε στις 2 Ιανουαρίου...
Τα μοντέλα τεχνητής νοημοσύνης αγωνίζονται σε πραγματικές ιατρικές συνομιλίες
Τα εργαλεία τεχνητής νοημοσύνης, όπως το ChatGPT, διαφημίζονται για την υπόσχεσή τους να μειώσουν τον φόρτο εργασίας των κλινικών ιατρών μετρώντας ασθενείς, συλλέγοντας ιατρικά ιστορικά και ακόμη και κάνοντας προκαταρκτικές διαγνώσεις.
Αυτά τα εργαλεία, γνωστά ως μοντέλα μεγάλων γλωσσών, χρησιμοποιούνται ήδη από τους ασθενείς για να κατανοήσουν τα συμπτώματά τους και τα αποτελέσματα των ιατρικών εξετάσεων.
Όμως, ενώ αυτά τα μοντέλα AI αποδίδουν εντυπωσιακά σε τυποποιημένες ιατρικές δοκιμές, πόσο καλά αποδίδουν σε καταστάσεις που μιμούνται περισσότερο τον πραγματικό κόσμο;
Όχι και τόσο σπουδαίο, σύμφωνα με τα αποτελέσματα μιας νέας μελέτης με επικεφαλής ερευνητές της Ιατρικής Σχολής του Χάρβαρντ και του Πανεπιστημίου του Στάνφορντ.
Για την ανάλυσή τους, που δημοσιεύτηκε στις 2 Ιανουαρίου στοΦυσικό φάρμακοοι ερευνητές σχεδίασαν ένα πλαίσιο αξιολόγησης -? ή μια δοκιμή -? ονομάζεται CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) και το ανέπτυξε σε τέσσερα μοντέλα μεγάλων γλωσσών για να δει πόσο καλά λειτουργούσαν σε περιβάλλοντα που μιμούνται στενά τις πραγματικές αλληλεπιδράσεις με τους ασθενείς.
Και τα τέσσερα μοντέλα μεγάλων γλωσσών είχαν καλή απόδοση σε ερωτήσεις τύπου ιατρικών εξετάσεων, αλλά η απόδοσή τους επιδεινώθηκε όταν συμμετείχαν σε συνομιλίες που μιμούνταν περισσότερο τις αλληλεπιδράσεις στον πραγματικό κόσμο.
Αυτό το κενό, είπαν οι ερευνητές, υπογραμμίζει μια διπλή ανάγκη: πρώτον, να δημιουργηθούν πιο ρεαλιστικές αξιολογήσεις που θα αξιολογούν καλύτερα την καταλληλότητα των κλινικών μοντέλων τεχνητής νοημοσύνης για χρήση στον πραγματικό κόσμο και δεύτερον, να βελτιωθεί η ικανότητα αυτών των εργαλείων να κάνουν διάγνωση με βάση πιο ρεαλιστικές αλληλεπιδράσεις πριν χρησιμοποιηθούν στην κλινική.
Τα εργαλεία αξιολόγησης όπως το CRAFT-MD, λέει η ερευνητική ομάδα, μπορούν όχι μόνο να αξιολογήσουν με μεγαλύτερη ακρίβεια τα μοντέλα AI για την φυσική τους κατάσταση, αλλά θα μπορούσαν επίσης να βοηθήσουν στη βελτιστοποίηση της απόδοσής τους στην κλινική.
Η δουλειά μας αποκαλύπτει ένα εντυπωσιακό παράδοξο: Ενώ αυτά τα μοντέλα τεχνητής νοημοσύνης διαπρέπουν στις ιατρικές εξετάσεις, παλεύουν με τα βασικά στοιχεία της επίσκεψης σε γιατρό. Η δυναμική των ιατρικών συνομιλιών - η ανάγκη να κάνετε τις σωστές ερωτήσεις τη σωστή στιγμή, να συνδυάσετε διάσπαρτες πληροφορίες και να αιτιολογήσετε με βάση τα συμπτώματα - παρουσιάζει μοναδικές προκλήσεις που ξεπερνούν πολύ την απάντηση σε ερωτήσεις πολλαπλής επιλογής. Καθώς περνάμε από τις τυποποιημένες δοκιμές σε αυτές τις φυσικές συνομιλίες, ακόμη και τα πιο εξελιγμένα μοντέλα τεχνητής νοημοσύνης παρουσιάζουν σημαντικές πτώσεις στη διαγνωστική ακρίβεια».
Pranav Rajpurkar, ανώτερος συγγραφέας της μελέτης, επίκουρος καθηγητής βιοϊατρικής πληροφορικής στην Ιατρική Σχολή του Χάρβαρντ
Ένα καλύτερο τεστ για τον έλεγχο της απόδοσης AI στην πράξη
Επί του παρόντος, οι προγραμματιστές δοκιμάζουν την απόδοση των μοντέλων τεχνητής νοημοσύνης ζητώντας τους να απαντήσουν σε ιατρικές ερωτήσεις πολλαπλής επιλογής, που προέρχονται συνήθως από τις εθνικές εξετάσεις για αποφοίτους φοιτητές ιατρικής ή από τεστ που οι κάτοικοι λαμβάνουν ως μέρος της πιστοποίησής τους.
«Αυτή η προσέγγιση προϋποθέτει ότι όλες οι σχετικές πληροφορίες παρουσιάζονται καθαρά και συνοπτικά, συχνά χρησιμοποιώντας ιατρική ορολογία ή τσιτάτα που απλοποιούν τη διαγνωστική διαδικασία, αλλά στον πραγματικό κόσμο αυτή η διαδικασία είναι πολύ πιο ακατάστατη», δήλωσε η Shreya Johri, συν-πρώτος συγγραφέας της μελέτης και υποψήφια διδάκτορας στο Rajpurkar Lab της Ιατρικής Σχολής του Χάρβαρντ. «Χρειαζόμαστε ένα πλαίσιο δοκιμών που να αντικατοπτρίζει καλύτερα την πραγματικότητα και επομένως να μπορεί να προβλέψει καλύτερα πόσο καλά θα λειτουργούσε ένα μοντέλο».
Το CRAFT-MD αναπτύχθηκε ως μια πιο ρεαλιστική συσκευή μέτρησης.
Για την προσομοίωση αλληλεπιδράσεων στον πραγματικό κόσμο, το CRAFT-MD αξιολογεί πόσο καλά τα μοντέλα μεγάλων γλωσσών μπορούν να συλλέξουν πληροφορίες σχετικά με συμπτώματα, φάρμακα και οικογενειακό ιστορικό και στη συνέχεια να κάνουν μια διάγνωση. Ένας πράκτορας τεχνητής νοημοσύνης ποζάρει ως ασθενής και απαντά σε ερωτήσεις με συνομιλητικό, φυσικό στυλ. Ένας άλλος πράκτορας AI αξιολογεί την ακρίβεια της τελικής διάγνωσης που παρέχεται από το μοντέλο της μεγάλης γλώσσας. Οι ειδικοί στη συνέχεια αξιολογούν τα αποτελέσματα κάθε συνάντησης όσον αφορά την ικανότητα συλλογής σχετικών πληροφοριών για τον ασθενή, τη διαγνωστική ακρίβεια στην παρουσίαση διάσπαρτων πληροφοριών και τη συμμόρφωση με τις οδηγίες.
Οι ερευνητές χρησιμοποίησαν το CRAFT-MD για να δοκιμάσουν τέσσερα μοντέλα AI – ιδιόκτητες ή εμπορικές και εκδόσεις ανοιχτού κώδικα – για απόδοση σε 2.000 κλινικές βινιέτες που καλύπτουν κοινές καταστάσεις στην πρωτοβάθμια περίθαλψη και 12 ιατρικές ειδικότητες.
Όλα τα μοντέλα τεχνητής νοημοσύνης εμφάνισαν περιορισμούς, ιδιαίτερα στην ικανότητά τους να διεξάγουν κλινικές συνομιλίες και να αιτιολογούν με βάση τις πληροφορίες που παρέχονται από τους ασθενείς. Αυτό με τη σειρά του επηρέασε την ικανότητά τους να λαμβάνουν ιατρικό ιστορικό και να κάνουν την κατάλληλη διάγνωση. Για παράδειγμα, τα μοντέλα συχνά δυσκολεύονταν να κάνουν τις σωστές ερωτήσεις για να συγκεντρώσουν ένα σχετικό ιστορικό ασθενούς, έχασαν σημαντικές πληροφορίες κατά τη λήψη ιστορικού και δυσκολεύονταν να συνθέσουν διάσπαρτες πληροφορίες. Η ακρίβεια αυτών των μοντέλων μειώθηκε όταν παρουσιάστηκαν με ανοιχτές πληροφορίες αντί για απαντήσεις πολλαπλής επιλογής. Αυτά τα μοντέλα είχαν επίσης χειρότερη απόδοση κατά την ανταλλαγή εμπρός-πίσω -? όπως συμβαίνει με τις περισσότερες συνομιλίες στον πραγματικό κόσμο –? αντί να συμμετέχετε σε συνοπτικές συνομιλίες.
Συστάσεις για τη βελτιστοποίηση της απόδοσης της τεχνητής νοημοσύνης στην πράξη
Με βάση αυτά τα ευρήματα, η ομάδα προσφέρει μια σειρά από συστάσεις τόσο για προγραμματιστές τεχνητής νοημοσύνης που σχεδιάζουν μοντέλα τεχνητής νοημοσύνης όσο και για ρυθμιστικές αρχές που είναι επιφορτισμένες με την αξιολόγηση και την έγκριση αυτών των εργαλείων.
Αυτό περιλαμβάνει:
- Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
- Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
- Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
- Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
- Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können
Επιπλέον, τόσο οι πράκτορες της τεχνητής νοημοσύνης όσο και οι ειδικοί σε ανθρώπους θα πρέπει να συμπεριληφθούν στην αξιολόγηση, συνιστούν οι ερευνητές, καθώς το να βασίζεσαι αποκλειστικά σε ανθρώπινους ειδικούς είναι εντατική και δαπανηρή. Για παράδειγμα, το CRAFT-MD ήταν ταχύτερο από τους ανθρώπους που βαθμολογούνταν, καθώς επεξεργάστηκε 10.000 συνεντεύξεις σε 48 έως 72 ώρες, συν 15 έως 16 ώρες αξιολόγησης ειδικών. Αντίθετα, οι προσεγγίσεις που βασίζονται στον άνθρωπο θα απαιτούσαν εκτεταμένη στρατολόγηση και υπολογίζεται ότι 500 ώρες για προσομοιώσεις ασθενών (σχεδόν 3 λεπτά ανά συνομιλία) και περίπου 650 ώρες για αξιολογήσεις ειδικών (σχεδόν 4 λεπτά ανά συνομιλία). Η χρήση αξιολογητών AI ως πρώτη επιλογή έχει το πρόσθετο πλεονέκτημα της εξάλειψης του κινδύνου έκθεσης πραγματικών ασθενών σε μη επαληθευμένα εργαλεία τεχνητής νοημοσύνης.
Οι ερευνητές αναμένουν ότι το ίδιο το CRAFT-MD θα ενημερώνεται τακτικά και θα βελτιστοποιείται για να ενσωματώνει βελτιωμένα μοντέλα τεχνητής νοημοσύνης ασθενών.
«Ως γιατρός και επιστήμονας, ενδιαφέρομαι για μοντέλα τεχνητής νοημοσύνης που μπορούν να βελτιώσουν αποτελεσματικά και ηθικά την κλινική πρακτική», δήλωσε η επικεφαλής συγγραφέας της μελέτης Roxana Daneshjou, επίκουρη καθηγήτρια επιστήμης βιοϊατρικών δεδομένων και δερματολογίας στο Πανεπιστήμιο Stanford. «Το CRAFT-MD δημιουργεί ένα πλαίσιο που αντικατοπτρίζει καλύτερα τις αλληλεπιδράσεις στον πραγματικό κόσμο, συμβάλλοντας στην προώθηση του πεδίου όσον αφορά τη δοκιμή της απόδοσης των μοντέλων τεχνητής νοημοσύνης στην υγειονομική περίθαλψη».
Πηγές:
Johri, S.,et al. (2025) Ένα πλαίσιο αξιολόγησης για την κλινική χρήση μεγάλων γλωσσικών μοντέλων σε εργασίες αλληλεπίδρασης ασθενών. Ιατρική της Φύσης. doi.org/10.1038/s41591-024-03328-5.