Το σύστημα AI ταιριάζει με τη διαγνωστική ακρίβεια, ενώ μειώνει το ιατρικό κόστος
Σε μια νέα μελέτη, το διαγνωστικό σύστημα της Microsoft με τεχνητή νοημοσύνη ξεπέρασε τους έμπειρους γιατρούς στην επίλυση των πιο δύσκολων ιατρικών περιπτώσεων ταχύτερα, φθηνότερα και με μεγαλύτερη ακρίβεια. Μελέτη: Διαδοχική διάγνωση με γλωσσικά μοντέλα. Πίστωση εικόνας: MetamorWorks/Shutterstock.com *Σημαντική γνωστοποίηση: Το Arxiv δημοσιεύει προκαταρκτικές επιστημονικές αναφορές που δεν έχουν αξιολογηθεί από ομοτίμους και επομένως δεν θεωρούνται οριστικές, δεν καθοδηγούν την κλινική πρακτική/συμπεριφορές που σχετίζονται με την υγεία ή αντιμετωπίζονται ως καθιερωμένες πληροφορίες. Μια πρόσφατη μελέτη στους διακομιστές Arxiv Preprint συνέκρινε τη διαγνωστική ακρίβεια και τις δαπάνες πόρων των συστημάτων τεχνητής νοημοσύνης με εκείνες των κλινικών γιατρών σε περίπλοκες περιπτώσεις. Η ομάδα τεχνητής νοημοσύνης της Microsoft έδειξε την αποτελεσματική χρήση της τεχνητής νοημοσύνης (AI) σε...
Το σύστημα AI ταιριάζει με τη διαγνωστική ακρίβεια, ενώ μειώνει το ιατρικό κόστος
Σε μια νέα μελέτη, το διαγνωστικό σύστημα της Microsoft με τεχνητή νοημοσύνη ξεπέρασε τους έμπειρους γιατρούς στην επίλυση των πιο δύσκολων ιατρικών περιπτώσεων ταχύτερα, φθηνότερα και με μεγαλύτερη ακρίβεια.
Μελέτη: Διαδοχική διάγνωση με γλωσσικά μοντέλα. Πίστωση εικόνας: MetamorWorks/Shutterstock.com
*Σημαντική σημείωση: ArxivΔημοσιεύστε προκαταρκτικές επιστημονικές εκθέσεις που δεν έχουν αξιολογηθεί από ομοτίμους και επομένως δεν θεωρούνται οριστικές, καθοδηγούν την κλινική πρακτική/συμπεριφορές που σχετίζονται με την υγεία ή αντιμετωπίζονται ως καθιερωμένες πληροφορίες.
Μια πρόσφατη μελέτη για τοArxivΟ Preprint Server συνέκρινε τη διαγνωστική ακρίβεια και τις δαπάνες πόρων των συστημάτων τεχνητής νοημοσύνης με εκείνες των κλινικών γιατρών σε περίπλοκες περιπτώσεις. Η ομάδα τεχνητής νοημοσύνης της Microsoft έδειξε την αποτελεσματική χρήση της τεχνητής νοημοσύνης (AI) στην ιατρική για την αντιμετώπιση διαγνωστικών προκλήσεων που πρέπει να αποκρυπτογραφήσουν οι γιατροί.
Διαδοχική διάγνωση και γλωσσικά μοντέλα
Οι γιατροί συχνά διαγιγνώσκουν τους ασθενείς για μια ασθένεια μέσω μιας διαδικασίας κλινικής συλλογιστικής που περιλαμβάνει βήμα προς βήμα, επαναληπτικές ερωτήσεις και δοκιμές. Ακόμη και με περιορισμένες αρχικές πληροφορίες, οι κλινικοί γιατροί περιορίζουν την πιθανή διάγνωση ρωτώντας τον ασθενή και επιβεβαιώνοντάς την μέσω βιοχημικών εξετάσεων, απεικόνισης, βιοψίας και άλλων διαγνωστικών διαδικασιών.
Η επίλυση μιας περίπλοκης υπόθεσης απαιτεί ένα ολοκληρωμένο σύνολο δεξιοτήτων, συμπεριλαμβανομένου του εντοπισμού των πιο κρίσιμων ερωτήσεων ή δοκιμών που πρέπει να ακολουθηθούν, της προσοχής στο κόστος των δοκιμών για την αποφυγή αυξανόμενης επιβάρυνσης των ασθενών και της αναγνώρισης στοιχείων για τη σίγουρη διάγνωση.
Αρκετές μελέτες έχουν δείξει τη βελτιωμένη αποτελεσματικότητα των γλωσσικών μοντέλων (LMS) στη διεξαγωγή ιατρικών εξετάσεων αδειοδότησης και εξαιρετικά δομημένων διαγνωστικών βινιετών. Ωστόσο, η απόδοση των περισσότερων LMs έχει αξιολογηθεί κάτω από τεχνητές συνθήκες που διαφέρουν δραστικά από τα κλινικά περιβάλλοντα του πραγματικού κόσμου.
Τα περισσότερα μοντέλα LMS για διαγνωστικές αξιολογήσεις βασίζονται σε ένα κουίζ πολλαπλών επιλογών και η διάγνωση γίνεται από ένα προκαθορισμένο σύνολο απαντήσεων. Ένας μειωμένος διαδοχικός διαγνωστικός κύκλος αυξάνει τον κίνδυνο υπερεκτίμησης της ικανότητας του μοντέλου των στατικών σημείων αναφοράς. Επιπλέον, αυτά τα διαγνωστικά μοντέλα ενέχουν τον κίνδυνο αδιάκριτης παραγγελίας δοκιμών και πρόωρου διαγνωστικού κλεισίματος. Επομένως, υπάρχει επείγουσα ανάγκη για ένα σύστημα τεχνητής νοημοσύνης που θα βασίζεται σε έναν διαδοχικό διαγνωστικό κύκλο για τη βελτίωση της διαγνωστικής ακρίβειας και τη μείωση του κόστους δοκιμών.
Σχετικά με τη μελέτη
Για να ξεπεραστούν τα προαναφερθέντα μειονεκτήματα των μοντέλων LMS για κλινική διάγνωση, οι επιστήμονες έχουν αναπτύξει το Sequential Diagnostic Benchmark (SDBench) ως ένα διαδραστικό πλαίσιο για την αξιολόγηση διαγνωστικών παραγόντων (ανθρώπινων ή AI) μέσω ρεαλιστικών διαδοχικών κλινικών συναντήσεων.
Για την αξιολόγηση της διαγνωστικής ακρίβειας, η τρέχουσα μελέτη χρησιμοποίησε εβδομαδιαίες περιπτώσεις που δημοσιεύονται στο New England Journal of Medicine (NEJM), το κορυφαίο ιατρικό περιοδικό στον κόσμο. Αυτό το περιοδικό συνήθως δημοσιεύει σημειώσεις περιπτώσεων ασθενών του Γενικού Νοσοκομείου της Μασαχουσέτης σε λεπτομερή, αφηγηματική μορφή. Αυτές οι περιπτώσεις είναι από τις πιο απαιτητικές διαγνωστικά και πνευματικά απαιτητικές στην κλινική ιατρική και συχνά απαιτούν πολλούς ειδικούς και διαγνωστικές εξετάσεις για την επιβεβαίωση της διάγνωσης.
Sdbench κατά 304 περιπτώσεις από το NEJM Clinicopathologic Conference (2017-2025) σε σταδιακές διαγνωστικές συναντήσεις. Τα ιατρικά δεδομένα περιελάμβαναν κλινικές εκδηλώσεις σε οριστικές διαγνώσεις που κυμαίνονται από κοινές ασθένειες (π.χ. πνευμονία) έως σπάνιες διαταραχές (π.χ. νεογνική υπογλυκαιμία). Χρησιμοποιώντας τη διαδραστική πλατφόρμα, οι διαγνωστικοί παράγοντες αποφασίζουν ποιες ερωτήσεις θα υποβάλουν, ποιες εξετάσεις θα παραγγείλουν και πότε θα επιβεβαιώσουν μια διάγνωση.
Το Information Gatekeeper είναι ένα γλωσσικό μοντέλο που αποκαλύπτει κλινικές λεπτομέρειες από ένα περιεκτικό αρχείο υπόθεσης μόνο όταν ζητείται ρητά από έναν ολοκληρωμένο φάκελο υπόθεσης. Ενδέχεται επίσης να παρέχει πρόσθετες πληροφορίες συνεπείς με την περίπτωση για δοκιμή που δεν περιγράφεται στην αρχική αφήγηση CPC. Αφού έγινε η τελική διάγνωση με βάση τις πληροφορίες που έλαβε από τον θυρωρό, η ακρίβεια της κλινικής αξιολόγησης δοκιμάστηκε έναντι της πραγματικής διάγνωσης. Επιπλέον, υπολογίστηκε το σωρευτικό κόστος όλων των ζητούμενων διαγνωστικών εξετάσεων που πραγματοποιήθηκαν σε πραγματική διάγνωση. Αξιολογώντας τη διαγνωστική ακρίβεια και το διαγνωστικό κόστος, το Sdbench υποδεικνύει πόσο κοντά είμαστε στην παροχή φροντίδας υψηλής ποιότητας με βιώσιμο κόστος.
Αποτελέσματα μελέτης
Η τρέχουσα μελέτη ανέλυσε την απόδοση όλων των διαγνωστικών παραγόντων στο SDBEN. Οι παράγοντες AI αξιολογήθηκαν και στις 304 περιπτώσεις NEJM, ενώ οι γιατροί αξιολογήθηκαν σε ένα διατηρημένο υποσύνολο 56 σετ δοκιμών. Αυτή η μελέτη διαπίστωσε ότι οι παράγοντες τεχνητής νοημοσύνης είχαν καλύτερες επιδόσεις από τους γιατρούς αυτής της υποομάδας.
Οι γιατροί που ασκούν το επάγγελμα στις ΗΠΑ και το Ηνωμένο Βασίλειο με μέση κλινική εμπειρία 12 ετών πέτυχαν 20% διαγνωστική ακρίβεια με μέσο κόστος 2.963 $ ανά περίπτωση στο SDBench, υπογραμμίζοντας την εγγενή δυσκολία του σημείου αναφοράς. Οι γιατροί αφιέρωσαν κατά μέσο όρο 11,8 λεπτά ανά περίπτωση και ζήτησαν 6,6 ερωτήσεις και 7,2 τεστ. Το GPT -4o ξεπέρασε τους γιατρούς τόσο σε διαγνωστική ακρίβεια όσο και σε κόστος. Τα διαθέσιμα στο εμπόριο μοντέλα έχουν προσφέρει ποικίλη διαγνωστική ακρίβεια και κόστος.
Η τρέχουσα μελέτη εισήγαγε επίσης το MAI Diagnostic Orchestrator (MAI-DXO), μια πλατφόρμα που συνεργάζεται με γιατρούς που επέδειξε υψηλότερη διαγνωστική αποτελεσματικότητα από τους ανθρώπους γιατρούς και τα εμπορικά γλωσσικά μοντέλα. Σε σύγκριση με τα εμπορικά LM, το Mai-DXO επέδειξε υψηλότερη διαγνωστική ακρίβεια και σημαντική μείωση του ιατρικού κόστους πάνω από το μισό. Για παράδειγμα, το off-the-shelf μοντέλο O3 πέτυχε 78,6% διαγνωστική ακρίβεια στα 7.850 $, ενώ η May-DXO πέτυχε ακρίβεια 79,9% με μόλις 2.397 $ ή 85,5% στα 7.184 $.
Το MAI-DXO το πέτυχε προσομοιώνοντας ένα εικονικό πάνελ «γιατρών πρακτόρων» με διαφορετικούς ρόλους στη δημιουργία υποθέσεων, την επιλογή δοκιμών, την επίγνωση κόστους και τον έλεγχο σφαλμάτων. Σε αντίθεση με τη βασική προτροπή AI, αυτή η δομημένη ενορχήστρωση επέτρεψε στο σύστημα να είναι επαναληπτικό και αποτελεσματικό.
Το Mai-Dxo είναι μια αγνωστική προσέγγιση μοντέλων που έχει αποδείξει κέρδη ακρίβειας σε διάφορα γλωσσικά μοντέλα, όχι μόνο στο μοντέλο O3 Foundation.
Συμπεράσματα και μελλοντικές προοπτικές
Τα αποτελέσματα της τρέχουσας μελέτης δείχνουν την υψηλότερη διαγνωστική ακρίβεια και τη σχέση κόστους-αποτελεσματικότητας των συστημάτων τεχνητής νοημοσύνης όταν επεξεργάζονται επαναληπτικά και προσεκτικά. Τα Sdbench και Mai-Dxo παρείχαν μια εμπειρικά βασισμένη βάση για την προώθηση των διαγνωστικών με τη βοήθεια AI υπό ρεαλιστικούς περιορισμούς.
Στο μέλλον, το Mai-DXO πρέπει να επικυρωθεί σε κλινικά περιβάλλοντα όπου ο επιπολασμός και η εμφάνιση της νόσου εμφανίζονται τόσο συχνά όσο σε καθημερινή βάση και όχι ως σπάνια περίπτωση. Επιπλέον, απαιτούνται μεγάλης κλίμακας διαδραστικά ιατρικά σημεία αναφοράς με περισσότερες από 304 περιπτώσεις. Η ενσωμάτωση οπτικών και άλλων αισθητηριακών μεθόδων όπως η απεικόνιση θα μπορούσε επίσης να βελτιώσει τη διαγνωστική ακρίβεια χωρίς να διακυβεύεται η σχέση κόστους-αποτελεσματικότητας.
Ωστόσο, οι συγγραφείς σημειώνουν σημαντικούς περιορισμούς. Οι περιπτώσεις NEJM -CPC επιλέγονται για τη δυσκολία τους και δεν αντικατοπτρίζουν τις καθημερινές κλινικές παρουσιάσεις. Η μελέτη δεν περιελάμβανε υγιείς ασθενείς ούτε μέτρησε ψευδώς θετικά ποσοστά. Επιπλέον, οι εκτιμήσεις διαγνωστικού κόστους βασίζονται στις τιμές των ΗΠΑ και ενδέχεται να διαφέρουν παγκοσμίως.
Τα μοντέλα δοκιμάστηκαν επίσης σε ένα διατηρημένο σύνολο δοκιμών πρόσφατων περιπτώσεων (2024-2025) για να αξιολογηθεί η γενίκευση και να αποφευχθεί η υπερβολική προσαρμογή, καθώς πολλές από αυτές τις περιπτώσεις κυκλοφόρησαν μετά το τέλος εκπαίδευσης για τα περισσότερα μοντέλα.
Το έγγραφο εγείρει επίσης ένα ευρύτερο ερώτημα: Πρέπει να συγκρίνουμε συστήματα τεχνητής νοημοσύνης με μεμονωμένους γιατρούς ή με πλήρεις ιατρικές ομάδες; Επειδή το Mai-Dxo μιμείται τη συνεργασία πολλών ειδικών, η σύγκριση μπορεί να αντικατοπτρίζει κάπως πιο κοντά στη φροντίδα που βασίζεται στην ομάδα παρά στην ατομική πρακτική.
Ωστόσο, η έρευνα προτείνει ότι τα δομημένα συστήματα τεχνητής νοημοσύνης όπως το Mai-DXO μπορεί μια μέρα να υποστηρίξουν ή να αυξήσουν τους κλινικούς γιατρούς, ιδιαίτερα σε περιβάλλοντα όπου η πρόσβαση σε ειδικούς είναι περιορισμένη ή δαπανηρή.
Κάντε λήψη του αντιγράφου PDF σας τώρα!
*Σημαντική σημείωση: ArxivΔημοσιεύστε προκαταρκτικές επιστημονικές εκθέσεις που δεν έχουν αξιολογηθεί από ομοτίμους και επομένως δεν θεωρούνται οριστικές, καθοδηγούν την κλινική πρακτική/συμπεριφορές που σχετίζονται με την υγεία ή αντιμετωπίζονται ως καθιερωμένες πληροφορίες.
Πηγές:
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405