AI στην Ιατρική: Επαναστατικά εργαλεία, αβέβαια αποτελέσματα
Μπορεί η τεχνητή νοημοσύνη να φέρει πραγματικά την επανάσταση στην υγειονομική περίθαλψη; Μια συστηματική ανασκόπηση αποκαλύπτει τα κρυμμένα κενά στο όφελος των ασθενών και τα εμπόδια στην ουσιαστική κλινική ολοκλήρωση. Σε μια πρόσφατη μελέτη που δημοσιεύτηκε στο The Lancet Regional Health - Europe, μια ομάδα ερευνητών αξιολόγησε τα οφέλη και τις βλάβες των αλγοριθμικών συστημάτων λήψης αποφάσεων (ADM) που βασίζονται στην τεχνητή νοημοσύνη (AI) που χρησιμοποιούνται από επαγγελματίες υγείας σε σύγκριση με την τυπική περίθαλψη, εστιάζοντας σε αποτελέσματα που σχετίζονται με τον ασθενή. Ιστορικό Οι πρόοδοι στην τεχνητή νοημοσύνη επέτρεψαν στα συστήματα να ξεπερνούν τους ιατρικούς ειδικούς σε εργασίες όπως η διάγνωση, η εξατομικευμένη ιατρική, η παρακολούθηση ασθενών και η ανάπτυξη φαρμάκων. Παρά αυτές τις προόδους, παραμένει ασαφές εάν βελτιώθηκε...
AI στην Ιατρική: Επαναστατικά εργαλεία, αβέβαια αποτελέσματα
Μπορεί η τεχνητή νοημοσύνη να φέρει πραγματικά την επανάσταση στην υγειονομική περίθαλψη; Μια συστηματική ανασκόπηση αποκαλύπτει τα κρυμμένα κενά στο όφελος των ασθενών και τα εμπόδια στην ουσιαστική κλινική ολοκλήρωση.
Σε πρόσφατη μελέτη που δημοσιεύτηκε στοThe Lancet Regional Health – Ευρώπη, μια ομάδα ερευνητών αξιολόγησε τα οφέλη και τις βλάβες των αλγοριθμικών συστημάτων λήψης αποφάσεων (ADM) που βασίζονται στην τεχνητή νοημοσύνη (AI) που χρησιμοποιούνται από επαγγελματίες υγείας σε σύγκριση με την τυπική περίθαλψη, εστιάζοντας σε αποτελέσματα που σχετίζονται με τον ασθενή.
φόντο
Η πρόοδος στην τεχνητή νοημοσύνη επέτρεψε στα συστήματα να ξεπερνούν τους ιατρικούς ειδικούς σε εργασίες όπως η διάγνωση, η εξατομικευμένη ιατρική, η παρακολούθηση ασθενών και η ανάπτυξη φαρμάκων. Παρά αυτές τις προόδους, παραμένει ασαφές εάν η βελτιωμένη διαγνωστική ακρίβεια και οι μετρήσεις απόδοσης μεταφράζονται σε απτά οφέλη για τους ασθενείς, όπως μειωμένη θνησιμότητα ή νοσηρότητα.
Η τρέχουσα έρευνα συχνά δίνει προτεραιότητα στην αναλυτική απόδοση έναντι των κλινικών αποτελεσμάτων και πολλές ιατρικές συσκευές που βασίζονται σε τεχνητή νοημοσύνη εγκρίνονται χωρίς να υποστηρίζουν στοιχεία από τυχαιοποιημένες ελεγχόμενες δοκιμές (RCTs).
Επιπλέον, η έλλειψη διαφάνειας και οι τυποποιημένες εκτιμήσεις των βλαβών που συνδέονται με αυτές τις τεχνολογίες εγείρουν ηθικές και πρακτικές ανησυχίες. Αυτό υπογραμμίζει ένα κρίσιμο κενό στην έρευνα και ανάπτυξη της τεχνητής νοημοσύνης που απαιτεί περαιτέρω αξιολογήσεις εστιασμένες σε αποτελέσματα που σχετίζονται με τον ασθενή για να διασφαλιστεί η ουσιαστική και ασφαλής ενσωμάτωση στην υγειονομική περίθαλψη.
Σχετικά με τη μελέτη
Περιορισμένη εξωτερική επικύρωση: Τα περισσότερα συστήματα AI που αξιολογήθηκαν αναπτύχθηκαν με βάση εσωτερικά δεδομένα, με λίγες μελέτες που αναφέρουν εξωτερική επικύρωση, εγείροντας ανησυχίες σχετικά με τη γενίκευσή τους σε διαφορετικούς πληθυσμούς ασθενών.
Αυτή η συστηματική ανασκόπηση ακολούθησε τις κατευθυντήριες γραμμές για τα Προτιμώμενα στοιχεία αναφοράς για συστηματικές ανασκοπήσεις και μετα-αναλύσεις (PRISMA) για να διασφαλιστεί η μεθοδολογική αυστηρότητα. Οι αναζητήσεις πραγματοποιήθηκαν στο Medical Literature Analysis and Retrieval System Online (MEDLINE), στη βάση δεδομένων Excerpta Medica (EMBASE), στο δημόσιο/εκδότη MEDLINE (PubMed) και στο Institute of Electrical and Electronics Engineers (IEEE) Xplore και κάλυψαν μια περίοδο 10 ετών μέχρι το μελέτες. Η αναζήτηση περιελάμβανε όρους που σχετίζονται με την τεχνητή νοημοσύνη, τη μηχανική μάθηση (ML), τους αλγόριθμους αποφάσεων, τους επαγγελματίες υγείας και τα αποτελέσματα των ασθενών.
Οι επιλέξιμες μελέτες περιλάμβαναν σχέδια παρέμβασης ή παρατήρησης με συστήματα υποστήριξης αποφάσεων AI που αναπτύχθηκαν με ή αξιοποιώντας την ML. Οι μελέτες έπρεπε να αναφέρουν αποτελέσματα σχετικά με τον ασθενή, όπως θνησιμότητα, νοσηρότητα, διάρκεια παραμονής στο νοσοκομείο, επανεισδοχή ή ποιότητα ζωής που σχετίζεται με την υγεία. Τα κριτήρια αποκλεισμού περιελάμβαναν μελέτες χωρίς προκαταχώριση, χωρίς πρότυπο ελέγχου φροντίδας ή με εστίαση στη ρομποτική ή άλλα συστήματα που δεν σχετίζονται με τη λήψη αποφάσεων βάσει τεχνητής νοημοσύνης. Το πρωτόκολλο για αυτήν την ανασκόπηση είχε προκαταχωριστεί στο Διεθνές Μητρώο Υποψήφιων Συστηματικών Επισκοπήσεων (PROSPERO) και όλες οι αλλαγές τεκμηριώθηκαν.
Οι κριτές έλεγξαν τίτλους, περιλήψεις και πλήρη κείμενα με βάση προκαθορισμένα κριτήρια. Η εξαγωγή δεδομένων και η αξιολόγηση της ποιότητας πραγματοποιήθηκαν ανεξάρτητα χρησιμοποιώντας τυποποιημένα έντυπα. Ο κίνδυνος μεροληψίας αξιολογήθηκε χρησιμοποιώντας το εργαλείο Cochrane Risk of Bias 2 (RoB 2) και το εργαλείο Risk of Bias in Non-Randomized Studies of Interventions (ROBINS-I) για να ληφθούν υπόψη οι πιθανοί συγχυτικοί παράγοντες, ενώ η διαφάνεια των αναφορών αξιολογήθηκε χρησιμοποιώντας το Consolidated Standards Expansion of Reporting Trials (CONsolidated Standards Expansion of Reporting Trials - CONSORT Multivari-Artificial-Intelligence) μοντέλο πρόβλεψης για ατομική πρόγνωση ή διάγνωση - πλαίσιο τεχνητής νοημοσύνης (TRIPOD-AI).
Τα δεδομένα που εξήχθησαν περιελάμβαναν ρυθμίσεις μελέτης, σχεδιασμό, λεπτομέρειες παρέμβασης και σύγκρισης, δημογραφικά στοιχεία ασθενών και επαγγελματιών, χαρακτηριστικά αλγορίθμου και μέτρα έκβασης. Οι μελέτες ταξινομήθηκαν επίσης κατά τύπο συστήματος AI, κλινική περιοχή, στόχους πρόβλεψης και ρυθμιστικές και χρηματοδοτικές πληροφορίες. Η ανάλυση εξέτασε επίσης εάν οι μοναδικές συνεισφορές των συστημάτων τεχνητής νοημοσύνης στα αποτελέσματα απομονώθηκαν και επικυρώθηκαν.
Αποτελέσματα μελέτης
Υποεκπροσωπούμενες ειδικότητες: Ενώ οι μελέτες ψυχιατρικής και ογκολογίας εκπροσωπούνταν καλά, άλλες ειδικότητες όπως η εντατική και η πνευμονολογία εξακολουθούν να υποεκπροσωπούνται, αλλοιώνοντας πιθανώς την ευρύτερη δυνατότητα εφαρμογής των αποτελεσμάτων.
Η συστηματική ανασκόπηση περιελάμβανε 19 μελέτες, συμπεριλαμβανομένων 18 RCT και μία προοπτική μελέτη κοόρτης, που επιλέχθηκαν μετά από εξέταση 3.000 εγγραφών. Αυτές οι μελέτες διεξήχθησαν σε διαφορετικές περιοχές, συμπεριλαμβανομένων εννέα στις Ηνωμένες Πολιτείες, τέσσερις στην Ευρώπη, τρεις στην Κίνα και άλλες που διανεμήθηκαν σε όλο τον κόσμο. Οι ρυθμίσεις περιλάμβαναν 14 μελέτες σε νοσοκομείο, τρεις σε εξωτερικά ιατρεία, μία σε οίκο ευγηρίας και μία σε μικτό περιβάλλον.
Οι σπουδές κάλυψαν μια σειρά από ιατρικές ειδικότητες, όπως ογκολογία (4 σπουδές), ψυχιατρική (3 σπουδές), ενδονοσοκομειακή ιατρική, νευρολογία και αναισθησιολογία (2 σπουδές η καθεμία), καθώς και μεμονωμένες σπουδές στη διαβητολογία, την πνευμονολογία, την εντατική και άλλες ειδικότητες.
Ο μέσος αριθμός συμμετεχόντων σε όλες τις μελέτες ήταν 243, με μέση ηλικία τα 59,3 έτη. Το ποσοστό των γυναικών ήταν κατά μέσο όρο 50,5% και 10 μελέτες ανέφεραν φυλετική ή εθνική σύνθεση, με διάμεσο 71,4% λευκούς συμμετέχοντες. Δώδεκα μελέτες περιέγραψαν τους επιδιωκόμενους επαγγελματίες υγείας, όπως: π.χ. νοσηλευτές ή πάροχους πρωτοβάθμιας περίθαλψης και εννέα λεπτομερή πρωτόκολλα εκπαίδευσης που κυμαίνονται από σύντομες εισαγωγές στην πλατφόρμα έως πολυήμερες εποπτευόμενες συνεδρίες.
Τα συστήματα AI διαφέρουν ως προς τον τύπο και τη λειτουργία. Επτά μελέτες χρησιμοποίησαν συστήματα παρακολούθησης για παρακολούθηση σε πραγματικό χρόνο και προγνωστικές ειδοποιήσεις, έξι χρησιμοποιήθηκαν συστήματα εξατομίκευσης θεραπείας και τέσσερις μελέτες ενσωματώνουν πολλαπλές λειτουργίες. Τα παραδείγματα περιελάμβαναν αλγόριθμους για τον γλυκαιμικό έλεγχο στο διαβήτη, εξατομικευμένη ψυχιατρική φροντίδα και παρακολούθηση φλεβικής θρομβοεμβολής. Οι πηγές δεδομένων ανάπτυξης κυμαίνονταν από μεγάλα εσωτερικά σύνολα δεδομένων έως συγκεντρωμένα πολυθεσμικά δεδομένα, εφαρμόζοντας διάφορα μοντέλα ML, όπως ενίσχυση κλίσης, νευρωνικά δίκτυα, ταξινομητές Bayes και μοντέλα που βασίζονται σε παλινδρόμηση. Παρά αυτές τις εξελίξεις, η εξωτερική επικύρωση των αλγορίθμων ήταν περιορισμένη στις περισσότερες μελέτες, εγείροντας ανησυχίες σχετικά με τη γενίκευσή τους σε ευρύτερους πληθυσμούς ασθενών.
Ο κίνδυνος μεροληψίας αξιολογήθηκε ως χαμηλός σε τέσσερις RCT, μέτριος σε επτά και υψηλός σε άλλες επτά, ενώ η μελέτη κοόρτης είχε σοβαρό κίνδυνο μεροληψίας. Η συμμόρφωση με τις κατευθυντήριες γραμμές CONSORT-AI και TRIPOD-AI διέφερε, με τρεις μελέτες να επιτυγχάνουν πλήρη συμμόρφωση, ενώ άλλες είχαν υψηλή έως χαμηλή συμμόρφωση. Οι περισσότερες μελέτες που πραγματοποιήθηκαν πριν από την εισαγωγή αυτών των κατευθυντήριων οδηγιών έδειξαν μέτρια συμμόρφωση, αν και οι ρητές αναφορές στις κατευθυντήριες γραμμές ήταν σπάνιες.
Τα αποτελέσματα έδειξαν ένα συνδυασμό οφελών και βλαβών. Δώδεκα μελέτες ανέφεραν οφέλη σχετικά με τον ασθενή, συμπεριλαμβανομένων των μειώσεων της θνησιμότητας, της βελτίωσης της διαχείρισης της κατάθλιψης και του πόνου και της βελτίωσης της ποιότητας ζωής. Ωστόσο, μόνο οκτώ μελέτες περιελάμβαναν τυποποιημένες εκτιμήσεις βλάβης και οι περισσότερες από αυτές απέτυχαν να τεκμηριώσουν πλήρως τις ανεπιθύμητες ενέργειες. Αν και έξι συστήματα τεχνητής νοημοσύνης έλαβαν ρυθμιστικές εγκρίσεις, οι σχέσεις μεταξύ της ρυθμιστικής κατάστασης, της ποιότητας της μελέτης και των αποτελεσμάτων των ασθενών παρέμειναν ασαφείς.
συμπεράσματα
Αυτή η συστηματική ανασκόπηση υπογραμμίζει την έλλειψη μελετών υψηλής ποιότητας που αξιολογούν τα σχετικά με τον ασθενή αποτελέσματα συστημάτων ADM που σχετίζονται με την τεχνητή νοημοσύνη στην υγειονομική περίθαλψη. Ενώ τα οφέλη εμφανίζονταν σταθερά στην ψυχιατρική, άλλες περιοχές ανέφεραν ανάμεικτα αποτελέσματα με περιορισμένες ενδείξεις βελτιώσεων στη θνησιμότητα, το άγχος και τις νοσηλείες. Οι περισσότερες μελέτες δεν είχαν ισορροπημένες αξιολογήσεις βλάβης-οφέλους και απέτυχαν να απομονώσουν τη μοναδική συμβολή της τεχνητής νοημοσύνης.
Τα ευρήματα υπογραμμίζουν την επείγουσα ανάγκη για διαφανείς αναφορές, ισχυρές πρακτικές επικύρωσης και τυποποιημένα πλαίσια που θα καθοδηγούν την ασφαλή και αποτελεσματική ενσωμάτωση της τεχνητής νοημοσύνης σε κλινικά περιβάλλοντα.
Πηγές: