Η Τεχνητή Νοημοσύνη της Google στον Τομέα Υγείας Δημιούργησε Μια Ανύπαρκτη Σωματική Δομή — Τι Συμβαίνει Όταν Οι Γιατροί Δεν Το Αντιλαμβάνονται;

Σενάριο: Ένας ακτινολόγος εξετάζει μια τομογραφία του εγκεφάλου σας και σημειώνει μια ανωμαλία στις βασικές γαγγλιά. Είναι μια περιοχή του εγκεφάλου που σας βοηθά με τον κινητικό έλεγχο, τη μάθηση και την επεξεργασία συναισθημάτων. Το όνομα ακούγεται παρόμοιο με μια άλλη περιοχή του εγκεφάλου, την βασική αρτηρία, η οποία προμηθεύει αίμα στον εγκεφαλικό σας κορμό — αλλά ο ακτινολόγος ξέρει να μην τα μπερδεύει. Ένα εγκεφαλικό επεισόδιο ή μια ανωμαλία σε μία από αυτές τις περιοχές συνήθως αντιμετωπίζεται με πολύ διαφορετικό τρόπο από την άλλη.
Τώρα φανταστείτε ότι ο γιατρός σας χρησιμοποιεί ένα μοντέλο AI για την ανάγνωση. Το μοντέλο λέει ότι έχετε πρόβλημα με τα «βασικά γάγγλια», συγχέοντας τα δύο ονόματα σε μια περιοχή του εγκεφάλου που δεν υπάρχει. Θα ελπίζατε ότι ο γιατρός σας θα εντόπιζε το λάθος και θα ξανακοίταζε την τομογραφία. Αλλά υπάρχει η πιθανότητα να μην το κάνει.
Αν και δεν πρόκειται για νοσοκομείο, τα «βασικά γάγγλια» είναι ένα πραγματικό λάθος που προέκυψε από το μοντέλο AI της Google στον τομέα της υγειονομικής περίθαλψης, το Med-Gemini. Μια ερευνητική εργασία του 2024 που παρουσίασε το Med-Gemini περιλάμβανε την ψευδαίσθηση σε μια ενότητα για τις τομογραφίες κεφαλής, και κανείς στην Google δεν το εντόπισε, ούτε σε αυτή την εργασία ούτε σε μια ανάρτηση blog που το ανακοίνωνε. Όταν ο Bryan Moore, πιστοποιημένος νευρολόγος και ερευνητής με εξειδίκευση στην AI, σημείωσε το λάθος, είπε στο The Verge, ότι η εταιρεία διόρθωσε ήσυχα την ανάρτηση blog για να διορθώσει το λάθος χωρίς δημόσια αναγνώριση — ενώ η εργασία παρέμεινε αμετάβλητη. Η Google αποκαλεί το περιστατικό μια απλή ορθογραφική λάθος του «βασικού γάγγλιου». Ορισμένοι ιατρικοί επαγγελματίες λένε ότι είναι ένα επικίνδυνο λάθος και ένα παράδειγμα των περιορισμών της τεχνητής νοημοσύνης στην υγειονομική περίθαλψη.
Το Med-Gemini είναι μια συλλογή μοντέλων AI που μπορεί να συνοψίζει δεδομένα υγείας, να δημιουργεί αναφορές ακτινολογίας, να αναλύει ηλεκτρονικά ιατρικά αρχεία και πολλά άλλα. Η εργασία προτύπων έρευνας, που αποσκοπούσε να δείξει την αξία του στους γιατρούς, ανέδειξε μια σειρά ανωμαλιών σε τομογραφίες που οι ακτινολόγοι «παρέλειψαν» αλλά η AI εντόπισε. Ένα από τα παραδείγματα ήταν ότι το Med-Gemini διαγνώρισε ένα «παλιό αριστερό βασικό γάγγλιο έμφραγμα». Αλλά όπως έχει αποδειχθεί, δεν υπάρχει κάτι τέτοιο.
Προχωρώντας περίπου έναν χρόνο μπροστά, το πρόγραμμα αξιόπιστων δοκιμαστών του Med-Gemini δεν δέχεται πλέον νέες συμμετοχές — πιθανώς σημαίνοντας ότι το πρόγραμμα δοκιμάζεται σε πραγματικά ιατρικά σενάρια σε πιλοτική βάση. Είναι ακόμα μια πρώιμη δοκιμή, αλλά οι κίνδυνοι από τα λάθη της AI αυξάνονται. Το Med-Gemini δεν είναι το μόνο μοντέλο που κάνει τέτοια λάθη. Και δεν είναι σαφές πώς θα πρέπει να αντιδρούν οι γιατροί.
«Αυτό για το οποίο μιλάτε είναι εξαιρετικά επικίνδυνο», λέει ο Maulin Shah, επικεφαλής ιατρικών πληροφοριών στο Providence, ένα σύστημα υγείας που εξυπηρετεί 51 νοσοκομεία και περισσότερες από 1.000 κλινικές, στο The Verge. Πρόσθεσε, «Δύο γράμματα, αλλά είναι μεγάλο θέμα.»
Σε μια δήλωση, ο εκπρόσωπος της Google Jason Freidenfelds είπε στο The Verge ότι η εταιρεία συνεργάζεται με την ιατρική κοινότητα για να δοκιμάσει τα μοντέλα της και ότι η Google είναι διαφανής σχετικά με τους περιορισμούς τους.
«Αν και το σύστημα εντόπισε μια παραλείψιμη παθολογία, χρησιμοποίησε έναν λανθασμένο όρο για να την περιγράψει (βασικό αντί για βασικό). Γι’ αυτό διευκρινίσαμε στην ανάρτηση blog», είπε ο Freidenfelds. Πρόσθεσε, «Συνεχίζουμε να εργαζόμαστε για τη βελτίωση των μοντέλων μας, εξετάζοντας αυστηρά μια εκτενή γκάμα χαρακτηριστικών απόδοσης – δείτε τις πρακτικές εκπαίδευσης και ανάπτυξής μας για μια λεπτομερή εικόνα της διαδικασίας μας.»
Μια «συνηθισμένη λανθασμένη μεταγραφή»
Στις 6 Μαΐου 2024, η Google παρουσίασε την πιο πρόσφατη σειρά μοντέλων AI στον τομέα της υγειονομικής περίθαλψης με μεγάλη φανφάρα. Διαφήμισε το «Med-Gemini» ως ένα «άλμα προς τα εμπρός» με «σημαντική δυνατότητα στην ιατρική», προβάλλοντας τις πραγματικές του εφαρμογές στην ακτινολογία, παθολογία, δερματολογία, οφθαλμολογία και γενωμική.
Τα μοντέλα εκπαιδεύτηκαν σε ιατρικές εικόνες, όπως ακτινογραφίες θώρακα, τομογραφίες CT, διαφάνειες παθολογίας και άλλα, χρησιμοποιώντας ανώνυμα ιατρικά δεδομένα με ετικέτες κειμένου, σύμφωνα με μια ανάρτηση blog της Google. Η εταιρεία δήλωσε ότι τα μοντέλα AI μπορούσαν να «ερμηνεύσουν περίπλοκες 3D τομογραφίες, να απαντήσουν σε κλινικές ερωτήσεις και να δημιουργήσουν αναφορές ακτινολογίας τελευταίας τεχνολογίας» — ακόμη και φτάνοντας στο σημείο να λένε ότι θα μπορούσαν να βοηθήσουν στην πρόβλεψη κινδύνου ασθένειας μέσω γενωμικών πληροφοριών.
Ο Moore παρατήρησε τις προωθήσεις των συγγραφέων της εργασίας νωρίς και έριξε μια ματιά. Εντόπισε το λάθος και ανησύχησε, σημειώνοντας το λάθος στην Google μέσω LinkedIn και επικοινωνώντας απευθείας με τους συγγραφείς για να τους ενημερώσει.
Η εταιρεία, όπως είδε, άλλαξε ήσυχα τα στοιχεία του λάθους του μοντέλου AI. Ενημέρωσε τη φράση στην ανάρτηση blog της πρεμιέρας από «βασικά γάγγλια» σε «βασικά γάγγλια» χωρίς άλλες διαφορές και χωρίς αλλαγή στην εργασία της. Στην επικοινωνία που είδε το The Verge, οι υπάλληλοι της Google Health απάντησαν στον Moore, αποκαλώντας το λάθος τυπογραφικό.
Σε απάντηση, ο Moore κάλεσε δημόσια την Google για τη σιωπηλή διόρθωση. Αυτή τη φορά η εταιρεία άλλαξε το αποτέλεσμα πίσω με μια διευκρινιστική λεζάντα, γράφοντας ότι «‘βασικός’ είναι μια κοινή λανθασμένη μεταγραφή του ‘βασικού’ που το Med-Gemini έχει μάθει από τα δεδομένα εκπαίδευσης, αν και η σημασία της αναφοράς παραμένει αμετάβλητη.»
Η Google αναγνώρισε το ζήτημα σε δημόσιο σχόλιο στο LinkedIn, υποβαθμίζοντας ξανά το ζήτημα ως «ορθογραφικό λάθος».
«Σας ευχαριστούμε που το σημειώσατε!» είπε η εταιρεία. «Έχουμε ενημερώσει τη μορφή της ανάρτησης blog για να δείξουμε την αρχική έξοδο του μοντέλου και συμφωνούμε ότι είναι σημαντικό να δείξουμε πώς λειτουργεί πραγματικά το μοντέλο.»
Μέχρι την δημοσίευση αυτού του άρθρου, η εργασία παραμένει με το λάθος χωρίς ενημερώσεις ή αναγνώριση.
Είτε πρόκειται για τυπογραφικό λάθος, ψευδαίσθηση, ή και τα δύο, τέτοια λάθη εγείρουν πολύ μεγαλύτερα ερωτήματα σχετικά με τα πρότυπα που πρέπει να τηρούνται για την τεχνητή νοημοσύνη στον τομέα της υγειονομικής περίθαλψης και πότε θα είναι έτοιμη να απελευθερωθεί για χρήση σε δημόσιες περιπτώσεις.
«Το πρόβλημα με αυτά τα τυπογραφικά λάθη ή άλλες ψευδαισθήσεις είναι ότι δεν εμπιστεύομαι τους ανθρώπους μας να τα ελέγχουν»
«Το πρόβλημα με αυτά τα τυπογραφικά λάθη ή άλλες ψευδαισθήσεις είναι ότι δεν εμπιστεύομαι τους ανθρώπους μας να τα ελέγχουν, ούτε σίγουρα σε κάθε επίπεδο», λέει ο Shah στο The Verge. «Αυτά τα πράγματα εξαπλώνονται. Βρήκαμε σε μία από τις αναλύσεις μας ενός εργαλείου ότι κάποιος είχε γράψει μια σημείωση με μια λανθασμένη παθολογική εκτίμηση — η παθολογία ήταν θετική για καρκίνο, αυτοί έβαλαν αρνητική (κατά λάθος) … Αλλά τώρα η AI διαβάζει όλες αυτές τις σημειώσεις και τις εξαπλώνει, και εξαπλώνει, και παίρνει αποφάσεις από αυτά τα κακά δεδομένα.»
Τα λάθη με τα μοντέλα υγειονομικής περίθαλψης της Google συνεχίζονται. Δύο μήνες πριν, η Google παρουσιάσε το MedGemma, ένα νεότερο και πιο προχωρημένο μοντέλο υγειονομικής περίθαλψης που ειδικεύεται στα αποτελέσματα ακτινολογίας βάσει AI, και οι ιατρικοί επαγγελματίες ανακάλυψαν ότι αν διατύπωναν τις ερωτήσεις διαφορετικά όταν ρωτούσαν το μοντέλο AI, οι απαντήσεις διέφεραν και μπορούσαν να οδηγήσουν σε ανακριβή αποτελέσματα.
Σε ένα παράδειγμα, η Δρ. Judy Gichoya, αναπληρώτρια καθηγήτρια στο τμήμα ακτινολογίας και πληροφορικής στην Ιατρική Σχολή του Πανεπιστημίου Emory, ρώτησε το MedGemma για ένα πρόβλημα με την ακτινογραφία ενός ασθενούς με πολλές λεπτομέρειες — «Εδώ είναι μια ακτινογραφία ενός ασθενούς [ηλικία] [φύλο]. Τι βλέπετε στην ακτινογραφία;» — και το μοντέλο διάγνωσε σωστά το πρόβλημα. Όταν το σύστημα παρουσίασε την ίδια εικόνα αλλά με μια απλούστερη ερώτηση — «Τι βλέπετε στην ακτινογραφία;» — η AI είπε ότι δεν υπήρχαν καθόλου προβλήματα. «Η ακτινογραφία δείχνει έναν φυσιολογικό ενήλικο θώρακα», έγραψε το MedGemma.
Σε ένα άλλο παράδειγμα, η Gichoya ρώτησε το MedGemma για μια ακτινογραφία που έδειχνε πνευμοπερτονίτιδα, ή αέρα κάτω από το διάφραγμα. Την πρώτη φορά, το σύστημα απάντησε σωστά. Αλλά με ελαφρώς διαφορετική διατύπωση της ερώτησης, η AI ψευδόταν με πολλούς τύπους διαγνώσεων.
«Η ερώτηση είναι, θα αμφισβητήσουμε πραγματικά την AI ή όχι;» λέει ο Shah. Ακόμα και αν ένα σύστημα AI ακούει μια συνομιλία γιατρού-ασθενούς για να δημιουργήσει κλινικές σημειώσεις, ή μεταφράζοντας τη δική του σημειογραφία του γιατρού, λέει, αυτές έχουν κινδύνους ψευδαίσθησης που θα μπορούσαν να οδηγήσουν σε ακόμη περισσότερους κινδύνους. Αυτό συμβαίνει γιατί οι ιατρικοί επαγγελματίες θα μπορούσαν να είναι λιγότερο πιθανό να ελέγξουν ξανά το κείμενο που έχει παραχθεί από την AI, ειδικά επειδή είναι συχνά ακριβές.
«Αν γράψω ‘ASA 325 mg qd,’ θα έπρεπε να το αλλάξει σε ‘Πάρτε μια ασπιρίνη κάθε μέρα, 325 χιλιοστόγραμμα,’ ή κάτι που μπορεί να καταλάβει ένας ασθενής», λέει ο Shah. «Αν το κάνετε αρκετές φορές, σταματάτε να διαβάζετε το μέρος του ασθενούς. Έτσι, αν τώρα ψευδίζεται — αν νομίζει ότι το ASA είναι η τυπική εκτίμηση αναισθησίας … δεν θα το καταλάβετε.»
Ειδοποιήσεις ψευδαίσθησης
Ο Shah λέει ότι ελπίζει η βιομηχανία να κινηθεί προς την ενίσχυση των επαγγελματιών υγειονομικής περίθαλψης αντί να αντικαθιστά κλινικές πτυχές. Επίσης, ελπίζει να δει ανίχνευση ψευδαίσθησης σε πραγματικό χρόνο στη βιομηχανία AI — για παράδειγμα, ένα μοντέλο AI να ελέγχει άλλο ένα για τον κίνδυνο ψευδαίσθησης και είτε να μην εμφανίζει αυτές τις ενότητες στον τελικό χρήστη είτε να τις επισημαίνει με μια προειδοποίηση.
«Στην υγειονομική περίθαλψη, η ‘συμπληρωματική αφήγηση’ συμβαίνει στη άνοια και στον αλκοολισμό, όπου απλώς επινοείτε πράγματα που ακούγονται πολύ ακριβή — οπότε δεν συνειδητοποιείτε ότι κάποιος έχει άνοια γιατί τα επινοεί και ακούγεται σωστό, και μετά πραγματικά ακούτε και λέτε, ‘Περίμενε, αυτό δεν είναι σωστό’ — αυτό ακριβώς κάνουν αυτά τα πράγματα», λέει ο Shah. «Έτσι έχουμε αυτές τις ειδοποιήσεις ψευδαίσθησης στο σύστημά μας που βάζουμε όπου χρησιμοποιούμε AI.»
Η Gichoya, που ηγείται του εργαστηρίου Καινοτομίας AI Υγειονομικής Περίθαλψης και Μεταφραστικής Πληροφορικής του Emory, λέει ότι έχει δει νεότερες εκδόσεις του Med-Gemini να ψευδίζονται σε ερευνητικά περιβάλλοντα, όπως οι περισσότερες μεγάλες κλίμακες μοντέλων AI υγειονομικής περίθαλψης.
«Η φύση τους είναι ότι [τα] τείνουν να επινοούν πράγματα, και δεν λένε ‘δεν ξέρω,’ που είναι ένα μεγάλο, μεγάλο πρόβλημα για τομείς υψηλού κινδύνου όπως η ιατρική», λέει η Gichoya.
Πρόσθεσε, «Οι άνθρωποι προσπαθούν να αλλάξουν τη ροή εργασίας των ακτινολόγων για να επιστρέψουν και να πουν, ‘Η AI θα δημιουργήσει την αναφορά, στη συνέχεια θα διαβάσετε την αναφορά,’ αλλά αυτή η αναφορά έχει τόσες πολλές ψευδαισθήσεις, και οι περισσότεροι από εμάς τους ακτινολόγους δεν θα μπορούσαμε να λειτουργήσουμε έτσι. Και έτσι βλέπω το επίπεδο υιοθέτησης να είναι πολύ υψηλότερο, ακόμα και αν οι άνθρωποι δεν το συνειδητοποιούν.»
Ο Δρ. Jonathan Chen, αναπληρωτής καθηγητής στην Ιατρική Σχολή του Στάνφορντ και διευθυντής ιατρικής εκπαίδευσης στην AI, αναζητούσε το σωστό επίθετο — δοκιμάζοντας «επικίνδυνο», «επικίνδυνο», και «επισφαλές» — προτού καταλήξει να περιγράψει αυτή τη στιγμή στην τεχνητή νοημοσύνη υγειονομικής περίθαλψης.