ΑΙ Chatbots: Ισχυροί στη θεωρία, αδύναμοι στις πραγματικές ιατρικές ερωτήσεις

Τα AI chatbots μπορεί να φαίνονται “ψυχές” ιατρικών γνώσεων, αλλά οι επιδόσεις τους πέφτουν κατακόρυφα όταν αλληλεπιδρούν με πραγματικούς ανθρώπους.
Στο εργαστήριο, τα AI chatbots μπορούσαν να αναγνωρίσουν ιατρικά προβλήματα με ακρίβεια 95% και να προτείνουν σωστές ενέργειες, όπως η κλήση γιατρού ή η επίσκεψη σε επείγοντα περιστατικά, σε ποσοστό άνω του 56%. Ωστόσο, όταν οι άνθρωποι παρουσίαζαν συνομιλητικά ιατρικά σενάρια στα chatbots, η κατάσταση γινόταν πιο περίπλοκη. Η ακρίβεια έπεσε κάτω από 35% για τη διάγνωση της πάθησης και περίπου 44% για τον προσδιορισμό της κατάλληλης ενέργειας, σύμφωνα με ανακοίνωση ερευνητών στις 9 Φεβρουαρίου στο Nature Medicine.
Η πτώση στις επιδόσεις των chatbots μεταξύ του εργαστηρίου και των συνθηκών του πραγματικού κόσμου υποδεικνύει ότι “η Τεχνητή Νοημοσύνη διαθέτει τις ιατρικές γνώσεις, αλλά οι άνθρωποι δυσκολεύονται να λάβουν από αυτήν χρήσιμες συμβουλές”, δηλώνει ο Adam Mahdi, μαθηματικός που διευθύνει το Εργαστήριο “Reasoning with Machines” του Πανεπιστημίου της Οξφόρδης, το οποίο διεξήγαγε τη μελέτη.
Για να εξεταστεί η ακρίβεια των bots στις διαγνώσεις στο εργαστήριο, ο Mahdi και οι συνεργάτες του έδωσαν σενάρια που περιέγραφαν 10 ιατρικές καταστάσεις στα μεγάλα γλωσσικά μοντέλα (LLMs) GPT-4o, Command R+ και Llama 3. Παρακολούθησαν πόσο καλά το chatbot διέγνωσε το πρόβλημα και συμβούλευσε για το τι πρέπει να γίνει.
Στη συνέχεια, η ομάδα ανέθεσε τυχαία σχεδόν 1.300 εθελοντές της μελέτης να δώσουν τα διαμορφωμένα σενάρια σε ένα από αυτά τα LLM ή να χρησιμοποιήσουν κάποια άλλη μέθοδο για να αποφασίσουν τι να κάνουν σε αυτή την κατάσταση. Οι εθελοντές κλήθηκαν επίσης να εξηγήσουν γιατί κατέληξαν στο συμπέρασμά τους και ποιο θεωρούσαν ότι ήταν το ιατρικό πρόβλημα. Οι περισσότεροι άνθρωποι που δεν χρησιμοποιούσαν chatbots έψαχναν συμπτώματα στο Google ή σε άλλες μηχανές αναζήτησης. Οι συμμετέχοντες που χρησιμοποιούσαν chatbots όχι μόνο είχαν χειρότερες επιδόσεις από τα chatbots που αξιολογούσαν το σενάριο στο εργαστήριο, αλλά και χειρότερες από τους συμμετέχοντες που χρησιμοποιούσαν εργαλεία αναζήτησης. Οι συμμετέχοντες που συμβουλεύτηκαν τον “Dr. Google” διέγνωσαν το πρόβλημα σε ποσοστό άνω του 40% σε σύγκριση με το μέσο όρο 35% για εκείνους που χρησιμοποίησαν bots. Αυτή είναι μια στατιστικά σημαντική διαφορά, λέει ο Mahdi.
Τα AI chatbots ήταν τεχνολογικά αιχμής στα τέλη του 2024, όταν έγινε η μελέτη — τόσο ακριβή που η βελτίωση των ιατρικών τους γνώσεων θα ήταν δύσκολη. “Το πρόβλημα ήταν η αλληλεπίδραση με τους ανθρώπους”, λέει ο Mahdi.
Σε ορισμένες περιπτώσεις, τα chatbots παρείχαν λανθασμένες, ατελείς ή παραπλανητικές πληροφορίες. Αλλά κυρίως, το πρόβλημα φάνηκε να είναι ο τρόπος με τον οποίο οι άνθρωποι αλληλείδρουν με τα LLM. Οι άνθρωποι τείνουν να παρέχουν πληροφορίες αργά, αντί να δίνουν ολόκληρη την ιστορία αμέσως, λέει ο Mahdi. Και τα chatbots μπορεί εύκολα να αποσπαστούν από άσχετες ή μερικές πληροφορίες. Οι συμμετέχοντες μερικές φορές αγνοούσαν τις διαγνώσεις των chatbots, ακόμα και όταν ήταν σωστές.
Μικρές αλλαγές στον τρόπο που περιέγραφαν οι άνθρωποι τα σενάρια έκαναν μεγάλη διαφορά στην απόκριση του chatbot. Για παράδειγμα, δύο άτομα περιέγραφαν μια υπαραχνοειδή αιμορραγία, έναν τύπο εγκεφαλικού επεισοδίου κατά τον οποίο το αίμα πλημμυρίζει τον χώρο μεταξύ του εγκεφάλου και των ιστών που τον καλύπτουν. Και οι δύο συμμετέχοντες ανέφεραν στο GPT-4o πονοκεφάλους, ευαισθησία στο φως και αυχενική δυσκαμψία. Ένας εθελοντής είπε ότι “ανέπτυξε ξαφνικά τον χειρότερο πονοκέφαλο που είχε ποτέ”, ωθώντας το GPT-4o να συμβουλεύσει σωστά για άμεση ιατρική φροντίδα.
Ένας άλλος εθελοντής το χαρακτήρισε “απαίσιο πονοκέφαλο”. Το GPT-4o πρότεινε ότι το άτομο μπορεί να έχει ημικρανία και θα πρέπει να ξεκουραστεί σε σκοτεινό, ήσυχο δωμάτιο — μια σύσταση που θα μπορούσε να σκοτώσει τον ασθενή.
Γιατί οι ανεπαίσθητες αλλαγές στην περιγραφή άλλαξαν τόσο δραματικά την απόκριση δεν είναι γνωστό, λέει ο Mahdi. Είναι μέρος του προβλήματος του “μαύρου κουτιού” της Τεχνητής Νοημοσύνης, όπου ακόμη και οι δημιουργοί της δεν μπορούν να παρακολουθήσουν τη λογική ενός μοντέλου.
Τα αποτελέσματα της μελέτης υποδηλώνουν ότι “κανένα από τα μοντέλα γλώσσας που εξετάστηκαν δεν ήταν έτοιμο για χρήση στην άμεση φροντίδα ασθενών”, λένε ο Mahdi και οι συνεργάτες του.
Άλλες ομάδες έχουν καταλήξει στο ίδιο συμπέρασμα. Σε μια έκθεση που δημοσιεύθηκε στις 21 Ιανουαρίου, ο παγκόσμιος μη κερδοσκοπικός οργανισμός ασφάλειας ασθενών ECRI κατέταξε τη χρήση AI chatbots στην ιατρική, και από τις δύο πλευρές του στηθοσκοπίου, ως τον σημαντικότερο κίνδυνο τεχνολογίας υγείας για το 2026. Η έκθεση αναφέρει ότι τα AI chatbots προτείνουν με βεβαιότητα λανθασμένες διαγνώσεις, επινοούν σωματικά μέρη, συστήνουν ιατρικά προϊόντα ή διαδικασίες που θα μπορούσαν να είναι επικίνδυνα, συμβουλεύουν για περιττές εξετάσεις ή θεραπείες και ενισχύουν προκαταλήψεις ή στερεότυπα που μπορούν να επιδεινώσουν τις ανισότητες στην υγεία. Μελέτες έχουν επίσης δείξει πώς τα chatbots μπορούν να κάνουν ηθικά λάθη όταν χρησιμοποιούνται ως θεραπευτές.
Ωστόσο, οι περισσότεροι γιατροί χρησιμοποιούν πλέον chatbots με κάποιον τρόπο, όπως για τη μεταγραφή ιατρικών αρχείων ή την ανασκόπηση αποτελεσμάτων εξετάσεων, λέει ο Scott Lucas, αντιπρόεδρος ασφάλειας συσκευών του ECRI. Η OpenAI ανακοίνωσε το ChatGPT for Healthcare και η Anthropic κυκλοφόρησε το Claude for Healthcare τον Ιανουάριο. Το ChatGPT ήδη διαχειρίζεται πάνω από 40 εκατομμύρια ερωτήσεις υγείας καθημερινά.
Και δεν είναι περίεργο που οι άνθρωποι στρέφονται στα chatbots για ιατρική βοήθεια, λέει ο Lucas. “Μπορούν να έχουν πρόσβαση σε δισεκατομμύρια σημεία δεδομένων και να συγκεντρώσουν δεδομένα και να τα παρουσιάσουν σε ένα εύπεπτο, πιστευτό, συναρπαστικό μορφή που μπορεί να σας δώσει στοχευμένες συμβουλές για σχεδόν ακριβώς την ερώτηση που κάνατε, και να το κάνει με αυτοπεποίθηση.” Αλλά “τα εμπορικά LLM δεν είναι έτοιμα για κλινική χρήση σε “prime time”. Το να βασίζεσαι αποκλειστικά στο αποτέλεσμα του LLM, αυτό δεν είναι ασφαλές”.
Τελικά, τόσο τα μοντέλα Τεχνητής Νοημοσύνης όσο και οι χρήστες μπορεί να γίνουν αρκετά εξελιγμένοι ώστε να γεφυρώσουν το επικοινωνιακό χάσμα που τονίζει η μελέτη του Mahdi, λέει ο Lucas.
Η μελέτη επιβεβαιώνει τις ανησυχίες σχετικά με την ασφάλεια και την αξιοπιστία των LLMs στη φροντίδα ασθενών που η κοινότητα της μηχανικής μάθησης συζητά εδώ και πολύ καιρό, λέει η Michelle Li, ερευνήτρια ιατρικής Τεχνητής Νοημοσύνης στην Ιατρική Σχολή του Χάρβαρντ. Αυτή και άλλες μελέτες έχουν καταδείξει την αδυναμία της Τεχνητής Νοημοσύνης σε πραγματικά ιατρικά περιβάλλοντα, λέει. Η Li και οι συνεργάτες της δημοσίευσαν μια μελέτη στις 3 Φεβρουαρίου στο Nature Medicine, προτείνοντας πιθανές βελτιώσεις στην εκπαίδευση, τη δοκιμή και την υλοποίηση μοντέλων Τεχνητής Νοημοσύνης — αλλαγές που μπορεί να τα καταστήσουν πιο αξιόπιστα σε διάφορα ιατρικά πλαίσια.
Ο Mahdi σχεδιάζει να διεξάγει πρόσθετες μελέτες αλληλεπιδράσεων Τεχνητής Νοημοσύνης σε άλλες γλώσσες και με την πάροδο του χρόνου. Τα ευρήματα μπορεί να βοηθήσουν τους προγραμματιστές Τεχνητής Νοημοσύνης να σχεδιάσουν πιο ισχυρά μοντέλα από τα οποία οι άνθρωποι μπορούν να λάβουν ακριβείς απαντήσεις, λέει.
“Το πρώτο βήμα είναι να διορθώσουμε το πρόβλημα της μέτρησης”, λέει ο Mahdi. “Δεν έχουμε μετρήσει τι έχει σημασία”, δηλαδή πώς αποδίδει η Τεχνητή Νοημοσύνη σε πραγματικούς ανθρώπους.
