Μελέτη: Η Τεχνητή Νοημοσύνη Αποτυγχάνει στη Διαφορική Διάγνωση Ασθενών σε Ποσοστό Άνω του 80%

Η παραγωγική τεχνητή νοημοσύνη (AI) εξακολουθεί να υστερεί στον κλινικό συλλογισμό που απαιτείται για ασφαλή χρήση, σύμφωνα με νέα μελέτη.
Τα chatbots τεχνητής νοημοσύνης έχουν βελτιώσει την ακρίβεια των διαγνώσεών τους όταν τους παρέχονται πλήρη κλινικά δεδομένα. Ωστόσο, αποτυγχάνουν να διατυπώσουν κατάλληλη διαφορική διάγνωση σε ποσοστό άνω του 80%, σύμφωνα με ερευνητές του Mass General Brigham, ενός δικτύου νοσοκομείων και ερευνητικών ιδρυμάτων στη Βοστώνη.
Τα αποτελέσματα της μελέτης, που δημοσιεύθηκε στο JAMA Network Open, έδειξαν ότι τα μεγάλα γλωσσικά μοντέλα (LLMs) δεν ανταποκρίνονται στο επίπεδο συλλογισμού που απαιτείται για κλινική χρήση.
«Παρά τις συνεχείς βελτιώσεις, τα έτοιμα μεγάλα γλωσσικά μοντέλα δεν είναι έτοιμα για αυτόνομη κλινική χρήση χωρίς επίβλεψη», δήλωσε ο Marc Succi, συν-συγγραφέας της μελέτης.
Πρόσθεσε ότι η AI δεν μπορεί ακόμη να αναπαράγει τη διαφορική διάγνωση, η οποία είναι κεντρική για τον κλινικό συλλογισμό και την οποία θεωρεί «την τέχνη της ιατρικής».
Η διαφορική διάγνωση είναι το πρώτο βήμα των επαγγελματιών υγείας για τον εντοπισμό μιας πάθησης, διακρίνοντάς την από άλλες με παρόμοια συμπτώματα.
Πώς δοκιμάστηκαν τα μοντέλα
Η ερευνητική ομάδα ανέλυσε 21 μεγάλα γλωσσικά μοντέλα, συμπεριλαμβανομένων των Claude, DeepSeek, Gemini, GPT και Grok. Αξιολόγησαν τα LLMs σε 29 τυποποιημένα κλινικά περιστατικά χρησιμοποιώντας ένα νέο εργαλείο, το PrIME-LLM.
Το εργαλείο αξιολογεί την ικανότητα ενός μοντέλου σε διάφορα στάδια του κλινικού συλλογισμού: διατύπωση αρχικής διάγνωσης, παραγγελία εξετάσεων, κατάληξη σε τελική διάγνωση και σχεδιασμός θεραπείας.
Για να προσομοιώσουν την εξέλιξη των περιστατικών, οι ερευνητές παρείχαν σταδιακά πληροφορίες στα μοντέλα, ξεκινώντας από βασικά στοιχεία του ασθενούς και προσθέτοντας ευρήματα κλινικής εξέτασης και εργαστηριακά αποτελέσματα.
Στην κλινική πράξη, η διαφορική διάγνωση είναι κρίσιμη. Στη μελέτη, τα μοντέλα λάμβαναν επιπλέον πληροφορίες ώστε να μπορούν να προχωρήσουν ακόμη κι αν αποτύγχαν στην αρχική διάγνωση.
Οι ερευνητές διαπίστωσαν ότι τα γλωσσικά μοντέλα πέτυχαν υψηλή ακρίβεια στις τελικές διαγνώσεις, αλλά απέδωσαν πολύ χειρότερα στη διαφορική διάγνωση και στη διαχείριση της αβεβαιότητας.
«Αυτά τα μοντέλα είναι πολύ καλά στο να δίνουν μια τελική διάγνωση όταν τα δεδομένα είναι πλήρη, αλλά δυσκολεύονται στην ανοιχτή αρχική φάση ενός περιστατικού, όταν οι πληροφορίες είναι λίγες», σημείωσε η συγγραφέας Arya Rao.
Όλα τα μοντέλα απέτυχαν να διατυπώσουν κατάλληλη διαφορική διάγνωση σε ποσοστό άνω του 80%. Όσον αφορά την τελική διάγνωση, τα ποσοστά επιτυχίας κυμάνθηκαν από 60% έως πάνω από 90%.
Τα περισσότερα LLMs εμφάνισαν καλύτερη ακρίβεια όταν, πέρα από το κείμενο, τους παρείχαν εργαστηριακά αποτελέσματα και απεικονιστικές εξετάσεις.
Στα μοντέλα με τις καλύτερες επιδόσεις περιλαμβάνονταν τα Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash και Gemini 3.0 Pro.
Οι επαγγελματίες υγείας παραμένουν απαραίτητοι
Ωστόσο, οι συγγραφείς επισήμαναν ότι τα έτοιμα LLMs δεν έχουν ακόμη φτάσει το επίπεδο ευφυΐας που απαιτείται για ασφαλή χρήση και εξακολουθούν να υστερούν στον προχωρημένο κλινικό συλλογισμό.
«Τα ευρήματά μας επιβεβαιώνουν ότι τα μεγάλα γλωσσικά μοντέλα στην υγεία εξακολουθούν να χρειάζονται ενεργό ανθρώπινο έλεγχο και πολύ στενή εποπτεία», σημείωσε ο Succi.
Η Susana Manso García, μέλος της ομάδας εργασίας για την Τεχνητή Νοημοσύνη στην Ισπανική Εταιρεία Γενικής και Κοινοτικής Ιατρικής, δήλωσε ότι τα ευρήματα στέλνουν ένα σαφές μήνυμα. «Η ανθρώπινη κλινική κρίση παραμένει αναντικατάστατη», είπε. «Η σύσταση προς το κοινό είναι να χρησιμοποιεί αυτές τις τεχνολογίες με προσοχή και, όταν αντιμετωπίζει οποιοδήποτε θέμα υγείας, να συμβουλεύεται πάντοτε έναν επαγγελματία υγείας.»
