AlphaGenome: Ένα εργαλείο Τεχνητής Νοημοσύνης προβλέπει πώς ένα λάθος μπορεί να αλλάξει μια γενετική ιστορία

Ένα νέο μοντέλο τεχνητής νοημοσύνης βαθιάς μάθησης μπορεί να βοηθήσει τους επιστήμονες να αποκρυπτογραφήσουν καλύτερα την πλοκή του γενετικού βιβλίου οδηγιών και να μάθουν πώς τα τυπογραφικά λάθη αλλάζουν την ιστορία.
Το AlphaGenome, που δημιουργήθηκε από την Google DeepMind, είναι το πιο πρόσφατο μιας συνεχώς βελτιούμενης σειράς μοντέλων τεχνητής νοημοσύνης που έχουν κατασκευαστεί για να αναλύουν τεράστιες εκτάσεις DNA. Το προηγούμενο κορυφαίο μοντέλο, που ονομάστηκε Borzoi, μπορούσε να προβλέψει μοριακά σημεία σε εκτάσεις DNA μήκους 500.000 βάσεων. Το AlphaGenome μπορεί να αναλύσει 1 εκατομμύριο δομικά στοιχεία DNA κάθε φορά, αναφέρουν οι ερευνητές στις 28 Ιανουαρίου στο Nature. Το μοντέλο μπορεί να έχει πρακτικές επιπτώσεις για τη διάγνωση σπάνιων γενετικών ασθενειών, τον εντοπισμό μεταλλάξεων που οδηγούν στον καρκίνο, το σχεδιασμό συνθετικών αλληλουχιών DNA ή θεραπευτικών RNA και την καλύτερη κατανόηση της βασικής βιολογίας.
“Το AlphaGenome δεν είναι απλώς ένα μεγαλύτερο μοντέλο όσον αφορά το μήκος του πλαισίου, αλλά είναι στην πραγματικότητα ένα αρκετά μεγάλο άλμα προς τα εμπρός στη συνολική του χρησιμότητα”, λέει ο Anshul Kundaje, ένας υπολογιστικός βιολόγος στο Πανεπιστήμιο Stanford που αναπτύσσει μοντέλα τεχνητής νοημοσύνης για τη γονιδιωματική.
Για παράδειγμα, μια γενετική αλλαγή μπορεί να μην έχει καμία επίδραση σε γειτονικά γονίδια, αλλά θα μπορούσε να αλλάξει τη δραστηριότητα γονιδίων που βρίσκονται μακριά. Επειδή το AlphaGenome εξετάζει μεγαλύτερα τμήματα DNA, είναι πιο πιθανό να εντοπίσει τέτοιες σχέσεις εξ αποστάσεως.
Αλλά το AlphaGenome δεν είναι τέλειο. Αδημοσίευτα δεδομένα από το εργαστήριο του Kundaje δείχνουν ότι το μοντέλο δυσκολεύεται να προβλέψει πώς αλλάζει η γονιδιακή δραστηριότητα στα άτομα. Αυτή τη στιγμή, το μοντέλο είναι ένα εργαλείο για την αποκάλυψη βασικής βιολογίας και όχι κάτι που θα μπορούσαν να χρησιμοποιήσουν οι γιατροί για να διαγνώσουν ή να θεραπεύσουν ασθενείς.
Το AlphaGenome έχει “εξαντλήσει” αυτό που μπορεί να κάνει αυτός ο τύπος μοντέλου, λέει ο Kundaje. Προβλέπει ότι το επόμενο μεγάλο άλμα θα προέλθει από επιστήμονες που θα δημιουργήσουν νέους τύπους δεδομένων για να αναλύσει το μοντέλο ή οι απόγονοί του.
Το AlphaGenome μπορεί να εντοπίσει βιολογικά σημαντικά σημεία με ανάλυση μίας βάσης, λέει ο Peter Koo, ένας υπολογιστικός βιολόγος στο Cold Spring Harbor Laboratory στη Νέα Υόρκη. Αυτή είναι πολύ υψηλότερη ανάλυση από το Borzoi, το οποίο επισήμανε σημεία βιολογικού ενδιαφέροντος σε κάδους 32 ζευγών βάσεων.
Αυτό είναι ένα μεγάλο έργο, δεδομένου ότι η αναφορά του μοντέλου είναι το ανθρώπινο γονιδίωμα μήκους 3 δισεκατομμυρίων βάσεων, που συχνά αποκαλείται γενετικό βιβλίο οδηγιών. Το βιβλίο είναι στην πραγματικότητα μια πολύτομη εγκυκλοπαίδεια περιπέτειας με επιλογή της δικής σου κατάληξης.
Τα γονίδια, οι σύντομες ιστορίες του βιβλίου, λέγονται σε μικρές φράσεις που μπορούν να αναδιαταχθούν, να συντομευτούν ή να παραλειφθούν. Ανάμεσα στα αποσπάσματα της ιστορίας υπάρχουν αποσπάσματα που μπορεί να περιέχουν οδηγίες για το πώς να διαβάσετε μια εντελώς διαφορετική ιστορία. Οι σελίδες και τα κεφάλαια είναι περίπλοκα διπλωμένα μεταξύ τους, έτσι ώστε το τράβηγμα μιας καρτέλας σε ένα απόσπασμα να προκαλεί κάτι να εμφανιστεί κεφάλαια μακριά.
Μεγάλο μέρος του βιβλίου είναι γεμάτο με αυτό που πολλοί άνθρωποι θεωρούσαν ανοησίες, αλλά συχνά είναι ουσιαστικό αναγνωστικό υλικό. Οι ερευνητές έχουν καταγράψει μια ιλιγγιώδη σειρά σημείων στίξης, πτυχών σαν origami, ανταλλαγών σύνταξης, μουτζούρων στο περιθώριο και άλλων τύπων βιολογικής γραμματικής που χρησιμοποιούν τα κύτταρα για να κατανοήσουν το βιβλίο.
Το έργο του AlphaGenome είναι να λάβει μια συμβολοσειρά γραμμάτων DNA και να προβλέψει πώς τα σημεία πλοκής, η στίξη και άλλες παραλλαγές επηρεάζουν 11 διακριτές βιολογικές διεργασίες, συμπεριλαμβανομένου του ματίσματος RNA, των επιπέδων γονιδιακής δραστηριότητας και ορισμένων αλληλεπιδράσεων πρωτεΐνης-DNA. Το μοντέλο εξετάζει 5.930 σημεία δεδομένων από μελέτες ανθρώπινου DNA και 1.128 σε DNA ποντικού. Με αυτά τα δεδομένα, η τεχνητή νοημοσύνη μπορεί να προβλέψει πώς η αλλαγή ενός μόνο γράμματος, ή βάσης, στην αλυσίδα του ενός εκατομμυρίου βάσεων αλλάζει την ιστορία.
Εξειδικευμένα υπολογιστικά μοντέλα που προβλέπουν υποσύνολα αυτών των βιολογικών λειτουργιών χρησιμοποιούνται εδώ και χρόνια, αλλά το AlphaGenome τα υπερτερεί στις περισσότερες μετρήσεις και τα καταφέρνει ιδιαίτερα καλά στον εντοπισμό ορισμένων χαρακτηριστικών σε διαφορετικούς τύπους κυττάρων, αναφέρουν οι ερευνητές. Για παράδειγμα, το AlphaGenome εντόπισε αλλαγές στη γονιδιακή δραστηριότητα σε ορισμένους τύπους κυττάρων 14,7 τοις εκατό καλύτερα από το Borzoi2.
“Κάνοντας καλά σε τόσες πολλές διαφορετικές γονιδιωματικές εργασίες ταυτόχρονα, πιστεύουμε ότι αυτό αποδεικνύει ότι το μοντέλο έχει μάθει μια ισχυρή γενική αναπαράσταση των αλληλουχιών DNA και των πολύπλοκων διαδικασιών που κωδικοποιούν αυτές οι αλληλουχίες”, δήλωσε η Natasha Latysheva της Google DeepMind στις 27 Ιανουαρίου κατά τη διάρκεια ενημέρωσης των μέσων ενημέρωσης.
Το εργαλείο θα μπορούσε να διευκολύνει τα πράγματα για τους ερευνητές που προσπαθούν να κατανοήσουν πώς λειτουργεί το γονιδίωμα, λέει η Judit García González, μια γενετίστρια ανθρώπων στην Ιατρική Σχολή Ichan στο Mount Sinai στη Νέα Υόρκη. Πριν από το AlphaGenome, ένας ερευνητής “θα μπορούσε να χρειαστεί να χρησιμοποιήσει τρία διαφορετικά εργαλεία με τις δικές τους προειδοποιήσεις και [να] μάθει πώς λειτουργούν, για να προβλέψει ας πούμε 20 διαφορετικές γονιδιωματικές λειτουργικές συνέπειες”, λέει. Τώρα, το AlphaGenome τα ενώνει όλα αυτά σε ένα εργαλείο.
Το AlphaGenome δεν είναι μια εντελώς νέα εφεύρεση. Βασίζεται σε προηγούμενα μοντέλα, αλλά χρησιμοποιεί πτυχές αυτών των μοντέλων με έξυπνους τρόπους. “Δεν υπάρχει καμία ενιαία καινοτομία στο AlphaGenome που μπορεί κανείς να επισημάνει ως κρίσιμη καινοτομία. Είναι πραγματικά ένα σύστημα με πολλά κόλπα και μηχανική”, λέει ο Koo.
Το AlphaGenome χρησιμοποίησε ένα τέχνασμα που ονομάζεται απόσταξη συνόλου με το οποίο πειραματίζεται το εργαστήριο του Koo. Αυτή η στρατηγική εκπαιδεύει εκ των προτέρων πολλαπλά αντίγραφα του μοντέλου, καθένα σε υπολογιστικά μεταλλαγμένο DNA. Αυτά τα μοντέλα χρησιμεύουν ως δάσκαλοι σε ένα μόνο μαθητικό μοντέλο που υπολογίζει κατά μέσο όρο τις εκδόσεις τους.
Είναι σαν να έχουν 60 καθηγητές ιστορίας να δίνουν την εκδοχή τους για ένα σημαντικό γεγονός, λέει ο Koo. “Αν λάβετε υπόψη τη συναίνεση για το τι συμφωνεί κάθε ιστορικός, τι αλληλεπικαλύπτεται στις ιστορίες τους, αυτό είναι πιθανώς αυτό που θα μπορούσε να είναι πραγματικά αλήθεια.”
Η συναίνεση, λέει, “τείνει να είναι πιο αξιόπιστη από το να εμπιστεύεσαι οποιοδήποτε μεμονωμένο μοντέλο.”
