Print Friendly, PDF & Email

Con l’aiuto dell’intelligenza artificiale, un team di scienziati tedesco-americani ha decifrato alcune delle istruzioni più elusive codificate nel DNA. La loro rete neurale addestrata su mappe ad alta risoluzione delle interazioni proteina-DNA scopre sottili schemi di sequenza del DNA in tutto il genoma, fornendo così una comprensione più profonda di come queste sequenze sono organizzate per regolare i geni. Gli algoritmi di intelligenza artificiale sono estremamente potenti nell’adattare set di dati enormi e complessi. Ma la loro interpretazione, razionalizzando il modo in cui la macchina esegue previsioni specifiche quando viene presentato un dato input, è notoriamente difficile. Questo comportamento da scatola nera ostacola un’ampia accettazione dell’IA nella diagnostica medica, dove le giustificazioni contano e ne limita l’utilità nelle scienze naturali in cui l’obiettivo è la comprensione dei meccanismi. Ora, un team interdisciplinare di biologi e ricercatori computazionali dell’Università tecnica di Monaco, dello Stowers Institute for Medical Research e della Stanford University ha dimostrato che l’applicazione di reti neurali, come quelle utilizzate per il riconoscimento facciale, insieme a tecniche di interpretazione dei modelli di nuova concezione può essere utilizzato per decifrare istruzioni complesse codificate nel DNA. Uno dei grandi problemi irrisolti in biologia è il secondo codice del genoma, il suo codice regolatore. Le basi del DNA codificano non solo le istruzioni su come costruire le proteine, ma anche quando e dove produrre queste proteine ​​in un organismo. Il codice regolatorio viene letto da proteine ​​chiamate fattori di trascrizione che si legano a brevi tratti di DNA chiamati motivi. Tuttavia, il modo in cui particolari combinazioni e disposizioni di motivi specificano l’attività di regolamentazione è un problema estremamente complesso che è stato difficile da definire. Esperimenti di legame del DNA e modellazione computazionale vanno di pari passo La chiave era eseguire esperimenti di legame fattore di trascrizione-DNA e modellazione computazionale alla massima risoluzione possibile, fino al livello delle singole basi del DNA. La maggiore risoluzione ha consentito al team non solo di addestrare modelli di rete neurale altamente accurati, ma anche di estrarre gli elementi e i modelli chiave dai modelli, inclusi i motivi di legame dei fattori di trascrizione e le regole combinatorie in base alle quali funzionano insieme come codice. “Le reti neurali sono scatole nere, ma possono essere interrogate digitalmente. Quindi, con un gran numero di esperimenti virtuali abbiamo capito le regole che la rete neurale ha appreso ”dice il primo autore, il dott. Žiga Avsec, membro del gruppo di Julien Gagneur, professore di medicina molecolare computazionale presso l’Università tecnica di Monaco. Insieme ad Anshul Kundaje, professore alla Stanford University, ha creato la prima versione del modello quando ha visitato Stanford come scienziato ospite. Applicato ai principali regolatori del differenziamento delle cellule staminali e confermato sperimentalmente dall’edizione genomica CRISPR, l’approccio ha rivelato regole complesse che implicano un posizionamento preciso lungo la doppia elica del DNA e un ordinamento specifico degli eventi. “Questo è stato estremamente soddisfacente”, afferma la leader del progetto Julia Zeitlinger, ricercatrice presso lo Stowers Institute e professore presso il Medical Center dell’Università del Kansas, “poiché i risultati si adattano perfettamente ai risultati sperimentali esistenti e hanno anche rivelato nuove intuizioni che ci hanno sorpreso”.

Ad esempio, i ricercatori hanno scoperto che un fattore di trascrizione ben studiato chiamato Nanog si lega in modo cooperativo al DNA quando multipli del suo motivo sono presenti in modo periodico in modo tale da apparire sullo stesso lato dell’elica del DNA a spirale. “C’è stata una lunga scia di prove sperimentali che tale periodicità dei motivi a volte esiste nel codice normativo”, afferma Zeitlinger. Tuttavia, le circostanze esatte erano sfuggenti e Nanog non era stato un sospetto. Scoprire che Nanog ha un tale schema e vedere ulteriori dettagli delle sue interazioni è stato sorprendente perché non abbiamo cercato specificamente questo schema”. “Questo è il vantaggio principale dell’utilizzo di reti neurali per questo compito. Un modello computazionale classico è costruito su regole rigide fatte a mano per garantire che possa essere interpretato”, afferma Avsec. “Tuttavia, la biologia è estremamente ricca e complicata. Abbandonando la necessità di interpretare i parametri individuali, possiamo addestrare modelli molto più flessibili e sfumati che catturano qualsiasi fenomeno biologico, compresi quelli ancora sconosciuti”. Un potente approccio dal basso verso l’alto Questo modello di rete neurale, denominato BPNet per Base Pair Network, è un potente approccio dal basso verso l’alto simile al riconoscimento facciale nelle immagini, in cui una rete neurale rileva prima i bordi nei pixel, quindi apprende come i bordi formano elementi facciali come l’occhio, il naso o bocca, e infine come gli elementi facciali insieme formano una faccia. Invece di imparare dai pixel, BPNet impara dalla sequenza di DNA grezzo e impara a rilevare i motivi della sequenza e, infine, le regole di ordine superiore con cui gli elementi predicono i dati di legame della risoluzione di base. Sia lo Zeitlinger Lab che il Kundaje Lab stanno già utilizzando BPNet per identificare in modo affidabile i motivi di legame per altri tipi di cellule, correlare i motivi ai parametri biofisici e apprendere altre caratteristiche strutturali nel genoma come quelle associate al confezionamento del DNA. Per consentire ad altri scienziati di utilizzare BPNet e adattarlo alle proprie esigenze, i ricercatori hanno reso disponibile l’intero framework software con documentazione e tutorial. “Questo lavoro è un tour-de-force tecnologico”, afferma Julien Gagneur. “Combina la modellazione di apprendimento profondo di analisi a livello di genoma fino a risoluzioni di singolo nucleotide, insieme a tecniche avanzate di intelligenza artificiale spiegabili che consentono di interpretare ciò che” la scatola nera “ha appreso. La metodologia aiuterà i biologi a studiare l’intera grammatica normativa”.

Share Button