DeepMind: un progresso epocale nello studio delle proteine

Un sistema di intelligenza artificiale ha risolto brillantemente e con pochissimi errori una delle sfide più ardue della biologia: prevedere in che modo le proteine si ripiegheranno, passando da una sequenza lineare di amminoacidi alla forma tridimensionale che determina il loro funzionamento.

Le proteine, i mattoni di base della vita, sono responsabili della maggior parte dei processi che avvengono all’interno delle cellule. Le loro funzioni sono determinate dalla struttura 3D che assumono spontaneamente, seguendo soltanto le leggi della fisica. AlphaFold, un sistema di intelligenza artificiale sviluppato da DeepMind, il laboratorio spin-off di Google, ha dimostrato di saper immaginare in modo accurato e in poche ore i possibili ripiegamenti anche delle proteine più complesse, partendo solamente dalla sequenza di amminoacidi (le loro unità costitutive).

LA SFIDA DI UNA VITA. Si tratta di un’autentica rivoluzione: con centinaia di amminoacidi per proteina e molti modi in cui ogni coppia di amminoacidi può interagire, il numero di possibile strutture 3D che ogni sequenza può assumere è – come spiegato su Science – astronomico. Le scienze computazionali hanno migliorato il lavoro di previsione ma, anche così, alcuni scienziati impiegano decenni a studiare le possibili configurazioni che una proteina può assumere.

Riuscire a prevedere la struttura di una proteina nel corpo umano potrebbe aiutare a capire come le molecole dei farmaci che abbiamo a disposizione si leghino ad essa, sistemandosi nelle tante “tasche” e cavità che forma: solo quando questo incastro riesce perfettamente si può alterare il comportamento di una data proteina e portare beneficio.

IN GARA PER MIGLIORARSI. A partire dal 1994, i biologi e i fisici statistici di tutto il mondo hanno confrontato i loro progressi in questo campo con una competizione globale a cadenza biennale, la Critical Assessment of Structure Prediction (C.A.S.P), che ha come scopo principale valutare oggettivamente i metodi utilizzati per generare i vari modelli di ripiegamento. I partecipanti ricevono le sequenze di amminoacidi di un centinaio di proteine dalla struttura ancora ignota, e alcuni gruppi cercano di arrivare alla struttura 3D con modelli computazionali, mentre altri la determinano per via sperimentale.

I risultati vengono confrontati e le previsioni ricevono un punteggio che misura quanto si sono avvicinate alla realtà su una scala da 0 a 100: i punteggi superiori a 90 sono considerati alla pari della determinazione sperimentale che ha fatto passi da gigante grazie a tecniche come la cristallografia a raggi X e la microscopia crio-elettronica (quella del Nobel per la Chimica 2017, vedi). Anche così, però, i tentativi di previsione dei ripiegamenti delle proteine più complesse non hanno a lungo superato il punteggio di 20. Delle oltre 200 milioni di proteine scoperte tra tutte le forme viventi sono state risolte le strutture di appena 170.000.

QUANDO IL GIOCO SI FA DURO. Nel 2018 AlphaFold ha introdotto nella competizione un approccio computazionale chiamato deep learning o apprendimento profondo: il software, addestrato su un vasto archivio di dati (in questo caso, le sequenze e le strutture delle proteine note), impara a riconoscere gli schemi ricorrenti e applicarli a nuove situazioni. È un modo di procedere per gradi basato su diversi livelli via via sempre più complessi, che ha permesso di raggiungere quell’anno il punteggio di 60 sulle proteine più complesse. Ma non era ancora abbastanza.

PARTIAMO DALLA CORNICE. Per fare ancora meglio, il team di AlphaFold ha combinato l’apprendimento automatico con un algoritmo che imita il modo di procedere che usiamo per fare i puzzle: si parte dall’unire piccole parti con colori simili (nel caso delle proteine: piccoli gruppi di amminoacidi), e poi si trova il modo di assemblare tra loro i vari gruppi. Il team ha addestrato il nuovo software sulle 170.000 strutture proteiche note, ed è arrivato nella competizione di quest’anno a un punteggio mediano di 92,4. Riuscendo persino a risolvere le strutture di proteine che risultano incuneate nelle membrane cellulari e che sono per questo difficili da studiare con le tecniche di imaging, benché siano centrali in molte malattie.

Se il risultato sarà replicato e validato in studi sperimentali, la tecnica potrebbe potenziare in modo insperato la ricerca di terapie per le prossime pandemie, nonché la comprensione di malattie ancora senza cure, come l’Alzheimer.