Apprendimento automatico per capire il genoma

L'Inova Translational Medicine Institute (ITMI), importante istituto di ricerca medica mondiale, ha implementato Cloudera Enterprise per analizzare in modo sicuro un’ampia raccolta di dati Sup genoma in modo rapido e su scala senza precedenti al fine di innovare più velocemente nell’ambito della ricerca della medicina traslazionale.

Come parte del Centro Inova per la Salute Personalizzata (ICPH), il team di scienziati, ricercatori, analisti e collaboratori di ITMI utilizza algoritmi di apprendimento automatico su terabyte di informazioni cliniche e genomiche con l’obiettivo di identificare i legami genetici con le malattie.

Realizzano scoperte dalle informazioni sui dati e, in collaborazione con il medico curante, sviluppano piani di trattamento personalizzati per i pazienti. Questo approccio è anche conosciuto come medicina di precisione e ha il potere di aiutare i pazienti a vivere più a lungo e ad avere una vita più sana.

La genetica svolge un ruolo importante nella maggior parte delle principali cause di morte negli Stati Uniti, tra cui malattie cardiache, cancro e diabete. L’Istituto raccoglie dati clinici da migliaia di pazienti di Inova di oltre 110 Paesi. Il DNA unico di una sola persona contiene sei miliardi di bit di informazioni.

La mappatura dei DNA degli individui nelle sequenze genomiche aiuta gli scienziati a determinare la causa delle malattie e scoprire le terapie trasformative. Come parte di questo processo, l’ITMI sta assemblando quello che si prevede sarà uno dei più grandi database di sequenze di genomi di tutto il mondo collegato alle informazioni sui pazienti in un sistema sanitario.

La piattaforma di Cloudera ha permesso a ITMI di ottimizzare l’analisi dei dati genomici a fini diagnostici. Questa analisi dei dati genomici consente a uno scienziato di bioinformatica di studiare le correlazioni genomiche di persone con condizioni come l’artrite, le malattie autoimmuni o il cancro.

In passato, data l’enorme dimensione di genoma completi, il completamento di questo processo poteva richiedere a ITMI fino a due mesi. Utilizzando Cloudera, ITMI è in grado di eseguire l’analisi end-to-end dei dati in una settimana. Per il futuro ITMI prevede di eseguire queste analisi dei dati in poche ore.

ITMI ha creato un’infrastruttura bioinformatica globale per la raccolta di dati dei genomi dell’Istituto - sempre più consistente –contrapposta agli archivi clinici. L’infrastruttura è stata progettata per archiviare ed elaborare questa convergenza di dati biologici, in velocità e in modo scalabile, oggi e anche in futuro.

Considerando che un genoma è pari a più di tre miliardi di coppie di base di DNA, ITMI attualmente tiene traccia di circa 9.000 genomi completi sequenziati, con una previsione di crescere a 15.000 in futuro. Il moderno database analitico di Cloudera, alimentato da Apache Impala (in fase di progettazione), fornisce analisi SQL ad elevate prestazioni.

Il team ITMI applica la contemporaneità multiutente e analisi ad alte prestazioni dei dati genomici acquisiti da madri, padri e bambini partecipanti a diversi studi familiari di base. Per esempio, ITMI è stata in grado di sfruttare la sua esperienza nell’analisi clinica e genomica per aiutare a individuare anomalie congenite precedentemente non diagnosticate nei bambini. Si tratta di un processo iterativo che richiede tempo ma, grazie a strumenti come Cloudera, ITMI prevede di accelerare ancora di più il processo di diagnosi per aiutare le famiglie.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche iscriviti alla newsletter gratuita.
CONDIVIDI

LASCIA UN COMMENTO

Please enter your comment!
Please enter your name here