Cómo las computadoras ayudan a los biólogos a descifrar los secretos de la vida

Una vez que el genoma humano de tres mil millones de letras fue secuenciado, nos apresuramos a un nuevo "Ómics"Era de investigación biológica. Los científicos ahora están corriendo para secuenciar los genomas (todos los genes) o proteomas (todas las proteínas) de varios organismos, y en el proceso están compilando cantidades masivas de datos.

Por ejemplo, un científico puede usar herramientas "ómicas" como la secuenciación de ADN para descubrir qué genes humanos se ven afectados en una infección de gripe viral. Pero como el genoma humano tiene al menos los genes 25,000 en total, la cantidad de genes alterados incluso en un escenario tan simple podría ser potencialmente de miles.

Aunque la secuenciación e identificación de genes y proteínas les da un nombre y un lugar, no nos dice qué hacen. Necesitamos entender cómo estos genes, proteínas y todas las cosas en el medio Interactuar en diferentes procesos biológicos.

Hoy en día, incluso los experimentos básicos producen grandes datos, y uno de los mayores desafíos es desenredar los resultados relevantes del ruido de fondo. Las computadoras nos están ayudando a superar esta montaña de datos; pero incluso pueden ir un paso más allá de eso, ayudándonos a formular hipótesis científicas y explicar nuevos procesos biológicos. La ciencia de los datos, en esencia, permite la investigación biológica de vanguardia.

Computadoras para el rescate

Las computadoras están especialmente calificadas para manejar conjuntos de datos masivos ya que pueden realizar un seguimiento de todas las condiciones importantes necesarias para el análisis.


gráfico de suscripción interior


Aunque ellos podría reflejar errores humanos están programados con, las computadoras pueden manejar grandes cantidades de datos de manera eficiente y no están sesgadas hacia lo familiar, como podrían ser los investigadores humanos.

También se puede enseñar a las computadoras a buscar patrones específicos en conjuntos de datos experimentales, un concepto denominado aprendizaje automático, propuesto por primera vez en los 1950, principalmente por matemáticos. Alan Turing. A un algoritmo que ha aprendido los patrones de los conjuntos de datos se le puede pedir que haga predicciones basadas en datos nuevos que nunca antes había encontrado.

El aprendizaje automático ha revolucionado la investigación biológica, ya que ahora podemos utilizar grandes conjuntos de datos y pedirles a las computadoras que ayuden a comprender la biología subyacente.

Entrenando computadoras para pensar simulando procesos cerebrales

Hemos utilizado un tipo interesante de aprendizaje automático, denominado red neuronal artificial (ANN), en nuestro propio laboratorio. Los cerebros son redes de neuronas altamente interconectadas, que se comunican mediante el envío de pulsos eléctricos a través del cableado neural. De manera similar, una ANN simula en la computadora una red de neuronas a medida que se activan y desactivan en respuesta a las señales de otras neuronas.

Al aplicar algoritmos que imitan los procesos de las neuronas reales, podemos hacer que la red aprenda a resolver muchos tipos de problemas. Google usa una potente ANN para su ahora famosa Proyecto de sueño profundo Donde las computadoras pueden clasificar e incluso crear imágenes.

Nuestro grupo estudia el sistema inmunológico, con el objetivo de descubrir nuevas terapias para el cáncer. Hemos utilizado modelos computacionales ANN para estudiar los códigos de proteínas de superficie corta que utilizan nuestras células inmunológicas para determinar si algo es extraño para nuestro cuerpo y, por lo tanto, debe ser atacado. Si entendemos más acerca de cómo nuestras células inmunitarias (como las células T) se diferencian entre células normales / propias y anormales / extrañas, podemos diseñar mejores vacunas y terapias.

Revisamos catálogos públicos disponibles de miles de códigos de proteínas identificados por los investigadores a lo largo de los años. Dividimos este gran conjunto de datos en dos: códigos normales de autoproteínas derivados de células humanas sanas y códigos anormales de proteínas derivados de virus, tumores y bacterias. Luego nos dirigimos a una red neuronal artificial desarrollada en nuestro laboratorio.

Una vez que introdujimos los códigos de proteínas en la ANN, el algoritmo fue capaz de identificar diferencias fundamentales Entre los códigos de proteínas normales y anormales. Sería difícil para las personas realizar un seguimiento de este tipo de fenómenos biológicos; hay literalmente miles de estos códigos de proteínas para analizar en el gran conjunto de datos. Se necesita una máquina para resolver estos problemas complejos y definir una nueva biología.

Predicciones vía aprendizaje automático

La aplicación más importante del aprendizaje automático en biología es su utilidad para hacer predicciones basadas en big data. Las predicciones basadas en computadora pueden dar sentido a los grandes datos, probar hipótesis y ahorrar un tiempo y recursos valiosos.

Por ejemplo, en nuestro campo de la biología de células T, saber qué códigos de proteínas virales se deben atacar es fundamental para el desarrollo de vacunas y tratamientos. Pero hay tantos códigos de proteínas individuales de cualquier virus que es muy costoso y difícil de probar experimentalmente cada uno.

En cambio, entrenamos la red neuronal artificial para ayudar a la máquina a aprender todas las características bioquímicas importantes de los dos tipos de códigos de proteína: normal frente a anormal. Luego le pedimos al modelo que "prediga" qué nuevos códigos de proteínas virales se asemejan a la categoría "anormal" y que las células T y el sistema inmunitario podrían verlos. Probamos el modelo ANN en diferentes proteínas de virus que nunca se han estudiado antes.

Por supuesto, como un estudiante diligente ansioso por complacer al maestro, la red neuronal pudo identificar con precisión la mayoría de los códigos de proteínas que activan las células T dentro de este virus. También probamos experimentalmente los códigos de proteínas marcados para validar la precisión de las predicciones de ANN. Usando este modelo de red neuronal, un científico puede predecir rápidamente todos los códigos cortos de proteínas de un virus dañino y probarlos para desarrollar un tratamiento o una vacuna, en lugar de adivinarlos y probarlos individualmente.

Implementando el aprendizaje de máquina sabiamente

Gracias al refino constante, la ciencia de big data y el aprendizaje automático son cada vez más indispensables para cualquier tipo de investigación científica. Las posibilidades de usar computadoras para entrenar y predecir en biología son casi infinitas. Desde descubrir qué combinación de biomarcadores es mejor para detectar una enfermedad hasta comprender por qué solo Algunos pacientes se benefician de un tratamiento de cáncer particularLa minería de grandes conjuntos de datos utilizando computadoras se ha convertido en una ruta valiosa para la investigación.

Por supuesto, hay limitaciones. El mayor problema con la ciencia de big data es la información en sí misma. Si los datos obtenidos por los estudios de la economía son defectuosos para comenzar, o se basan en una ciencia de mala calidad, las máquinas se capacitarán en los datos incorrectos, lo que llevará a malas predicciones. El alumno es tan bueno como el profesor.

Porque las computadoras no son sensibles (aún), en su búsqueda de patrones, pueden crearlos incluso cuando no existen, lo que da lugar nuevamente a datos erróneos y a una ciencia no reproducible.

Y algunos investigadores han expresado su preocupación acerca de que las computadoras se conviertan cajas negras de datos para los científicos que no entienden claramente las manipulaciones y maquinaciones que realizan en su nombre.

A pesar de estos problemas, los beneficios de big data y las máquinas continuarán haciéndolos socios valiosos en la investigación científica. Teniendo en cuenta las advertencias, estamos preparados para entender la biología a través de los ojos de una máquina.

Sobre el AutorLa conversación

Sri Krishna, Candidata a PhD, Diseño Biológico, Escuela de Ingeniería Biológica y Sistemas de Salud, Universidad Estatal de Arizona y Diego Chowell, Estudiante de Doctorado en Matemáticas Aplicadas, Universidad Estatal de Arizona

Este artículo se publicó originalmente el La conversación. Leer el articulo original.


Libro relacionado:

at InnerSelf Market y Amazon