"Esto también es análisis de datos". Hable sobre bioinformática con Mikhail Gelfand

La bioinformática es un campo de conocimiento científico extremadamente curioso, ya que combina tareas formuladas en términos biológicos y métodos familiares para los especialistas en algoritmos, procesamiento de grandes datos y aprendizaje automático. Por lo tanto, la bioinformática es un ejemplo en el que la TI puede acudir al rescate al explorar el mundo real.


Recientemente visité a Mikhail Sergeyevich Gelfand en el Instituto de Problemas de Transmisión de Información. Hablamos sobre qué es la bioinformática, sobre sus aplicaciones interesantes, sobre cómo los especialistas de TI en bioinformática pueden ser útiles y lo que necesitan aprender para esto.


Debajo del corte de este artículo, encontrará una transcripción completa de nuestra conversación, y el video se puede ver en YouTube .




¿Qué es la bioinformática?


Alexey Shagraev: Bioinformática: ¿qué tipo de ciencia es esta, qué hace?


Mikhail Gelfand : La bioinformática es una forma de estudiar biología usando una computadora. En general, esto no es una ciencia, sino solo un conjunto de técnicas. En el mismo sentido, por ejemplo, la microscopía electrónica no es una ciencia.


La primera parte de la bioinformática es algorítmica. Describe cómo arrastrar datos desde un dispositivo a una computadora. Para determinar la secuencia de nucleótidos que forman el genoma (para secuenciarlo), por razones técnicas, este genoma debe cortarse en una gran cantidad de pequeños fragmentos, que luego deben pegarse en una línea grande. En este caso, es necesario tener en cuenta el ruido en los datos, diversas irregularidades de todo en el mundo. Esta es una tarea bastante típica; surgen otros problemas algorítmicos en el análisis de datos de espectrometría de masas.


La segunda parte de la bioinformática es clásica, biológica. Ella está mucho más cerca de lo que hago. Más precisamente, se le puede llamar biología molecular. Aquí tienes la proteína. Que esta haciendo el O tienes un gen. ¿Cuándo se enciende, cuándo se apaga? O, por el contrario, sabes que algo en la celda tiene una función específica. ¿Qué proteína lo hace? Estos son ejemplos de problemas clásicos de la biología molecular, y resulta que una computadora es un dispositivo bastante efectivo para resolver tales problemas. Los investigadores ya no necesitan probar todas las funciones proteicas posibles; en cambio, pueden verificar que la proteína realiza la función que el modelo predijo. Si realmente cumple - ¡hurra! Por lo tanto, la computadora ahorra tiempo al experimentador al reducir el espacio de búsqueda. Esta es una biología molecular clásica, se realiza en una computadora antes del tubo de ensayo.


Finalmente, la tercera parte de la bioinformática que surgió recientemente es el análisis de big data. Los métodos experimentales que hicieron los biólogos resultaron ser tan efectivos que ya se están produciendo muchos datos. La astronomía ha ido de la misma manera a la astrofísica: los telescopios colosales ahora producen gigabytes de datos cada minuto. Algo similar sucedió con la física de alta energía. La primera tarea que surge es simplemente guardar los datos y extraer biología interesante de ellos. Debido al gran volumen, es posible describir el trabajo de una célula como un todo, no el trabajo de un gen, sino el trabajo de todos los genes de esta célula.


Además, al principio te dije una mentira. Por supuesto, hay bioinformática científica, solo que se llama de manera diferente: biología evolutiva. Muchos métodos informáticos ya describen patrones evolutivos: cómo se produjo la selección, qué cambió. La pregunta básica más natural es quién está relacionado con quién. Y luego comienza: ¿cuál es la biología del desarrollo de diferentes animales? ... Una persona es diferente de los ratones no porque nuestros genes sean diferentes, sino porque funcionan de manera diferente. Además, las principales diferencias se encuentran en la embriogénesis.


¿Cuándo y cómo la gente comprendió por primera vez que en estas áreas una computadora puede aportar beneficios tangibles?



Francis Creek


El primero en entenderlo todo fue Francis Crick, quien, aparentemente, era un hombre completamente brillante. En 1958, se dio cuenta de que las secuencias, luego, en mi opinión, pensó en las proteínas, podrían usarse para determinar el parentesco. Las secuencias en sí mismas no estaban allí. Primero expresó esta idea en un artículo dedicado a uno completamente diferente, insertó dos oraciones de una historia diferente.


Francis Crick es uno de los mejores biólogos del siglo XX, un Premio Nobel de Fisiología o Medicina de 1962. Propuso (junto con James Watson) la estructura de la doble hélice del ADN, formuló el llamado dogma central de la biología molecular , que establece la naturaleza unidireccional de la transferencia de información genética en la célula: del ADN a través del ARN a las proteínas. Uno de los autores del trabajo clásico que describe la estructura del código genético. - nota de Alexey Shagraev


Luego, a principios de los años 60, aparecieron las primeras secuencias, la gente comenzó a construir árboles. En esta ciencia se les llama filogenéticos, y el significado que tienen es quién está relacionado con quién.


Árbol filogenético : un árbol que refleja las relaciones evolutivas entre diferentes grupos de organismos. Las ideas modernas consisten en el hecho de que todos los organismos vivos se dividen en tres dominios o suprastatos: arqueas , bacterias y eucariotas . - nota de Alexey Shagraev


Luego aparecieron los métodos de análisis, y más secuencias estuvieron disponibles. Después de un tiempo, quedó claro que las manos ya no pueden funcionar, debe escribir un programa.


La bioinformática como ciencia comenzó a tomar forma a principios de los años 80. En este sentido, tuve mucha suerte: cuando llegué a eso en 1985, era un Salvaje Oeste, una frontera. Era posible hacer una tarea que, con alta probabilidad, nadie hizo. No había necesidad de aprender nada, era necesario hacerlo. Rara vez es alguien tan afortunado.


Al principio, los biólogos consideraron esto como juegos en la caja de arena. Pero había cosas útiles. Una vez que quedó claro que era imposible seguir las secuencias simplemente por publicaciones en revistas. Las bases de datos comenzaron a aparecer donde se colocaron estas secuencias en la máquina; antes de publicar artículos editoriales, exigieron que la secuencia se pusiera en la base de datos. En consecuencia, la gente comenzó a escribir programas para buscar secuencias similares en bases de datos. Esto ya era una ciencia seria, ya que estas bases están creciendo muy rápido y los algoritmos deben ser increíblemente eficientes.


Existe una historia de terror bien conocida de que el rendimiento de los secuenciadores (dispositivos de secuenciación) crece con un exponente que es más rápido que la ley de Moore . Es decir, se escapan de las computadoras. También hay una ley sobre la capacidad de memoria, también exponencial. Olvidé cómo se llama. Una pregunta separada es si descansan contra algún límite físico. Pero los secuenciadores y los incrementos de datos exponenciales con tasas más altas que la potencia de la computadora son una pesadilla.


Y luego aparecieron métodos de secuenciación muy rápida, y allí la bioinformática ya funciona desde el principio. Ahora, cuando planifica un experimento, un buen biólogo comprende (o consulta con alguien) cómo procesará el resultado. El diseño del experimento en sí ya tiene en cuenta en gran medida el procesamiento de lo que sucede.


Ahora la gente ha comenzado a meter todo en redes neuronales profundas. Tenemos proyectos sobre el hecho de que si logra que la red resuelva el problema correcto, tendrá que aprender toda la biología en el camino. Y hay ejemplos.


Hay dos tipos de problemas.


En algunas tareas, solo se requiere un reconocimiento de alta calidad. Por ejemplo, un diagnóstico diferencial de cáncer o algún pronóstico. Tiene dos cohortes de pacientes: uno ayuda a estos medicamentos, el otro no. Sería bueno saber no cuando comenzó el tratamiento, sino con anticipación. Puede estudiar las características de esas mutaciones que ocurrieron a partir de este cáncer, ver cómo los genes en el tumor comienzan a funcionar.


O puede predecir la estructura espacial de la proteína; esta también es una tarea clásica. Tenemos una secuencia, pero queremos descubrir cómo se pliega la molécula en el espacio. Una vieja tarea, probablemente comenzó en los años 70. La gente simplemente persigue la calidad de la predicción. Existen muchos métodos diferentes. Las redes ganan a alguien, a alguien no. Que ciencia.


Redes neuronales y bioinformática . Por ejemplo, vea la publicación del blog DeepMind sobre el algoritmo de plegamiento de proteínas de la red neuronal AlphaFold y la conferencia de Mohammed AlQuraishi . - nota de Alexey Shagraev


Y hay algo que, en mi opinión, es aún más genial. Establece una tarea que no tiene un significado práctico, pero para resolverla, necesita comprender algo sobre la estructura de la biología. Y luego la grilla parece tensarse, es muy mala porque su calidad de reconocimiento es muy baja. Pero luego podemos entrar en sus neuronas y ver qué aprendió, tratando de resolver este problema.


No hay pioneros en el desarrollo de arquitecturas de red en biología. Más bien, hay personas que simplemente están tratando de aplicar arquitecturas preparadas de la manera correcta. Esta es una gran exageración de los últimos tiempos, hay obras realmente hermosas.


imagen
Ilustración de un artículo de DeepMind


Bioinformática moderna


¿Qué organismos son ahora los más populares para estudiar en esta área y por qué?


Hombre, por supuesto, porque queremos beneficiar a todos y aprender toda la medicina.


Hay organismos modelo tradicionales. Hombre, porque la medicina. Ratones: porque son mamíferos, pero no lo lamentan. Drosophila, porque generalmente es un clásico. Escherichia coli: como es una bacteria, crece rápidamente y también es un clásico (como algunas bacterias más). Nematodo C. Elegans: debido a que tiene un número fijo de células en cada caso, la genealogía de estas células es estrictamente conocida, tienen un esquema estándar de la red nerviosa, son absolutamente idénticas, pero genéticamente pueden ser diferentes.


Dado que existen métodos productivos de secuenciación, podemos permitirnos estudiar no solo organismos modelo para los que ya se ha hecho mucho, sino algunos otros geniales. Mi proyecto favorito de la última vez: no entendimos algo completamente banal sobre la evolución de los pulpos, y nadie más lo tiene. Cuando los estudiantes me preguntan, sugiero buscar algunos pequeños animales geniales.


Los protozoos unicelulares son organismos cuyas células tienen un núcleo, como el nuestro. Las bacterias no tienen núcleo; son simples. En bacterias, puedes hacer cosas muy profundas. Podemos decir mucho sobre cómo vive la bacteria, qué come, qué sintetiza, qué necesita recibir del entorno externo, sin hacer ningún experimento, solo viendo una película. Y los animales pequeños, cuyas células tienen un núcleo, por ejemplo, tú y yo, somos más complicados. Pero hay maravillosos núcleos unicelulares, y tienen la biología más diversa. En ciliados, en amebas. El mejor zoológico está allí.


¿Qué hay de los virus?


Los virus son principalmente interesantes desde un punto de vista médico. Me pregunto cómo funciona la evolución de los virus, porque hay bastantes proteínas que aparentemente son inventadas por virus.


Todavía hay virus gigantes, cuyo genoma ya es más grande que el de una bacteria pequeña. Nadie entiende de dónde vino esta basura. Solo sé peor esta ciencia viral. Hay buenos desafíos evolutivos.


¿Qué direcciones interesantes hay ahora, donde los resultados notables para el público en general relacionados con la bioinformática y el estudio de los genomas son posibles?


Por lo que puede explicarse al público en general, lo más interesante es la historia de los genomas antiguos . Se extraen de hallazgos arqueológicos y cambian notablemente, en cualquier caso, enriquecen nuestra idea de la historia de la humanidad. Las opiniones sobre el origen del hombre se han modificado bastante. Nuevamente, hay buenos fragmentos computacionales, pero los principales son experimentadores que simplemente aprendieron a aislar y determinar esta secuencia de ADN. Los experimentos fueron muy difíciles.


Cada uno de nosotros tiene un par por ciento de fragmentos de neandertales. Es fácil decirle al público lo que hago periódicamente.


Sobre genes antiguos. En 2006, se lanzó un proyecto para leer el genoma completo de los neandertales , uno de cuyos resultados fue la conclusión de que los antiguos se cruzaron con los neandertales, ver el artículo en Science . Una cuenta completa de esta historia de Elena Naimark se puede encontrar en los Elementos . - nota de Alexey Shagraev


Bioinformática pura ... Nuevamente, dado que esto es parte de la biología, para nosotros el consumidor es un biólogo. En un buen trabajo biológico, cuando tratamos ni siquiera un cáncer abstracto de un tipo particular, es decir, un tumor de un paciente en particular, se trata de un medicamento personalizado. Hay buenos ejemplos cuando esto funciona. Pero cuán masivos son y si su economía se verá afectada no está muy claro. En principio, sí, hay ejemplos de medicamentos, antes de la cita de los cuales hacen el análisis de mutaciones en un tumor en particular. La bioinformática se encuentra debajo de todo esto "en el sótano". Sin el desarrollo de métodos bioinformáticos, esto hubiera sido imposible. Pero básicamente el consumidor para nosotros no es una persona, sino otro biólogo.


Imagina un desarrollador: quizás uno experimentado; posiblemente un especialista en análisis de datos; o viceversa, otro estudiante. ¿Qué tarea puede inspirarlo ahora mismo para entrar en esta ciencia y ayudar en algo?


Puede ir a algún laboratorio donde haya muchos datos y simplemente procesarlos. Los datos pueden ser maravillosos. Puede ser una estructura espacial: cómo se empaqueta el ADN en una célula y cómo afecta su trabajo. Hay muchos experimentos heterogéneos, realmente muchos datos. Y hay un amplio campo: desde la física de los polímeros hasta algún tipo de análisis de correlación y algo estadístico. Puedes hacer cosas realmente hermosas. Los datos son muy diferentes, se pueden comparar de diferentes maneras. En general, mucho de todo lo bueno.


Además hay esta canoa con rejillas. Y aquí nuevamente es necesario aferrarse a buenos biólogos, luego puede resolver buenos problemas biológicos con buenas redes. O gana el campeonato mundial de predicción, que es un honor en sí mismo, o intenta sacar algo de biología. Hablamos un poco sobre esto.


O bien, puede unirse a una empresa que está tratando de crear métodos para diagnósticos diferenciados, principalmente diagnósticos de cáncer, y hacer algo bueno. Esto también es análisis de datos, pero hay mucho de todo.


¿Cuál es la situación más típica y la tarea típica? Hay una paradoja: tenemos el mismo genoma en todas las células, y las células funcionan de manera diferente y, por cierto, también están organizadas de manera diferente, porque diferentes genes en ellas funcionan de manera diferente. En un tumor canceroso, los genomas ya son diferentes; allí se han producido mutaciones. Pero nuevamente, la célula renace, no porque algo haya cambiado en el ADN, sino porque los genes comenzaron a funcionar de manera diferente. Y podemos intentar predecir el efecto de las drogas, hacer predicciones o simplemente hacer un diagnóstico diferencial basado en cómo funcionan las células en los diferentes tipos de tumores.


Pero al hacer este análisis, tomamos un pedazo de tejido y hay muchas células diferentes. Estas son células tumorales y células sanas, y algún tipo de linfocitos se arrastran allí, mucho de todo. Debe descomponer el trabajo promedio de los genes, que puede medir en un experimento, sobre cómo funcionan los genes en cada tipo de célula. Puede estimar la proporción de tales celdas. Esta es la tarea de descomposición. En un entorno ingenuo, todos piensan que se puede resolver simplemente como un problema de álgebra lineal, como un gran sistema de ecuaciones lineales. Resulta que el ruido en los datos y otras dificultades hacen que gire mucho. Esto no se puede reducir a álgebra lineal simple. Lo he visto muchas veces: un estudiante viene y dice: aquí escribiremos la ecuación ahora, y eso es todo. Pero los higos. Pero es un beneficio directo para la humanidad: buscar firmas de cáncer.


Habrá una ciencia muy buena, ya está sucediendo: desarrollo temprano. Ahora estamos determinando cómo funcionan los genes en una mezcla de células, en una muestra donde hay millones de células. Pero debe poder hacer lo mismo en una sola celda, y para esto, ganar un gran ruido. Entonces podemos ver, por ejemplo, embriología, mirar las trayectorias del desarrollo de las células en las primeras etapas, cuando todavía son pocas. Puede ver cómo se produce la diferenciación temprana de las células, y la embriología será completamente diferente con estas historias en un futuro próximo, se hará un buen trabajo. Esta es la embriología evolutiva. No solo observando cómo la anatomía difiere en primates y roedores (este es un clásico del siglo XIX), sino observando cómo se establecen estas diferencias en una etapa muy temprana debido a qué genes trabajan dónde. Eso sera.


¿Cómo se ve el especialista ideal que ahora vendría a esta área y traería muchos beneficios? ¿Qué debería ser capaz de hacer? Donde lo hace


Debe saber biología. En primer lugar, hay un programa de maestría en ciencias de la vida en Skoltech. Una persona sin educación biológica también puede ir allí. Será difícil para él, pero hay tales ejemplos.


Hay un programa para analizar datos de biología y medicina en la Escuela Superior de Economía de la Facultad de Ciencias de la Computación. Allí puede, por el contrario, prescindir de la educación informática. Los biólogos también están allí, pero habrá menos biología y más bioinformática. Esto es para maestros. Y para los alumnos de 11 grados hay una facultad de bioingeniería y bioinformática en la Universidad Estatal de Moscú. Esto es si hablamos de Moscú.


En San Petersburgo hay programas de bioinformática en la Universidad de San Petersburgo y en ITMO, en mi opinión, pero sé menos sobre ellos.


Sobre Mikhail Gelfand



¿Cómo llegaste a esta ciencia?


Incapacidad para hacer matemáticas. Cuando mehmat terminó, me di cuenta de que no soy bueno probando teoremas, por no mencionar que los inventé. Y tuve mucha suerte, porque la bioinformática apenas comenzaba, entonces podías venir allí, y eso es todo.


Siempre me ha encantado la biología: atrapé mariposas, insectos atormentados, eso es todo. Para mí, ir a la biología fue bastante natural. Además, estaba interesado en la lingüística, fui al círculo, en los Juegos Olímpicos. Y la bioinformática en este sentido es una ciencia bastante lingüística, si se trata adecuadamente. Fue una elección muy natural, al menos para mí.


Que estas haciendo ahora


Personalmente, me ocupo principalmente de la tarea de editar transcripciones de pulpos, de dónde provienen las pupas de mariposas, escarabajos, hormigas, abejas y todos los insectos que tienen pupas. Tengo una cierta teoría.


Las cucarachas no tienen pupas. Es pequeño, negro y no se parece a una cucaracha, luego se muda varias veces y se vuelve cada vez más como una cucaracha. Pero hay insectos que tienen una etapa de pupa, y parece que hemos descubierto de dónde vino. Si logramos mostrarlo con cuidado, será genial.


Estoy analizando qué bacterias viven en los pulgones, los corales y la mina de petróleo. Sucedió históricamente. Con los pulgones, tenemos buenos colaboradores en Bielorrusia, con corales, colaboradores en Moscú que seleccionan piezas de estos corales. Y sobre los pozos petroleros, tengo un estudiante de posgrado increíblemente activo que simplemente defrauda a las compañías petroleras y las imbuye con esta tarea. Es decir, estas son tareas oportunistas, de hecho.


Trato con el plegamiento del ADN en una célula y cómo este plegamiento afecta el funcionamiento de los genes.


Estoy haciendo bastante, o más bien, estudiantes graduados, en la evolución de las bacterias, porque esto está bastante mal descrito, puedes verlo de manera diferente. Y, en general, una comprensión de cómo evolucionan las bacterias, de dónde provienen las especies bacterianas, cómo se dividen en especies. No es que haya sido bien hecho. Esta no es un área muy de moda, pero también puedes hacer muchas cosas interesantes allí.


Hago cómo se regulan los genes, principalmente en bacterias, y cómo evolucionan estas redes reguladoras. Puede comparar especies cercanas, ver cómo difieren, comprender (o no comprender) cómo ocurren estos cambios.




Mikhail Gelfand es uno de los oradores en la conferencia YaTalks, que tendrá lugar el 30 de noviembre en la sala de conferencias Paveletsky Space en Moscú. El registro está abierto y disponible aquí .

Source: https://habr.com/ru/post/476164/


All Articles