Hace casi un año, en el verano de 2017, se llevó a cabo una escuela de verano tradicional del Instituto de Bioinformática en el MIPT. El tema principal de la escuela este año fue
la minería de datos . Por qué La cantidad de datos obtenidos en biología y medicina está creciendo a un ritmo increíble. Al mismo tiempo, es físicamente imposible detectar cosas previamente desconocidas en tal volumen de información manualmente (y con algoritmos clásicos también es difícil), por lo que debe usar estadísticas y complementar la inteligencia natural con artificial.
Esto es lo que los participantes de la escuela de verano estaban haciendo activamente.
Esta publicación contiene 22 videos de conferencias con diapositivas y descripciones para todos los interesados en el tema del análisis de datos en bioinformática. Las conferencias que se pueden ver sin preparación adicional están marcadas con un asterisco "*" (la mitad de ellas).
1 *. Introducción a la bioinformática (Alexander Predeus, Instituto de Bioinformática)Video |
DiapositivasLa conferencia discute las principales áreas en las que trabaja la bioinformática en la ciencia y la industria, especialmente la bioinformática y las razones de su popularidad actual.
2 *. Introducción al aprendizaje automático (Grigory Sapunov, Intento)Video |
DiapositivasEl aumento constante en la cantidad de datos contribuye al desarrollo de procesos cada vez más complejos de procesamiento, búsqueda y recuperación de información. Una forma de resolver tales problemas es usar inteligencia artificial. Esta conferencia está dedicada a una breve introducción a los conceptos básicos del aprendizaje automático. Gregory contó la terminología general en esta área y también describió los tipos de tareas resueltas por el aprendizaje automático. Además, la conferencia presenta las etapas principales del aprendizaje automático, los tipos de modelos y las métricas de calidad de los datos recibidos.
3 *. Introducción al aprendizaje profundo (Grigory Sapunov, Intento)Video |
DiapositivasEl aprendizaje profundo (o aprendizaje profundo) actualmente está ganando popularidad debido a la capacidad de no prescribir algoritmos específicos para resolver el problema, sino de utilizar la capacitación en representaciones. El desarrollo de estos métodos también se ve facilitado por un aumento en el poder de procesamiento de los procesadores. La conferencia está dedicada a los conceptos básicos de las redes neuronales: sus tipos (redes neuronales completamente conectadas, codificadores automáticos, convolucionales, recurrentes) y las tareas que resuelven. Por separado, Gregory describió el estado actual y las tendencias.
4 *. Introducción a la oncogenómica y análisis de datos omix en oncología (Mikhail Pyatnitsky, VN Orekhovich Research Institute of Biomedical Chemistry)Video |
DiapositivasLa secuenciación del genoma humano, el estudio de las variaciones genéticas humanas, la secuenciación del metagenoma humano, el análisis transcripcional de los tejidos humanos: todos estos métodos biológicos en la aplicación de "Big Data" dieron a los científicos mucha información valiosa sobre lo que hace a los humanos diferentes de otros animales. Esta conferencia está dedicada a las ómicas y su uso práctico. Por separado, Michael mencionó el uso de estos datos en oncología.
5. Multiomics en biología: integración de tecnología (Konstantin Okonechnikov, Centro Alemán de Investigación del Cáncer)Video |
DiapositivasEl rápido desarrollo de tecnologías experimentales en biología molecular, como, por ejemplo, la secuenciación, permitió combinar el estudio de una amplia gama de procesos funcionales que ocurren en células, órganos o incluso en todo el cuerpo. La conferencia discute cómo combinar correctamente datos experimentales masivos obtenidos de genómica, transcriptómica y epigenómica para establecer relaciones entre componentes de procesos biológicos en curso. Los ejemplos ilustrativos del uso de la multómica se seleccionan del campo altamente demandado de la investigación del cáncer con un enfoque en la oncología pediátrica.
6. Genética cuantitativa: historia y perspectivas (Yuri Aulchenko, Laboratorio de Genómica Funcional Teórica y Aplicada, FEN NSU, grupo de métodos de análisis genético, ICG SB RAS)Video |
DiapositivasLa genética cuantitativa es una ciencia exacta, que se basa en un pequeño número de observaciones clave y modelos básicos que permiten una descripción cuantitativa de los fenómenos (micro) evolutivos naturales y predicen los resultados de los experimentos genéticos. Ella usa un poderoso aparato matemático. Muchos métodos estadísticos modernos se desarrollaron originalmente para resolver los problemas de la genética cuantitativa. El avance revolucionario de las tecnologías de biología molecular en la última década ha permitido caracterizar cientos de miles de organismos vivos por millones de parámetros genómicos y otros parámetros "omix". El número total de experimentos y datos ya acumulados es enorme. La tarea urgente de la genética cuantitativa moderna es el desarrollo de modelos que describan la herencia de la alta dimensión fenotípica multinivel. En su conferencia, Yuri dio una breve descripción de la historia de la genética cuantitativa y los problemas que enfrenta esta ciencia.
7 *. Tecnologías de secuenciación (Kirill Grigoriev, Centro del Genoma del Caribe, Universidad de Puerto Rico)Video |
DiapositivasEl desarrollo y la evolución de los procesos de secuenciación están inextricablemente vinculados con la evolución de las capacidades tecnológicas. La conferencia muestra la historia y el proceso de desarrollo de las tecnologías de secuenciación desde Sanger hasta nuestros días. Por separado, Cyril habló sobre las ventajas y desventajas de cada uno de los métodos existentes actualmente, así como la naturaleza de los datos obtenidos y su aplicación en varios campos.
8. Transcriptómica: métodos prácticos y algoritmos aplicados (Alexander Predeus, Instituto de Bioinformática)Video |
DiapositivasLa transcriptómica con confianza ocupó un lugar en la lista de las tareas más populares que enfrenta la NGS-bioinformática. El análisis diferencial de la expresión génica, la agrupación de datos de expresión y la interpretación de los datos en términos de cascadas metabólicas y de señalización brindan una rica información sobre casi cualquier sistema. La conferencia cubre las mejores disciplinas, las principales áreas problemáticas en el diseño de experimentos y procesamiento, así como casos prácticos de aplicación exitosa de enfoques de transcriptoma.
9. Análisis de datos NGS en genética médica: definición, anotación e interpretación de variantes genéticas (Yuri Barbitov, Universidad Estatal de San Petersburgo, Alexander Predeus, Instituto de Bioinformática)Video |
DiapositivasEl uso de la secuenciación de una nueva generación ha ido mucho más allá de los límites de la ciencia clásica y se ha aplicado con éxito en muchos otros campos, incluida la atención médica. La conferencia está dedicada a aspectos clave del análisis de secuenciación de datos de una nueva generación en genética médica. Yuri mostró todo el camino desde la obtención de lecturas en bruto hasta el diagnóstico, mencionando las dificultades encontradas para determinar, anotar e interpretar variantes genéticas. Por separado, se refirió a los errores comunes cometidos en cada etapa del procesamiento de datos. En conclusión, se ofrece una breve descripción de las áreas prometedoras de investigación que pueden mejorar la precisión del diagnóstico utilizando métodos de secuenciación de alto rendimiento.
10. Aplicación práctica de ChIP-Seq y métodos relacionados (Alexander Predeus, Instituto de Bioinformática)Video |
DiapositivasLos métodos ChIP-Seq, así como la "huella genómica" (ATAC-Seq, FAIRE-Seq, DNase-Seq) se utilizan ampliamente para encontrar mecanismos de regulación de procesos biológicos, en particular, para la regulación transcripcional. El espacio potencial de los factores estudiados es muy multidimensional, pero el enfoque selectivo permite obtener una rica información sobre la regulación en el sistema basada en unos pocos experimentos. Utilizando el ejemplo de teorías modernas en conflicto, Alexander mostró las principales dificultades para interpretar la información regulatoria y cómo consolidar los resultados.
11 *. ¿Qué puedo hacer con los datos de iScan? (Tatyana Tatarinova, Universidad de La Verne)Video |
DiapositivasLa compañía Illumina produce una gran cantidad de dispositivos para diversas necesidades. Chipping le permite detectar rápidamente polimorfismos de un solo nucleótido (SNP) para una gran cantidad de muestras. La conferencia está dedicada a la revisión de datos de chips iScan y su aplicación en diagnósticos clínicos.
12. Aprendizaje profundo en biología computacional (Dmitry Fishman, Universidad de Tartu)Video |
DiapositivasEl aprendizaje profundo se usa activamente no solo para mejorar la traducción automática o el reconocimiento de voz, sino que también le permite resolver muchos problemas en el campo de la biología computacional. La conferencia está dedicada a la aplicación de métodos de aprendizaje profundo en ejemplos biológicos específicos. Dmitry habló sobre las novedades en biología y medicina utilizando el aprendizaje profundo, y es posible decir que las máquinas revolucionan la medicina y la biología.
13 *. Aplicación de métodos de aprendizaje automático para buscar posibles mutaciones patogénicas en el genoma humano (Anna Ershova, Instituto de Física y Tecnología de Moscú, Instituto de Investigación de Biología Física y Química, Universidad Estatal de Moscú, en honor a MV Lomonosov, Centro Federal de Investigación de Epidemiología y Microbiología, en honor a N.F. Gamalei)Video |
DiapositivasLa búsqueda de mutaciones patógenas se ha vuelto relevante en relación con la secuenciación del genoma humano. Sin embargo, es simplemente imposible resolver tal problema manualmente. La conferencia trata sobre cómo el aprendizaje automático puede ayudarlo a hacer esto.
14 *. Inmunoinformática (Vadim Nazarov, HSE, IBCh RAS)Video |
DiapositivasEl aprendizaje automático se ha utilizado activamente durante mucho tiempo en diversos campos de la vida, pero en inmunología recientemente encontraron un lugar para ello. En esta conferencia, Vadim habló sobre varios ejemplos del uso de la máquina y el aprendizaje profundo en inmunología, incluida la tarea de predecir la unión de los complejos de péptidos MHC y el análisis de repertorios de receptores de células T.
15 *. Estudio de la adaptación del huésped y el desarrollo de resistencia en los virus del VIH y la hepatitis C utilizando métodos de bioinformática estructural (Olga Kalinina, Instituto Max Planck de Informática)Video |
DiapositivasEl virus de la inmunodeficiencia humana (VIH) y el virus de la hepatitis C causan enfermedades graves que son difíciles de tratar. Al igual que muchos otros virus retro y ARN, estos virus evolucionan rápidamente y, por lo tanto, pueden adaptarse tanto a los efectos de medicamentos antivirales específicos como a la respuesta inmune adaptativa del organismo huésped. En esta conferencia, Olga mostró cómo, combinando el análisis de secuencias de proteínas virales con un análisis de su estructura espacial, se pueden hacer predicciones sobre el desarrollo de mecanismos de resistencia y la interacción de los virus con el sistema inmunitario del huésped.
16. Predicción del efecto de las mutaciones (Vasily Ramensky, MIPT)Video |
DiapositivasLos métodos modernos de secuenciación proporcionan una gran cantidad de información sobre el polimorfismo del genoma, es decir, las diferencias entre genomas individuales entre sí. Estas diferencias (variantes) surgen como resultado de mutaciones durante la replicación del ADN y se fijan parcialmente en la población. La prevalencia, la localización y el efecto funcional de las variantes genómicas varían mucho, desde la mortalidad completa hasta la ausencia de cualquier efecto sobre un fenotipo individual. La conferencia discute enfoques modernos para predecir el efecto funcional de las opciones utilizadas en medicina personalizada, medicina y genética de poblaciones.
17. Modelado y diseño multiescala de moléculas biológicas (Nikolai Dokholyan, Universidad de Carolina del Norte en Chapel Hill)VideoLa vida de las moléculas biológicas cubre escalas de tiempo y longitud correspondientes a escalas de tiempo y longitudes desde atómicas a celulares. En consecuencia, los nuevos enfoques para el modelado molecular deberían ser inherentemente multiescala. En su conferencia, Nikolai describió varias metodologías desarrolladas en su laboratorio: un algoritmo para modelado dinámico dinámico discreto rápido, diseño de proteínas y herramientas de refinamiento estructural. Usando estas metodologías, se pueden describir varias aplicaciones que arrojan luz sobre la etiología molecular de la fibrosis quística y encontrar nuevas estrategias farmacéuticas para combatir esta enfermedad, modelar la estructura del ARN tridimensional y desarrollar nuevos enfoques para controlar las proteínas en las células y organismos vivos.
18. Plegamiento homólogo de proteínas (Pavel Yakovlev, BIOCAD)VideoEn la biología estructural moderna, existen varios métodos computacionales que permiten caracterizar moléculas biológicas con alta confiabilidad, su similitud y diferencias, métodos de interacción y funciones. Para construir tales cálculos, el parámetro espacial de la proteína siempre actúa como un parámetro de entrada, sin embargo, su preparación puede ser difícil, a pesar de medio siglo de progreso en el campo de la cristalografía. La conferencia está dedicada a resolver este problema con la ayuda de modelos homólogos de estructuras de proteínas: la construcción de estructuras tridimensionales a partir de fragmentos similares. Por ejemplo, consideramos los dominios variables de los anticuerpos: proteínas con una diversidad estructural única de bucles variables.
19. Cómo dejar de meditar y comenzar a modelar (Arthur Zalevsky, Universidad Estatal de Moscú, que lleva el nombre de MV Lomonosov)Video |
DiapositivasUna gran cantidad de datos obtenidos por el método NGS permite no solo obtener conclusiones biológicas de esto, sino también usarlos para modelar. Los modelos construidos permiten comprender mejor los datos biológicos y obtener aún más significado biológico del experimento. La conferencia está dedicada al modelado y las etapas iniciales de este proceso.
20 *. De pie sobre los hombros de gigantes, o por qué necesitamos consorcios (German Demidov, Centro de Regulación Genómica, Instituto de Ciencia y Tecnología de Barcelona, Universitat Pompeu Fabra)Video |
DiapositivasEn las últimas décadas, el desarrollo de la biología se ha asociado con la acumulación de matrices de datos, tan grande que los grupos de investigación individuales ya no pudieron hacer frente a su análisis bioinformático. Para resolver este problema, se comenzaron a crear consorcios a partir de docenas de laboratorios, como Human Genome Project, 1000GP, ENCODE y otros. Gracias a tales colaboraciones, existen varios tipos de datos en el dominio público, obtenidos utilizando diversas tecnologías. Como resultado, comparar nuevos datos experimentales con los existentes se ha convertido en una parte estándar de cualquier estudio. Los consorcios producen no solo datos, sino también tuberías bioinformáticas para su procesamiento, y formatos estándar y procedimientos de evaluación de calidad. Esta conferencia discute cómo funcionan los consorcios, cómo usar los resultados de su trabajo y qué hacer si de repente te encuentras miembro de dicho consorcio y necesitas procesar terabytes de datos y luego compartir los resultados con todos los demás participantes.
21 *. Descripción general de las empresas de bioinformática en Rusia y el mundo (Andrey Afanasyev, yRisk)Video |
DiapositivasEn el mundo moderno, la ciencia y los negocios están cada vez más entrelazados. Esta tendencia y el campo de la bioinformática no han pasado por alto. Andrey habló sobre las expectativas y la realidad del mercado, historias de éxito e historias de fracaso, sobre personas y lugares relacionados con la bioinformática.
22. Análisis avanzado de variaciones (SNV, InDel, SV) utilizando el navegador genómico NGB (Gennady Zakharov, EPAM, IP Pavlov Institute of Physiology, RAS)Video |
DiapositivasLa conferencia cubre el proceso de análisis visual de variaciones simples (SNV, InDel) y estructurales en el navegador genómico. Todos los ejemplos se demuestran utilizando el navegador NGB, que cumple con la mayoría de los requisitos y recomendaciones del análisis de variaciones estructurales, incluidos varios tipos de visualizaciones y la obtención de anotaciones de bases de datos externas. En una conferencia sobre ejemplos reales, se muestran escenarios de validación y análisis de las consecuencias de variaciones simples y estructurales.
Epílogo
Para aquellos que
no entienden nada, quieren desarrollarse en el campo de la bioinformática: hasta el 27 de mayo, la aceptación de solicitudes para una
escuela de verano en este
año 2018 aún
está abierta. La escuela misma se llevará a cabo del 23 al 28 de julio cerca de San Petersburgo. Existe la posibilidad de subirse al último automóvil y mostrar con orgullo a todos una publicación con una descripción general de las conferencias del próximo año, diciendo que lo vieron personalmente.
En 2017, la escuela se llevó a cabo con el apoyo de nuestros socios habituales:
JetBrains ,
BIOCAD y
EPAM Systems , por lo que
muchas gracias a ellos.
Por cierto, un
post con conferencias del año anterior a las últimas escuelas .
¡Toda la bioinformática!