Cómo encontrar un fumador mediante cardiograma utilizando redes neuronales artificiales (y por qué es necesario)
Sobre Habré ya escribió sobre la competencia científica para matemáticos y desarrolladores, que fue lanzada por los creadores del cardiógrafo móvil CardioQVARK. En resumen, la esencia de la competencia es crear un algoritmo que pueda detectar a un fumador entre los no fumadores en función de sus cardiogramas.Uno de los líderes de la competencia fue Ph.D. Roman Isakov, Profesor Asociado, Departamento de Medios y Tecnologías Biomédicas y Electrónicas, Instituto de Tecnologías Innovadoras, Universidad Estatal de Vladimir nombrada en honor a A.G. y N.G. Centenario Desarrolló un método para determinar un fumador basado en intervalos de RR y redes neuronales artificiales; hablaremos de ello hoy.¿Por qué buscar un fumador?
Hay estudios de expertos en aprendizaje automático que muestran que la señal de ECG contiene información sobre el funcionamiento de todos los sistemas del cuerpo, no solo del corazón. Además, cada enfermedad a su manera "modula" la señal del ECG, lo que significa que los signos de incrementos en los intervalos y amplitudes de los ciclos de ciclos consecutivos se pueden utilizar para diagnosticar información sobre posibles problemas de salud en humanos, incluso en las primeras etapas de su aparición.
En un informe en la V Conferencia Internacional "Biología Matemática y Bioinformática" Konstantin Vorontsov del Centro de Computación que lleva el nombre A. A. Dorodnitsyna RAS demostró diferencias en los signos de intervalos incrementales (dRn), amplitudes (dTn) y ángulos (dαn) de cardiociclos en personas sanas y que padecen diversas enfermedades de las personas.La búsqueda de un fumador mediante cardiograma ayudará a lograr el objetivo principal de la competencia: obtener un resultado que demuestre la posibilidad o imposibilidad de realizar diagnósticos de alta calidad utilizando un ECG y algoritmos para identificar marcadores de enfermedades de diversos órganos en la señal del cardiograma.La esencia del método propuesto.
La solución a este problema se basó en la hipótesis de la dependencia de la variabilidad de la frecuencia cardíaca (HRV) del estado funcional del cuerpo [R.M. Baevsky et al.] Este modelo incluye la retroalimentación a través del sistema nervioso periférico a través del cerebro, lo que le permite controlar el flujo de sangre, incluyendo incluso mediante el control dinámico de la frecuencia cardíaca.En base a esto, la señal principal para el análisis se seleccionó RR-intervalogram. Esta señal contiene toda la información sobre los procesos de control del ritmo del corazón en su manifestación final.El problema al extraer información sobre el efecto de la nicotina y otras sustancias en el cuerpo humano se reduce a encontrar los parámetros de HRV que tienen la mayor capacidad de separación de las clases de fumadores y no fumadores. Dado que la naturaleza de la relación de los parámetros puede ser no lineal, el clasificador se basó en la tecnología de redes neuronales artificiales.La muestra de entrenamiento de cardiogramas para la competencia incluyó 100 registros de fumadores y no fumadores con una proporción del 50/50%. También se presentó una selección de control, que incluía 250 cardiogramas; no proporcionaba anotaciones, por lo que era imposible usarla para la investigación.Por lo tanto, el investigador necesitaba dividir la muestra de entrenamiento en dos "submuestras" iguales: entrenamiento y prueba.La selección de las entradas en las submuestras de prueba y capacitación se realizó de manera arbitraria, pero sujeta a la condición de proporciones iguales de fumadores y no fumadores en cada una de ellas. Dado que el número de registros en la submuestra de entrenamiento era demasiado pequeño, en la etapa final, después de elegir el mejor modelo, también tuvimos que "terminar de aprenderlo" en los registros de la submuestra de prueba.No tan simple
Para minimizar el fenómeno del reciclaje, se asignó al azar un conjunto de validación local (20%) del conjunto de datos utilizado para el entrenamiento. No participó en el ajuste de los parámetros del modelo y sirvió para monitorear los errores del modelo. A medida que aumenta el error en el conjunto de validación, el entrenamiento se detiene.Existe la posibilidad de que las personas que ocultaron este hecho o los fumadores pasivos caigan en la clase de "no fumar", y las personas con "experiencia de fumar" insignificante en la clase de "fumadores". Por lo tanto, uno de los estudios se realizó con una modificación de la base de datos de entrenamiento basada en el análisis de la red neuronal de la muestra utilizando el mejor de los modelos obtenidos. Como resultado, esos registros fueron modificados cuya discrepancia con el modelo fue mayor. Este enfoque mostró un ligero aumento en la eficiencia en una muestra independiente (validación). Sin embargo, se puede suponer que también hay etiquetas erróneas, lo cual es un factor limitante.Procesamiento y análisis de datos
Para crear un espacio de características para un modelo para reconocer a una persona que fuma, el investigador estudió varios parámetros estadísticos conocidos, parámetros especiales para evaluar la variabilidad de la frecuencia cardíaca, así como un espectro y un histograma del ritmo cardíaco.Los parámetros se dividieron en los siguientes grupos:- Entrópico
- Parámetros del dominio del tiempo;
- Parámetros de dominio de frecuencia;
- Parámetros de forma de histograma.
El estudio consistió en calcular el conjunto completo de parámetros para las clases de fumadores y no fumadores en los registros de la base de capacitación y el posterior análisis conjunto de sus distribuciones. Solo se seleccionaron aquellos parámetros cuyas densidades de distribución tenían discrepancias significativas en cualquier región.Además, se estudiaron los espectros del ritmo cardíaco, se seleccionaron rangos de frecuencia en los que se observó la mayor separación de las dos clases. Luego, se realizó un análisis de correlación cruzada de los parámetros seleccionados para excluir relaciones lineales fuertes en el espacio de características.En la descripción de la decisión competitiva, el investigador señala que se realizaron estudios paralelos de un conjunto de parámetros sin optimización mediante análisis de correlación y utilizando muestras del espectro del ritmo cardíaco. Los resultados de los datos no se presentan en la solución porque no mostraron los mejores resultados.Como resultado, se obtuvo el siguiente conjunto de parámetros:1) EnLog - Entropía de "Log Energy" (Log Energy Entropy);2) EnTrs - Umbral de entropía;3.4) EnSamp: dos entropías de muestra (Entropía de muestra) con los parámetros 1 y 5;5) NN22: el número de intervalos RR consecutivos que difieren en más de 22 ms;6) HRVTi: índice triangular del histograma del ritmo cardíaco;7) LF / HF: la relación entre la potencia de baja frecuencia y la parte de alta frecuencia del espectro (parámetro estándar para estimar HRV);8) LFn: la relación entre la potencia de la parte de baja frecuencia del espectro y la suma de las potencias de las partes de baja frecuencia y alta frecuencia del espectro;9) SBxn (4) - La relación de la potencia del espectro en el rango de 0.093 Hz a 0.125 Hz a la potencia del espectro total (TP). Este parámetro se obtuvo como resultado de un análisis espectral especial;10) SB1n - Potencia del espectro en el rango de 0.0039 Hz a 0.0391 Hz. Este parámetro se obtuvo como resultado de un análisis espectral especial.El algoritmo de procesamiento de datos se puede describir paso a paso de la siguiente manera:El primer paso es descargar el cardiointervalograma (CIG). Luego, las emisiones se determinan mediante el corte en el nivel 1 de la desviación estándar. Luego se excluyen mediante la interpolación por la mediana, la interpolación de espiga de la CIG se lleva a cabo para obtener una señal de ritmograma cuantificado equidistante (RG).Para eliminar el componente constante, el valor promedio se sustrajo del ritmograma, después de lo cual fue procesado por la ventana turca para suprimir el efecto Gibbs. Posteriormente, se realizó una transformación rápida de Fourier para el ritmograma procesado, y gracias al cálculo del valor absoluto a partir de los valores complejos de esta transformación, fue posible obtener un espectro de ritmo cardíaco.Los parámetros anteriores se calcularon usando CIG (excepto los parámetros espectrales), y luego se normalizaron para obtener un rango dinámico de 0 a 1.El modelo se obtuvo de la siguiente manera:Primero, las redes neuronales perceptrónicas (NS) se entrenaron con un número sucesivamente creciente de neuronas en capas ocultas (según la metodología descrita anteriormente). El resultado es un conjunto de modelos de redes neuronales de diferentes tamaños, lo que le permite elegir el tamaño óptimo de la red neuronal.A continuación, analizamos el conjunto de NA en una submuestra de prueba y, a partir de él,se seleccionaron los mejores utilizando el parámetro AUC .El tercer paso fue ajustar el umbral de corte de los modelos seleccionados mediante el análisis ROC equilibrando la sensibilidad y la especificidad para obtener su mínima diferencia. Se rechazaron valores de sensibilidad o especificidad inferiores al 50%.Las siguientes estructuras NS fueron investigadas usando esta técnica:- dos capas, con una capa sigmoidea oculta y salida sigmoidea (SS);
- tres capas con dos capas sigmoidales cónicas ocultas y salida sigmoidal (SSdS);
- tres capas con dos capas sigmoidales cónicas ocultas y salida lineal (SSdP).
Resultados
De los resultados de la prueba se ve que, en promedio, los indicadores de rendimiento del clasificador están en la región del 60-70%.Al mismo tiempo, el investigador señala que las muestras de entrenamiento y prueba proporcionadas para el concurso contenían etiquetas erróneas. Esto reduce la eficiencia de sus modelos propuestos, lo que significa que cuando se usan datos "limpios", uno puede esperar un aumento en la eficiencia del clasificador creado.Además, según el autor del estudio, un aumento en el tamaño de la base de datos de capacitación también puede desempeñar un papel positivo.Utilizando una muestra de datos independiente, el investigador pudo alcanzar la sensibilidad al 63% y la especificidad al 71%.El resultado del trabajo realizado como parte de una competencia científica demuestra la presencia de una conexión teórica y experimentalmente confirmada entre la variabilidad del ritmo cardíaco y los cambios funcionales en el cuerpo asociados con el tabaquismo.Source: https://habr.com/ru/post/es392425/
All Articles