Comment trouver un fumeur par cardiogramme en utilisant des réseaux de neurones artificiels (et pourquoi est-ce nécessaire)



On Habré a déjà écrit sur le concours scientifique pour mathématiciens et développeurs, qui a été lancé par les créateurs du cardiographe mobile CardioQVARK. En bref, l'essence de la compétition est de créer un algorithme qui pourrait détecter un fumeur parmi les non-fumeurs en fonction de leurs cardiogrammes.

L'un des leaders du concours était Ph.D. Roman Isakov, professeur agrégé, Département des moyens et technologies biomédicaux et électroniques, Institut des technologies innovantes, Université d'État de Vladimir nommé d'après A.G. et N.G. Centenaire. Il a développé une méthode pour déterminer un fumeur basée sur des intervalles RR et des réseaux de neurones artificiels - nous en parlerons aujourd'hui.

Pourquoi chercher un fumeur


Il y a des études d'experts en apprentissage automatique qui montrent que le signal ECG véhicule des informations sur le fonctionnement de tous les systèmes du corps, pas seulement du cœur. De plus, chaque maladie à sa manière «module» le signal ECG, ce qui signifie que les signes d'augmentation des intervalles et des amplitudes de cardiocycles consécutifs peuvent être utilisés pour diagnostiquer des informations sur d'éventuels problèmes de santé chez l'homme, y compris dans les premiers stades de leur apparition.

image

Dans un rapport à la V Conférence internationale "Biologie mathématique et bioinformatique" Konstantin Vorontsov du Centre informatique nommé d'après A. A. Dorodnitsyna RAS a démontré des différences dans les signes d'incrémentation des intervalles (dRn), des amplitudes (dTn) et des angles (dαn) des cardiocycles chez les personnes saines et souffrant de diverses maladies des personnes

La recherche d'un fumeur dans un cardiogramme aidera à atteindre l'objectif principal du concours - obtenir un résultat qui démontrerait la possibilité ou l'impossibilité de réaliser un diagnostic de haute qualité en utilisant un ECG et des algorithmes pour identifier les marqueurs de maladies de divers organes dans un signal de cardiogramme.

L'essence de la méthode proposée


La solution à ce problème était basée sur l'hypothèse de la dépendance de la variabilité de la fréquence cardiaque (VRC) à l'état fonctionnel du corps [R.M. Baevsky et al.] Ce modèle inclut une rétroaction à travers le système nerveux périphérique à travers le cerveau, ce qui vous permet de contrôler le flux sanguin, y compris y compris en contrôlant dynamiquement la fréquence cardiaque.

Sur cette base, le signal principal pour l'analyse a été sélectionné RR-intervalogram. Ce signal contient toutes les informations sur les processus de contrôle du rythme cardiaque dans sa manifestation finale.

Le problème de l'extraction d'informations sur l'effet de la nicotine et d'autres substances sur le corps humain revient à trouver les paramètres du VRC qui ont la plus grande capacité de séparation des classes de fumeurs et de non-fumeurs. Étant donné que la nature de la relation des paramètres peut être non linéaire, le classificateur était basé sur la technologie des réseaux de neurones artificiels.

L'échantillon d'entraînement des cardiogrammes pour la compétition comprenait 100 enregistrements de fumeurs et de non-fumeurs avec un ratio de 50/50%. Une sélection de contrôle a également été présentée, comprenant 250 cardiogrammes - elle ne fournissait pas d'annotations, il était donc impossible de l'utiliser pour la recherche.

Par conséquent, le chercheur devait diviser l'échantillon d'apprentissage en deux «sous-échantillons» égaux: formation et test.

La sélection des entrées dans les sous-échantillons de test et de formation a été effectuée arbitrairement, mais sous réserve de la condition de proportions égales de fumeurs et de non-fumeurs dans chacun d'eux. Comme le nombre d'enregistrements dans le sous-échantillon de formation était trop faible, au stade final, après avoir choisi le meilleur modèle, nous avons également dû «terminer l'apprentissage» sur les enregistrements du sous-échantillon de test.

Pas si simple


Afin de minimiser le phénomène de recyclage
, un ensemble de validation local (20%) a été attribué de manière aléatoire à partir de l'ensemble de données utilisé pour la formation. Il n'a pas participé à l'ajustement des paramètres du modèle et a servi à surveiller les erreurs du modèle. À mesure que l'erreur sur l'ensemble de validation augmente, la formation s'arrête.

Il est possible que les personnes qui ont caché ce fait ou les fumeurs passifs entrent dans la classe «ne pas fumer», et les personnes ayant une «expérience de tabagisme» insignifiante dans la classe «fume». Par conséquent, l'une des études a été réalisée avec une modification de la base de données de formation basée sur l'analyse du réseau neuronal de l'échantillon en utilisant le meilleur des modèles obtenus. Par conséquent, ces enregistrements ont été modifiés, dont l'écart avec le modèle était le plus important. Cette approche a montré une légère augmentation de l'efficacité dans un échantillon indépendant (validation). Cependant, on peut supposer que des étiquettes erronées y sont également présentes, ce qui est un facteur limitant.

Traitement et analyse des données


Pour créer un espace caractéristique pour un modèle de reconnaissance d'un fumeur, le chercheur a étudié divers paramètres statistiques connus, des paramètres spéciaux pour évaluer la variabilité de la fréquence cardiaque, ainsi qu'un spectre et un histogramme du rythme cardiaque.

Les paramètres ont été répartis dans les groupes suivants:

  1. Entropique
  2. Paramètres du domaine temporel;
  3. Paramètres du domaine fréquentiel;
  4. Paramètres de forme d'histogramme.


L'étude a consisté à calculer l'ensemble complet des paramètres des classes de fumeurs et de non-fumeurs dans les registres de la base de formation et l'analyse conjointe ultérieure de leurs distributions. Seuls les paramètres ont été sélectionnés dont les densités de distribution présentaient des écarts importants dans n'importe quelle région.

De plus, les spectres du rythme cardiaque ont été étudiés, des gammes de fréquences ont été sélectionnées dans lesquelles la plus grande séparation des deux classes a été observée. Ensuite, une analyse de corrélation croisée des paramètres sélectionnés a été effectuée pour exclure les relations linéaires fortes dans l'espace des caractéristiques.

Dans la description de la décision concurrentielle, le chercheur note que des études parallèles d'un ensemble de paramètres ont été réalisées sans optimisation par analyse de corrélation et à l'aide d'échantillons du spectre du rythme cardiaque. Les résultats des données ne sont pas présentés dans la solution car ils n'ont pas montré les meilleurs résultats.

En conséquence, l'ensemble de paramètres suivant a été obtenu:

1) EnLog - Entropie de «Log Energy» (Log Energy Entropy);
2) EnTrs - Entropie de seuil;
3.4) EnSamp - Deux échantillons d'entropie (Sample Entropy) avec les paramètres 1 et 5;
5) NN22 - Le nombre d'intervalles RR consécutifs différant de plus de 22 ms;
6) HRVTi - Index triangulaire de l'histogramme du rythme cardiaque;
7) LF / HF - Le rapport de la puissance basse fréquence à la partie haute fréquence du spectre (paramètre standard pour estimer HRV);
8) LFn - Le rapport de la puissance de la partie basse fréquence du spectre à la somme des puissances des parties basse fréquence et haute fréquence du spectre;
9) SBxn (4) - Le rapport de la puissance du spectre dans la plage de 0,093 Hz à 0,125 Hz à la puissance totale du spectre (TP). Ce paramètre a été obtenu à la suite d'une analyse spectrale spéciale;
10) SB1n - Puissance spectrale dans la plage de 0,0039 Hz à 0,0391 Hz. Ce paramètre a été obtenu à la suite d'une analyse spectrale spéciale.

L'algorithme de traitement des données peut être décrit étape par étape comme suit:

La première étape consiste à télécharger le cardiointervalogramme (CIG). Ensuite, les émissions sont déterminées en utilisant le seuil au niveau 1 de l'écart type. Ils sont ensuite exclus par interpolation par la médiane, une interpolation par spigot du CIG est réalisée pour obtenir un signal de rythmogramme quantifié à équidistance (RG).

Pour supprimer la composante constante, la valeur moyenne a été soustraite du rythmogramme, après quoi elle a été traitée par la fenêtre turcique pour supprimer l'effet Gibbs. Par la suite, une transformée de Fourier rapide a été effectuée pour le rythmogramme traité, et grâce au calcul de la valeur absolue à partir des valeurs complexes de cette transformation, il a été possible d'obtenir un spectre de rythme cardiaque.

Les paramètres ci-dessus ont été calculés en utilisant CIG (sauf pour les paramètres spectraux), puis ils ont été normalisés pour obtenir une plage dynamique de 0 à 1.

Le modèle a été obtenu comme suit:

Premièrement, les réseaux neuronaux perceptrons (NS) ont été formés avec un nombre croissant de neurones dans des couches cachées. (selon la méthodologie décrite précédemment). Le résultat est un ensemble de modèles de réseaux neuronaux de différentes tailles, vous permettant de choisir la taille optimale du réseau neuronal.

Ensuite, nous avons analysé l'ensemble NA sur un sous-échantillon de test et à partir de celui-ci, les
meilleurs ont été sélectionnés en utilisant le paramètre AUC .

La troisième étape consistait à ajuster le seuil de coupure des modèles sélectionnés en utilisant l'analyse ROC en équilibrant la sensibilité et la spécificité pour obtenir leur différence minimale. Les valeurs de sensibilité ou de spécificité inférieures à 50% ont été rejetées.

Les structures NS suivantes ont été étudiées à l'aide de cette technique:

  1. deux couches, avec une couche sigmoïde cachée et une sortie sigmoïde (SS);
  2. trois couches avec deux couches sigmoïdales effilées cachées et sortie sigmoïdale (SSdS);
  3. trois couches avec deux couches sigmoïdales effilées cachées et sortie linéaire (SSdP).

Résultats


Les résultats des tests montrent que les indicateurs de performance du classificateur sont en moyenne de l'ordre de 60 à 70%.

Dans le même temps, le chercheur note que les échantillons de formation et de test fournis pour le concours contenaient des étiquettes erronées. Cela réduit l'efficacité des modèles proposés par lui, ce qui signifie qu'en utilisant des données «propres», on peut s'attendre à une augmentation de l'efficacité du classificateur créé.

De plus, selon l'auteur de l'étude, une augmentation de la taille de la base de données de formation peut également jouer un rôle positif.

À l'aide d'un échantillon de données indépendant, le chercheur a pu atteindre une sensibilité de 63% et une spécificité de 71%.

Le résultat des travaux menés dans le cadre d'un concours scientifique démontre la présence d'un lien théorique et confirmé expérimentalement entre la variabilité de la fréquence cardiaque et les changements fonctionnels de l'organisme associés au tabagisme.

Source: https://habr.com/ru/post/fr392425/


All Articles