Wie man einen Raucher durch ein Kardiogramm unter Verwendung künstlicher neuronaler Netze findet (und warum ist es notwendig)
On Habré schrieb bereits über den wissenschaftlichen Wettbewerb für Mathematiker und Entwickler, der von den Machern des mobilen Kardioographen CardioQVARK ins Leben gerufen wurde . Kurz gesagt, die Essenz des Wettbewerbs besteht darin, einen Algorithmus zu erstellen, der einen Raucher unter Nichtrauchern anhand seiner Kardiogramme erkennen kann.Einer der Führer des Wettbewerbs war Ph.D. Roman Isakov, außerordentlicher Professor, Abteilung für biomedizinische und elektronische Mittel und Technologien, Institut für innovative Technologien, Vladimir State University, benannt nach A.G. und N.G. Centennial. Er entwickelte eine Methode zur Bestimmung eines Rauchers basierend auf RR-Intervallogrammen und künstlichen neuronalen Netzen - wir werden heute darüber sprechen.Warum nach einem Raucher suchen?
Es gibt Studien von Experten für maschinelles Lernen, die zeigen, dass das EKG-Signal Informationen über die Funktionsweise aller Körpersysteme enthält, nicht nur des Herzens. Darüber hinaus „moduliert“ jede Krankheit auf ihre Weise das EKG-Signal, was bedeutet, dass die Anzeichen von Inkrementen in den Intervallen und Amplituden aufeinanderfolgender Kardiozyklen verwendet werden können, um Informationen über mögliche Gesundheitsprobleme beim Menschen zu diagnostizieren, auch in den frühen Stadien ihres Auftretens.
In einem Bericht auf der V International Conference "Mathematische Biologie und Bioinformatik" Konstantin Woronzow vom Rechenzentrum benannt nach A. A. Dorodnitsyna RAS zeigte Unterschiede in den Anzeichen von Inkrementierungsintervallen (dRn), Amplituden (dTn) und Winkeln (dαn) von Kardiozyklen bei gesunden Menschen, die an verschiedenen Krankheiten von Menschen leidenDie Suche nach einem Raucher in einem Kardiogramm wird dazu beitragen, das Hauptziel des Wettbewerbs zu erreichen - ein Ergebnis zu erzielen, das die Möglichkeit oder Unmöglichkeit einer qualitativ hochwertigen Diagnose unter Verwendung eines EKG und von Algorithmen zur Identifizierung von Markern für Krankheiten verschiedener Organe in einem Kardiogrammsignal zeigt.Das Wesentliche der vorgeschlagenen Methode
Die Lösung für dieses Problem basierte auf der Hypothese der Abhängigkeit der Herzfrequenzvariabilität (HRV) vom Funktionszustand des Körpers [R.M. Baevsky et al.]. Dieses Modell beinhaltet eine Rückkopplung durch das periphere Nervensystem durch das Gehirn, mit der Sie den Blutfluss steuern können, einschließlich einschließlich durch dynamische Steuerung der Herzfrequenz.Basierend darauf wurde das Hauptsignal für die Analyse als RR-Intervallogramm ausgewählt. Dieses Signal enthält alle Informationen über die Prozesse zur Steuerung des Herzrhythmus in seiner endgültigen Manifestation.Das Problem beim Extrahieren von Informationen über die Wirkung von Nikotin und anderen Substanzen auf den menschlichen Körper besteht darin, die Parameter der HRV zu finden, die die größte Trennfähigkeit von Klassen von Rauchern und Nichtrauchern aufweisen. Da die Art der Beziehung der Parameter nichtlinear sein kann, basierte der Klassifikator auf der Technologie künstlicher neuronaler Netze.Die Trainingsstichprobe der Kardiogramme für den Wettbewerb umfasste 100 Aufzeichnungen von Rauchern und Nichtrauchern mit einem Verhältnis von 50/50%. Es wurde auch eine Kontrollauswahl vorgestellt, die 250 Kardiogramme enthielt - sie enthielt keine Anmerkungen, so dass es unmöglich war, sie für Forschungszwecke zu verwenden.Daher musste der Forscher die Trainingsstichprobe in zwei gleiche „Teilstichproben“ aufteilen: Training und Test.Die Auswahl der Einträge in den Test- und Trainingsunterproben erfolgte willkürlich, jedoch unter der Bedingung, dass in jedem von ihnen gleiche Anteile von Rauchern und Nichtrauchern vorhanden waren. Da die Anzahl der Datensätze in der Trainingsunterstichprobe zu gering war, mussten wir sie im letzten Stadium nach Auswahl des besten Modells auch in den Aufzeichnungen der Testunterstichprobe „fertig lernen“.Nicht so einfach
Um das Phänomen der Umschulung zu minimieren, wurde ein lokaler Validierungssatz (20%) zufällig aus dem für das Training verwendeten Datensatz zugewiesen. Er war nicht an der Anpassung der Modellparameter beteiligt und diente zur Überwachung von Modellfehlern. Wenn der Fehler im Validierungssatz zunimmt, wird das Training beendet.Es besteht die Möglichkeit, dass Personen, die diese Tatsache versteckt haben, oder Passivraucher in die Klasse „Nicht rauchen“ fallen und Personen mit unbedeutender „Raucherfahrung“ in die Klasse „Rauchen“. Daher wurde eine der Studien mit einer Modifikation der Trainingsdatenbank durchgeführt, die auf einer neuronalen Netzwerkanalyse der Probe unter Verwendung des besten der erhaltenen Modelle basiert. Infolgedessen wurden die Datensätze geändert, deren Abweichung vom Modell am größten war. Dieser Ansatz zeigte eine leichte Steigerung der Effizienz in einer unabhängigen (Validierungs-) Stichprobe. Es kann jedoch davon ausgegangen werden, dass auch fehlerhafte Beschriftungen vorhanden sind, was ein begrenzender Faktor ist.Datenverarbeitung und Analyse
Um einen Merkmalsraum für ein Modell zur Erkennung einer rauchenden Person zu schaffen, untersuchte der Forscher verschiedene bekannte statistische Parameter, spezielle Parameter zur Beurteilung der Herzfrequenzvariabilität sowie ein Spektrum und ein Histogramm des Herzrhythmus.Die Parameter wurden in folgende Gruppen unterteilt:- Entropisch
- Zeitbereichsparameter;
- Frequenzbereichsparameter;
- Histogrammformparameter.
Die Studie bestand aus der Berechnung des gesamten Parametersatzes für Klassen von Rauchern und Nichtrauchern in den Aufzeichnungen der Trainingsbasis und der anschließenden gemeinsamen Analyse ihrer Verteilungen. Es wurden nur diejenigen Parameter ausgewählt, deren Verteilungsdichten in jeder Region signifikante Abweichungen aufwiesen.Zusätzlich wurden die Spektren des Herzrhythmus untersucht, Frequenzbereiche ausgewählt, in denen die größte Trennung der beiden Klassen beobachtet wurde. Anschließend wurde eine Kreuzkorrelationsanalyse der ausgewählten Parameter durchgeführt, um starke lineare Beziehungen im Merkmalsraum auszuschließen.In der Beschreibung der Wettbewerbsentscheidung stellt der Forscher fest, dass parallele Studien eines Parametersatzes ohne Optimierung durch Korrelationsanalyse und unter Verwendung von Proben des Herzrhythmus-Spektrums durchgeführt wurden. Die Ergebnisse der Daten werden in der Lösung nicht dargestellt, da sie nicht die besten Ergebnisse zeigten.Als Ergebnis wurde der folgende Parametersatz erhalten:1) EnLog - Entropie von "Log Energy" (Log Energy Entropy);2) EnTrs - Schwellenentropie;3.4) EnSamp - Zwei Probenentropien (Probenentropie) mit Parameter 1 und 5;5) NN22 - Die Anzahl aufeinanderfolgender RR-Intervalle, die sich um mehr als 22 ms unterscheiden;6) HRVTi - Dreiecksindex des Histogramms des Herzrhythmus;7) LF / HF - Das Verhältnis der Niederfrequenzleistung zum Hochfrequenzteil des Spektrums (Standardparameter zur Schätzung der HRV)8) LFn - Das Verhältnis der Leistung des niederfrequenten Teils des Spektrums zur Summe der Leistungen der niederfrequenten und hochfrequenten Teile des Spektrums;9) SBxn (4) - Das Verhältnis der Spektralleistung im Bereich von 0,093 Hz bis 0,125 Hz zur Gesamtspektrumleistung (TP). Dieser Parameter wurde als Ergebnis einer speziellen Spektralanalyse erhalten;10) SB1n - Spektrumleistung im Bereich von 0,0039 Hz bis 0,0391 Hz. Dieser Parameter wurde als Ergebnis einer speziellen Spektralanalyse erhalten.Der Datenverarbeitungsalgorithmus kann Schritt für Schritt wie folgt beschrieben werden:Der erste Schritt ist das Herunterladen des Kardiointervalogramms (CIG). Dann werden die Emissionen unter Verwendung des Grenzwerts auf Stufe 1 der Standardabweichung bestimmt. Dann werden sie durch Interpolation durch den Median ausgeschlossen, eine Zapfeninterpolation der CIG wird durchgeführt, um ein äquidistanzquantisiertes Rhythmogrammsignal (RG) zu erhalten.Um die konstante Komponente zu entfernen, wurde der Durchschnittswert vom Rhythmogramm abgezogen und anschließend vom türkischen Fenster verarbeitet, um den Gibbs-Effekt zu unterdrücken. Anschließend wurde eine schnelle Fourier-Transformation für das verarbeitete Rhythmogramm durchgeführt, und dank der Berechnung des Absolutwerts aus den komplexen Werten dieser Transformation konnte ein Herzrhythmus-Spektrum erhalten werden.Die obigen Parameter wurden unter Verwendung von CIG berechnet (mit Ausnahme von Spektralparametern), und dann wurden sie normalisiert, um einen Dynamikbereich von 0 bis 1 zu erhalten.Das Modell wurde wie folgt erhalten:Zuerst wurden Perzeptron-Neuronale Netze (NS) mit einer sukzessive zunehmenden Anzahl von Neuronen in verborgenen Schichten trainiert (gemäß der zuvor beschriebenen Methodik). Das Ergebnis ist eine Reihe von neuronalen Netzwerkmodellen unterschiedlicher Größe, mit denen Sie die optimale Größe des neuronalen Netzwerks auswählen können.Als nächstes analysierten wir den NA-Satz an einer Test-Teilprobe und daraus wurden diebesten unter Verwendung des AUC-Parameters ausgewählt .Der dritte Schritt bestand darin, die Grenzschwelle ausgewählter Modelle mithilfe der ROC-Analyse anzupassen, indem Sensitivität und Spezifität abgewogen wurden, um ihre minimale Differenz zu erhalten. Sensitivitäts- oder Spezifitätswerte von weniger als 50% wurden abgelehnt.Die folgenden NS-Strukturen wurden mit dieser Technik untersucht:- zweischichtig, mit einer versteckten Sigmoidschicht und Sigmoidausgang (SS);
- dreischichtig mit zwei versteckten sich verjüngenden Sigmoidschichten und Sigmoidausgang (SSdS);
- dreischichtig mit zwei versteckten sich verjüngenden Sigmoidschichten und linearem Ausgang (SSdP).
Ergebnisse
Aus den Testergebnissen geht hervor, dass die Leistungsindikatoren des Klassifikators im Durchschnitt im Bereich von 60-70% liegen.Gleichzeitig stellt der Forscher fest, dass die für den Wettbewerb bereitgestellten Trainings- und Testmuster fehlerhafte Etiketten enthielten. Dies verringert die Effizienz der von ihm vorgeschlagenen Modelle, was bedeutet, dass bei Verwendung von „sauberen“ Daten eine Steigerung der Effizienz des erstellten Klassifikators zu erwarten ist.Darüber hinaus kann laut dem Autor der Studie auch eine Vergrößerung der Trainingsdatenbank eine positive Rolle spielen.Mit einer unabhängigen Datenstichprobe konnte der Forscher eine Sensitivität von 63% und eine Spezifität von 71% erreichen.Das Ergebnis der im Rahmen eines wissenschaftlichen Wettbewerbs durchgeführten Arbeiten zeigt das Vorhandensein eines theoretischen und experimentell bestätigten Zusammenhangs zwischen der Variabilität der Herzfrequenz und den mit dem Rauchen verbundenen funktionellen Veränderungen im Körper.Source: https://habr.com/ru/post/de392425/
All Articles