Cara menemukan perokok dengan kardiogram menggunakan jaringan saraf tiruan (dan mengapa itu perlu)
Pada Habré sudah menulis tentang kompetisi ilmiah untuk ahli matematika dan pengembang, yang diluncurkan oleh pencipta CardioQVARK mobile cardiograph. Singkatnya, inti dari kompetisi adalah menciptakan algoritma yang dapat mendeteksi perokok di antara non-perokok berdasarkan kardiogram mereka.Salah satu pemimpin kompetisi adalah Ph.D. Roman Isakov, Associate Professor, Departemen Biomedis dan Elektronik Berarti dan Teknologi, Institut Teknologi Inovatif, Vladimir State University dinamai A.G. dan N.G. Centennial. Dia mengembangkan metode untuk menentukan perokok berdasarkan RR-intervalogram dan jaringan saraf tiruan - kita akan membicarakannya hari ini.Mengapa mencari perokok
Ada studi oleh para ahli pembelajaran mesin yang menunjukkan bahwa sinyal EKG membawa informasi tentang fungsi semua sistem tubuh, bukan hanya jantung. Selain itu, masing-masing penyakit dengan caranya sendiri "memodulasi" sinyal EKG, yang berarti bahwa tanda-tanda peningkatan dalam interval dan amplitudo dari kardioklus berturut-turut dapat digunakan untuk mendiagnosis informasi tentang kemungkinan masalah kesehatan pada manusia, termasuk pada tahap awal kemunculannya.
Dalam sebuah laporan di Konferensi Internasional V "Biologi Matematika dan Bioinformatika" Konstantin Vorontsov dari Computing Center dinamai A. A. Dorodnitsyna RAS menunjukkan perbedaan dalam tanda-tanda penambahan interval (dRn), amplitudo (dTn) dan sudut (dαn) dari jantung dalam sehat dan menderita berbagai penyakit orang.Mencari perokok dalam kardiogram akan membantu untuk mencapai tujuan utama kompetisi - untuk mendapatkan hasil yang akan menunjukkan kemungkinan atau ketidakmungkinan melakukan diagnosis berkualitas tinggi menggunakan EKG dan algoritma untuk mengidentifikasi penanda penyakit berbagai organ dalam sinyal kardiogram.Esensi dari metode yang diusulkan
Solusi untuk masalah ini didasarkan pada hipotesis dari ketergantungan variabilitas detak jantung (HRV) pada keadaan fungsional tubuh [R.M. Baevsky et al.] Model ini mencakup umpan balik melalui sistem saraf perifer melalui otak, yang memungkinkan Anda untuk mengontrol aliran darah, termasuk termasuk dengan mengendalikan detak jantung secara dinamis.Berdasarkan ini, sinyal utama untuk analisis dipilih RR-intervalogram. Sinyal ini berisi semua informasi tentang proses mengendalikan irama jantung dalam manifestasi terakhirnya.Masalah dalam mengekstraksi informasi tentang efek nikotin dan zat lain pada tubuh manusia datang untuk menemukan parameter HRV yang memiliki kemampuan memisahkan terbesar dari kelas perokok dan non-perokok. Mengingat bahwa sifat hubungan parameter dapat nonlinier, classifier didasarkan pada teknologi jaringan saraf tiruan.Sampel pelatihan kardiogram untuk kompetisi termasuk 100 catatan perokok dan non-perokok dengan rasio 50/50%. Pilihan kontrol juga disajikan, termasuk 250 kardiogram - tidak memberikan anotasi, jadi tidak mungkin untuk menggunakannya untuk penelitian.Oleh karena itu, peneliti perlu membagi sampel pelatihan menjadi dua “sampel” yang sama: pelatihan dan tes.Pemilihan entri dalam subsampel tes dan pelatihan dilakukan secara sewenang-wenang, tetapi tunduk pada kondisi proporsi yang sama antara perokok dan non-perokok di masing-masing. Karena jumlah catatan dalam subsampel pelatihan terlalu kecil, pada tahap akhir, setelah memilih model terbaik, kami juga harus "menyelesaikan pembelajaran" pada catatan subsampel tes.Tidak sesederhana itu
Untuk meminimalkan fenomena pelatihan ulang, satu set validasi lokal (20%) dialokasikan secara acak dari set data yang digunakan untuk pelatihan. Dia tidak ikut serta dalam menyesuaikan parameter model dan bertugas memantau kesalahan model. Saat kesalahan pada set validasi meningkat, pelatihan berhenti.Ada kemungkinan bahwa orang yang menyembunyikan fakta ini atau perokok pasif akan jatuh ke dalam kelas "tidak merokok", dan orang-orang dengan "pengalaman merokok" yang tidak signifikan di kelas "merokok". Oleh karena itu, salah satu studi dilakukan dengan modifikasi database pelatihan berdasarkan analisis jaringan saraf sampel menggunakan yang terbaik dari model yang diperoleh. Akibatnya, catatan-catatan itu dimodifikasi yang perbedaannya dengan model adalah yang terbesar. Pendekatan ini menunjukkan sedikit peningkatan efisiensi dalam sampel independen (validasi). Namun, dapat diasumsikan bahwa label yang salah juga ada di dalamnya, yang merupakan faktor pembatas.Pemrosesan dan Analisis Data
Untuk membuat ruang fitur untuk model untuk mengenali orang yang merokok, peneliti mempelajari berbagai parameter statistik yang diketahui, parameter khusus untuk menilai variabilitas detak jantung, serta spektrum dan histogram irama jantung.Parameter dibagi menjadi kelompok-kelompok berikut:- Entropik
- Parameter domain waktu;
- Parameter domain frekuensi;
- Parameter bentuk histogram.
Studi ini terdiri dalam menghitung seluruh rangkaian parameter untuk kelas perokok dan non-perokok dalam catatan-catatan dari basis pelatihan dan analisis gabungan selanjutnya dari distribusi mereka. Hanya parameter-parameter yang dipilih yang kepadatan distribusinya memiliki perbedaan signifikan di wilayah mana pun.Selain itu, spektrum irama jantung dipelajari, rentang frekuensi dipilih di mana pemisahan terbesar dari dua kelas diamati. Kemudian analisis korelasi silang dari parameter yang dipilih dilakukan untuk mengecualikan hubungan linear yang kuat di ruang fitur.Dalam uraian keputusan kompetitif, peneliti mencatat bahwa studi paralel dari serangkaian parameter dilakukan tanpa optimasi dengan analisis korelasi dan menggunakan sampel spektrum irama jantung. Hasil data tidak disajikan dalam solusi karena mereka tidak menunjukkan hasil terbaik.Akibatnya, serangkaian parameter berikut diperoleh:1) EnLog - Entropi "Energi Log" (Entri Energi Log);2) EnTrs - Entropi Threshold;3.4) EnSamp - Dua entropi sampel (Entropi Sampel) dengan parameter 1 dan 5;5) NN22 - Jumlah interval RR berurutan berbeda lebih dari 22 ms;6) HRVTi - Indeks segitiga histogram irama jantung;7) LF / HF - Rasio daya frekuensi rendah ke bagian spektrum frekuensi tinggi (parameter standar untuk memperkirakan HRV);8) LFn - Rasio kekuatan bagian frekuensi rendah dari spektrum dengan jumlah kekuatan bagian frekuensi rendah dan frekuensi tinggi dari spektrum;9) SBxn (4) - Rasio daya spektrum berkisar dari 0,093 Hz hingga 0,125 Hz terhadap total daya spektrum (TP). Parameter ini diperoleh sebagai hasil analisis spektral khusus;10) SB1n - Kekuatan spektrum dalam kisaran dari 0,0039 Hz hingga 0,0391 Hz. Parameter ini diperoleh sebagai hasil analisis spektral khusus.Algoritma pemrosesan data dapat dijelaskan langkah demi langkah sebagai berikut:Langkah pertama adalah mengunduh cardiointervalogram (CIG). Kemudian, emisi ditentukan dengan menggunakan cut-off pada level 1 dari standar deviasi. Kemudian mereka dikeluarkan dengan cara interpolasi oleh median, interpolasi keran dari CIG dilakukan untuk mendapatkan sinyal rhythmogram terkuantisasi (RG) yang sama.Untuk menghapus komponen konstan, nilai rata-rata dikurangi dari rhythmogram, setelah itu diproses oleh jendela Turkic untuk menekan efek Gibbs. Selanjutnya, transformasi Fourier yang cepat dilakukan untuk rhythmogram yang diproses, dan berkat perhitungan nilai absolut dari nilai kompleks transformasi ini, dimungkinkan untuk mendapatkan spektrum irama jantung.Parameter di atas dihitung menggunakan CIG (kecuali untuk parameter spektral), dan kemudian dinormalisasi untuk memperoleh rentang dinamis dari 0 hingga 1.Model tersebut diperoleh sebagai berikut:Pertama, jaringan saraf perceptron (NS) dilatih dengan jumlah neuron yang meningkat secara berturut-turut dalam lapisan tersembunyi (sesuai dengan metodologi yang dijelaskan sebelumnya). Hasilnya adalah satu set model jaringan saraf dengan ukuran yang berbeda, memungkinkan Anda untuk memilih ukuran optimal jaringan saraf.Selanjutnya, kami menganalisis set NA pada subsampel uji dan darinya, yangterbaik dipilih menggunakan parameter AUC .Langkah ketiga adalah menyesuaikan ambang batas cutoff model yang dipilih menggunakan analisis ROC dengan menyeimbangkan Sensitivitas dan Spesifisitas untuk mendapatkan perbedaan minimumnya. Nilai sensitivitas atau spesifisitas kurang dari 50% ditolak.Struktur NS berikut diselidiki menggunakan teknik ini:- dua lapisan, dengan satu lapisan sigmoid tersembunyi dan keluaran sigmoid (SS);
- tiga lapisan dengan dua lapisan sigmoidal tapering tersembunyi dan keluaran sigmoidal (SSdS);
- tiga lapisan dengan dua lapisan sigmoidal tapering tersembunyi dan output linear (SSdP).
Hasil
Dari hasil pengujian terlihat bahwa rata-rata indikator kinerja dari classifier berada di wilayah 60-70%.Pada saat yang sama, peneliti mencatat bahwa pelatihan dan sampel uji yang disediakan untuk kontes berisi label yang salah. Ini mengurangi efisiensi model yang diusulkan olehnya, yang berarti bahwa ketika menggunakan data "bersih", seseorang dapat mengharapkan peningkatan efisiensi dari classifier yang dibuat.Selain itu, menurut penulis penelitian, peningkatan ukuran database pelatihan juga dapat memainkan peran positif.Menggunakan sampel data independen, peneliti mampu mencapai Sensitivitas pada 63% dan Spesifisitas pada 71%.Hasil pekerjaan yang dilakukan sebagai bagian dari kompetisi ilmiah menunjukkan adanya hubungan teoritis dan eksperimental yang dikonfirmasi antara variabilitas detak jantung dan perubahan fungsional dalam tubuh yang terkait dengan merokok.Source: https://habr.com/ru/post/id392425/
All Articles