كيفية العثور على مدخن باستخدام مخطط القلب باستخدام الشبكات العصبية الاصطناعية (ولماذا هو ضروري)



كتب حبري بالفعل عن المسابقة العلمية لعلماء الرياضيات والمطورين ، والتي أطلقها مبدعو CardioQVARK mobile cardiograph. باختصار ، جوهر المنافسة هو إنشاء خوارزمية يمكنها الكشف عن المدخن بين غير المدخنين بناءً على مخطط القلب.

أحد قادة المسابقة كان دكتوراه. رومان إيزاكوف ، أستاذ مشارك ، قسم الوسائل والتكنولوجيا الطبية والالكترونية ، معهد التقنيات المبتكرة ، جامعة ولاية فلاديمير سميت A.G. ون. المئوية. طور طريقة لتحديد المدخن على أساس RR- الفواصل الزمنية والشبكات العصبية الاصطناعية - سنتحدث عنها اليوم.

لماذا تبحث عن مدخن


هناك دراسات أجراها خبراء تعلُم الآلة تُظهر أن إشارة ECG تحمل معلومات حول عمل جميع أنظمة الجسم ، وليس فقط القلب. علاوة على ذلك ، فإن كل مرض بطريقته الخاصة يعدل إشارة ECG ، مما يعني أنه يمكن استخدام علامات الزيادات في فترات وسعات دورات القلب المتتالية لتشخيص المعلومات حول المشاكل الصحية المحتملة في البشر ، بما في ذلك في المراحل المبكرة من حدوثها.

الصورة

في تقرير في المؤتمر الدولي الخامس "علم الأحياء الرياضي والمعلوماتية الحيوية" كونستانتين فورونتسوف من مركز الحوسبة سميت على اسم أظهرت A. A. Dorodnitsyna RAS اختلافات في علامات زيادة الفترات (dRn) ، والسعات (dTn) وزوايا (dαn) من دورات القلب في حالة صحية وتعاني من أمراض مختلفة من الناس

سيساعد البحث عن مدخن في مخطط القلب في تحقيق الهدف الرئيسي للمسابقة - للحصول على نتيجة توضح إمكانية أو استحالة إجراء تشخيص عالي الجودة باستخدام مخطط كهربية القلب والخوارزميات لتحديد علامات أمراض الأعضاء المختلفة في إشارة مخطط القلب.

جوهر الطريقة المقترحة


اعتمد حل هذه المشكلة على فرضية اعتماد تقلب معدل ضربات القلب (HRV) على الحالة الوظيفية للجسم [RM Baevsky et al.] يشمل هذا النموذج التغذية المرتدة من خلال الجهاز العصبي المحيطي من خلال الدماغ ، مما يسمح لك بالتحكم في تدفق الدم ، بما في ذلك بما في ذلك التحكم ديناميكيًا في معدل ضربات القلب.

وبناءً على ذلك ، تم اختيار الإشارة الرئيسية للتحليل RR- الفاصل الزمني. تحتوي هذه الإشارة على جميع المعلومات حول عمليات التحكم في إيقاع القلب في مظهره النهائي.

تكمن مشكلة استخراج المعلومات حول تأثير النيكوتين والمواد الأخرى على جسم الإنسان في العثور على معلمات فيروس الورم الحليمي البشري التي لديها أكبر قدرة فصل لفئات المدخنين وغير المدخنين. بالنظر إلى أن طبيعة علاقة المعلمات يمكن أن تكون غير خطية ، فقد اعتمد المصنف على تقنية الشبكات العصبية الاصطناعية.

اشتملت العينة التدريبية لأمراض القلب للمسابقة على 100 سجل للمدخنين وغير المدخنين بنسبة 50/50٪. تم تقديم اختيار التحكم أيضًا ، بما في ذلك 250 مخططًا للقلب - لم يقدم تعليقات توضيحية ، لذلك كان من المستحيل استخدامه للبحث.

لذلك احتاج الباحث إلى تقسيم عينة التدريب إلى "نموذجين فرعيين" متساويين: التدريب والاختبار.

تم اختيار الإدخالات في الاختبار الفرعي وعينات التدريب بشكل تعسفي ، ولكن بشرط نسب متساوية من المدخنين وغير المدخنين في كل منهم. نظرًا لأن عدد السجلات في العينة الفرعية للتدريب كان صغيرًا جدًا ، في المرحلة النهائية ، بعد اختيار أفضل نموذج ، كان علينا أيضًا "إنهاء التعلم" في سجلات العينة الفرعية للاختبار.

ليس بهذه البساطة


لتقليل ظاهرة إعادة التدريب
، تم تخصيص مجموعة تحقق محلية (20٪) بشكل عشوائي من مجموعة البيانات المستخدمة للتدريب. لم يشارك في تعديل معلمات النموذج وعمل على مراقبة أخطاء النموذج. مع زيادة الخطأ في مجموعة التحقق ، يتوقف التدريب.

هناك احتمال أن يقع الأشخاص الذين أخفوا هذه الحقيقة أو المدخنين السلبيين في فئة "لا تدخن" ، والأشخاص الذين لديهم "تجربة تدخين" غير مهمة في فئة "التدخين". لذلك ، أجريت إحدى الدراسات بتعديل قاعدة بيانات التدريب على أساس تحليل الشبكة العصبية للعينة باستخدام أفضل النماذج التي تم الحصول عليها. ونتيجة لذلك ، تم تعديل تلك السجلات التي كان تناقضها مع النموذج هو الأعظم. أظهر هذا النهج زيادة طفيفة في الكفاءة في عينة (التحقق) مستقلة. ومع ذلك ، يمكن الافتراض أن الملصقات الخاطئة موجودة أيضًا فيها ، وهو عامل مقيد.

معالجة وتحليل البيانات


لخلق مساحة مميزة لنموذج للتعرف على الشخص المدخن ، درس الباحث العديد من المعلمات الإحصائية المعروفة ، والمعلمات الخاصة لتقييم تقلب معدل ضربات القلب ، وكذلك الطيف ومخطط لإيقاع القلب.

تم تقسيم المعلمات إلى المجموعات التالية:

  1. انتروبيا
  2. معلمات المجال الزمني ؛
  3. معلمات مجال التردد ؛
  4. معلمات شكل الرسم البياني.


اشتملت الدراسة على احتساب المجموعة الكاملة من المعايير لفئات المدخنين وغير المدخنين في سجلات قاعدة التدريب والتحليل المشترك التالي لتوزيعاتهم. تم اختيار هذه المعلمات فقط التي كانت لكثافات توزيعها اختلافات كبيرة في أي منطقة.

بالإضافة إلى ذلك ، تمت دراسة أطياف إيقاع القلب ، وتم اختيار نطاقات التردد التي لوحظ فيها أكبر فصل للفئتين. ثم تم إجراء تحليل الارتباط المتبادل للمعلمات المحددة لاستبعاد العلاقات الخطية القوية في مساحة المعالم.

في وصف القرار التنافسي ، لاحظ الباحث أنه تم إجراء دراسات موازية لمجموعة من المعلمات دون تحسين عن طريق تحليل الارتباط واستخدام عينات من طيف إيقاع القلب. لا يتم عرض نتائج البيانات في الحل لأنها لم تظهر أفضل النتائج.

ونتيجة لذلك ، تم الحصول على مجموعة المعلمات التالية:

1) EnLog - Entropy of Log Energy (Log Energy Entropy) ؛
2) EnTrs - عتبة الانتروبيا ؛
3.4) EnSamp - اثنين من الانتروبيا عينة (إنتروبي العينة) مع المعلمة 1 و 5 ؛
5) NN22 - عدد فترات RR المتتالية التي تختلف بأكثر من 22 مللي ثانية ؛
6) HRVTi - مؤشر ثلاثي الرسم البياني لإيقاع القلب.
7) LF / HF - نسبة قدرة التردد المنخفض إلى جزء التردد العالي من الطيف (المعلمة القياسية لتقدير HRV) ؛
8) LFn - نسبة قدرة جزء التردد المنخفض من الطيف إلى مجموع قدرات الأجزاء منخفضة التردد وعالية التردد من الطيف ؛
9) SBxn (4) - نسبة قدرة الطيف في النطاق من 0.093 هرتز إلى 0.125 هرتز إلى إجمالي قدرة الطيف (TP). تم الحصول على هذه المعلمة نتيجة لتحليل طيفي خاص ؛
10) SB1n - قدرة الطيف في النطاق من 0.0039 هرتز إلى 0.0391 هرتز. تم الحصول على هذه المعلمة نتيجة لتحليل طيفي خاص.

يمكن وصف خوارزمية معالجة البيانات خطوة بخطوة على النحو التالي:

الخطوة الأولى هي تنزيل مخطط القلب والأوعية الدموية (CIG). بعد ذلك ، يتم تحديد الانبعاثات باستخدام القطع عند المستوى 1 من الانحراف المعياري. ثم يتم استبعادها عن طريق الاستيفاء بواسطة الوسيط ، يتم إجراء استيفاء حنفية CIG للحصول على إشارة إيقاعية تكيفية متساوية (RG).

لإزالة المكون الثابت ، تم طرح متوسط ​​القيمة من مخطط ضربات القلب ، وبعد ذلك تم معالجته بواسطة النافذة التركية لقمع تأثير جيبس. في وقت لاحق ، تم إجراء تحويل فورييه السريع لإيقاع الرسم المعالج ، وبفضل حساب القيمة المطلقة من القيم المعقدة لهذا التحول ، كان من الممكن الحصول على طيف إيقاع القلب.

تم حساب المعلمات أعلاه باستخدام CIG (باستثناء المعلمات الطيفية) ، ثم تم تطبيعها للحصول على نطاق ديناميكي من 0 إلى 1.

تم الحصول على النموذج على النحو التالي:

أولاً ، تم تدريب الشبكات العصبية العصبية (NS) مع عدد متزايد من الخلايا العصبية في طبقات مخفية (وفقا للمنهجية الموصوفة سابقا). والنتيجة هي مجموعة من نماذج الشبكة العصبية بأحجام مختلفة ، مما يسمح لك باختيار الحجم الأمثل للشبكة العصبية.

بعد ذلك ، قمنا بتحليل مجموعة NA في عينة فرعية للاختبار ،
وتم اختيار أفضلها باستخدام معلمة AUC .

كانت الخطوة الثالثة هي تعديل عتبة القطع للنماذج المحددة باستخدام تحليل ROC من خلال موازنة الحساسية والنوعية للحصول على الحد الأدنى من الفرق بينهما. تم رفض قيم الحساسية أو الخصوصية أقل من 50 ٪.

تم فحص هياكل NS التالية باستخدام هذه التقنية:

  1. طبقتين ، مع طبقة سينية مخفية واحدة وإخراج سيني (SS) ؛
  2. ثلاث طبقات مع طبقتين خفيتين مستدقيتين مخفيتين وإخراج سيني (SSdS) ؛
  3. ثلاث طبقات مع اثنين من طبقات سينية مستدق مخفية وخرج خطي (SSdP).

النتائج


يتبين من نتائج الاختبار أن مؤشرات أداء المصنف في المتوسط ​​تتراوح بين 60-70٪.

في الوقت نفسه ، لاحظ الباحث أن عينات التدريب والاختبار المقدمة للمسابقة تحتوي على ملصقات خاطئة. هذا يقلل من كفاءة نماذجه المقترحة ، مما يعني أنه عند استخدام البيانات "النظيفة" ، يمكن للمرء أن يتوقع زيادة في كفاءة المصنف الذي تم إنشاؤه.

بالإضافة إلى ذلك ، وفقًا لمؤلف الدراسة ، يمكن أن تلعب زيادة حجم قاعدة بيانات التدريب أيضًا دورًا إيجابيًا.

باستخدام عينة بيانات مستقلة ، تمكن الباحث من تحقيق الحساسية بنسبة 63٪ والنوعية بنسبة 71٪.

تظهر نتيجة العمل الذي تم إجراؤه كجزء من مسابقة علمية وجود ارتباط نظري وتأكيد تجريبي بين تقلب معدل ضربات القلب والتغيرات الوظيفية في الجسم المرتبط بالتدخين.

Source: https://habr.com/ru/post/ar392425/


All Articles