如何使用人工神经网络通过心电图找到吸烟者(及其必要性)



在Habré上,已经有关于CardioQVARK移动心动图仪创建者发起的有关数学家和开发人员科学竞赛的文章。简而言之,竞赛的本质是创建一种算法,该算法可以根据非吸烟者的心电图检测其吸烟者。 竞赛的负责人之一是博士。弗拉基米尔州立大学创新技术研究所生物医学和电子手段与技术系副教授Roman Isakov以A.G. 和N.G. 百年纪念 他开发了一种基于RR间隔图和人工神经网络确定吸烟者的方法-我们今天将讨论它。



为什么要寻找吸烟者


机器学习专家的研究表明,ECG信号携带有关所有身体系统功能的信息,而不仅仅是心脏。此外,每种疾病都以其自己的方式“调制” ECG信号,这意味着连续心动周期的间隔和幅度增加的迹象可用于诊断有关人类可能存在的健康问题的信息,包括其发生的早期阶段。

图片

第五届国际会议“数学生物学和生物信息学” 报告中,来自计算中心的康斯坦丁·沃龙佐夫以A. A. Dorodnitsyna RAS在健康和患有各种疾病的人的心血管疾病的递增间隔(dRn),幅度(dTn)和角度(dαn)征兆上存在差异

在心电图中搜索吸烟者将有助于实现比赛的主要目标-获得一个结果,该结果将证明使用ECG和用于识别心电图信号中各个器官疾病标记的算法进行高质量诊断的可能性或不可能性。

所提方法的实质


该问题的解决方案基于以下假设:心率变异性(HRV)依赖于人体的功能状态[R.M. Baevsky等人]。该模型包括通过大脑通过周围神经系统的反馈,这使您可以控制血液流动,包括包括通过动态控制心率。

在此基础上,选择分析的主要信号为RR-间隔图。该信号包含有关在其最终表现中控制心律的过程的所有信息。

提取有关尼古丁和其他物质对人体的影响的信息的问题归结为寻找具有最大的吸烟者和非吸烟者分离能力的HRV参数。鉴于参数关系的性质可以是非线性的,因此分类器基于人工神经网络技术。

比赛的心电图训练样本包括100条吸烟者和非吸烟者的记录,比率为50/50%。还提供了一个对照选择,包括250个心电图-它没有提供注释,因此无法将其用于研究。

因此,研究人员需要将训练样本分为两个相等的“子样本”:训练和测试。

测试和培训子样本中的条目的选择是任意进行的,但要以每个吸烟者和非吸烟者的比例相等为条件。由于训练子样本中的记录数太少,因此在最后阶段,选择最佳模型后,我们还必须在测试子样本的记录中“完成学习”。

没那么简单


为了最大程度地减少重新训练的现象,从用于
训练的数据集中随机分配了一个本地验证集(20%)。他没有参加模型参数的调整,而是负责监视模型错误。随着验证集上的错误增加,训练停止。

隐藏这一事实的人或被动吸烟的人有可能会落入“不吸烟”类别,而在“吸烟”类别中具有微不足道的“吸烟经验”的人也有可能进入这一类别。因此,其中一项研究是对培训数据库进行了修改,并使用获得的最佳模型对样本进行了基于神经网络的分析。结果,修改了那些与模型的差异最大的记录。这种方法在独立(验证)样本中显示出效率略有提高。但是,可以假设其中也存在错误的标签,这是一个限制因素。

数据处理与分析


为了为识别吸烟者的模型创建特征空间,研究人员研究了各种已知的统计参数,用于评估心率变异性的特殊参数以及心律的频谱和直方图。

参数分为以下几组:

  1. 时域参数;
  2. 频域参数;
  3. 直方图形状参数。


该研究包括在培训基地的记录中计算吸烟者和非吸烟者类别的整套参数,并随后对其分布进行联合分析。只选择那些分布密度在任何区域都存在明显差异的参数。

另外,研究了心律的频谱,选择了观察到两类分离最大的频率范围。然后对所选参数进行互相关分析,以排除特征空间中的强线性关系。

在描述竞争性决定时,研究人员指出,对一组参数的并行研究没有经过相关分析和使用心律谱样本的优化,而没有进行优化。数据结果未显示在解决方案中,因为它们未显示最佳结果。

结果,获得了以下参数集合:

1)EnLog-“对数能量”的熵(Log Energy Entropy);
2)EnTrs-阈值熵;
3.4)EnSamp-参数为1和5的两个样本熵(Sample Entropy);
5)NN22-连续RR间隔的数量相差超过22 ms;
6)HRVTi-心律直方图的三角索引;
7)LF / HF-频谱中低频功率与高频部分的比率(用于估计HRV的标准参数);
8)LFn-频谱的低频部分的功率与频谱的低频和高频部分的功率之和的比值;
9)SBxn(4)-在0.093 Hz至0.125 Hz范围内的频谱功率与总频谱功率(TP)的比率。该参数是通过特殊光谱分析获得的;
10)SB1n-频谱功率在0.0039 Hz至0.0391 Hz的范围内。该参数是通过特殊光谱分析获得的。

数据处理算法可以分步描述如下:

第一步是下载心脏间隔图(CIG)。然后,使用标准偏差第1级的临界值确定排放量。然后,通过中值的插值法将其排除,执行CIG的插值插值法以获得等距量化的节奏图信号(RG)。

为了去除常数分量,从节奏图中减去平均值,然后通过Turkic窗口对其进行处理以抑制吉布斯效应。随后,对处理后的节奏图进行了快速傅里叶变换,并且由于根据该变换的复数值计算了绝对值,因此可以获得心律谱。

以上参数是使用CIG计算的(光谱参数除外),然后对其进行归一化以获得从0到1

动态范围。模型的获得如下:

首先,对感知器神经网络(NS)进行训练,使其隐藏层中的神经元数量不断增加(根据前面介绍的方法)。结果是一组具有不同大小的神经网络模型,使您可以选择神经网络的最佳大小。

接下来,我们分析了测试子样本上的NA集,并使用AUC参数从中
选择最佳NA

第三步是使用ROC分析,通过平衡灵敏度和特异性以获得最小差异来调整所选模型的临界阈值。小于50%的灵敏度或特异性值被拒绝。

使用该技术研究了以下NS结构:

  1. 两层,具有一个隐藏的S形层和S形输出(SS);
  2. 具有两个隐藏的渐缩S形层和S形输出(SSdS)的三层;
  3. 三层,带有两个隐藏的锥形S形层和线性输出(SSdP)。

结果


从测试结果可以看出,分类器的性能指标平均在60-70%左右。

同时,研究人员指出,为比赛提供的训练和测试样本包含错误的标签。这降低了他提出的模型的效率,这意味着使用“纯净”数据时,可以期望所创建分类器的效率提高。

另外,根据研究的作者,训练数据库规模的增加也可以起到积极的作用。

使用独立的数据样本,研究人员能够实现63%的灵敏度和71%的特异性。

作为科学竞赛的一部分而进行的工作的结果表明,心率变异性与吸烟相关的身体功能变化之间存在理论上和实验上证实的联系。

Source: https://habr.com/ru/post/zh-CN392425/


All Articles