Como encontrar um fumante por eletrocardiograma usando redes neurais artificiais (e por que é necessário)



No Habré já escreveu sobre o concurso científico para matemáticos e desenvolvedores, que foi lançado pelos criadores do cardiograma móvel CardioQVARK. Em suma, a essência da competição é criar um algoritmo que possa detectar um fumante entre os não fumantes com base em seus cardiogramas.

Um dos líderes da competição foi Ph.D. Roman Isakov, Professor Associado, Departamento de Meios e Tecnologias Biomédicas e Eletrônicas, Instituto de Tecnologias Inovadoras da Universidade Estadual Vladimir, em homenagem a A.G. e N.G. Centenário. Ele desenvolveu um método para determinar um fumante com base em intervalos RR e redes neurais artificiais - falaremos sobre isso hoje.

Por que procurar um fumante


Existem estudos realizados por especialistas em aprendizado de máquina que mostram que o sinal de ECG carrega informações sobre o funcionamento de todos os sistemas do corpo, não apenas do coração. Além disso, cada doença, à sua maneira, “modula” o sinal de ECG, o que significa que os sinais de incrementos nos intervalos e amplitudes de cardiociclos consecutivos podem ser usados ​​para diagnosticar informações sobre possíveis problemas de saúde em humanos, inclusive nos estágios iniciais de sua ocorrência.

imagem

Em um relatório da V Conferência Internacional "Biologia Matemática e Bioinformática", Konstantin Vorontsov, do Centro de Computação, em homenagem a A. A. Dorodnitsyna, Academia Russa de Ciências, demonstrou diferenças nos sinais de intervalos incrementais (dRn), amplitudes (dTn) e ângulos (dαn) de cardiocycles em saudáveis ​​e sofrendo de várias doenças de pessoas

Procurar um fumante em um cardiograma ajudará a alcançar o objetivo principal da competição - obter um resultado que demonstre a possibilidade ou impossibilidade de realizar um diagnóstico de alta qualidade usando um ECG e algoritmos para identificar marcadores de doenças de vários órgãos em um sinal de cardiograma.

A essência do método proposto


A solução para esse problema foi baseada na hipótese da dependência da variabilidade da frequência cardíaca (VFC) no estado funcional do corpo [R.M. Baevsky et al.] Este modelo inclui feedback através do sistema nervoso periférico através do cérebro, o que permite controlar o fluxo sanguíneo, incluindo inclusive controlando dinamicamente a freqüência cardíaca.

Com base nisso, o principal sinal para análise foi selecionado no intervalo RR. Este sinal contém todas as informações sobre os processos de controle do ritmo cardíaco em sua manifestação final.

O problema na extração de informações sobre o efeito da nicotina e de outras substâncias no corpo humano se resume a encontrar os parâmetros da VFC que têm a maior capacidade de separação das classes de fumantes e não fumantes. Dado que a natureza da relação dos parâmetros pode ser não linear, o classificador foi baseado na tecnologia de redes neurais artificiais.

A amostra de treinamento de cardiogramas para a competição incluiu 100 registros de fumantes e não fumantes com uma proporção de 50/50%. Também foi apresentada uma seleção de controle, incluindo 250 cardiogramas - não fornecia anotações; portanto, era impossível usá-la para pesquisa.

Portanto, o pesquisador precisou dividir a amostra de treinamento em duas “subamostras” iguais: treinamento e teste.

A seleção das entradas nas subamostras de teste e treinamento foi realizada arbitrariamente, mas sujeita à condição de proporções iguais de fumantes e não fumantes em cada uma delas. Como o número de registros na subamostra de treinamento era muito pequeno, na fase final, depois de escolher o melhor modelo, também tivemos que “terminar de aprender” nos registros da subamostra de teste.

Não é tão simples


Para minimizar o fenômeno da reciclagem
, um conjunto de validação local (20%) foi alocado aleatoriamente a partir do conjunto de dados usado para o treinamento. Ele não participou do ajuste dos parâmetros do modelo e serviu para monitorar erros do modelo. À medida que o erro no conjunto de validação aumenta, o treinamento é interrompido.

Existe a possibilidade de que as pessoas que ocultaram esse fato ou fumantes passivos caiam na classe "não fume" e pessoas com "experiência de fumar" insignificante na classe "fumem". Portanto, um dos estudos foi realizado com uma modificação do banco de dados de treinamento com base na análise da rede neural da amostra, utilizando o melhor dos modelos obtidos. Como resultado, esses registros foram modificados cuja discrepância com o modelo foi maior. Essa abordagem mostrou um ligeiro aumento de eficiência em uma amostra independente (validação). No entanto, pode-se supor que rótulos errôneos também estejam presentes, o que é um fator limitante.

Processamento e Análise de Dados


Para criar um espaço de destaque para um modelo para reconhecer uma pessoa fumante, o pesquisador estudou vários parâmetros estatísticos conhecidos, parâmetros especiais para avaliar a variabilidade da frequência cardíaca, bem como um espectro e um histograma de ritmo cardíaco.

Os parâmetros foram divididos nos seguintes grupos:

  1. Entropic
  2. Parâmetros no domínio do tempo;
  3. Parâmetros no domínio da frequência;
  4. Parâmetros de forma do histograma.


O estudo consistiu em calcular todo o conjunto de parâmetros para classes de fumantes e não fumantes nos registros da base de treinamento e subsequente análise conjunta de suas distribuições. Somente aqueles parâmetros foram selecionados cujas densidades de distribuição apresentaram discrepâncias significativas em qualquer região.

Além disso, foram estudados os espectros do ritmo cardíaco, foram selecionadas faixas de frequência nas quais foi observada a maior separação das duas classes. Em seguida, uma análise de correlação cruzada dos parâmetros selecionados foi realizada para excluir relações lineares fortes no espaço de recurso.

Na descrição da decisão competitiva, o pesquisador observa que estudos paralelos de um conjunto de parâmetros foram realizados sem otimização por análise de correlação e usando amostras do espectro do ritmo cardíaco. Os resultados dos dados não são apresentados na solução porque não apresentaram os melhores resultados.

Como resultado, foi obtido o seguinte conjunto de parâmetros:

1) EnLog - Entropia de “Log Energy” (Log Energy Entropy);
2) EnTrs - Entropia de Limiar;
3.4) EnSamp - Duas entropias de amostra (Entropia de Amostra) com os parâmetros 1 e 5;
5) NN22 - O número de intervalos RR consecutivos diferindo em mais de 22 ms;
6) HRVTi - índice triangular do histograma do ritmo cardíaco;
7) LF / HF - A razão entre a potência de baixa frequência e a parte de alta frequência do espectro (parâmetro padrão para estimativa da VFC);
8) LFn - a razão entre a potência da parte de baixa frequência do espectro e a soma das potências das partes de baixa e alta frequência do espectro;
9) SBxn (4) - a razão entre a potência do espectro na faixa de 0,093 Hz a 0,125 Hz e a potência total do espectro (TP). Este parâmetro foi obtido como resultado de uma análise espectral especial;
10) SB1n - Potência do espectro na faixa de 0,0039 Hz a 0,0391 Hz. Este parâmetro foi obtido como resultado de uma análise espectral especial.

O algoritmo de processamento de dados pode ser descrito passo a passo da seguinte maneira:

O primeiro passo é baixar o cardiointervalogram (CIG). Em seguida, as emissões são determinadas usando o ponto de corte no nível 1 do desvio padrão. Em seguida, eles são excluídos por meio de interpolação pela mediana, sendo realizada a interpolação por torneira do CIG para obter um sinal de ritmograma quantificado por equidistância (RG).

Para remover o componente constante, o valor médio foi subtraído do ritmo, após o qual foi processado pela janela turca para suprimir o efeito Gibbs. Posteriormente, foi realizada uma transformação rápida de Fourier para o ritograma processado e, graças ao cálculo do valor absoluto a partir dos valores complexos dessa transformação, foi possível obter um espectro do ritmo cardíaco.

Os parâmetros acima foram calculados usando CIG (exceto parâmetros espectrais) e, em seguida, foram normalizados para obter uma faixa dinâmica de 0 a 1.

O modelo foi obtido da seguinte forma:

Primeiro, as redes neurais do perceptron (NS) foram treinadas com um número cada vez maior de neurônios em camadas ocultas (de acordo com a metodologia descrita anteriormente). O resultado é um conjunto de modelos de redes neurais de tamanhos diferentes, permitindo escolher o tamanho ideal da rede neural.

Em seguida, analisamos o conjunto de NA em uma subamostra de teste e, a partir dele, os
melhores foram selecionados usando o parâmetro AUC .

A terceira etapa foi ajustar o limiar de corte dos modelos selecionados usando a análise ROC, balanceando Sensibilidade e Especificidade para obter sua diferença mínima. Valores de sensibilidade ou especificidade inferiores a 50% foram rejeitados.

As seguintes estruturas NS foram investigadas usando esta técnica:

  1. duas camadas, com uma camada sigmóide oculta e saída sigmóide (SS);
  2. três camadas com duas camadas sigmoidais cônicas ocultas e saída sigmoidal (SSdS);
  3. três camadas com duas camadas sigmoidais cônicas ocultas e saída linear (SSdP).

Resultados


A partir dos resultados dos testes, observa-se que, em média, os indicadores de desempenho do classificador estão na faixa de 60 a 70%.

Ao mesmo tempo, o pesquisador observa que as amostras de treinamento e teste fornecidas para o concurso continham rótulos errados. Isso reduz a eficiência dos modelos propostos por ele, o que significa que, ao usar dados "limpos", pode-se esperar um aumento na eficiência do classificador criado.

Além disso, de acordo com o autor do estudo, um aumento no tamanho do banco de dados de treinamento também pode desempenhar um papel positivo.

Utilizando uma amostra de dados independente, o pesquisador conseguiu Sensibilidade em 63% e Especificidade em 71%.

O resultado do trabalho realizado como parte de uma competição científica demonstra a presença de uma conexão teórica e experimentalmente confirmada entre a variabilidade da frequência cardíaca e as alterações funcionais no corpo associadas ao tabagismo.

Source: https://habr.com/ru/post/pt392425/


All Articles