Por que precisamos do processamento de linguagem natural na medicina: desafios e desafios modernos

Segundo o The Huffington Post, 80% dos registros médicos eletrônicos são armazenados de forma não estruturada - a chamada "bolha de texto". Na forma de texto, não apenas os dados da EMC são armazenados, mas também uma grande quantidade de outras informações médicas - artigos científicos, recomendações clínicas, descrição de doenças e queixas. E mesmo que os dados neles estejam parcialmente estruturados, não há formatos geralmente aceitos para seu armazenamento.

É problemático extrair conhecimento útil de uma "bolha de texto" - os algoritmos mais simples são capazes de verificar um documento quanto à ocorrência de certas palavras ou frases, mas isso não é suficiente: o médico sempre precisa de detalhes. Ele precisa não apenas saber que o paciente está com temperatura, mas também entender a dinâmica: por exemplo, “a temperatura sobe à noite para 39 e dura pelo quarto dia”.

As tecnologias de processamento de linguagem natural (PNL) podem ajudá-lo a extrair informações valiosas de textos médicos e registros médicos eletrônicos. Em seguida, mostraremos como as tecnologias da PNL simplificam o trabalho dos médicos: falaremos sobre reconhecimento de fala e textos preenchidos com termos médicos e ajudaremos a tomar decisões clínicas.


"Os médicos do DOC + lidam educadamente com a sua dor"

O que é a PNL?


De fato, a história da PNL começou nos primeiros dias da ciência moderna da inteligência artificial. Alan Turing em seu trabalho “ Computers and Mind ” como critério para a “razoabilidade” de uma máquina chama sua capacidade de se comunicar com as pessoas - agora essa é uma tarefa importante, mas não a única, que os desenvolvedores de sistemas de PNL resolvem.

A PNL combina várias tecnologias (incluindo aquelas muito distantes umas das outras em termos de matemática) que permitem resolver problemas algorítmicos relacionados ao processamento da linguagem humana natural:

  • Extrair fatos do texto (de uma simples busca por palavras de parada até uma análise completa da literatura);
  • Reconhecimento de voz e conversão de voz em texto;
  • Classificação de textos;
  • Geração de texto ou fala;
  • Tradução automática
  • Análise da tonalidade do texto (incluindo mineração de opinião);
  • E outros

Na ficção científica, um supercomputador geralmente é capaz de fazer tudo o que foi mencionado acima. No filme de culto The Space Odyssey de 2001 , o HAL 9000 reconheceu a fala humana e imagens visuais, comunicadas em uma linguagem comum. Na prática, todas essas tarefas são altamente especializadas e algoritmos individuais as resolvem.

E esses algoritmos (e as tecnologias subjacentes) estão em constante progresso. Por exemplo, a direção da PNL mais "mais próxima" dos usuários comuns - reconhecimento de voz - há alguns anos atrás foi baseada em modelos ocultos de Markov . Eles dividiram o que uma pessoa disse em pequenos componentes, destacaram os fonemas, realizaram análises estatísticas e produziram o resultado mais provável do que foi dito em formato de texto. Agora, é muito mais provável que os desenvolvedores usem redes neurais - em particular, redes neurais recorrentes e suas variantes, por exemplo, memória de curto prazo (LSTM).

Hoje, os sistemas de PNL são usados ​​cada vez mais frequentemente - conversamos com a Siri, conversamos com um assistente do Google (o LSTM com CTC é usado no sistema operacional Android) e sistemas de entretenimento e entretenimento para carros, algoritmos inteligentes protegem nossos e-mails de spam, agregadores de notícias selecionam artigos que estamos interessados ​​e os mecanismos de pesquisa nos permitem encontrar as informações necessárias em qualquer solicitação.

Que tarefas a PNL resolve na medicina?


No entanto, os sistemas de PNL são úteis não apenas na operação de aparelhos modernos e aplicativos online. Eles foram introduzidos em hospitais individuais e universidades médicas desde o início dos anos 90.

O primeiro aplicativo de PNL desenvolvido na Universidade de Utah na época foi o Sistema de Entendimento de Radiologia para Propósitos Especiais (SPRUS) da Clínica de Salt Lake City. Essa ferramenta utilizava informações de um sistema especialista que compara sintomas com diagnósticos apropriados e analisa os relatórios radiológicos textuais (protocolos médicos que interpretam os raios X).

O programa utilizou a técnica de análise semântica baseada na busca de palavras no dicionário de sinônimos. O dicionário de sinônimos foi reabastecido automaticamente da base de conhecimento para solucionar problemas de diagnóstico usando um compilador especialmente desenvolvido.

Desde então, as possibilidades da PNL e do aprendizado de máquina na medicina avançaram: hoje, a tecnologia simplifica o trabalho com registros médicos eletrônicos para médicos e reduz a frequência de erros clínicos, “ajudando” na tomada de decisões médicas.

Simplificação do trabalho com cartões eletrônicos (EMC)


Registros médicos eletrônicos, ou EMCs, são análogos de cartões de papel que nos são familiares. A tarefa do cartão eletrônico é simplificar o fluxo de trabalho e reduzir a quantidade de trabalho em papel. Conversamos com mais detalhes sobre o que é a EMC e como eles ajudam a controlar a qualidade dos cuidados médicos em um de nossos materiais anteriores.

Apesar do fato de que, com a introdução da EMC, tornou-se mais fácil para os médicos trabalharem com documentos, leva algum tempo para preencher os cartões. De acordo com um estudo publicado na Computers Informatics Nursing em 2012, os enfermeiros dos hospitais dos EUA ainda gastam cerca de 19% do seu tempo de trabalho preenchendo cartões eletrônicos.

Sim, isso é apenas um quinto do dia útil, mas mesmo esse número pode ser reduzido e os recursos liberados podem ser usados ​​para cuidar dos doentes. De acordo com Joe Petro, presidente da Nuance Communications, a tecnologia da PNL permitirá isso.

Em 2009, a Nuance aprendeu as opiniões de milhares de terapeutas dos EUA sobre as tecnologias de processamento de linguagem natural. De acordo com os resultados do estudo, 94% dos médicos pesquisados ​​disseram que a implementação do EMC com a PNL foi um importante fator na qualidade dos cuidados médicos.

Um exemplo dessa abordagem é um serviço que usa a equipe médica do Hudson Valley Heart Center em Paukipzi. Com a ajuda de uma solução da Nuance Communications, os enfermeiros do hospital determinam extratos do histórico médico do paciente, elaboram os resultados de um exame físico e registram dados sobre o curso da doença. O aplicativo atualiza automaticamente os registros no sistema EMC implementado no hospital.

Soluções semelhantes estão sendo implementadas na Rússia. Por exemplo, em 2016, o Center for Speech Technologies começou a desenvolver o sistema Voice2Med para reconhecer a fala médica e reduzir o tempo necessário para concluir relatórios e registros médicos. Conforme declarado no Ministério do Trabalho e Proteção Social da Federação Russa, agora leva metade do tempo de trabalho do médico.

Nossas soluções de PNL


O objetivo principal da PNL em medicina é extrair dados do texto. Nós do DOC + focamos nisso. Há seis pessoas em nossa equipe de desenvolvimento de aprendizado de máquina. Destes, dois trabalham exclusivamente na tecnologia da PNL. No DOC +, a tecnologia NLP é usada para marcar cartões nos quais o sistema de controle de qualidade da EMC é treinado (escrevemos sobre isso no artigo anterior ).

Baseado no mesmo sistema, nosso bot de anamnese também funciona, otimizando o trabalho de consultas on-line. O bot trabalha on-line e pede ao paciente que descreva as queixas de forma gratuita, depois isola os sintomas do texto e os reporta ao médico. Graças a isso, o especialista inicia uma consulta de telemedicina com um paciente já preparado (falaremos mais sobre o trabalho do nosso bot de anamnese nos próximos posts).

Características do desenvolvimento de sistemas de PNL

Existem várias dificuldades no desenvolvimento de tais sistemas. O primeiro deles é que, ao trabalhar com textos, não basta usar algoritmos e abordagens simples e difundidos. Os serviços que examinam o texto quanto à presença de certas palavras e consideram a frequência de sua aparência para avaliar a “importância” na medicina apresentam um resultado muito limitado.

Ao fazer um diagnóstico, é importante que o médico não apenas saiba que uma pessoa teve um sintoma específico, mas também entenda a dinâmica e os parâmetros desse sintoma - localização, tipo de dor, valores exatos dos indicadores digitalizados, etc. Portanto, são necessários algoritmos mais complexos para trabalhar com textos médicos, destacando não apenas palavras, mas fatos complexos sobre várias queixas e sintomas.
Do texto: "Em 18 de fevereiro, minha cabeça doía no lado esquerdo, à noite a temperatura subia para 39. No dia seguinte, a área da dor de cabeça aumentou, não houve tontura", o sistema deveria destacar informações estruturadas sobre três sintomas:

  1. Dor de cabeça - apareceu em 18/02; localização: à esquerda; Dinâmica: 02.19 - um aumento na área.
  2. Temperatura - 18,02; valor: 39 graus.
  3. Tontura - nenhum sintoma.
O segundo recurso é que as ferramentas de processamento de texto precisam ser personalizadas ainda mais para trabalhar com materiais altamente especializados. Por exemplo, tivemos que “ajustar” o verificador ortográfico adicionalmente, uma vez que nenhuma das soluções no mercado atendia aos nossos requisitos.
Os corretores ortográficos corrigiram a palavra “tosse” para “gotas”, enquanto estudavam textos sem terminologia médica. Portanto, reciclamos o sistema do corpo de artigos médicos. E essas pequenas melhorias nos algoritmos clássicos precisam ser feitas constantemente.
O que o nosso sistema PNL pode fazer

Agora, a solução que desenvolvemos reconhece 400 termos - sintomas, diagnósticos, nomes de medicamentos, etc. Além disso, para a maioria dos sintomas, o sistema é capaz de isolar propriedades adicionais: localização (dor abdominal à direita do umbigo ), tipo (tosse úmida ), cor (expectoração clara) ), a presença de complicações e os valores de parâmetros mensuráveis ​​(temperatura, pressão).

Além disso, ela sabe como isolar parâmetros de tempo e compará-los com sintomas, corrigir erros de digitação e trabalhar com opções diferentes para descrever os mesmos fatos.

Assistência Clínica à Tomada de Decisão (CDS)


Os sistemas de suporte ao apoio à decisão clínica (CDS) fornecem ajuda automatizada aos médicos ao fazer um diagnóstico, prescrever tratamento, determinar a dosagem de medicamentos e assim por diante. Os sistemas de PNL permitem obter as informações médicas necessárias para isso - eles as extraem de artigos científicos, resultados de testes, guias médicos e até mesmo as palavras do paciente.

Uma dessas soluções foi desenvolvida na IBM. Estamos falando do sistema de perguntas e respostas DeepQA, com o qual o supercomputador IBM Watson trabalha . Nesse caso, o Watson atua como um "mecanismo de pesquisa da PNL" para grandes bancos de dados: processa as perguntas dos médicos e fornece uma resposta específica, e não apenas exibe os resultados da pesquisa na Internet. A tecnologia em Watson permitiu que ele vencesse no Jeopardy! (Progenitor americano de "His game").

Outro exemplo da aplicação de tais tecnologias é o sistema de PNL, criado por uma equipe de cientistas liderada pelo Dr. Harvey J. Murff, do centro médico da Universidade de Vanderbilt. Os desenvolvedores ensinaram o algoritmo a analisar registros eletrônicos de pacientes e identificar doenças que poderiam causar complicações após a cirurgia.

O processador da PNL indexou os registros nos registros médicos usando um esquema baseado na nomenclatura médica processada por máquina sistematizada SNOMED-CT . Na saída, o sistema gerou um arquivo XML com um cartão de paciente "marcado". Os experimentos mostraram que o programa categorizou corretamente a maioria das complicações, por exemplo, insuficiência renal foi observada corretamente em 82% dos casos e infarto do miocárdio no pós-operatório em 91% dos casos.

O DOC + também possui seu próprio análogo ao CDS - qualquer ação de um médico no aplicativo é acompanhada de dicas, mas até agora elas são formadas por algoritmos clássicos baseados em regras, sem o uso de aprendizado de máquina e PNL. Mas estamos trabalhando em uma nova geração de CDS que lerá todo o histórico médico do paciente em linguagem natural e o usará como uma dica para o médico.

Desenvolvimento adicional de sistemas de PNL


Os sistemas de PNL permitem que você trabalhe não apenas com registros médicos, mas também com artigos científicos e normas médicas. No campo da medicina, uma vasta experiência foi acumulada, resumida em recomendações clínicas, trabalhos científicos e outras fontes textuais. É lógico usar esses dados para treinar sistemas de inteligência artificial em pé de igualdade com os mapas de pacientes reais, enquanto cria um banco de dados estruturado de medicina que pode ser usado não por pessoas, mas por algoritmos.

A vantagem desses sistemas de PNL é que os resultados de seu trabalho costumam ser mais fáceis de interpretar, ou seja, vinculados a fontes específicas. Em geral, a questão da interpretabilidade dos resultados dos algoritmos de aprendizado de máquina está longe de ser trivial e é importante tanto para a comunidade científica como um todo (na principal conferência internacional sobre ICML de aprendizado de máquina, um workshop separado é regularmente dedicado a ele ) e para os desenvolvedores, especialmente quando se trata de projetos no campo da medicina baseada em evidências. Para nós, a exigência de interpretabilidade torna a tarefa de melhorar nosso sistema de PNL ainda mais difícil (e mais interessante).

A PNL é uma área promissora que elevará a qualidade dos cuidados médicos a um novo nível. Planejamos desenvolver ativamente essas tecnologias e continuar falando sobre nossos desenvolvimentos em nosso blog.



Leitura adicional: artigos úteis do nosso blog " Basta perguntar ":



Source: https://habr.com/ru/post/pt411123/


All Articles