Pourquoi avons-nous besoin du traitement du langage naturel en médecine: défis et défis modernes

Selon le Huffington Post, 80% des dossiers médicaux électroniques sont stockés sous une forme non structurée - la soi-disant «bulle de texte». Sous forme de texte, non seulement les données CEM sont stockées, mais également une grande quantité d'autres informations médicales - ce sont des articles scientifiques, des recommandations cliniques, une description des maladies et des plaintes. Et même si les données qu'ils contiennent sont partiellement structurées, il n'existe aucun format généralement accepté pour leur stockage.

Il est problématique d'extraire des connaissances utiles d'une «bulle de texte» - les algorithmes les plus simples sont capables de vérifier la présence de certains mots ou expressions dans un document, mais cela ne suffit pas: le médecin a toujours besoin de détails. Il doit non seulement savoir que le patient a une température, mais aussi comprendre la dynamique: par exemple, "la température monte le soir à 39 et dure le quatrième jour".

Les technologies de traitement du langage naturel (PNL) peuvent vous aider à extraire des informations précieuses des textes médicaux et des dossiers médicaux électroniques. Ensuite, nous montrerons comment les technologies de la PNL simplifient le travail des médecins: nous parlerons de la reconnaissance vocale et des textes remplis de termes médicaux et nous aiderons à prendre des décisions cliniques.


"Les médecins DOC + traiteront poliment votre plaie"

Qu'est-ce que la PNL?


En fait, l'histoire de la PNL a commencé aux premiers jours de la science moderne de l'intelligence artificielle. Alan Turing dans son travail « Ordinateurs et esprit » comme critère de «caractère raisonnable» d'une machine appelle sa capacité à communiquer avec les gens - c'est maintenant une tâche importante, mais pas la seule que les développeurs de systèmes PNL résolvent.

La PNL combine un certain nombre de technologies (y compris celles très éloignées les unes des autres en termes de mathématiques) qui permettent de résoudre des problèmes algorithmiques liés au traitement du langage humain naturel:

  • Extraire des faits du texte (d'une simple recherche de mots vides à une analyse complète de la littérature);
  • Reconnaissance vocale et conversion de la voix en texte;
  • Classification des textes;
  • Génération de texte ou de discours;
  • Traduction automatique
  • Analyse de la tonalité du texte (y compris l'exploration d'opinion);
  • Et d'autres

En science-fiction, un supercalculateur est souvent capable de faire tout ce qui précède. Dans le film culte The Space Odyssey de 2001 , le HAL 9000 a reconnu la parole humaine et les images visuelles, communiquées dans un langage commun. En pratique, toutes ces tâches sont hautement spécialisées et des algorithmes individuels les résolvent.

Et ces algorithmes (et les technologies sous-jacentes) progressent constamment. Par exemple, la direction NLP la plus «proche» des utilisateurs ordinaires - la reconnaissance vocale - il y a quelques années était basée sur des modèles de Markov cachés . Ils ont divisé ce qu'une personne a dit en petits éléments, distingué les phonèmes, effectué une analyse statistique et produit le résultat le plus probable de ce qui a été dit sous forme de texte. Maintenant, les développeurs sont beaucoup plus susceptibles d'utiliser des réseaux de neurones - en particulier, les réseaux de neurones récurrents et leurs variantes, par exemple, la mémoire à court terme à long terme (LSTM).

Aujourd'hui, les systèmes NLP sont de plus en plus utilisés - nous parlons avec Siri, parlons avec un assistant Google (LSTM avec CTC est utilisé dans Android OS) et les systèmes d'infodivertissement de voiture, des algorithmes intelligents protègent notre courrier du spam, les agrégateurs de nouvelles sélectionnent des articles qui nous sommes intéressés, et les moteurs de recherche nous permettent de trouver les informations dont nous avons besoin sur toute demande.

Quelles tâches la PNL résout-elle en médecine?


Cependant, les systèmes NLP sont utiles non seulement dans le fonctionnement des gadgets modernes et des applications en ligne. Ils ont été introduits dans différents hôpitaux et universités de médecine depuis le début des années 90.

La première application de PNL développée à l'Université de l'Utah à cette époque était le système de compréhension de la radiologie à usage spécial (SPRUS) pour la clinique de Salt Lake City. Cet outil a utilisé des informations provenant d'un système expert qui compare les symptômes avec des diagnostics appropriés et des rapports radiologiques textuels (des protocoles médicaux qui interprètent les radiographies).

Le programme a utilisé la technique d'analyse sémantique basée sur la recherche de mots dans le thésaurus. Le thésaurus a été automatiquement reconstitué à partir de la base de connaissances pour résoudre les problèmes de diagnostic à l'aide d'un compilateur spécialement développé.

Depuis lors, les capacités de la PNL et de l'apprentissage automatique en médecine ont progressé: aujourd'hui, la technologie simplifie le travail avec les dossiers médicaux électroniques pour les médecins et réduit la fréquence des erreurs cliniques, «aidant» à prendre des décisions médicales.

Simplification du travail avec les cartes électroniques (CEM)


Les dossiers médicaux électroniques, ou CEM, sont des analogues des cartes papier que nous connaissons. La tâche de la carte électronique est de simplifier le flux de travail et de réduire la quantité de papier. Nous avons parlé plus en détail de ce qu'est la CEM et de la façon dont elle aide à contrôler la qualité des soins médicaux dans l'un de nos anciens matériaux .

Malgré le fait qu'avec l'introduction de la CEM, il est devenu plus facile pour les médecins de travailler avec des documents, il faut du temps pour remplir les cartes. Selon une étude publiée dans Computers Informatics Nursing en 2012, les infirmières des hôpitaux américains passent encore environ 19% de leur temps de travail à remplir des cartes électroniques.

Oui, cela ne représente qu'un cinquième de la journée de travail, mais même ce chiffre peut être réduit et les ressources libérées peuvent être utilisées pour soigner les malades. Selon le président de Nuance Communications, Joe Petro, la technologie PNL permettra cela.

En 2009, Nuance a appris les opinions de milliers de thérapeutes américains sur les technologies de traitement du langage naturel. Selon les résultats de l'étude, 94% des médecins interrogés ont déclaré que la mise en œuvre de la CEM avec la PNL était un facteur important de la qualité des soins médicaux.

Un exemple de cette approche est un service qui utilise le personnel médical du Hudson Valley Heart Center à Paukipzi. Avec l'aide d'une solution de Nuance Communications, les infirmières hospitalières dictent des extraits des antécédents médicaux du patient, établissent les résultats d'un examen physique et enregistrent des données sur l'évolution de la maladie. L'application met automatiquement à jour les enregistrements du système EMC mis en place à l'hôpital.

Des solutions similaires sont mises en œuvre en Russie. Par exemple, en 2016, le Center for Speech Technologies a commencé à développer le système Voice2Med pour reconnaître la parole médicale et réduire le temps nécessaire pour remplir les rapports et les dossiers médicaux. Comme indiqué au Ministère du travail et de la protection sociale de la Fédération de Russie, cela prend désormais la moitié du temps de travail du médecin.

Nos solutions PNL


L'objectif clé de la PNL en médecine est d'extraire des données du texte. Chez DOC +, nous nous concentrons là-dessus. Notre équipe de développement d'apprentissage automatique compte six personnes. Parmi ceux-ci, deux travaillent exclusivement sur la technologie PNL. Dans DOC +, la technologie NLP est utilisée pour marquer les cartes sur lesquelles le système de contrôle qualité EMC est formé (nous en avons parlé dans l' article précédent ).

Basé sur le même système, notre bot d'anamnèse fonctionne également, optimisant le travail des consultations en ligne. Le bot travaille en ligne et demande au patient de décrire les plaintes sous une forme libre, puis isole les symptômes du texte et les signale au médecin. Grâce à cela, le spécialiste entame une consultation de télémédecine avec un patient déjà préparé (nous vous en dirons plus sur le travail de notre bot d'anamnèse dans les articles suivants).

Caractéristiques du développement de systèmes PNL

Il existe plusieurs difficultés à développer de tels systèmes. Le premier d'entre eux est que lorsque l'on travaille avec des textes, il ne suffit pas d'utiliser des algorithmes et des approches simples et répandus. Les services qui scannent le texte pour la présence de certains mots et considèrent la fréquence de leur apparition pour évaluer «l'importance» en médecine donnent un résultat très limité.

Lors du diagnostic, il est important pour le médecin non seulement de savoir qu'une personne avait un symptôme particulier, mais aussi de comprendre la dynamique et les paramètres de ce symptôme - localisation, type de douleur, valeurs exactes des indicateurs numérisés, etc. Par conséquent, des algorithmes plus complexes sont nécessaires pour travailler avec des textes médicaux, mettant en évidence non seulement des mots, mais des faits complexes sur diverses plaintes et symptômes.
D'après le texte: "Le 18 février, ma tête me faisait mal du côté gauche, le soir la température montait à 39. Le lendemain, la zone des maux de tête a augmenté, il n'y avait pas de vertiges", le système devrait mettre en évidence des informations structurées sur trois symptômes:

  1. Maux de tête - est apparu le 18/02; localisation: à gauche; Dynamique: 02.19 - une augmentation de la zone.
  2. Température - 18,02; valeur: 39 degrés.
  3. Étourdissements - aucun symptôme.
La deuxième caractéristique est que les outils de traitement de texte doivent être davantage personnalisés pour fonctionner avec des matériaux hautement spécialisés. Par exemple, nous avons dû «peaufiner» le vérificateur d'orthographe en plus, car aucune des solutions sur le marché ne répondait à nos exigences.
Les correcteurs orthographiques ont corrigé le mot «toux» en «gouttes», alors qu'ils étudiaient des textes sans terminologie médicale. Par conséquent, nous avons recyclé le système sur le corps à partir d'articles médicaux. Et ces petites améliorations aux algorithmes classiques doivent être effectuées en permanence.
Ce que notre système PNL peut faire

Maintenant, la solution que nous avons développée reconnaît 400 termes - symptômes, diagnostics, noms des médicaments, etc. De plus, pour la plupart des symptômes, le système est capable d'isoler des propriétés supplémentaires: localisation (douleur abdominale à droite du nombril ), type (toux humide ), couleur (expectorations claires ), la présence de complications et les valeurs de paramètres mesurables (température, pression).

De plus, elle sait isoler les paramètres temporels et les comparer avec les symptômes, corriger les fautes de frappe et travailler avec différentes options pour décrire les mêmes faits.

Aide à la décision clinique (CDS)


Les systèmes d' aide à la décision clinique (CDS) fournissent une aide automatisée aux médecins lors du diagnostic, de la prescription d'un traitement, de la détermination de la posologie des médicaments, etc. Les systèmes de PNL vous permettent d'obtenir les informations médicales nécessaires à cet effet - ils les tirent d'articles scientifiques, de résultats de tests, de guides médicaux et même des paroles du patient.

L'une de ces solutions a été développée chez IBM. Nous parlons du système de questions-réponses DeepQA, avec lequel le supercalculateur IBM Watson fonctionne . Dans ce cas, Watson agit comme un «moteur de recherche PNL» pour les grandes bases de données: il traite les questions des médecins et leur donne une réponse spécifique, et n'affiche pas seulement les résultats de la recherche sur Internet. La technologie chez Watson lui a permis de gagner chez Jeopardy! (Ancêtre américain de "Son jeu").

Un autre exemple de l'application de ces technologies est le système de PNL, créé par une équipe de scientifiques dirigée par le Dr Harvey J. Murff du centre médical de l'Université Vanderbilt. Les développeurs ont enseigné l'algorithme pour analyser les dossiers électroniques des patients et identifier les maladies pouvant entraîner des complications après la chirurgie.

Le processeur NLP a indexé les enregistrements dans les dossiers médicaux en utilisant un schéma basé sur la nomenclature médicale traitée par machine SNOMED-CT . En sortie, le système a généré un fichier XML avec une carte patient «balisée». Les expériences ont montré que le programme a correctement classé la plupart des complications, par exemple, une insuffisance rénale a été correctement observée dans 82% des cas et un infarctus du myocarde postopératoire dans 91% des cas.

DOC + a également son propre analogue à CDS - toute action du médecin dans l'application est accompagnée d'indices, mais jusqu'à présent, ils sont formés par des algorithmes classiques basés sur des règles, sans l'utilisation de l'apprentissage automatique et de la PNL. Mais nous travaillons sur une nouvelle génération de CDS qui lira l'intégralité des antécédents médicaux du patient en langage naturel et l'utilisera comme un indice pour le médecin.

Poursuite du développement des systèmes PNL


Les systèmes de PNL vous permettront de travailler non seulement avec des dossiers médicaux, mais aussi avec des articles scientifiques et des normes médicales. Dans le domaine de la médecine, une vaste expérience a été accumulée, qui est résumée dans des recommandations cliniques, des articles scientifiques et d'autres sources textuelles. Il est logique d'utiliser ces données pour former des systèmes d'intelligence artificielle sur un pied d'égalité avec les cartes de vrais patients, tout en créant une base de données structurée de la médecine qui peut être utilisée non pas par des personnes, mais par des algorithmes.

L'avantage de tels systèmes de PNL est que les résultats de leur travail sont souvent plus faciles à interpréter, c'est-à-dire liés à des sources spécifiques. De manière générale, la question de l’interprétabilité des résultats des algorithmes d’apprentissage automatique est loin d’être triviale et est importante à la fois pour la communauté scientifique dans son ensemble (lors de la principale conférence internationale sur l’apprentissage automatique ICML, un atelier distinct lui est régulièrement consacré ) et pour les développeurs, notamment en ce qui concerne les projets dans le domaine de la médecine factuelle. Pour nous, l'exigence d'interprétabilité rend la tâche d'améliorer notre système NLP encore plus difficile (et plus intéressante).

La PNL est un domaine prometteur qui portera la qualité des soins médicaux à un nouveau niveau. Nous prévoyons de développer activement ces technologies et continuons à parler de nos développements dans notre blog.



Lectures complémentaires: articles utiles de notre blog " Il suffit de demander ":



Source: https://habr.com/ru/post/fr411123/


All Articles