📪 🤾🏽 🧑🏿‍🤝‍🧑🏼 为什么我们需要医学中的自然语言处理：现代挑战和挑战 👨🏼‍✈️ 📫 👩🏾‍🤝‍👨🏻

根据《赫芬顿邮报》的报道，80％的电子病历是以非结构化的形式存储的，即所谓的“文本气泡”。以文本形式，不仅存储了EMC数据，而且还存储了大量其他医学信息-这些是科学文章，临床建议，疾病描述和主诉。即使其中的数据是部分结构的，也没有普遍接受的存储格式。

从“文本泡泡”中提取有用的知识是有问题的-最简单的算法能够检查文档中是否存在某些单词或短语，但这还不够：医生总是需要细节。他不仅需要知道患者的体温，还需要了解动态：例如，“温度在晚上升高到39，并持续到第四天”。

自然语言处理（NLP）技术可以帮助您从医学文本和电子病历中提取有价值的信息。接下来，我们将展示NLP技术如何简化医生的工作：我们将讨论语音识别和填充有医学术语的文本，并帮助制定临床决策。

“ DOC +医生会礼貌地处理您的疮”

什么是NLP？

实际上，NLP的历史始于现代人工智能科学的早期。艾伦·图灵（Alan Turing）在他的“ 计算机与思维 ”一书中将机器的“合理性”作为标准来称呼它具有与人交流的能力-现在这是重要的，但不是NLP系统开发人员要解决的唯一任务。

NLP结合了多种技术（包括在数学上相距甚远的技术），可以解决与自然人类语言处理有关的算法问题：

从文本中提取事实（从简单的搜索停用词到完整的文献解析）；
语音识别和语音文本转换；
文本分类；
文字或语音生成；
机器翻译
分析文本的音调（包括意见挖掘）；
还有其他

在科幻小说中，超级计算机通常能够完成上述所有操作。在2001年的电影《太空漫游》中，HAL 9000 识别人类语音和视觉图像，并以一种通用语言进行交流。实际上，所有这些任务都是高度专业化的，并且可以通过单独的算法来解决。

这些算法（以及基础技术）正在不断发展。例如，几年前最接近普通用户的NLP方向-语音识别-基于隐马尔可夫模型。他们将一个人说的话分解成小部分，挑出音素，进行统计分析，并得出最可能以文本形式说出的结果。现在，开发人员更有可能使用神经网络-特别是循环神经网络及其变体，例如长短期记忆（LSTM）。

如今，越来越多的人使用NLP系统-我们与Siri交谈，与Google助手交谈（Android OS中使用带有CTC的LSTM）和汽车信息娱乐系统，智能算法可以保护我们的邮件免受垃圾邮件的侵扰，新闻聚合商选择可以我们很感兴趣，并且搜索引擎允许我们根据任何请求找到所需的信息。

NLP在医学中解决什么任务？

但是，NLP系统不仅在现代小工具和在线应用程序的操作中有用。自90年代初以来，它们已被引入各个医院和医学院。

当时在犹他大学开发的第一个NLP应用程序是盐湖城诊所的专用放射线理解系统（SPRUS）。该工具使用了来自专家系统的信息，该系统将症状与适当的诊断进行比较，并提供文本的放射学报告（解释X射线的医学协议）。

该程序使用基于词库中单词搜索的语义解析技术。使用专门开发的编译器自动从知识库中补充了同义词库，以解决诊断问题。

从那时起，NLP和医学机器学习的能力得到了提升：今天，技术通过为医生提供电子病历简化了工作，并减少了临床错误发生的频率，从而“有助于”做出医疗决定。

简化电子卡（EMC）的工作

电子病历（EMC）是我们熟悉的纸卡类似物。电子卡的任务是简化工作流程并减少纸张工作量。我们更详细地讨论了什么是EMC，以及它们如何帮助控制我们过去的一种材料中的医疗质量。

尽管事实上随着EMC的引入，医生使用文档变得更加容易，但仍需要一些时间来填写卡片。根据2012年在《计算机信息学护理》杂志上发表的一项研究，美国医院的护士仍然花费约19％的工作时间来填写电子卡。

是的，这只是工作日的五分之一，但是即使这个数字也可以减少，释放的资源也可以用来照顾病人。据 Nuance Communications总裁Joe Petro称，NLP技术将实现这一目标。

在2009年，Nuance 学会了数千名美国治疗师对自然语言处理技术的意见。根据研究结果，接受调查的94％的医生表示，将NLP与EMC结合使用是医疗质量的重要推动力。

这种方法的一个示例是使用 Paukipzi 的 Hudson Valley心脏中心医务人员的服务。在Nuance Communications的解决方案的帮助下，医院的护士会从患者的病史中摘录内容，绘制身体检查结果并记录有关病程的数据。该应用程序会自动更新医院实施的EMC系统中的记录。

俄罗斯正在实施类似的解决方案。例如，2016年，语音技术中心开始开发 Voice2Med系统，用于识别医疗语音并减少完成报告和医疗记录所需的时间。正如俄罗斯联邦劳动和社会保护部所说，现在只需要医生工作时间的一半即可。

我们的NLP解决方案

医学中自然语言处理的主要目标是从文本中提取数据。我们在DOC +上专注于此。我们的机器学习开发团队有6个人。其中，有两个专门用于NLP技术。在DOC +中，NLP技术用于标记接受了EMC质量控制系统培训的卡（我们在上一篇文章中对此进行了介绍）。

基于相同的系统，我们的回忆机器人也可以工作，可以优化在线咨询的工作。该机器人可在网上工作，并要求患者以自由形式描述投诉，然后从文本中隔离症状并将其报告给医生。因此，专家开始与已经准备好的患者进行远程医疗咨询（我们将在以下帖子中向您详细介绍我们的回忆机器人的工作）。

NLP系统开发的特点

开发这样的系统有几个困难。首先，当使用文本时，仅使用简单的广泛算法和方法是不够的。扫描文本中是否存在某些单词并考虑其出现频率以评估医学中“重要性”的服务所获得的结果非常有限。

诊断时，医生不仅要知道一个人有特定的症状，而且要了解该症状的动态和参数-定位，疼痛类型，数字化指标的准确值等，这一点很重要。因此，需要更复杂的算法来处理医学文本，不仅要突出文字，还要突出有关各种投诉和症状的复杂事实。

在文本中：“ 2月18日，我的头向左侧酸痛，晚上温度升至39。第二天头痛区域增加，没有头晕”，系统应突出显示有关以下三种症状的结构化信息：

头痛-出现在02/18; 本地化：在左侧；动态：02.19-面积增加。
温度-18.02; 值：39度。
头晕-没有症状。

第二个特点是文本处理工具需要进一步定制以使用高度专业化的材料。例如，由于市场上没有一种解决方案能够满足我们的要求，因此我们不得不另外“调整”拼写检查器。

拼写检查员将“咳嗽”一词改成“滴剂”，因为他们研究的是没有医学术语的文本。 因此，我们从医学文章对身体进行了重新训练。 而且对经典算法的这种小改进必须不断进行。

我们的NLP系统可以做什么

现在，我们开发的解决方案可以识别400个术语-症状，诊断，药物名称等。此外，对于大多数症状，该系统还可以隔离其他属性：定位（ 肚脐右侧的腹部疼痛），类型（湿咳），颜色（清痰）），是否存在并发症以及可测量参数（温度，压力）的值。

此外，她知道如何隔离时间参数并将其与症状进行比较，纠正错别字并使用不同的选项来描述相同的事实。

临床决策协助（CDS）

临床决策支持（CDS）支持系统在做出诊断，开处方，确定药物剂量等时为医生提供自动帮助。 NLP系统使您能够获得为此所需的医学信息-它们从科学论文，测试结果，医学指南甚至患者的语言中汲取信息。

这些解决方案之一是由IBM开发的。我们正在谈论的是IBM Watson超级计算机使用的问答系统DeepQA。在这种情况下，Watson充当大型数据库的“ NLP搜索引擎”：它处理医生的问题并为其提供特定答案，而不仅仅是在Internet上显示搜索结果。沃森（Watson）的技术使他在危险（Jeopardy）中获胜！（“他的游戏”的美国祖先）。

这种技术应用的另一个例子是NLP系统，该系统由范德比尔特大学医学中心的Harvey J. Murff博士领导的一组科学家创建。开发人员教授了该算法来分析电子病历并确定可能导致手术后并发症的疾病。

NLP处理器使用基于SNOMED-CT系统化的机器处理医学术语的方案对病历中的记录进行索引。在输出端，系统生成了带有“标高”病历卡的XML文件。实验表明，该程序对大多数并发症进行了正确分类，例如，在82％的病例中正确观察到了肾衰竭，在91％的病例中观察到了术后心肌梗塞。

DOC +还具有与CDS类似的特性-医生在应用程序中的任何动作都带有提示，但到目前为止，它们是由基于规则的经典算法构成的，而无需使用机器学习和NLP。但是，我们正在开发新一代的CDS，它将以自然语言读取患者的全部病史，并将其用作对医生的提示。

NLP系统的进一步发展

NLP系统将使您不仅可以处理病历，还可以处理科学文章和医学标准。在医学领域，已经积累了丰富的经验，临床建议，科学论文和其他文本资料中对此进行了总结。将这些数据用于与真实患者的地图相提并论的人工智能系统培训是合乎逻辑的，同时创建了结构化的医学数据库，该数据库不能被人使用，而可以由算法使用。

这种NLP系统的优点是其工作结果通常更易于解释，即与特定来源相关。总的来说，机器学习算法结果的可解释性问题绝非易事，对整个科学界（在领先的机器学习ICML国际会议上，定期举办专门的研讨会）和开发人员都很重要，特别是在涉及以下领域的项目中循证医学。对我们而言，可解释性的要求使改善我们的NLP系统的任务变得更加困难（也更加有趣）。

NLP是一个有希望的领域，它将把医疗质量提高到一个新的水平。我们计划进一步积极开发这些技术，并继续在博客中谈论我们的发展。

补充阅读：来自我们博客“ Just ask ”的有用文章：

为什么我们需要医学中的自然语言处理：现代挑战和挑战