许多无法说话的瘫痪者将想说的话隐藏在大脑中。 而且没有人可以解密这些信号。 但是最近,三个研究小组在将通过外科手术方式放置在大脑上的电极上的数据转换为计算机合成语音方面取得了进展。
他们使用基于神经网络的模型,重构了单词甚至整个句子,在某些情况下,对于普通的听众来说,这是相当可理解的。
在bioRxiv的工作预印本中描述的从思想中重新演说的尝试均未成功。 相反,研究人员在他们大声朗读时观察了患者大脑各个区域的活动,他们既可以自言自语但仍在移动嘴唇,在内部说文本,或者在听笔记。
“证明重构语音是可以理解的,这确实令人兴奋。” 瑞士日内瓦大学的神经工程师Stephanie Martin说,他参与了该项目。
中风或生病后失去发言能力的人可以用眼睛或其他一些小动作来控制光标或选择屏幕上的字母(宇宙学家斯蒂芬·霍金(Stephen Hawking)拉紧脸颊来激活安装在眼镜上的开关)。 但是,如果脑机接口可以直接重现患者的言语,那么这将极大地扩展他们的能力:它将控制音调并允许您参与快速进行的对话。
哥伦比亚大学的工程师尼玛·梅斯加拉尼(Nima Mesgarani)说:“我们正在尝试开发一种在不同时间点被激活的神经元的方案,并就语音的发音做出结论。” “将一个转换为另一个并不是那么简单。”
这些来自神经元的信号转换为语音的方式因人而异,因此必须为每个人分别训练计算机模型。 最重要的是,对于从极其精确的数据中学习的模型来说,接收到这些数据需要打开头骨。
研究人员在极少数情况下可以获得这种机会。 其中之一是当患者从脑瘤中移出时。 外科医生使用直接从大脑读取电信号的传感器的读数来定位并避开语音和运动区域。 另一个例子是在进行手术前将电极植入癫痫患者几天,以定位癫痫发作的来源。
史蒂芬妮·马丁(Stephanie Martin)说:“我们最多有20分钟,有时是30分钟,来收集数据。” “我们的时间非常非常有限。”
团队通过将从大脑活动记录中获得的数据“馈入”到人工神经网络中,从而获得了最佳结果。 作为输出(带有标签),向网络发送语音,让患者大声说出或听到。
Nima Mesgarani团队依赖于五名不同癫痫患者的数据。 他们的神经网络接受了来自人耳听觉皮层的录音的训练(听觉皮层在一个人自己的讲话中以及在听别人的讲话时都处于活动状态),当时他们正在播放各种故事的记录,并将0到9的数字序列配音。然后,一个计算机模型合成语音宣读相同的数字顺序,并且对照组可以识别这些数据的75%。
在聆听数字时从患者的大脑活动数据获得的计算机生成的语音 由德国不来梅大学的Tanja Schultz领导的另一个团队使用了6名接受手术切除脑瘤的人的数据。 当他们大声朗读单音节单词时,他们的语音记录在麦克风上。 同时,放置在其大脑上的电极捕获了计划区域和运动区域的活动,并将命令发送到语音路径以发音单词。
来自马斯特里赫特大学的工程师Miguel Angrick和Christian Herff训练了一个神经网络,该神经网络将使用电极读取的数据与所得的音频记录进行匹配,然后为先前未显示的读取数据集模型重建单词和短语。 根据这些数据,该模型合成了语音,其中约40%被证明是人类可以理解的。
最后,来自加州大学旧金山分校的神经外科医生爱德华·张(Edward Chang)和他的团队重建了6例癫痫患者大声朗读时电极所朗读的语音中心活动的完整句子。 研究人员进行了一项在线测试,其中166人听了由计算机模型生成的句子之一,然后不得不在10个建议的选项中进行选择,以他们的观点进行阅读。 在超过80%的案例中,某些句子被正确识别。 但是研究人员并没有止步于此,而是强迫该模型根据一个人在向自己朗读单词时获得的大脑活动数据来重新创建语音,但是那时他动了动嘴唇,就好像“在内部发声”。
“这是一个非常重要的结果,”克里斯蒂安·赫尔夫(Christian Herff)说,“我们离言语假肢还近了一步。”
“但是,我们真正期望的是当患者根本无法讲话时,这些方法将如何显示自己。” -回应加州圣地亚哥大学的神经科学家StephanieRiès。 “一个人在读书或听别人说话时,大脑的信号不同于大声朗读或进行实时交流时出现的信号。 如果没有可以用来比较大脑活动的外部声音,计算机模型将很难预测内部语音的开始位置和结束位置。”
“解码虚构的语音将向前迈出一大步。”纽约州卫生部国家自适应神经技术中心的神经科学家Gerwin Schalk说。 “现在完全不清楚如何实现这一目标。”
根据Herff的说法,其中一种方法可以是患者对计算机模型的反馈,该模型将随着人的心理发音而实时再现语音。 通过对患者和AI进行足够的训练,大脑和计算机可以在中间的某个地方相遇。