仅凭想象,每分钟“说出”62个单词!脑机接口语音交流新纪录
来源:生辉 2023-02-02 13:02
经过训练的语音 BCI 可以使有语言障碍的人以每分钟高达 62 个单词的速度进行交流,比之前最先进的语音 BCI 输出速度快了 3.4 倍。除此之外,研究者还通过改进语言模型以进一步降低单词识别的错误
八年前,一名女性因罹患肌萎缩侧索硬化症(ALS,即渐冻症)而丧失了语言能力。患病之后,虽然她依然可以发出声音,但她说出的话已经变得难以理解,平日只能依靠书写板或 iPad 进行交流。现在,在自愿接受了一项脑机接口(BCI)植入试验之后,她已经能够以接近正常语言的速度与人快速交流。
日前,来自斯坦福大学的一个研究团队在预印本平台 bioRxiv 上发表了题为:A high-performance speech neuroprosthesis 的最新研究论文。
该研究通过脑机接口(BCI)将与语音相关的神经活动转化为文本,从而使因患有中风和 ALS 等疾病而无法顺畅交流的人群受益。
该研究开发了首个用于记录皮质内微电极阵列脉冲活动的语音转文本脑机接口。研究人员表示,在脑机植入物的帮助下,该研究受试者能够以每分钟 62 个单词的速度进行交流,打破了之前的记录,是此前最佳水平的三倍。该论文尚未经过其它研究人员的正式审查。
仅凭想象,每分钟“说出”62 个单词
对于没有言语障碍的普通人而言,常规的发言速度通常为每分钟约 160 个单词。即使在依靠键盘输入、且充斥了表情符号和缩写的现代,语音交流仍然是人与人之间最快的沟通方式。
该论文的第一作者 Francis Willett 来自斯坦福大学霍华德休斯医学研究所。早在 2021 年 5 月,他的团队曾率先破译与手写相关的大脑活动,并且开发了一种皮质内 BCI 系统,通过解码神经信号从而允许瘫痪患者通过想象完成手写输入,发表在了 Nature 杂志并被选为封面论文。
现在,研究团队想知道运动皮层中的神经元是否也包含有关语言运动的有用信息?也就是说,脑机植入物能否在受试者还未说话时便已经检测到他将如何控制嘴巴、舌头和声带的运动方式?
为了实现这一目标,研究团队使用一小块尖锐电极嵌入人的运动皮层,该电极使用四个微电极阵列记录神经活动。由于运动皮层是运动反馈最多的大脑区域,因此研究人员可以通过其神经元活动信号找到某人正在思考的动作模式,即使这个人已经瘫痪。
微电极阵列位置及响应实例等
研究发现,即便使用单个微电极阵列也可以清楚地表示出语音和发声运动,不同运动之间的神经活动能够实现准确区分。而结合了四个微电极阵列的活动记录后,通过朴素贝叶斯分类算法,该技术对于 34 个口面部运动的解码准确率为 92.7%,对于 39 个音素(根据语音的自然属性划分出来的最小语音单位)的解码准确率为 60%。在此之后,计算机会将这些信息传送到电脑屏幕上,通过屏幕和语音输出系统展示出患者的“心里话”。
该团队针对一名患有 ALS 的受试者(被称为“T12 受试者”)进行了实证研究。研究者每天会让受试者试图说出屏幕上显示的 260-480 个句子,同时记录他们大脑左半球的四个皮质内微电极阵列的尖峰活动,通过这种方式对循环神经网络(RNN)进行训练。
解码算法图与实例实验等
最终,经过训练的语音 BCI 可以使有语言障碍的人以每分钟高达 62 个单词的速度进行交流,比之前最先进的语音 BCI 输出速度快了 3.4 倍。除此之外,研究者还通过改进语言模型以进一步降低单词识别的错误率。该团队指出,通过改进语言模型和解码算法,将有可能继续提升其性能。
“BCI 的表现已经达到了多数相关患者需要的水平”
该研究的通讯作者,来自斯坦福大学的电气工程教授、神经生物学和神经外科教授 Krishna Shenoy 已带领其团队在神经修复学领域深耕数十年。早在 2019 年,他与同事们成功让一位志愿者使用思想“说话”,并且达到了每分钟 18 个单词的速度,在当时引发了广泛关注。
现在,得益于加州大学旧金山分校教授 Edward F. Chang 的研究,通过脑机接口“说话”的速度和语音识别准确度被进一步提高。Edward F. Chang 此前介绍,演讲中包括了人们所能做的最复杂的一部分动作。“该过程中,空气被推出并且发生振动,人们会同时使用嘴、嘴唇和舌头从而朗读文字。”
“这些都是非常微小、微妙的动作,”来自加州大学旧金山分校的生理学教授 Philip Sabes 对此表示。尽管他并未参与该项目,但他认为,该项研究的一个重大进展在于,仅依靠少量神经元活动即可获知足够的信息,可以让计算机程序非常准确地预测患者试图说出的词语。
进一步而言,斯坦福大学的研究团队强调,单次读取的神经元活动越多,其系统在理解受试者试图表达的内容时所犯的错误就越少。这一进展或将给 BCI 领域指明了一条切实可行的方向——使用更复杂的脑内植入物和与人工智能结合,从而提升脑内信息识别能力的准确性。
“这很重要,因为该结果说明,对于那些十分复杂的处理任务而言,类似于 Neuralink 这样计划将 1,000 个电极放入大脑的想法就会带来切实的影响。”Sabes 对此评价道。
这并不是一个不切实际的愿望。目前,包括 Neuralink 和 Paradromics 等在内的脑机接口公司已经表示,正在开发更先进的接口设备,可以同时记录数千甚至数万个神经元。
Sabes 乐观地认为,实验性的大脑读取技术或将很快走出实验室,并且落地成为能够使用的产品。在其看来,“该研究中 BCI 的表现已经达到了多数相关患者需要的水平。”
“当前结果展示了一条切实可行的研究道路,可以使用皮质内语音 BCI 恢复那些语言障碍患者的沟通能力。”来自斯坦福大学的研究者也介绍道,该项研究中 BCI 语音识别技术首次超过了现有其它技术的输出速度,例如眼动追踪或基于键盘的方法等。不过,他们同样表示,当前的语音 BCI 系统仍需要改进。
其中一个问题在于单词的识别错误率。目前,该系统的单词错误率已从 23.8% 降低到了 17.4%,不过研究者认为“它还不是一个完整的、临床上可行的系统”。
相关业内人士同样指出,“多年的研究表明,保持 BCI 系统具备稳定、可靠的性能是最为重要的问题之一。”近年以来,随着芯片技术和测量技术的快速进展和大量资源进入,脑机接口领域内的众多公司得到了长足发展。例如,Blackrock Neurotech 有望明年将其 BCI 系统推向市场;2021 年 7 月,FDA 批准脑机接口公司 Synchron 旗下植入血管内部的脑机接口设备 Stentrode 的临床试验申请;埃隆·马斯克也声称将在 2023 年内开展脑机接口的临床试验。对此,该评论人士认为,如果不能证实系统的长期稳定性或其准确性在不断下降,任何准备商业化的大脑植入物都可能在审批过程中“夭折”。
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。