我们以每分钟大约 160 个单词的速度说话。对于语音大脑植入物来说,这种速度是非常难以达到的。
几十年来,语音植入物使用插入大脑的微型电极阵列来测量神经活动,目的是将思想转化为文本或声音。对于因瘫痪、疾病或其他伤害而失去说话能力的人来说,它们是无价的。但它们的速度也非常慢,每分钟的字数减少了近十倍。就像加载缓慢的网页或音频文件一样,这种延迟会让日常对话变得令人沮丧。
由Drs领导的团队。斯坦福大学的 Krishna Shenoy 和 Jaimie Henderson 正在缩小速度差距。
发表在预印本服务器bioRxiv上,他们的研究帮助一位 67 岁的女性以破纪录的速度使用大脑植入物恢复了她与外界交流的能力。这名被称为“T12”的女性因肌萎缩侧索硬化症 (ALS) 或卢伽雷氏病逐渐丧失了语言能力,这种疾病会逐渐削弱大脑控制身体肌肉的能力。 T12 在尝试说话时仍能发出声音——但说出来的话却让人听不懂。
有了她的植入物,T12 的语音尝试现在被实时解码为屏幕上的文本,并用计算机化的声音大声说出来,包括诸如“这太难了”或“我喜欢他们来了”之类的短语。这些话以每分钟 62 次的速度快速而激烈地出现,是之前记录速度的三倍多。
这不仅仅是对速度的需要。该研究还利用了用于使用植入物进行语音解码的最大词汇库——大约 125,000 个单词——在该规模的首次演示中。
需要明确的是,尽管专家称这是一个“ 重大突破”并达到了“令人印象深刻的新性能基准”,但该研究尚未经过同行评审,结果仅限于一名参与者。
也就是说,底层技术并不局限于 ALS。语音识别的提升源于 RNN(递归神经网络,一种以前有效解码神经信号的机器学习算法)与语言模型之间的结合。经过进一步测试,该装置可以为患有严重瘫痪、中风或闭锁综合症的人铺平道路,使他们能够仅用意念与亲人随意聊天。
作者说,我们开始“接近自然对话的速度”。
失语
该团队对恢复人们的言论权力并不陌生。
作为BrainGate的一部分,这是一项使用大脑植入物恢复通信的开创性全球合作,该团队设想并实现了使用来自大脑的神经信号恢复通信的能力。
2021 年,他们设计了一个脑机接口 (BCI), 帮助脊髓损伤和瘫痪型患者恢复思维。通过将 96 个微电极阵列插入患者大脑的运动区域,该团队能够在他想象书写每个字符的动作时解码不同字母的大脑信号,实现了一种准确率超过 94% 的“思维文本”。
问题?速度最多大约是每分钟90个字符。虽然与以前的设置相比有了很大改进,但对于日常使用来说仍然非常缓慢。
那么为什么不直接进入大脑的语言中心呢?
无论何种语言,解码语音都是一场噩梦。舌头和周围肌肉的微小且通常是下意识的运动可以触发截然不同的声音群——也称为音素。试图将面部肌肉的每一次抽动或舌头的闪烁与声音联系起来是一项艰巨的任务。
黑客演讲
这项新研究是 BrainGate2 神经接口系统试验的一部分,它使用了一种巧妙的解决方法。
该团队首先将四个战略性定位的电极微阵列放入 T12 大脑的外层。两个被插入控制嘴巴周围面部肌肉运动的区域。另外两个直接进入大脑的“语言中心”,即布罗卡区。
从理论上讲,这个位置是二合一的天才:它既捕捉到了人想说的话,又捕捉到了通过肌肉运动实际执行的讲话。
但这也是一个冒险的提议:我们还不知道语言是否仅限于控制嘴巴和面部周围肌肉的一个小大脑区域,或者语言是否在大脑内部以更全面的规模进行编码。
输入 RNN。作为一种深度学习,该算法之前已将来自大脑运动区域的神经信号转化为文本。在第一次测试中,该团队发现它可以轻松区分不同类型的语音面部动作——例如,皱眉、抿唇或弹舌——仅基于神经信号,准确率超过 92%。
然后,RNN 被教导实时建议音素——例如,“huh”、“ah”和“tze”。现象有助于区分一个词和另一个词;本质上,它们是语音的基本元素。
训练取得了成效:每天,T12 都试图按照自己的节奏说出 260 到 480 个句子,以教会算法了解她说话模式背后的特定神经活动。总体而言,RNN 接受了近 11,000 个句子的训练。
有了解码器,该团队将 RNN 接口与两种语言模型联系起来。一个人的词汇量特别大,有 125,000 个单词。另一个是一个较小的图书馆,有 50 个单词,用于日常生活中的简单句子。
经过五天的尝试说话,两种语言模型都可以解码 T12 的话。系统有错误:小型图书馆大约有 10%,大型图书馆大约有 24%。然而,当被要求在屏幕上重复句子提示时,系统很容易将她的神经活动翻译成句子,速度比以前的模型快三倍。
无论她是想说话还是只是默默地说出句子,植入物都会起作用(她更喜欢后者,因为它需要更少的能量)。
通过分析 T12 的神经信号,该团队发现大脑的某些区域保留了神经信号模式来编码元音和其他音素。换句话说,即使在多年的言语瘫痪之后,大脑仍然保留着一个“详细的发音代码”——即嵌入神经信号中的音素字典——可以使用大脑植入物进行解码。
说出你的想法
该研究建立在许多其他研究的基础上,这些研究使用大脑植入物来恢复言语,通常是在严重受伤或神经退行性疾病导致瘫痪缓慢蔓延数十年后。硬件是众所周知的:Blackrock 微电极阵列,由 64 个通道组成,用于监听大脑的电信号。
不同之处在于它的运作方式。也就是说,软件如何将嘈杂的神经喋喋不休转化为有凝聚力的意义或意图。以前的模型主要依赖于解码直接从大脑神经记录中获得的数据。
在这里,该团队利用了一种新资源:语言模型或人工智能算法,类似于现在广泛用于 Gmail 或短信的自动完成功能。随着GPT-3和其他新兴大型语言模型的兴起,技术标签团队尤其有前途。该技术非常擅长根据简单的提示生成语音模式,当与患者自身的神经信号相结合时,无需数小时的训练就有可能“自动完成”他们的想法。
前景虽然诱人,但也有谨慎的一面。 GPT-3 和类似的 AI 模型可以根据之前的训练数据自行生成令人信服的语音。对于无法说话的瘫痪者,我们需要护栏,因为人工智能会生成该人想说的话。
作者同意,就目前而言,他们的工作只是概念证明。虽然很有前途,但它“还不是一个完整的、临床上可行的系统”,用于解码语音。首先,他们说,我们需要用更少的时间训练解码器并使其更加灵活,让它适应不断变化的大脑活动。另一方面,大约 24% 的错误率对于日常使用来说太高了——尽管增加植入通道的数量可以提高准确性。
但就目前而言,它使我们更接近“为无法再说话的瘫痪者恢复快速通信”的最终目标,作者说。