一名年轻人戴着一顶布满电线的电极帽,在脑海中默默地念着一句话。过了一会儿,一个类似 Siri 的声音打了进来,试图将他的想法转化为文字,“是的,请给我一碗鸡汤。”这是计算机将人的想法翻译成单词和句子的最新例子。
此前,研究人员曾使用通过手术植入大脑的植入物或笨重、昂贵的机器将大脑活动转化为文本。悉尼科技大学研究人员在本周的 NeurIPS 会议上提出的新方法令人印象深刻,因为它使用了非侵入性脑电图上限,并且具有推广到一两个人以上的潜力。
该团队构建了一个名为 DeWave 的人工智能模型,该模型经过大脑活动和语言训练,并将其与大型语言模型(ChatGPT 背后的技术)连接起来,以帮助将大脑活动转换为单词。在arXiv 上发布的预印本中,该模型以大约 40% 的准确率击败了之前脑电图思想到文本翻译的最高分。该论文的通讯作者 Chin-Teng Lin 告诉 MSN ,他们最近将准确率提高到了 60%。结果仍在接受同行评审。
尽管在可靠性方面还有很长的路要走,但它显示了非侵入性阅读和将思想翻译成语言的方法的进步。该团队相信,他们的工作可以为那些因受伤或疾病而无法再沟通的人提供声音,或者可以用来仅用思想来指挥机器,如步行机器人或机械臂。
猜猜我在想什么
您可能还记得有关“读心”机器将思想高速转化为文本的头条新闻。这是因为这样的努力并不新鲜。
今年早些时候,斯坦福大学的研究人员描述了对帕特·贝内特 (Pat Bennett) 患者的研究,他因肌萎缩侧索硬化症 (ALS) 失去了说话的能力。在将四个传感器植入大脑的两个部分并进行大量训练后,贝内特能够以每分钟 62 个单词的速度将思想转换为文本来进行交流,这比同一团队 2021 年每分钟 18 个单词的记录有所提高。
这是一个令人惊奇的结果,但大脑植入可能存在风险。科学家们希望在不进行手术的情况下获得类似的结果。
在今年的另一项研究中,德克萨斯大学奥斯汀分校的研究人员转向了一种称为功能磁共振成像的大脑扫描技术。在这项研究中,患者必须一动不动地躺在机器里,一边听故事一边记录他们大脑中的血流量。在使用这些数据训练算法(部分基于 ChatGPT 祖先 GPT-1)后,团队使用该系统根据参与者的大脑活动猜测他们听到的内容。
该系统的准确性并不完美,需要为每个参与者进行大量定制,而且功能磁共振成像机器体积庞大且昂贵。尽管如此,这项研究还是证明了思想可以非侵入性地解码,而最新的人工智能可以帮助实现这一目标。
分院帽
在《哈利·波特》中,学生们被一顶能读懂思想的魔法帽子分入不同的学校。我们麻瓜戴上看起来滑稽的泳帽,上面被电线和电极刺穿。这些设备被称为脑电图仪(EEG)帽,可以读取并记录我们大脑中的电活动。与大脑植入相比,它们不需要手术,但准确度要低得多。那么,挑战就是将信号与噪声分开以获得有用的结果。
在这项新研究中,该团队使用了两个数据集,其中分别包含 12 人和 18 人阅读文本时的眼动追踪和脑电图记录。眼球追踪数据帮助系统按单词分割大脑活动。也就是说,当一个人的眼睛从一个单词跳到下一个单词时,这意味着与该单词相关的大脑活动和应该与下一个单词相关的大脑活动之间应该存在间歇。
然后他们根据这些数据训练 DeWave,随着时间的推移,算法学会将特定的脑电波模式与单词关联起来。最后,借助预先训练的名为 BART 的大型语言模型(经过微调以理解模型的独特输出),算法的脑电波与单词的关联被翻译回句子。
在测试中,DeWave 在原始脑电波翻译和按单词分割的脑电波翻译方面均优于该类别中的顶级算法。后者更准确,但仍然远远落后于英语和法语等语言之间的翻译和语音识别。他们还发现该算法在参与者之间的表现相似。先前的实验倾向于报告一个人的结果或需要极端的定制。
该团队表示,这项研究进一步证明大型语言模型可以帮助推进大脑到文本的系统。尽管他们在官方研究中使用了相对古老的算法,但在补充材料中,他们包含了更大模型的结果,包括 Meta 的原始 Llama 算法。有趣的是,更大的算法并没有对结果有太大改善。
“这强调了问题的复杂性以及将大脑活动与法学硕士联系起来的挑战,”作者写道,并呼吁未来进行更细致的研究。尽管如此,该团队还是希望他们能够进一步推动自己的系统,或许达到 90% 的准确率。
这项工作显示了该领域的进展。
“长期以来,人们一直希望将脑电图转化为文本,而该团队的模型显示出极高的正确性,”悉尼大学的 Craig Jin 告诉MSN 。 “几年前,从脑电图到文本的转换是完全无稽之谈。”
图片来源:悉尼科技大学