人脑仍然是我们身体中最神秘的器官。从记忆和意识到精神疾病和神经系统疾病,在我们了解自己思维的复杂性之前,还有大量的研究和研究要做。但在某种程度上,研究人员已经成功地挖掘了我们的思想和感受,无论是粗略地掌握了我们梦的内容,观察了裸盖菇素对因抑郁症而中断的大脑网络的影响,还是能够预测我们会发现什么样的面孔有吸引力。
今年早些时候发表的一项研究描述了解码大脑活动的类似壮举。英国萨塞克斯大学的研究员伊恩·戴利 (Ian Daly)使用脑部扫描来预测人们正在听什么音乐,准确率高达 72%。戴利在《自然》杂志的一篇论文中描述了他的工作,该工作使用了两种不同形式的“神经解码器” 。
当他的研究参与者听音乐时,戴利使用脑电图 (EEG) 和功能磁共振成像 ( fMRI ) 记录了他们的大脑活动,脑电图使用电极和电线网络来获取大脑中神经元放电的电信号,它显示了响应神经活动而发生的血液氧合和流量的变化。
EEG 和 fMRI 具有相反的优势:前者能够在短时间内记录大脑活动,但只能从大脑表面记录,因为电极位于头皮上。后者可以捕捉大脑更深处的活动,但只能持续更长的时间。两者的结合让戴利获得了两全其美的效果。
他监测了在音乐试验和无音乐试验期间活跃度较高的大脑区域,将左右听觉皮层、小脑和海马体确定为听音乐并对音乐产生情绪反应的关键区域——尽管他注意到,就每个地区的活动而言,不同参与者之间存在很大差异。这是有道理的,因为一个人可能对给定的音乐产生情绪反应,而另一个人则觉得同一首音乐很无聊。
使用脑电图和功能磁共振成像,戴利记录了 18 个人在听 36 首不同歌曲时的大脑活动。他将大脑活动数据输入双向长期短期 (biLSTM) 深度神经网络,创建了一个模型,可以重建参与者使用脑电图听到的音乐。
biLSTM 是一种循环神经网络,通常用于自然语言处理应用程序。它在常规的长短期记忆网络上添加了一个额外的层,并且该额外层反转其信息流并允许输入序列向后流动。因此,网络的输入会向前和向后流动(因此称为“双向”部分),并且它能够利用来自两侧的信息。这使它成为建模单词和短语之间依赖关系的好工具——或者,在这种情况下,是音符和序列之间的依赖关系。
Daly 使用来自 biLSTM 网络的数据,根据人们的脑电图活动粗略地重建歌曲,他能够以 72% 的准确率找出他们一直在听的音乐。
然后,他仅使用 EEG 记录了 20 名新参与者的数据,他的初始数据集提供了对这些信号来源的洞察力。根据这些数据,他准确定位歌曲的准确率下降到 59%。
然而,Daly 相信他的方法可用于帮助开发脑机接口 (BCI),以帮助中风患者或患有其他可导致瘫痪的神经系统疾病(例如 ALS)的人。可以将大脑活动转化为文字的 BCI 将使这些人能够以其他方式无法实现的方式与他们的亲人和护理人员进行交流。虽然解决方案已经以大脑植入物的形式存在,但如果像 Daly 的技术能够实现类似的结果,那么它对患者的侵入性就会小得多。
“音乐是一种情感交流的形式,也是一种复杂的声学信号,与人类语言在时间、频谱和语法上有许多相似之处,”戴利在论文中写道。 “因此,能够从大脑活动中重建听到的音乐的神经解码模型可以向其他形式的神经解码模型迈出合理的一步,这些模型具有辅助交流的应用。”
图片来源: Unsplash上的Alina Grubnyak