我们对多巴胺在学习中的作用的了解大多来自简单的、高度结构化的行为任务——动物做出正确的选择并获得奖励,从而引发多巴胺的爆发。通过这种方式,多巴胺是一个重要的教学信号,提示哪些行为应该继续追求,哪些行为应该避免。
但在现实世界中,行为很少(如果有的话)如此高度结构化,而且我们所做的大部分事情并没有立即得到有形的回报。 “我最着迷的行为,比如学习说话或演奏乐器,并不是通过追求食物或果汁奖励来学习的,”哥伦比亚大学神经科学家、西蒙斯全球合作组织研究员Vikram Gadagkar说。脑。关于大脑如何引导这些自发的、自我激励的行为,以及我们所了解的关于多巴胺功能的一切是否仍然适用,人们知之甚少。
“大脑并没有在这种结构化和离散任务的背景下进化,”哈佛大学 SCGB 调查员和神经科学家Sandeep Robert Datta说。 “我们所做的大部分工作都是在没有明确奖励的情况下产生自发行为,因此研究更接近这些自然条件的行为具有很大的价值。”
Gadagkar、Datta 和其他 SCGB 研究人员现在正开始这样做:探索多巴胺在与行为学相关的任务中的作用。这些最近的研究利用现代工具来测量神经信号、监测动物活动和分析数据,使他们能够在更自然的环境中获得前所未有的多巴胺动力学。
他们的早期发现开始表明,多巴胺在引导自然、自发行为方面与在更有条理、基于奖励的实验室任务中一样重要。 “在外部奖励的背景下被广泛研究的神经回路可能与帮助你学习各种自然行为的回路相同,”Gadagkar 说。 “如果这是真的,那将是一个深刻的见解。”突然间,对多巴胺在结构化、基于奖励的任务中的作用进行了数十年的研究,也可能适用于由更抽象或内部形式的奖励驱动的行为。通过这些见解,这些研究现在正在为更全面的多巴胺功能和行为控制模型铺平道路。
性能错误
多巴胺研究人员依赖于具有明确、外在奖励的结构化任务的部分原因是它们会产生大量、易于检测的多巴胺反应。然后可以将这些神经信号与每个任务事件对齐并在试验中取平均值以获得足够的信噪比——这是推断大脑与行为之间任何类型的统计关系的要求。
为了观察来自内在动机行为的类似丰富信号,Gadagkar 利用了斑胸草雀鸟鸣的独特特性。 “鸟鸣是一种完全自然和自发的行为,但也极其刻板和明确,这是一种罕见的组合,”他说。无需提示完成重复试验,这只鸟会自发地演奏多种歌曲,每一种都有可能与神经活动相关的细微变化。
在没有食物或液体等“主要奖励”的情况下,鸟类如何学习和维持鸣叫? “我们说鸣禽通过反复试验学会唱歌,”Gadagkar 说,“但我们实际上并不知道错误信号在哪里。”通过反复试验学习的过程已经在强化学习的框架下正式化,其中奖励行为得到加强,而无奖励行为则被贬低。多巴胺通过代表“奖赏预测错误”在这个过程中发挥重要作用——动物认为它会收到的奖赏与它实际得到的奖赏之间的差异。奖励越大越令人惊讶,大脑中释放的多巴胺就越多,从而在动物寻找最佳策略时提供重要的教学信号。
但近年来,大量研究揭示了多巴胺在塑造行为方面的新作用和更微妙的作用。 “奖励预测错误的传统框架一直是一个非常有用的起点,但我们后来意识到多巴胺编码的内容比这要复杂一些,”华盛顿大学的神经科学家兼 SCGB 研究员Adrienne Fairhall说。
在没有明确奖励或惩罚可供学习的行为中,这变得特别复杂。例如,在练习钢琴时,您不会每次弹奏正确的音符都得到奖励。相反,你会为你想要的曲子听起来像什么制定一个内部目标,然后你会根据你与该目标的接近程度做出反应。但是大脑是如何进行这种自我评价的呢? Gadagkar 的第一个猜测是多巴胺。
在 2016 年 12 月发表在《科学》杂志上的一项研究中,Gadagkar 记录了成年斑马雀唱歌时腹侧被盖区多巴胺神经元的活动。在这些最初的实验中,他偶尔会用听觉反馈扭曲歌曲的音节,让鸟类觉得它们在表演中犯了错误。在这些扭曲的音节之后,投射基底神经节的多巴胺神经元的活动被显着抑制,这与比预期更糟糕的结果或表现错误一致。
Fairhall 说:“接下来探索多巴胺在自然错误或鸟类歌曲变化期间的作用似乎非常令人兴奋,看看我们是否能找到动物监控其自身表现的证据。”两人开始合作并很快跟进这些实验,现在配备了 Fairhall 实验室的数据分析工具库。在 2022 年 3 月发表在Cell Reports上的更新中,Gadagkar 和 Fairhall 实验室的博士后 Alison Duffy 重新审视了这些基底神经节投射多巴胺神经元的活动,这次使用更复杂的拟合方法来检查活动如何与自然相关鸟鸣的变奏。
研究人员证实,多巴胺神经元活动与最近而非未来的歌曲变化相关,这表明神经调节剂用于评估鸟类是否刚刚唱出正确的音符。每当这只鸟唱出特定“目标”版本的歌曲时,多巴胺神经元的峰值也会最高。研究人员说,这些动态可以帮助鸟儿通过将歌曲转向目标版本来纠正自己。在成功的演绎中,他们可以让它保持其性能。
Gadagkar 说:“这表明,在奖赏预测错误的背景下广泛研究的多巴胺能回路可能与通过持续计算表现错误来帮助你学习和完善各种复杂的、自我激励的行为的回路相同。”换句话说,当你在钢琴上弹奏正确的音符时,影响你对突然果汁奖励反应的多巴胺能系统也可能会活跃起来。如果这是真的,那么神经科学家在如何解释传统行为范式的发现方面可能还有许多其他有前途的飞跃。
“也许更哲学地说,它暗示当你发现一些有价值的东西时,它是来自外部还是内部并不重要,”Gadagkar 说。 “有时我们会如此专注于外部奖励,但考虑到内部奖励可能确实以同样的方式发挥作用,这很好。”
行为序列
Datta 还对多巴胺如何塑造独立于外在奖励的自发行为感兴趣。但他接受了在自由移动的老鼠身上研究这些概念的额外挑战。 “开放领域行为通常被视为微不足道的运动活动,但它实际上是一个由自然内部目标驱动的丰富过程,”他说。
如果它不是微不足道的,它至少对大多数人来说似乎是难以理解的。 Datta 的团队开发了一种称为运动排序 (MoSeq) 的自动化技术,该技术采用现代计算机视觉和机器学习工具来跟踪和分析鼠标的自发行为。使用这种方法,他们能够将动物的活动分解为亚秒级的图案或“音节”——每一次转身、后退、俯冲、紧缩、加速、暂停或一次梳理毛发都会被识别并与神经信号相关联。 “这是一种无需强加任务结构即可研究动物行为的优雅方法,”Gadagkar 说。
科学家记录了小鼠开放场行为的每个“音节”(右上),同时测量了背外侧纹状体中的多巴胺水平(右下)。达塔实验室
使用纤维光度法和基因编码的多巴胺指示剂dLight ,研究人员测量了背外侧纹状体 (DLS) 中的多巴胺水平,DLS 是参与塑造行为序列的基底神经节的一部分。根据 1 月份发表在《自然》杂志上的研究,当老鼠在笼子里移动时,研究人员注意到每当动物在行为音节之间转换时,多巴胺就会闪烁。 “这就像多巴胺有一种节奏,大致匹配从一个动作切换到下一个动作,”Datta 说。 “但真正令人惊讶的是,每个音节的瞬变本身都非常多变。”也就是说,动物静坐的音节和动物四处奔跑的音节都可以显示出类似的多巴胺爆发。这表明 DLS 多巴胺信号传达的不是运动的身份或运动学。
为了确定这些信号编码的内容,Datta 的小组设计了一个系统,通过校准的闭环光遗传学刺激来模拟多巴胺波动。他们使用此设置在单个音节期间产生一阵多巴胺,然后评估它如何影响老鼠的行为。触发多巴胺不会使小鼠启动特定行为或改变其运动的运动学,但它似乎确实会影响小鼠行为音节随时间的顺序。在大量多巴胺后的几秒钟内,行为变得更加多变,老鼠似乎在那短暂的时间内探索了新的音节序列。但是当研究人员观察接下来几分钟内发生的行为时,很明显随着时间的推移,与最高多巴胺瞬变一致的音节出现得更频繁,而与低幅度多巴胺瞬变一致的音节出现得更少。即使没有任务结构、感官线索或外源性奖励,小鼠似乎也建立了使多巴胺最大化的行为序列。 “这表明自我产生的自发行为并不是简单的自反,而是似乎利用了支持目标导向、奖励驱动任务的相同在线学习机制,”达塔说。
就好像我们正在进行的行为是由一个持续的自我辅导过程塑造的,达塔说,从神经的角度来看,这与科学家认为自发行为产生的方式不同。即使是自由移动的动物也会受到复杂的动机回路的引导,因此也许我们可以更好地推断出动物的实际目标是什么。
“我认为这才是真正的奥秘,”达塔说。 “你看着你的猫、狗或老鼠跑来跑去,你想知道它为什么做它正在做的事情,它可能有什么竞争动机,以及这些内部动机实际上如何影响它的行为输出。我认为我们的工作是朝着能够得出这些推论迈出的一小步。”
缩小
随着这些最新发现继续影响我们对多巴胺的看法,它们也照亮了还有多少东西需要学习。 “没有人有一个完全充实的规范模型来解释多巴胺在自发行为中的作用,”Datta 说。 “很明显,这些多巴胺波动可以构成行为——我们已经进行了现象学观察——但现在的问题是:它们是什么意思?是什么产生了它们?它们反映了哪些错误,它们是如何计算的,以及它们如何用于学习?”
神经科学家越来越多地寻找这种更全面的观点,即多巴胺在做什么以及整个大脑如何聚集在一起做这件事。 “最终,任何行为都涉及动机、目标和运动的某种组合,这本质上意味着整个系统都在参与,”达塔说。 “我们倾向于不考虑这一点以及它如何协同工作,但这实际上是所有这一切的未来。”
为了帮助探索这个更广泛的问题,Datta 求助于计算神经科学家,例如哥伦比亚 SCGB 研究员Ashok Litwin-Kumar 。在 2022 年 7 月在 arXiv 上共享的预印本中,Litwin-Kumar 提出了一种更新的强化学习模型,该模型采用了行为控制的全脑视角。为了更好地捕捉多巴胺活动的所有可能贡献者,Litwin-Kumar 的小组在模型中添加了一个术语,他们称之为“动作惊喜”。附加参数是衡量一个动作相对于基底神经节当前行为策略的意外程度的量度。前提是在大脑中,关于理想的行为可能是什么存在许多相互竞争的想法,动物所做的并不总是基底神经节认为它应该做的。该研究表明,基底神经节在监测和塑造行为时跟踪这一点实际上是有益的。
假设一只动物即将采取极其出乎意料的行动,可能是受到基底神经节尚未知晓的运动皮层突然感觉输入的驱动。如果这种行为最终证明是有益的,那么大脑应该在这种新环境中强化这种行为。动作-惊喜术语帮助基底神经节更快地学习这种关系。另一方面,如果意外的行为被证明是一个糟糕的选择,那么这个术语可以帮助基底神经节保留其当前模型,因此它可以继续就下一步做什么提出有用的建议。在任何一种情况下,行动惊喜术语都提供了有价值的信息,使学习过程更加高效。
Litwin-Kumar 说,这可能有助于解释为什么 Datta 在小鼠进行更多可变行为之前观察到基底神经节中如此大的多巴胺瞬变。也许产生这些意想不到的行为音节的决定是在大脑的其他地方产生的,然后传递到多巴胺回路以在 DLS 中产生动作惊喜信号。
Litwin-Kumar 说:“所有这一切都表明,研究更丰富和持续的行为会引发许多有趣的问题,即不同的大脑系统如何相互作用以产生行为,而这些问题更难通过更简单的行为范式来解决。”
尽管提出了新问题,但调查结果表明了一个有希望的共同点。 Datta 说:“多巴胺在如此多的不同情况下都具有增强作用这一事实表明,相似的回路、机制和分子与低维结构化任务以及高维、内部驱动、行为学相关的行为相关。” “它说我们实际上可以通过所有这些方法进行有用的对话,我认为这是个好消息。”
原文: https://www.simonsfoundation.org/2023/02/27/exploring-the-role-of-dopamine-in-natural-behaviors/