意志力、人与机器 – 搞英语 → 看世界

mesa-optimizers 帖子中的两段，我在适应执行者帖子中再次引用：

考虑进化，优化动物的适应性。很长一段时间以来，它都非常机械地这样做，插入诸如“使用这个细胞检测光，然后向光生长”或“如果某物的背面有一个红点，它可能是你们物种的雌性，你应该与之交配”。随着动物变得越来越复杂，它们开始自己做一些工作。进化给了它们动力，比如饥饿和欲望，动物们想出了在目前情况下实现这些动力的方法。进化并没有机械地灌输打开冰箱吃一块瑞士奶酪片的行为。它灌输了饥饿感，我发现满足它的最好方法就是打开冰箱吃奶酪。

和：

Mesa 优化器的目标与它们的基本优化器密切相关，但它可能并不完全相关。再一次，经典的例子是进化。进化“希望”我们繁殖和传递我们的基因。但我的性欲就是这样：性欲。在没有色情或避孕药具的祖传环境中，性是繁殖的可靠代表；进化没有理由让我对“做爱”以外的任何事情进行台面优化。现在在现代世界，进化的替代品似乎是短视的——性是繁殖的不良替代品。我知道这一点，我很聪明，这没关系。也就是说，仅仅因为我足够聪明，知道进化给了我性欲，所以我会繁殖——而不是因为我会在避孕药上保护与某人的性行为——并不意味着我会立即改变为想要繁殖.进化在创造我的时候有一次机会设置我的价值函数，如果它搞砸了这个机会，那就搞砸了。我不受它的控制，做我自己的事。

[但是]我不得不承认我确实想要孩子。这个论点有多尴尬？我认为不是很——我不想，例如，捐赠给数百个精子库，以确保我的基因在下一代中尽可能多地出现。我只是想要孩子，因为我喜欢孩子，并且觉得他们周围有一些模糊的道德义务。这些可能是不同的代理目标进化给我的，可能更强大一点，但与性别没有根本不同。

这些帖子都关注高级优化器（进化、梯度下降）训练智能的两种方式之间的区别：直觉与计划。可能现实生活中的区别更混乱，并且有很多不同的子级别。但是这两篇文章都分享了在不同的后果主义水平上实施驱动器的想法。

这与意志力有什么关系？

确实感觉就像一个人可以讲述一个故事，其中“我”“是”“我的头脑中的“计划模块”。我提出了一种后果主义的长期计划，以实现以高抽象层次表示的目标。然后我与较低抽象层次的各种本能作斗争。获胜者取决于硬编码规则的组合，以及我们中的哪一个（计划模块与较低级别的直觉）在过去更擅长得到强化。

我不知道这个故事有多真实。 “我是计划模块”似乎与“我是全局工作区”或“我是从一个足够连贯的概率分布中抽取的样本以创建工作记忆”并不完全相同（尽管它并不真正与这些相矛盾，要么)。也许意志力/能动性的“我”与有意识访问的“我”不完全相同？毕竟，有意识访问的我可以清楚地感受到制定本能驱动力的愿望（例如狂饮多力多滋），即使能动性的我正试图施加意志力来避免这样做。但这通常符合我目前对意志力如何运作的最佳猜测。

该模型的一个推论是，未来的人工智能可能会像人类一样意志薄弱。假设通过梯度下降训练 AI 完成某项任务。它首先学习完成任务的“直觉”/“本能”技巧和“反应”。后来（如果台面优化器的文献是正确的），其中一些组合/演变成真正的“后果主义”“代理”或计划模块，它“叠加在”原始本能上。但是在大多数情况下，计划模块一开始就不如最初的直觉有效，并且整体思维设计必须制定一个策略，以决定何时使用直觉与计划模块。一开始，这将非常有利于本能。后来，随着计划模块变得更好，经过足够的培训，它应该学会更多地支持计划模块。但是很多事情发生在“足够”的训练中，真正的 AI 可能仍然存在代理部分服从于本能部分的情况。

许多关于人工智能风险的故事都集中在人工智能是如何一心一意的：他们如何能够将每一个行动真正集中在正确的方向上，以实现某个预定目标。这种一心一意的人工智能在理论上是可能的，我们最终可能会得到它们。但在此之前，我们可能会得到意志薄弱的人工智能，就像我们一样。

原文： https://astralcodexten.substack.com/p/willpower-human-and-machine