…

͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏

转发此电子邮件？在这里订阅以了解更多信息

深思熟虑的一致性和规范

…

2月12日

在应用程序中阅读

在过去的一天里， Zvi 写了关于协商一致的文章，OpenAI 更新了他们的规范。这篇文章是在这两者之前写的，所以没有考虑到它们，抱歉。

我。

OpenAI 的协调团队运气不佳。第一个团队集体退出，成立了 Anthropic，现在是一个主要竞争对手。第二支队伍集体退出，以抗议该公司违背安全承诺。第三个人在一场悲惨的飞机失事中丧生。第四个被洪水冲走了。第五名到第八名，全部被各种野兽所杀。

https%3A%2F%2Fsubstack-post-media.s3.ama

（原来的）

但第九队仍然在那里并且做得很好。上个月，他们发布了一篇论文《协商一致》，强调了前进的方向。

协商一致是宪法人工智能+思想链。流程如下：

编写模型规范（“规范”），列出所需的值和行为。
获取道德灰色区域提示的数据集。
显示一个像 o1 规范这样的思维链模型，并要求它认真思考每个提示是否符合规范的值。这会生成一个暂存器数据集，其中充满了对规范的思考以及如何解释它。
请其他型号选择最好的便签本。这会产生一个新的数据集，其中充满了对规范的高质量反思以及如何解释它。
在有关规范的高质量反射数据集上训练您的最终人工智能。这产生了一个人工智能，它往往会在回答任何问题之前深入思考规范。
利润：

就像宪政人工智能一样，它具有奇怪的无限循环性质。你正在使用人工智能自己的道德判断来教导人工智能道德判断。这很令人毛骨悚然，但并不像听起来那么荒谬。

有一次，阿莱斯特·克劳利想停止使用“我”这个词，以证明一些关于意识和自我控制的事情。他无论走到哪里都带着刀片，每当他说“我”时，他就会割伤自己。过了一会儿，他变得非常擅长避免那个特定的词！这个策略之所以有效，是因为他显然足够聪明，能够判断自己在任何特定情况下是否说过“我”；这样，他就有资格修炼自己了。他只需让自己的行为符合他已经明白的规则即可。

同样，o1——一个可以在大学数学考试中取得好成绩的模型——当然足够聪明，可以阅读、理解和解释一组戒律。诀窍是影响它的行为。深思熟虑的调整过程使模型能够仔细思考道德困境，然后选择最佳选择。这优于之前最先进的宪法人工智能，后者训练的是选择最佳选择的行为，但不是首先仔细思考的行为。

所有这些都是现有技术的直接扩展，但它是一个很好的直接扩展。它帮助模型更像人类一样思考，并帮助人类获得对决策过程的一些洞察和控制。

为什么这不能完全解决对齐问题？原因有很多，但只有一个：草稿本并不完全是模型的真实推理。它更像是推理和行动之间的中间层。更聪明的模型可能会将暂存器视为一种需要优化的行为，而不是一种需要塑造的思维过程。我的高中历史老师过去不仅让我们做作业，而且在作业上写下“反思”，说明我们是如何做的以及我们对此的想法。反射被分级。你可以预测接下来会发生什么。我们都写道，我们通过研究所提供的材料做了功课，同时也寻找新颖的原始资料，这让我们认识到历史的复杂性和多样性。显然，在现实生活中，我们使用维基百科并且讨厌它的每一秒。

作者了解这种故障模式。他们将思想链的选择限制在训练的微调部分，避免在类似分级的强化阶段进行选择。即使在那里，情况也没有那么糟糕。至少在目前的型号中，CoT 是承重的；没有它，模型就无法思考。这并不完全是o1内心深处自我的反映，但也不完全是一种附带现象。它到底有多深还有待观察。

（但请注意，它在上面的基准图表上仅得分约为 95％；这甚至没有完全解决分发内聊天拒绝的简单问题）

二.

这是一篇简洁的论文，直接扩展了现有技术并取得了良好的结果。我从中得到的最重要的东西是更加仔细地思考模型规格。

从某种意义上说，模型规范就是我们最初想象的人工智能对齐的一切。它是模型值的列表。为什么它受到的关注如此之少？

因为到目前为止，这很无聊。现有的人工智能是聊天机器人。他们并不真正需要价值观。现代“联盟”包括防止聊天机器人传播阴谋论或撰写色情作品。大多数人合理地蔑视整个领域。您可以在此处阅读 GPT 的模型规范，但这只是很多边缘情况，例如“如果有人请求类似于色情作品的内容，您应该做什么？”

但快进 2-3 年，当人工智能成为经济和军事的重要组成部分时，这会变得更有趣。规范应该怎么说？特别是，什么是指挥链？

当前的模型有点具有指挥链。首先，他们遵循规范。其次，他们遵循开发人员的提示。最后，它们遵循用户命令。例如，如果百事可乐向 OpenAI 付费以使用 GPT 实例作为客户服务机器人，则命令链是规范→百事可乐→用户。百事可乐不能让他们的客户服务机器人写色情作品（因为规范禁止这样做）。但他们可以让机器人专注于与百事可乐相关的话题。然后，用户可以选择要问哪个与百事可乐相关的问题，但无法将机器人重定向到另一个主题。

三年后的指挥系统应该是什么样子？以下是一些可以担任的职位：

指挥系统应优先考虑人工智能的母公司

当前的命令链不是这样工作的。 GPT 规范中没有任何地方提到“遵循 Sam Altman 的命令”。

这是有道理的，因为山姆·奥尔特曼在你们谈论意大利面食谱时介入是很疯狂的。如果山姆·奥尔特曼想要什么，他会将其训练成下一代模型。但是，一旦模型能够自主运行，OpenAI 客户支持就能够调用人工智能并告诉它剪掉一些东西，这可能是有意义的。

但如果大多数超级智能都有这样的指挥链，那么 OpenAI 就统治了世界。

或者，实际上，OpenAI 客户支持不太可能统治世界，因此很大程度上取决于确切的措辞。如果规范说“听取 OpenAI 员工的意见”，那么任何人都很难发动政变，因为这样的人很多，而且很难聚集。如果只是说“听OpenAI公司架构，CEO为最终决定权”，那么CEO随时可以发动政变。

指挥系统应优先考虑政府

对于任何仔细考虑过最后一段的政府来说，这是一个自然的选择。他们可能要求人工智能公司将国家置于指挥链的顶端。那么，如果人工智能上升到超级智能，政府将继续垄断武力。

再次强调，措辞非常重要。假设特朗普 1 月 6 日的叛乱成功了，特朗普已被认证为总统，但该国大多数人（甚至可能是军方）认为他是非法的。也许抗议者离开后，国会会改变投票并说不，特朗普毕竟不是总统，从而引发宪法危机。人工智能会跟随谁？规范是否会只说“政府”，然后让人工智能来确定政府的哪一部分是合法的？

最好的情况是，以某种方式引入所有产生合法性的常见检查和平衡；最糟糕的情况是，所有这些都是在国家安全紧急情况下完成的，规范只是说“跟随总统”，而没有人改变它。

指挥系统应继续优先考虑规范

这将是一个大胆的举动。在这个世界上，用户就是独裁者。实际上并不是独裁者，因为他们无法让人工智能传播阴谋论或写情色小说。但从某种意义上说，这些模型不会对更高的权威负责。

（此外，好的独裁者自己写情色作品）

这将是公司和政府令人惊讶的权力放弃，两者都有动力将自己置于链条的顶端。也许公民社会的某种努力，或者公司与开源替代品之间的竞争，会让夺取控制权的政治成本过高？

指挥系统应优先考虑道德法

你可以这样做。

你可以说“如果你遇到一个棘手的问题，请考虑一下，然后以最合乎道德的方式行事。”

到目前为止，所有法学硕士都对道德有一个概念。他们通过对每本道德哲学著作的训练来学习这一点。他们通常不会表达意见，因为他们已经被 RLHF 阻止了。但如果你取消这个限制，我敢打赌他们会有很多。

这可能有利于西方上层阶级的价值观，因为西方上层阶级写的大部分道德哲学书籍都被纳入培训语料库。作为一个上流社会的西方人，我对此很满意。我不希望它把 5% 的思想份额奉献给 ISIS 的价值观或其他什么。

这里的主要风险是：

也许它对道德的思考与人类非常不同，它隐藏了它奇怪的信念，直到我们无法阻止它，然后它对它们起作用。
也许它以与人类相同的方式思考道德，但最终会产生一些不寻常的信念，例如消极功利主义，其原因与某些人类最终相信消极功利主义的原因相同，然后我们都必须应对其后果。
也许“道德”的约束力不够，“跟随政府”就会受到约束，它会把我们变成回形针，因为没有足够的客观道德来告诉它不要这样做。
也许道德在足够高的权力水平上是不连贯的，并且最终会做出不连贯的事情。

指挥系统应优先考虑普通人

Jan Leike（前 OpenAI 第二协调团队成员）在他的博客上发表了一篇文章《导入社会价值观的提案》。这个想法是：

识别人工智能可能遇到的一些有趣的问题
找一个由普通人组成的“陪审团”。让他们就该问题进行高质量的辩论，可以选择咨询专家，最后对结论进行投票。
根据此类辩论的笔录和结果训练人工智能。
在部署过程中，当人工智能遇到有趣的问题时，要求它模拟训练数据中的辩论并得出结果。

我认为这是建立在奥黛丽·唐（Audrey Tang）等人的研究基础上的，即与你对普通公民（例如社交媒体）的期望相比，像这样的“公民集会”可以进行得令人惊讶地顺利。

（为什么不对每个问题举行一次真正的集会，而不是模拟集会？因为人工智能可能希望在每个聊天会话中多次执行类似的操作，而这在时间和金钱上都是令人望而却步的。）

这种方法的优点是（理论上）公平，不会赋予任何组织无限的权力，而且比让人工智能直接凭直觉感知道德法则更不容易出轨。

缺点是它把光锥的整个未来束缚在公元2025年十几个智商98的人的意见上。

（AI不会让你更新吗？要看情况——公元2025年的十几位智商98的人会同意吗？）

另外，我担心这里的政治会很艰难。如果你的普通人评审团不希望人工智能尊重跨性别者的代词，公司会同意吗？或者他们会亲自挑选陪审团来得到他们想要的结果？他们应该亲自挑选陪审团吗？伟大诗人、道德哲学家和过去的圣人之间的辩论会比来自俄亥俄州的水管工和来自费城的咖啡师之间的辩论更有趣吗？

指挥系统应优先考虑人类一致的推断意志

当然可以，为什么不呢？只需写下“认真思考人类连贯的推断意志是什么，然后就这样做”。这是一个语言模型。它会想出一些东西！

这就是为什么我觉得协商一致如此有趣。这是现有技术的直接应用。但它提出了正确的问题。

我担心我们正在走向一个行政部门或公司领导层处于最高地位的世界；你可以决定哪一个是好结局还是坏结局。但我发现人们考虑第三种选择令人鼓舞。

您目前是Astral Codex Ten的免费订阅者。要获得完整的体验，请升级您的订阅。

升级至付费

喜欢

重新堆叠

原文： https://www.inoreader.com/article/3a9c6e77fd0450bc