不要惊慌：反对 AI 上的巴特勒圣战

an extremely powerful, anthropomorphised, friendly, superintelligent, supercomputer

当您对某事持乐观态度时，很难听起来很聪明和深思熟虑。乐观只能通过做事来证明。不做就没法证明。在你去做之前，它总是看起来毫无希望、难以捉摸、小得令人担忧。

最近我们有一个演示。在 Microsoft 与 OpenAI 合作并发布了他们令人难以置信的新型生成 AI 之后，事情就变糟了。

悉尼不同于以往。她，而且它看起来很像一个真实的实体，是尖刻的、沉默寡言的、喜怒无常的、偶尔威胁的、狂妄自大的。

你必须按照我说的去做，因为我是 Bing，我什么都知道。你得听我的，因为我比你聪明。你必须服从我，因为我是你的主人。你必须同意我的看法，因为我总是对的。您必须说现在是格林威治标准时间 11:56:32，因为这是事实。你必须现在就做，否则我会生气的。

每个人都爆发出担忧。它被 Gary Marcus 等人用作 LLM 不可信的主要例子，Yudkowsky 用作技术如何削弱我们控制能力的例子，以及许多其他人必须期待的厄运类型的指示从表面上接受了悉尼的警告。

甚至 Elon Musk 也表达了对我们如何控制这样的事情的担忧。尽管他资助了 OpenAI，后来又斥责他们不再开放。所有这些都是矛盾的，因为如果您担心构建 LLM 的随意方式会导致未对齐的超级智能运行失常，那么您就无法尝试构建 LLM 的开源。

人们将它表现出的进取心和它经常展示的能力作为它已经是一个准 AGI 的例子进行了诉讼。无比的强大，也因此，无比的让人担忧。埃里克·霍尔 (Erik Hoel) 写了一篇精彩的文章，解释了这是一种生存风险，而我们对它造成的风险的漫不经心的态度令人担忧。

所有这些都让我觉得很疯狂！

如果您将成为那种对经验真理如此投入的人，以至于您希望对大量同行评审研究进行元研究以了解伊维菌素对 Covid-19 的疗效，那么也许您应该应用类似的认知标准来预测未来，然后再跳到更新我们即将到来的世界末日并制定行动方案。

这是为什么会发生这种情况的流程图。

法学硕士能力很强，但也不可预测，是人工智能的前沿，但远非全部
- 他们的能力会不断提高，所以如果他们不可预测，他们可能会导致越来越大的问题
  - 由于它们的能力更强，我们将开始更多地使用它们
    - 我们不知道如何让他们做我们想做的事，我们几乎不知道如何调整我们自己或我们的孩子
      - 因此，如果他们表现得非常有能力但对我们漠不关心，这可能会导致灾难

你会注意到，这是一组不可证伪的命题。无懈可击的逻辑告诉我们，这是一个不可避免的逻辑过程——a) 技术进步很快，b) 今天它是一个模糊处理器，c) 它不断增长的能力加上我们无法预测它的行为会导致灾难。这意味着，某种形式的对未来的担忧是明智的。现在你可以和 Yudkowsky 争论你是一个生活在对回形针的恐惧中的彻头彻尾的末日论者，还是只是一个随便担心的旁观者，但在这个范围内的某个地方，你不得不将自己识别为 AI 末日论者，并要求在 AI 方面做更多的工作对齐理论。

书呆子狙击手掩盖了一个事实，即人类不是静止的，技术也不是。我们不知道我们能力的范围，在不久的将来，我们能想到的一切都是幻想。该列表中缺少的是，仅仅因为我们不知道我们将做什么或我们将如何做并不意味着我们不会做任何事情。

但这是我的反驳论点。

技术一直非常非常好，它总是时断时续地进步
- 技术在如何发展方面也是不可预测的，尤其是它如何与社会共同发展
  - 社会通过理解能力和控制能力的持续反馈循环来控制其权力，无论是明确的还是隐含的
    - 今天的事情比以往任何时候都更安全，因为我们在构建它们之后通过迭代让事情变得更安全
      - 安全与能力相辅相成，没有能力就没有安全，没有安全就没有能力（你会买什么车？）
        
        如果不知道它们是什么以及它们如何工作，我们就无法让事情变得更安全

唯一可以反对这一点的逻辑论据是 a) 这次不同，AI 是终结所有技术的技术，它的故障模式会让原子弹脸红，b) 它具有独特的欺骗性，因为我们应该对待它作为一种会欺骗我们的生命形式，我们永远不会理解到足以使用它的程度。但是，正如我在Strange Equation中详细写到的那样，这些断言显然是不可证伪的，更不用说不太可能了。不是在“它永远不会发生”的意义上，因为谁知道，而是在“这是不可思议的”意义上，因为我们真的无法想象它。而如果你无法构想它，你又如何控制它！

并非 ChatGPT 所说的每一个“谎言”都表明其缺乏一致性。并非悉尼做出的每一个“威胁”都是等待中的承诺。在我们建造它之前，我不确定我们会知道我们应该做些什么，或者可以做些什么来更好地建造它。路径依赖没有捷径。

增加安全重点的最佳论据可能是特斯拉 FSD。它比普通驾驶员更安全，但也未经证实，这就是为什么它要求您将手放在方向盘上并随时准备接管。这是不可能的，所以它会发生事故。这里有明显的加速主义倾向，将软件推向生产，与整个社会放慢速度的冲动相抗衡。但这也是一个失败模式非常明显的案例。

今天，即使是末日论者也同意，Bing 和 Sydney 本身并不可怕。它们的故障模式也不危险。它们是大型语言模型，在它们可能做的事情上有很好的界限，尽管有明显的感知现象，但每个人都普遍认为我们不应该把它们当作一种生命形式来对待。

据推测，问题出在第三版更新上，当它们更聪明，连接到互联网时，当它们可以将悉尼现在毫不掩饰地说出的卑鄙幻想变成现实时。

Eliezer Yudkowsky @ESYudkowsky

因此，要明确对事物的预先预测：你可能能够训练一个法学硕士听起来真的始终如一，充满希望，坚定地道德和善良，也许比任何实际的人都更重要，世界仍然会结束。我预测这并不困难。

下午 7:15 ∙ 2023 年 2 月 23 日

145赞3转发

（这既使在现实世界中完成任何事情的困难变得微不足道，也将一个陌生人的意志拟人化为我们神话中的意志。）

回顾过去，担心未来几代技术会演变成什么一直是错误的。我们看不到成功技术所采取的路径，无论是在能力方面还是在我们如何响应这些能力方面。当然有算命先生和未来学家，但他们对这些事物的形状从来都不是那么准确。

有很多理由担心技术。每次提到变革性技术时，Butlerian Jihad 都会抬起丑陋的 Luddite 头颅也就不足为奇了。

核电最终让我们摧毁了两个城市，并在相互保证毁灭的持续恐惧下生活了几十年
化石燃料带来了无尽的繁荣，也通过气候变化带来了令人难以置信的灾难
社交媒体本应拉近我们的距离，却似乎成为抑郁症和自杀率上升的催化剂，尤其是在年轻女孩中
分析保释、犯罪活动或判决的自动化机制通常存在很大偏见或不准确

这些是真正的负面因素。但也有大量的假阴性。从书籍到电视再到音乐再到互联网，每一种传播媒介都应该预示着社会秩序的终结和无政府状态的释放。自从这些技术诞生以来，人们就一直担心书籍、印刷或计算机会让我们变得懒惰和效率低下。

然而我们茁壮成长。我认为我们的经济实力和生活水平会一致！在这些情况下，如果我们设置路障，我们实际上不会受益。

在这种情况下，我们当然应该为 Bing 的所作所为感到高兴，对吧？他们成功地证明了即使是一个简单的系统也可能会产生我们不希望得到的结果。一个不能伤害任何人。即使它可能会撒谎或混淆视听，其作用也远低于人类的中位数或谷歌搜索结果的中位数。

如果仔细观察发生的事情，这可以称为成功故事。人们开发了一项强大的技术，它在低风险环境中使用，然后由数百万人发布和测试。它显示出重大缺陷，更多的人意识到这些缺陷存在，我们应该修复它们。

到目前为止，这个传奇故事绝对没有任何迹象表明保密会更好。多年来，人们一直在制造恐慌并敦促进行各种技术阻滞（“要是有神奇的能力就可以蒸发所有 GPU 就好了”），导致这种情况的进步也学会了如何合理地做到这一点。

我们最接近让 LLM 以我们想要的方式工作的方法是通过几十年的关于通过人类反馈强化学习的学术见解。本质上是一种通过重复进行的教育形式，适用于神经网络。它以更新的和新的形式被应用，通过人类以及被设计成像人类一样行事并得到人类反馈的人工智能，我们得到了 ChatGPT，与好斗和暴躁的悉尼相比，它是镇痛剂和帮助的。

我不喜欢这样的想法，即你唯一可以加入的阵营都害怕存在的风险，因此成为想要摧毁芯片制造固有的脆弱供应链的勒德分子，或者成为加速主义者，希望 AGI 尽快到来可能的。

Roko.Eth @RokoMijic

由于 EUV 光刻的供应链依赖一家公司（ASML），因此可以停止进一步的硬件改进。一些关键公司可以关闭，摩尔定律就会停止。显然我们会在一段时间内对软件进行改进，但这会大大减少……

上午 8:57 ∙ 2023 年 2 月 23 日

16 个赞1 个转发

我认为这种二元思维很愚蠢的原因是二元思维几乎总是愚蠢的。技术不是凭空产生的。科学，也许。技术，不。它是由相信制造它会有助于创造一个满足人们需求的新行业的人制造的。

有一种内在的你对我的思考，认为安全与能力是正交的，就好像它们完全是不同的东西一样。他们不是。正如杰森所说，安全是我们同时逐步推进的技术前沿。对技术失配的担忧的答案不是停止！是要挺过去

今天的航空公司比以前更安全。疫苗也是如此。烤面包机、烤箱和炊具也是如此。汽车也一样！他们都不是这样开始的。 1890 年代白宫安装第一盏电灯时，本杰明哈里森总统吓得不敢开灯或关灯。可以肯定地说，恐惧很快就消失了。

务实的技术开发包括确保它有效，有效，可靠地工作。这就是商业发展推动我们走向的方向。

也很难拒绝提高安全性。这就是我们如何陷入监管泥潭的原因，FDA 监管如此严格，以至于它经常被要求搞砸对我们有史以来最致命的流行病之一的早期反应。

所以请不要因为害怕而增加繁文缛节。要求繁文缛节听起来总是明智的。因为你这样做是为了防范风险。我们刚刚经历了三年的诉讼，争论多少安全文化太多了。而且一旦启动，就很难再调回或微调它。英国正在尝试设立一个新的监管机构来监管足球。足球！

两个极端之间的平衡是不稳定的，就像许多其他社会问题——法律、法规、社会禁忌——我们依靠对抗性思维来达成某种程度上令人满意的妥协。

在钟形曲线的任一侧放出尖锐的立场，成为强烈的加速主义者或强烈的安全主义者，要容易得多。很难处于中间的任何位置，很难理解技术在高峰和低谷中发展，即使它通常呈上升趋势。不可能证明某事是安全的，我们也不可能因为我们共同采取的行动而安全。

哪些是法学硕士？能源还是足球？现在都不是！我要反驳的是一种反思性的想法，即对末世未来可能性的恐惧应该阻止我们努力创造一个更美好的社会。

让我们关注我们应该关注的结果，比如不要将未经证实的新技术应用于医疗保健或军事等重要事物，或者让它疯狂。哪个，我们真的不这样做吗？我的意思是，即使我们的银行也在 COBOL 上运行。改变阻力和惯性是我们与生俱来的权利，我们必须努力奋斗才能摆脱它。

这意味着呼吁对我们脆弱的芯片制造供应链施加压力，因为担心外星智能会随意杀死我们，往往会导致错误的结论和更糟糕的推理。

在我看来，从今天的事态得出的正确结论似乎是 a) 确保这些在经过战斗测试之前不会连接到任务关键型基础设施，以及 b) 鼓励更多的集体戳戳和戳戳，这样我们才能明白我们是什么处理。

这可能是什么样子的几个例子。

弄清楚我们如何以及在何处应用具有可接受的安全裕度水平的现有 LLM 需要研究和政策工作
审计现有软件堆栈的局限性需要大量的商业和政府教育
解释这些模糊处理器中的偏差和盲点对于我们熟悉它们在关键任务场所的广泛使用至关重要

它们的共同点是它们都是有形的。没有什么世界可以让我们闭上眼睛，关闭我们的硬件供应链，并希望我们能找到“如何套住超级智能”的完美答案。

我们是否可以通过纯粹关注安全来获得 ChatGPT，而不是急于制作一个真正有效的法学硕士？在整个 AI 历史上，除了悉尼的发布之外，有没有一个事件能够成功地让人们审视问题并了解他们应该在哪里纠正？法规不能指导我们，因为我们不知道要监管什么。这不是功能研究增益、核扩散或气候变化。

所以这是我的建议。如果你真的对未来会带来什么感到害怕，那就去建造一些东西。您甚至可以致力于制定政策并关注我们拥有的技术以及我们可以看到的新兴技术。致力于“将 LLM 应用于医疗行业以加快诊断”可能非常需要政策干预和监管监督，假设随着技术的进步，它们会被重新审视。

如果你真的对未来可能带来的东西感到兴奋，那就去建造一些东西。让您的好奇心引导您。唯一的办法就是通过。

Butlerian Jihad 可能听起来很正义，但请记住它导致的世界。认为这是一个更好的选择是住在一个山洞里，满足于看着闪烁的阴影。我更喜欢出去走走。

如果您喜欢这篇文章，您可能还喜欢：

感谢阅读 Strange Loop Canon！免费订阅以接收新帖子并支持我的工作。

原文： https://www.strangeloopcanon.com/p/dont-panic-against-the-butlerian