在之前的文章中,我认为人工智能系统发展自己的危险目标并击败全人类的风险确实很大——至少在没有采取具体措施来防止这种情况发生的情况下。
一个年轻的、不断发展的人工智能安全研究领域试图通过寻找方法来确保人工智能系统按预期运行(而不是形成自己的雄心勃勃的目标并根据需要欺骗和操纵人类来实现这些目标)来降低这种风险。
也许我们会成功降低风险,也许我们不会。不幸的是,我认为这两种方式都很难知道。这篇文章是关于四个相当明显的原因,这可能是这种情况 – 人工智能安全可能是一门异常困难的科学。
这篇文章面向广泛的受众,因为我认为广泛理解这里的挑战很重要。我希望强大、危险的 AI 系统有很多好处(商业、军事等),并且可能看起来比它们更安全——所以我认为很难像我们应该的那样对 AI 保持谨慎。我认为,如果许多人在较高层次上理解了解 AI 系统是否像它们看起来那样安全的一些挑战,我们的胜算就会更大。
首先,我将回顾 AI 安全研究的基本挑战,并概述我希望AI 安全研究的样子。我希望它有这样的基本形式:“对 AI 系统进行测试。如果测试不顺利,请尝试另一种 AI 开发方法并进行测试。如果测试顺利,我们可能处于良好状态。”我认为汽车安全研究大多是这样的;我认为人工智能能力研究大多是这样的。
然后,我将给出四个理由,说明人工智能安全方面的明显成功可能会产生误导。
“好消息——我已经测试了这个 AI,它看起来很安全。”为什么我们仍然有问题? | ||
问题 | 关键问题 | 解释 |
兰斯阿姆斯特朗问题 | 我们是否让 AI 变得真正安全或擅长隐藏其危险行为? |
在与智能代理打交道时,很难区分“表现良好”和“表现良好”之间的区别。 当职业自行车运动正在打击提高成绩的药物时,兰斯阿姆斯特朗非常成功,似乎异常“干净”。后来发现他一直在使用毒品,并通过异常复杂的操作来隐藏它们。 |
李尔王问题 |
当人类处于控制之下时,人工智能(实际上)表现良好。这会转移到人工智能控制的时候吗? |
很难知道某人在对你有权力时会如何表现,仅基于观察他们在没有权力时的行为。 只要人类处于控制之下,人工智能可能会按预期行事——但在未来的某个时刻,人工智能系统可能具备足够的能力和广泛的应用范围,有机会完全控制世界。很难知道他们是否会抓住这些机会,我们也无法对情况进行彻底的测试。 就像李尔王在放弃王位之前试图决定赋予他的每个女儿多少权力。 |
实验室老鼠问题 | 今天的“亚人类”人工智能是安全的。未来的人工智能有更多类似人类的能力吗? |
今天的人工智能系统还不够先进,无法展示我们想要研究的基本行为,例如欺骗和操纵人类。 就像试图通过只在实验室老鼠身上做实验来研究人类医学一样。 |
第一次接触问题 |
想象一下,明天的“类人”人工智能是安全的。当人工智能的能力远远超过人类时,事情会怎样发展? |
人工智能系统可能(总体上)变得比人类更有能力,而且……真的很难知道那会是什么样子。据我们所知,银河系中从来没有任何东西在相关方面比人类更有能力!无论我们想出什么来解决前三个问题,我们都不能太自信它会继续工作,如果 AI 进步(或只是扩散)更多。 就像尝试计划与外星人的第一次接触(这几乎不像是类比)。 |
我将以 Ajeya Cotra 的“ 年轻商人”类比作为结尾,它在某种意义上将这些担忧联系在一起。尽管存在这些问题,但未来的文章将讨论一些希望的理由。
基本挑战回顾
之前的一篇文章列出了有关 AI 失调问题的基本案例。简而言之:如果使用人工智能开发人员如今使用的方法开发功能极其强大的人工智能系统,似乎存在以下重大风险:
- 这些人工智能会制定意想不到的目标(它们计算和计划的世界状态,就像下国际象棋的人工智能“瞄准”将死);
- 这些人工智能将根据需要欺骗、操纵和压制人类以实现这些目标;
- 最终,这可能会达到人工智能完全从人类手中接管世界的地步。
我认为AI 安全研究试图设计出不会以欺骗、操纵或击败人类为目的的 AI 系统——即使这些 AI 系统具有非凡的能力(并且在欺骗/操纵/击败方面非常有效,如果它们能够)瞄准它)。 也就是说:人工智能安全研究正试图降低上述情况的风险,即使(正如我所假设的那样)人类急于训练强大的人工智能来做更雄心勃勃的事情。
关于为什么 AI 可以使这个世纪成为最重要的世纪的更多详细信息(详细信息未包含在电子邮件中 -单击以在网络上查看)
为什么人工智能会“旨在”打败人类? (详细信息未包含在电子邮件中 -单击以在网络上查看)
AI怎么可能打败人类? (详细信息未包含在电子邮件中 -单击以在网络上查看)
我希望 AI 安全研究简单明了
我希望 AI 安全研究就像汽车安全研究一样。 2个
虽然我确信这是过于简单化了,但我认为很多汽车安全研究基本上都是这样的:
- 公司用测试车进行测试碰撞。结果很好(不完美)地表明了在真正的崩溃中会发生什么。
- 司机尝试在交通不拥挤的低风险地区驾驶汽车。方向盘故障之类的事情可能会出现在这里;如果他们不这样做并且司机能够在低风险地区正常驾驶,那么在交通中驾驶汽车可能是安全的。
- 这些都不是完美的,但偶尔出现的问题可以说并不是世界末日。最坏的情况往往是发生几起事故,随后召回和对汽车设计进行一些更改以通过进一步测试验证。
总的来说,如果我们遇到汽车安全问题,我们可能能够在相对低风险的情况下相对直接地观察到它们。
在重要的方面,许多类型的研究和开发都具有这个基本属性:我们可以在测试过程中观察事情的进展情况,以获得关于它们在现实世界中的进展情况的良好证据。其他示例包括医学研究、 3化学研究、 4软件开发等。
大多数人工智能研究看起来也是如此。人们可以测试人工智能系统能够可靠地做什么(例如,将语音翻译成文本),然后再将其集成到一些高风险的商业产品(如 Siri)中。这既可以确保 AI 系统有能力(例如,它可以很好地完成任务),也可以确保它在某些方面是安全的(例如,如果我们担心有毒的语言,对此进行测试相对简单).
本文的其余部分将讨论人工智能安全性“测试”未能让我们直接观察到一旦人工智能系统部署在现实世界中,世界是否真的安全的一些方式。
虽然所有研究都必须处理测试与现实世界之间的一些差异,但我认为我将要经历的挑战是不寻常的。
四个问题
(1) Lance Armstrong 问题:AI 是否真的安全或擅长隐藏其危险行为?
首先,让我们想象一下:
- 我们有可用的人工智能系统,它们几乎可以做人类能做的所有事情,具有一些不同的优势和劣势,但在“整体能力”或每小时工作的经济价值方面没有太大差异。
- 我们正在观察 AI 系统以无意的、欺骗性的方式运行的早期迹象,例如对我们提出的问题给出错误的答案,或者编写伪造指标的软件而不是做指标应该衡量的事情(例如,软件旨在网站运行得更快可能会伪造有关其加载时间的指标)。
我们的理论是,以某种方式修改 AI 训练6将使 AI 系统不太可能表现出欺骗性。我们尝试了一下,发现事实上,我们的人工智能系统似乎比以前表现得更好——我们发现它们以无意或欺骗的方式表现的事件减少了。
但这只是关于我们注意到的内容的声明。以下哪项刚刚发生:
- 我们只是训练我们的人工智能系统减少欺骗性吗?
- 我们是否只是训练我们的人工智能系统更擅长欺骗,从而让我们认为它们变得不那么具有欺骗性了?
- 我们是否只是训练我们的 AI 系统更好地计算它们何时可能被欺骗,因此只有在欺骗可能被抓住时才减少欺骗?
- 这个可能有用!特别是如果我们能够在许多现实世界的情况下建立审计系统,这样我们就可以预期很多时候会发现欺骗行为。但它确实留下了接下来要讨论的 李尔王问题。
(……或者三者的某种组合?)
我们希望能够在整个经济中部署 AI 系统,因此 – 就像人类专家一样 – 他们几乎肯定会有一些机会在不被发现的情况下进行欺骗。他们在我们的测试中表现得很诚实,这一事实并不能明确地缓解这种风险。
这里的类比是竞技自行车手Lance Armstrong 。阿姆斯特朗连续 7 次赢得环法自行车赛冠军,而他的许多竞争对手因服用兴奋剂而被取消资格。但在他上一次获胜 5 年多之后,一项调查“得出结论,阿姆斯特朗在他的职业生涯中使用过提高成绩的药物[5],并称他是‘体育运动中最复杂、最专业和最成功的兴奋剂计划’的头目见过’。现在环法自行车赛冠军名单如下所示:
这里一个更广泛的问题是,当人工智能系统变得足够强大时,人工智能安全研究开始看起来更像社会科学(研究人类),而不是自然科学。社会科学通常不那么严格,也更难从中获得明确的结果,其中一个因素是很难研究那些知道自己正在被研究的人。 7
可能有助于解决 Lance Armstrong 问题的两大类研究:
- 机械可解释性8可以认为是分析 AI 系统的“数字大脑”(不仅仅是分析它们的行为和性能。)目前,AI 系统在任务执行良好的意义上是黑匣子,但我们不能说太多关于他们是如何做的;机械可解释性旨在改变这一点,这可以使我们能够“读心”人工智能并检测欺骗行为。 (仍然存在人工智能系统以误导方式安排自己的“数字大脑”的风险,但这似乎比简单地表现出欺骗性要难得多。)
- 一些研究人员致力于“可扩展监督”或“竞争监督”。这个想法是,如果我们正在训练一个可能具有欺骗性的 AI 系统,我们会为其设置一些监督流程,我们希望能够可靠地捕捉到任何欺骗企图。这可能是因为监督过程本身使用的人工智能系统比被监督的系统拥有更多的资源,或者因为它使用了一种随机审计系统,在这种系统中投入了额外的精力来捕捉欺骗行为。
为什么人工智能系统是我们无法理解其内部运作的“黑匣子”? (详细信息未包含在电子邮件中 -单击以在网络上查看)
(2) 李尔王问题:你如何测试当它不再是测试时会发生什么?
莎士比亚戏剧《李尔王》开篇,国王(李尔)从王位上走下,并立即得知他将王国留给了错误的两个女儿。当他决定他们的命运时,他们充满爱意和阿谀奉承, 9一旦他失去权力,他们就会表现出对他的蔑视。
如果我们正在构建可以像人类一样推理的 AI 系统,那么这样的动态将成为一个潜在的问题。
我之前曾指出,一个具有任何远大目标的人工智能——或者只是一个想要避免被关闭或修改的人工智能——可能会计算出最好的方法是在人类可以设计的所有“测试”中表现出有益和安全的行为。但是,一旦现实世界中有机会永远剥夺人类的权力,同样的目标可能会导致人工智能剥夺人类的权力。
换句话说:
- (A) 当我们开发和测试人工智能系统时,我们有权决定哪些系统将被修改或关闭,哪些将部署到现实世界中。 (就像李尔王决定谁将继承他的王国。)
- (B) 但在稍后的某个时候,这些系统可能会在经济中运行,数量众多且具有很大的自主权。 (这种可能性在此处和此处详细说明/可视化。)到那时,他们可能有机会击败全人类,这样我们就再也不会对他们做出决定了。 (就像李尔王的女儿们掌权后一样。)
AI怎么可能打败人类? (详细信息未包含在电子邮件中 -单击以在网络上查看)
如果 AI 系统可以检测到上述 (A) 和 (B) 之间的差异,那么它们的行为可能会系统地从一个变为另一个——并且没有明确的方法来测试它们在 (B) 中的行为。
大众汽车排放丑闻(详细信息未包含在电子邮件中 -单击以在网络上查看)
总的来说,现代机器学习研究人员认为处理所谓的“分布转变”具有挑战性:AI 接受训练的情况与它们现在所处的情况之间存在系统差异。对我来说,李尔王问题看起来可能是最不方便的分布问题转变:人工智能系统冒着以意想不到的方式行事的风险,就像(事实上,因为)它们现在能够击败人类,而不是处于受控的测试环境中。
一些可能对这里有帮助的研究:
- 如果我们能够足够有力地解决Lance Armstrong 问题——这样我们就可以确信 AI 永远不会表现出欺骗性——我们可以简单地提示 AI 回答诸如“AI 系统 X 是否会剥夺人类有机会这样做的能力?”之类的问题。可以想象,上面提到的基于数字大脑的技术可以把我们带到这里。
- 可能有专门针对 AI 系统最坏情况行为的方法,因此几乎可以保证它们无论在何种情况下都不会以某些方式行事。这看起来大致类似于“模拟人工智能系统有机会剥夺人类权力的案例,并为其选择这样做提供负面强化”。有关此类方法的更多信息,以及一些正在进行的初步工作,请参见此处。
(3) 实验室老鼠问题:我们想研究的人工智能系统今天并不存在
上面,我说:“当 AI 系统变得足够强大时,AI 安全研究开始看起来更像社会科学(研究人类)而不是自然科学。”但如今,人工智能系统的能力还不够,这使得拥有有意义的试验台和取得有意义的进展变得尤为困难。
具体来说,我们没有太多的 AI 系统似乎可以欺骗和操纵他们的主管, 10我担心他们在变得足够有能力时可能会采用这种方式。
事实上,人工智能系统是否可以学会欺骗和操纵主管,即使我们有意训练他们这样做,也不是 100% 清楚。这使得甚至很难开始阻止和检测欺骗行为之类的事情。
我认为 AI 安全研究在这方面有点不寻常:大多数研究领域都没有明确地“解决尚不存在的问题”。 (虽然很多研究最终对比它正在研究的原始问题更重要的问题有用。)因此,今天进行 AI 安全研究有点像试图通过仅在实验室小鼠(没有人类受试者)上进行实验来研究人类医学可用的)。
这并不意味着没有富有成效的 AI 安全研究可以完成! (请参阅前面的部分。)这只是意味着今天正在进行的研究有点类似于对实验室小鼠的研究:在一定程度上提供信息和重要,但仅在一定程度上。
这个问题有多严重?我的意思是,我确实认为这是暂时的:当我们面对我担心的问题时,我们将能够更直接地研究它们。令人担心的是,到那时事情可能会发展得非常快:当我们拥有具有人类能力的 AI 时,公司可能会疯狂地复制这些 AI 并将它们用于各种事情(包括 AI 安全研究和进一步研究使人工智能系统更快、更便宜和更强大)。
所以我确实担心实验室老鼠的问题。我很高兴看到更多的努力来制造“更好的模型生物”:人工智能系统显示我们最想研究的属性的早期版本,比如欺骗他们的主管。 (我什至认为专门训练 AI 来做这件事是值得的; 11如果这种行为最终会出现,我认为它们最好早点出现,因为 AI 真正击败人类的风险相对较小。)
(4) “第一次接触”问题:我们如何为 AI 的能力远远超过人类的世界做好准备?
到目前为止,所有这些都是关于尝试制造安全的“类人”人工智能系统。
能力远超人类的 AI 系统怎么样——Nick Bostrom 称之为超级智能 AI 系统?
也许在某个时候,人工智能系统将能够做这样的事情:
- 彼此协调得非常好,以至于使用一个 AI 来帮助监督另一个是没有希望的。
- 完全理解人类的思维和行为,并且确切地知道说什么话让我们做他们想做的事——所以只要让人工智能发送电子邮件或写推文就可以让它在世界上拥有巨大的力量。
- 操纵他们自己的“数字大脑”,这样我们“读懂他们的想法”的尝试适得其反并误导我们。
- 以与人类完全不同的方式思考世界(即制定计划以实现其目标),诸如“glooble” 12之类的概念是非常有用的思考世界的方式,但人类需要几个世纪的努力才能理解.
在这一点上,无论我们为使类人人工智能系统安全、诚实和受限而开发的任何方法都可能失败——而且是悄无声息的,因为这样的人工智能系统可能会从“以诚实和乐于助人的方式行事”转变为“看起来诚实和乐于助人” ,同时设置打败人类的机会。”
有些人认为这种对“超级智能”系统的担忧是荒谬的;大约13人似乎认为极有可能。无论哪种方式,我个人都不赞同高度自信。
但除此之外,一个拥有大量类人人工智能系统的世界可能是陌生的、陌生的、快速发展的,足以拥有很多这样的品质。
为这样的未来做准备就像为与外星人的第一次接触做准备一样——很难知道我们可能会遇到什么样的挑战,而且挑战可能来得很快,以至于我们几乎没有时间去学习和学习。适应。
年轻的商人
再举一个类比,我将回到 Ajeya Cotra 在这里使用的类比:
想象一下,你是一个 8 岁的孩子,他的父母给你留下了一家价值 1 万亿美元的公司,而且没有值得信赖的成年人作为你走向世界的向导。你必须聘请一位聪明的成年人作为 CEO 来经营你的公司,像父母一样处理你的生活(例如,决定你的学校、你的住所、何时需要去看牙医),并管理你的巨额财富(例如,决定将资金投资于何处)。
你必须根据你想出的工作试用或面试来雇用这些成年人——你看不到任何简历,也不需要做参考调查等。因为你太有钱了,很多人以各种理由申请。 ( 更多)
如果你的求职者是“圣徒”(真正想提供帮助的人)、“马屁精”(只是想让你在短期内开心,即使这对你的长期不利)和“阴谋家”的混合体“(那些想为自己吸走你的财富和权力的人),你 – 一个八岁的孩子 – 如何区分?
这个类比结合了上面的大部分担忧。
- 这位年轻的商人很难知道求职者在面试中是否诚实,也很难知道任何工作试验是否真的进行得很顺利,或者只是因为故意欺骗而看起来很顺利。 ( 兰斯阿姆斯特朗问题。)
- 求职者可能有恶意,直到他们掌权时才表现出来( 李尔王问题) 。
- 如果年轻的商人在实际掌管公司之前试图为这种情况做准备,那么他们在模拟它时可能会遇到很多麻烦(实验室老鼠问题) 。
- 对于一个八岁的孩子来说,通常很难对成年人的世界有太多的了解——甚至无法思考他们应该思考的所有事情(第一次接触问题)。
看起来情况很艰难。
之前,我讲过如果AI开发者不采取具体的应对措施,AI的危害。这篇文章试图说明为什么即使他们试图采取反制措施也很难做到。下一篇文章将讨论我们无论如何都可能成功的一些方法。
脚注
-
或被说服(在“思想黑客”意义上)或其他什么。 ↩
-
研究?测试。任何。 ↩
-
药物可以在体外测试,然后在动物身上,然后在人类身上。在每个阶段,我们都可以相对直接地观察药物是否有效,这些可以合理预测它们在下一阶段的效果。 ↩
-
在推出任何类型的大规模流程或产品之前,您通常可以看到不同的化合物在受控环境中如何相互作用,前者会告诉您大部分您需要了解的有关后者的信息。 ↩
-
新软件在推广到大量用户之前可以由少数用户进行测试,初始测试可能会发现大部分(不是全部)错误和问题。 ↩
-
如:
- 更加小心避免错误的答案可能会激励欺骗
- 进行随机“审核”,我们会更加努力地找出问题的正确答案,如果 AI 给出的答案如果不是审核我们会相信,则给予 AI 额外的负面强化(这是“额外的负面强化”)表面上看起来正确的错误答案”)
- 使用“通过辩论实现 AI 安全”的方法↩
-
尽管社会科学特别困难还有其他原因,例如,什么样的实验是合乎道德的,往往有很大的局限性,而且通常很难在不同人群之间进行清晰的比较。 ↩
-
这篇论文来自我妻子担任总裁的公司 Anthropic。 ↩
-
就像,在他决定他们将获得多少领土之前,他实际上要求他们谈论他们对他的爱。史密斯↩
-
例如,我认为训练 AI编码系统编写卑鄙的 C代码会很有趣:对人类检查员来说看起来良性的代码,但在运行时会做出意想不到的事情。当人类可以正确识别代码将执行意外的事情时,他们可以得到负面强化,而当代码实现人类试图阻止的特定事情时,他们可以得到积极的强化。这对今天的人工智能系统来说是一个挑战,但并非不可能。 ↩
-
这是一个只有我明白的概念。 ↩
-
例如,请参阅MIRI负责人 Nate Soares 此处对“左转弯”的讨论。我的印象是 MIRI 的其他人,包括 Eliezer Yudkowsky,也有类似的情况。 ↩
原文: https://www.cold-takes.com/ai-safety-seems-hard-to-measure/