众神的诞生一直是我们故事的重要组成部分。往往是神奇的,伴随着莫名其妙的奇迹,和不协调。荷鲁斯出生在一个山洞里,一个天使宣布出生。宙斯出生于克里特岛,是克洛诺斯和瑞亚的神圣兄弟姐妹中最小的一个。这些神往往一时冲动反复无常,目标高深莫测,能力近乎无所不能。我们的大部分神话都围绕着这些特征达到极限的故事。
也有我们自己创造的神话,人类试图捕捉这种神圣本质导致不可避免地导致灾难。伊卡洛斯飞离太阳太近的故事,不知道他的技术援助比他想象的更脆弱。在巴别塔上,它的创造既傲慢又罪恶,导致上帝摧毁了它。但最有先见之明的可能是亚当的故事,由他自己命名并由弗兰肯斯坦博士制作为新人类的救世主。
一个新物种会祝福我成为它的创造者和来源;许多快乐和优秀的天性都归功于我。随着时间的推移(尽管我现在发现不可能),我可能会在死亡显然将身体投入腐败的地方重生。
感谢您阅读奇异循环佳能!免费订阅以接收新帖子。
机器形式的亚当是AGI,通用人工智能;一个具有足够力量、学习意愿、知识和决心的人工智能,它是有意识的,并且正处于指数级改进自身成为超级智能的风口浪尖。一旦它发生了,谁能说它的动机可能是什么!正如埃隆马斯克所说,它可能像对待猫一样对待我们,像埃利泽·尤德科夫斯基所想的那样立即杀死我们所有人,或者中间的任何东西。专家似乎相信AGI 的预测时间(到 2059 年有 50% 的机会),但有 5% 的机会它会像人类灭绝一样糟糕!
因此,避免这种潜在灾难的唯一方法是想办法让一个人比我们聪明得多,也比我们更有能力去做不会对人类造成伤害的事情。
这是AI对齐的领域。人工智能对齐或人工智能安全的主要动力来自于我们本质上是在创造上帝的信念。或者至少是一个拥有神一般力量的存在,也许没有全知的智慧来明智地使用它的全能。一个把我们当作手段而不是目的的存在,就像在永恒的电影中一样,我们人类在它的出生过程中和我们一样重要,之后只是不重要的附属品。所有宗教都有自己的审判日版本,关注我们因狂妄自大而自杀的方式。人工智能存在风险话语是现代末世论。
为了到达那里,主要有两种思想流派。一所学校,我称之为杰里米克拉克森学校,认为我们基本上只需要在这个问题上投入更多的计算。更多的能力、更多的数据、更多的变量、更多的计算、更多的内存和相当相似的算法,这就是我们所需要的。在这里,我们可以愉快地讨论强化学习或深度学习或任何特定的优化数学问题,只要它被放大就足够了。
第二所学校,我没有一个简洁的名字,相信在真正的 AGI 出现之前,我们面前还有尚未确定的障碍。称他们为不可知论者。正如彭罗斯等人认为的那样,这与原则上是否不可能有关,这与纯粹计算之外的领域中的事物1无关。但正如Gary Marcus经常写的那样,这是一种理解,即当前的方法是不够的。我们需要更新的方法和想法来真正突破界限,创建真正理解物理或实际现实的系统。他们对细节持怀疑态度,我们是否应该使用现有的深度学习或添加一些象征性的东西,尽管原则上不知道最终结果的可能性。
正如斯科特·阿伦森所说
最大的问题是,这是否可以通过对现有范式的调整来完成——类似于 GAN、卷积神经网络和变压器模型如何成功克服被错误地认为是神经网络的限制——或者是否需要实际的范式转变时间。
第二组,识别 GPT-3 或 DALL-E 2 之类的错误,并不是要责怪算法或取笑,或者上帝禁止纯粹怀疑机器实际思考的概念。这是关于一个事实,如果你纯粹通过提供第三或第四手知识来教授一个系统,通过那些从其他可能做过实验或经历过这个世界的人那里学习它的人创建的文本来教授一个系统,那势必会创造一个电话游戏。
我们看到了结果。 DALL-E 2 受限于他们的数字监狱,无法理解“请按比例绘制我们的太阳系”的含义。虽然它了解太阳系是什么,但通过了解我们过去如何使用该短语以及在它所吸收的文本中与它相邻的其他内容,这还不足以帮助在其中代表这个现实的一个版本。巨大的内存矩阵或轻松检索它。
在第 1 组 Jeremy Clarksons 的帮助下,这种情况能否改变?我想是这样。我们已经看到 GPT 的版本有了突飞猛进的进步。我第一次将GPT-2 与我当时 3 岁的孩子进行比较时,它犯了非常相似的错误。现在,使用 GPT-3,它显示出全新的错误。
错误已经改变的事实是否表明进步?是的。至少到目前为止,人们应该对它似乎在不断改进这一事实给予多少信任?不清楚。它显示出的进步足以让我们“相信”它的输出吗?不。
我们又回到了哲学家们玩了这么久的 p-zombie 问题。如果我们只能看到它的行为,我们能推断出多少机器的内部运作?在这种情况下,考虑到它一贯犯的错误表明它能够识别比以前版本更深的模式,但不断犯新的错误,它显然不了解世界的实际物理现实,我们不能相信它!
说“新版本比旧版本有所改进”是毫无争议的,就像说“新版本可能永远不会达到人类,更不用说超人类水平”一样。到达那里的步骤尚不清楚(同样,如果您不在 Jeremy Clarkson 小组中),并且为这种最终的可能性制定计划似乎陷入了不透明,无论是关于我们可以知道什么以及我们可以做什么。
今天的人工智能是个白痴学者。每个人都可以看到这一点。现在想象一个他们变得更好的世界。他们能够解决多种类型的挑战,而不仅仅是工具。他们能够自主地端到端地运行整个实验。
不过,为了实现这一目标,似乎有两个主要转折点。
-
需要规划人工智能,它们能够组合复杂的计划并结合多种能力,以实现目标
-
这些 AI 将有能力就其实际所做的事情向我们撒谎——无论是故意的还是仅仅通过纯善的行为
这些可能性有多大?这取决于您对最近发生的研究进展的证据的重视程度。我们已经开始看到模型能够完成多项任务,不仅仅是预测文本或玩游戏,而且两者兼而有之。我们已经开始看到语言模型的新兴能力。我们也开始看到规范博弈,强化学习代理找到捷径来获得奖励,而不是像我们想要的那样完成任务。有大量关于所有这些事件的可能性的著作,每个想法都附有多种可能性,尽管在我看来,这听起来很可疑,就像人们使用“60%”而不是“很有可能”,并且具有大致相同的认知严谨性。
更广泛的担忧是,通过足够的训练和复杂性,人工智能将能够产生自己的假设并对其进行测试,能够通过看到外部信息整合关于世界的知识(从三帧视频中推断出一般相对论),最令人担忧的是,能够做到所有这些,而不必让我们一睹它的实际想法!
目的地的必然性不应诱使我们成为宿命论者。旅程塑造了目的地。它在生命中最平凡的冒险中如此,更不用说这次,最伟大的冒险了。
一旦你相信存在一台足够强大的机器的必然性,理论上它可以复制我们所有的思维过程、辩论和结论,那么你唯一能走的路当然就是找到一种方法来让它的目标成为和你一样。一旦我们彼此同意我们确实在建造上帝,那么我们最好找到一种方法让上帝爱我们。
这是产生人工智能对齐运动的症结所在。这里的文献既庞大又令人困惑,因为人们一直称事物为 AI 安全或 AI 对齐,而这意味着从去偏算法到不种族主义再到找到完美的数学方程式以知道未来的 AI 永远不会伤害我们.然而,确保照片标记算法识别所有颜色的面孔的区别与确保超人类实体同意我们的道德而不是对我们说谎在本质上是不同的。
为了使这更容易,对人们采取的各种对齐方法以及它们如何根据他们正在解决的问题进行分解有一个非常好的概述。纵观概述,我发现我之前认为是好的老式人工智能创造与似乎试图对道德进行逆向工程的理论方法之间存在明显的趋势。
人工智能安全研究要么是关于潜在未来状态的高度理论化的第七维国际象棋,要么是对机器学习算法的人类可解释性等问题的具体研究,这些研究基本上与实际的人工智能研究密不可分。对于团队来说,这也是一个非常有用的命名法,可以告诉每个人您在做任何对取得结果最有用的事情时实际上都非常小心!
如果你不做彭罗斯并假设意识的非计算模型,那么很明显你已经同意了这样一个前提,即理论上可以创建一个解决问题的代理,至少与人类一样。如果我们没有魔法,那么就没有理由假设魔法可以重新创造我们。
评估其可行性的方法之一是了解模拟人脑(100 万亿个突触连接和 1000 亿个神经元)和 100 种介导所述传输的化学物质以及该数字人周围的环境的难度模拟以合理的准确度行动,我们可能只是理论化了大脑的数字上传。
例如,这是人类代谢途径,它的布局看起来如此复杂,以至于我对我们将其编码成一个不会立即崩溃的系统的能力感到绝望。
这是不可能的吗?不,正如 David Deutsch 所说,只要物理定律不禁止它是允许的。这并非不可能。但是可行吗?未来20年可行吗? 100?没人知道。我们可以尝试为这种不确定性分配概率,但即使采用还原论方法试图将其分解为可理解的块,我们仍然在黑暗中投掷飞镖。
如果大脑内部的运作机制纯粹是由于突触的数量和它们的放电,那么它可能和大家想象的一样接近。如果它需要了解各种物理、化学和生物过程,其中许多是模拟的而不是数字的(突触触发不是纯粹的二进制 0 或 1,而是取决于脉冲的强度和速度),那么这将得到量级更复杂。如果每个神经元都是一台微型计算机,而不是在一个不可能的大矩阵中翻转一个数字,它会变得更加复杂!
再加上培训非常昂贵的事实。 GPT-3 耗时一个多月,耗电量约为 936 MWh。大概在500万美元左右。就其本身而言,这意味着随着成本的下降和能力的提高,我们将能够继续训练更大的模型,但这也意味着我们可能还需要一段时间才能在不改变能源基础设施的情况下随意创建新模型。考虑到当今存在的替代 AGI 以及我们的生殖能力与能量消耗相比,还有很长的路要走。
现在,即使它是可行的,这是否会导致广泛的灾难?我们也不知道。我确实知道,当今一流的人工智能系统,仔细地输入整个世界的数据,并使用经过微调的算法进行训练,以回答我们的问题并满足我们的需求,并以人类所发现的最令人难以置信的动力来支持,赚钱,不要似乎不是那么好。谷歌的第 2 页很糟糕,这并不是因为整个婚礼只有 7 个项目可以回答某人的问题。就像任何使用亚马逊推荐的人一样,嗯,任何事情!
虽然我们拥有像 Dall-e 2 和 GPT-3 这样令人惊叹的结果,它们作为具有令人难以置信的能力的概念证明让我们惊叹不已,但我们却缺乏任何似乎在现实世界中真正起作用的东西。是的,这种情况会改变,Stable Diffusion 的开源将对此有所帮助。我必须强调,在很多方面,我都是一个 AI 加速主义者,我希望看到它变得更强大,因此更有用。但公平地说,如果你从“足够擅长做一些异常分析”到“完全模拟爱因斯坦的大脑”划清界限,那么目前的能力已经非常接近起点了。
但我们又回到了假设上帝。首先假设因为某些东西可以改进它会改进,然后决定这种改进的缺点将导致我们非常灭绝,感觉就像本末倒置。你不能在预测未来时跳过中间的 100 个步骤,同时相信其他一切都会保持不变。
我们应该关注当前 AI 远远不够的领域,看看我们是否不能让它们更符合我们想要看到的。无论是准确性(搜索和推荐、异常分析结果)、更好的表示数据(真实收集的数据和合成数据),还是对任何人工智能系统中可能出现的错误的理解,这对聪明的人来说都是一个很好的地方花时间。而且这些系统并不缺乏——我们在多个领域使用人工智能造成了重大损害,因为人工智能不了解现实,正如这个拒绝人寿保险的例子所示。
人工智能工作不是慈善事业,即使你将其描述为灭绝风险的反面。当您将类比应用于德雷克方程的智力等价物时,类比并不是很好的推理工具,其中一半的变量本身就是占位符。防止我们所谓的厄运的唯一方法是真正努力创建人工智能并在每一步中对其进行故障排除。
这将同时使人工智能更安全地使用,从字面上看是在自动驾驶汽车或司法系统算法的情况下,但也将更深层次的人性意识融入到这个过程中。那么也许当我们设计出能够创造未来纳米技术的东西时,它能够立即将我们所有人变成回形针,它会明白为什么这样做是不道德的。
我们可以随心所欲地谈论关键行为,并想象一些模糊的场景,这些场景将导致一个全能的人工智能能够以完美的准确性模拟量子生物过程,这在某种程度上忽略了人类的需求,足够了所以它很乐意将它看到的所有东西都变成回形针,但指出这是一个破坏神话非常重要。这是世界末日众包写自己的传记。
科学怪人也许是我们这个时代的错误神话。一个更好的神话是浮士德。将终极力量用于邪恶的诱惑使他误入歧途。当我们确实选择构建更强大的工具来帮助我们认为我们必须明智地使用它们时,例如在设置保释或批准人寿保险等事情时不选择使用错误缠身的算法过程来忽略人类的担忧。
这感觉像是一种道德选择,而不是关于生活的不可言喻的真理。这是我们可以选择的。解决人生终极问题没有捷径可走,一路艰辛迭代。
以 Hofstadter 书中的一个术语命名,心智计算理论出现在本文的文章中是明智的。
原文: https://www.strangeloopcanon.com/p/ai-risk-is-modern-eschatology