Quanta 杂志的 James O’Brien
介绍
许多年前,我学会了在一台旧的 Symbolics Lisp 机器上编程。操作系统有一个拼写为“DWIM”的内置命令,是“Do What I Mean”的缩写。如果我输入一条命令并出现错误,我可以输入“DWIM”,然后机器会尝试弄清楚我的意思。令人惊讶的是,它确实奏效了。
DWIM 命令是更现代的“AI 对齐”问题的缩影:我们人类很容易给机器提供模棱两可或错误的指令,我们希望它们按照我们的意思去做,而不一定是按照我们说的去做。
计算机经常会误解我们希望它们做的事情,从而产生意想不到且通常很有趣的结果。例如,一位机器学习研究人员在调查一个图像分类程序可疑的好结果时发现,它的分类不是基于图像本身,而是基于访问图像文件所花费的时间——来自不同类别的图像存储在访问时间略有不同的数据库。另一位有进取心的程序员希望他的 Roomba 真空吸尘器不再撞到家具,因此他将 Roomba 连接到一个神经网络,该网络奖励速度,但在前保险杠与某物发生碰撞时惩罚 Roomba。机器通过始终向后行驶来满足这些目标。
但 AI 对齐研究人员社区看到了这些轶事的阴暗面。事实上,他们认为机器无法辨别我们真正想让它们做什么是一种存在风险。他们认为,要解决这个问题,我们必须找到使人工智能系统与人类偏好、目标和价值观保持一致的方法。
这种观点在哲学家尼克·博斯特罗姆 (Nick Bostrom) 的 2014 年畅销书《超级智能》(Superintelligence)中得到了重视,该书在一定程度上认为,计算机智能的不断提高可能对人类的未来构成直接威胁。 Bostrom 从未精确定义智能,但与 AI 对齐社区中的大多数其他人一样,他采用了后来由 AI 研究员Stuart Russell阐述的定义:鉴于它所感知的,以实现其目标。”
Bostrom 将他对 AI 风险的看法建立在两个论点之上。第一个是正交性论题,用博斯特罗姆的话来说,“情报和最终目标是正交轴,可能的代理人可以沿着这些轴自由变化。换句话说,或多或少的任何智力水平原则上都可以或多或少地与任何最终目标相结合。”第二个是工具收敛论点,这意味着智能主体将以促进自身生存、自我完善和获取资源的方式行事,只要这些使主体更有可能实现其最终目标。然后他做出了最后一个假设:研究人员很快就会创造出一种人工智能超级智能——一种“在几乎所有感兴趣的领域都大大超过人类认知能力”的超级智能。
对于 Bostrom 和 AI 对齐社区的其他人来说,这种前景意味着人类的厄运,除非我们成功地将超级智能 AI 与我们的愿望和价值观对齐。博斯特罗姆用一个现在著名的思想实验来说明这种危险:想象一下,给一个超级智能人工智能设定最大化回形针产量的目标。根据 Bostrom 的论文,为了实现这一目标,人工智能系统将利用其超人的才华和创造力来增强自身的力量和控制力,最终获得世界上所有的资源来制造更多的回形针。人类会灭绝,但回形针的生产确实会得到最大化。
如果你相信智能是由实现目标的能力来定义的,任何目标都可以被人类“插入”到超级智能 AI 代理中,并且这样的代理会使用它的超级智能做任何事情来实现这个目标,那么你就会得出了与罗素相同的结论:“确保灾难发生所需要的只是一台高度胜任的机器和人类的结合,而人类的能力并不完美,无法完全正确地指定人类的偏好。”
这是科幻小说中常见的比喻——人类受到失控的机器的威胁,这些机器误解了人类的欲望。现在,人工智能研究界的一个重要部分对现实生活中出现的这种情况深感担忧。数十家研究机构已经在这个问题上投入了数亿美元,世界各地的大学以及谷歌、Meta 和 OpenAI 等大型人工智能公司都在进行对齐研究。
非超级智能人工智能带来的更直接的风险又如何呢,例如失业、偏见、隐私侵犯和错误信息传播?事实证明,主要关注此类短期风险的社区与更担心长期调整风险的社区之间几乎没有重叠。事实上,这是一场 AI 文化战争,一方更担心当前的这些风险,而不是他们认为不切实际的技术未来主义,而另一方则认为当前的问题不如超级智能 AI 带来的潜在灾难性风险那么紧迫。
对于这些特定社区之外的许多人来说,AI 结盟看起来有点像一种宗教——一个拥有受人尊敬的领袖、不容置疑的教义和忠诚的门徒与潜在的全能敌人(未结盟的超级智能 AI)作战的宗教。事实上,计算机科学家兼博主 Scott Aaronson 最近指出,AI 联盟信仰现在有“正统”和“改革”两个分支。他写道,前者几乎完全担心“错位的人工智能会在努力摧毁人类的同时欺骗人类”。相比之下,他写道,“我们改革人工智能风险者接受了这种可能性,但我们至少同样担心被坏人武器化的强大人工智能,我们预计它们会更早地构成生存风险。”
许多研究人员积极参与基于对齐的项目,从尝试将道德哲学原则传授给机器,到训练基于众包道德判断的大型语言模型。这些努力都没有在让机器对现实世界的情况进行推理方面特别有用。许多作家指出了阻碍机器学习人类偏好和价值观的诸多障碍:人们往往是非理性的,其行为方式与他们的价值观相矛盾,而价值观会随着个人的一生和几代人而改变。毕竟,尚不清楚我们应该让机器尝试学习谁的价值观。
对齐社区中的许多人认为最有前途的前进道路是一种称为逆向强化学习(IRL) 的机器学习技术。使用 IRL,机器没有最大化目标;对齐支持者认为,这种“插入”的目标可能会无意中导致回形针最大化场景。相反,机器的任务是观察人类的行为并推断他们的偏好、目标和价值观。近年来,研究人员使用 IRL 通过观察人类来训练机器玩视频游戏,并通过向机器人提供来自人类的增量反馈来教机器人如何进行后空翻(人们观看机器人各种尝试的短片并选择看起来最好的一个) ).
目前尚不清楚类似的方法是否可以教会机器更微妙和抽象的人类价值观。作家布赖恩·克里斯蒂安(Brian Christian)是一本关于 AI 对齐的科普书籍的作者,他对此持乐观态度:“想象用更模糊、难以言喻的概念(如“乐于助人”)取代模糊的“后空翻”概念并不是一件容易的事。或“仁慈”。或‘良好’的行为。”
但是,我认为这低估了挑战。诸如善良和良好行为之类的道德观念比 IRL 迄今为止掌握的任何事物都复杂得多,并且依赖于上下文。考虑“真实性”的概念——我们在人工智能系统中肯定想要的价值。事实上,当今大型语言模型的一个主要问题是它们无法区分真假。与此同时,我们有时可能希望我们的 AI 助手,就像人类一样,缓和他们的真实性:保护隐私,避免侮辱他人,或者保证某人的安全,以及无数其他难以表达的情况。
其他伦理概念同样复杂。应该清楚的是,向机器教授伦理概念的重要第一步是让机器首先掌握类似人类的概念,我认为这仍然是 AI最重要的开放性问题。
此外,我发现人工智能对齐概念的科学基础存在一个更根本的问题。大多数讨论都将超级智能 AI 想象成一台机器,虽然在所有认知任务上都超越了人类,但仍然缺乏类似人类的常识,并且在本质上仍然是奇怪的机械。重要的是,根据 Bostrom 的正交性理论,机器在没有任何自己的目标或价值的情况下实现了超级智能,而是等待人类插入目标。
然而,智力可以这样运作吗?当前的心理学或神经科学中没有任何东西支持这种可能性。至少在人类中,智力与我们的目标和价值观、我们的自我意识以及我们特定的社会和文化环境密切相关。一种纯智能可以从这些其他因素中分离出来的直觉导致了人工智能历史上许多失败的预测。据我们所知,一个普遍智能的人工智能系统的目标似乎更有可能不容易被插入,而是必须像我们一样,作为其自身社会和文化教养的结果。
罗素在他的《人类兼容》一书中论证了对齐问题研究的紧迫性:“担心人类潜在严重问题的正确时间不仅取决于问题何时发生,还取决于准备需要多长时间并实施解决方案。”但是如果不更好地理解什么是智能以及它与我们生活的其他方面有多大的区别,我们甚至无法定义问题,更不用说找到解决方案了。正确定义和解决对齐问题并不容易;这将要求我们发展一个广泛的、以科学为基础的智力理论。
原文: https://www.quantamagazine.org/what-does-it-mean-to-align-ai-with-human-values-20221213/