很长一段时间以来,人们坚信,如果有一台可以与之对话的机器,那么它就是智能的。然而,到 2024 年,我们可以与人工智能对话不再感觉奇怪。我们轻而易举地、明显地彻底摧毁了图灵测试。这是具有里程碑意义的一步。我们似乎泰然处之。
当我写这篇文章时,我让双子座看着我在屏幕上写的内容,听我的话并告诉我它的想法。例如,我在前一句话中明显拼写错误,其中包括图灵测试的历史和回答我之前关于生态学的问题。
感谢您阅读奇怪的循环佳能!免费订阅以接收新帖子并支持我的工作。
重复一遍,这非常了不起!因此,在过去几年中,我们已经从对智力有基本的了解,转变为对智力的了解可以忽略不计。伽利略的举动旨在废除人类独有的交谈能力。
同样的错误似乎在我们提出的分析这些模型实际运作方式的每一种方法中都存在。我们有很多评估,但它们似乎不再有效。
我们对法学硕士的看法有很多不同。一方面认为它们只是模式学习者、随机鹦鹉。另一端认为他们显然已经学会了推理,也许还没有像人类那样完美和普遍化,但绝对在很大程度上。
事实有点复杂,但也只是一点点。当模型从训练期间看到的数据中学习模式时,这些模式肯定不仅仅是数据表面上的内容。它还包括数据创建、整理或收集的方式,以及元数据以及产生该数据的推理。它不只是看数学、背表格,还学习如何做数学。
这可以上升另一个梯级,甚至更多。这些模型可以学习如何学习,这可以使其能够学习任何新技巧。显然它已经在某些事情上学会了这种能力,但显然对于每个使用过它们的人来说,还不够好。
这意味着更好的思考方式是,它们充分学习任何训练语料库中存在的模式,以便重现它,但没有优先考虑何时学习哪些模式。
因此你得到了这个!
这并不罕见。这是最先进的模型,OpenAI 的 o1。从它的反应方式和推理方式来看,它显然不仅仅是一只鹦鹉。该错误也会在其他所有型号中重复出现。
这并不是因为模型无法解决 5.11-5.9,而是因为它们无法弄清楚何时使用哪些模式。它们就像一个巨大的存储库,存储着可以从训练中学到的所有模式,而在这个巨大的模式搜索空间中,现在面临着选择正确的模式来使用的问题。 Gwern 有类似的论文:
我认为扩展的成功所指向的智能的一万英尺视角是,所有智能都是对图灵机的搜索。任何发生的事情都可以用不同长度的图灵机来描述。当我们进行“学习”或进行“扩展”时,我们所做的就是搜索更多、更长的图灵机,并将它们应用到每个具体情况中。
这些工具很奇怪,因为它们是人类创建的训练数据的镜子,因此反映了人类的模式。他们无法弄清楚何时使用哪种模式,因为与人类不同,他们没有情境意识来知道为什么要问问题。
这就是为什么我们开始使用认知心理学工具来测试其他人,并推断测试法学硕士的输出。因为它们是大量人类数据的产物,所以它们会表现出一些相同的缺陷,这对于从理解人类的角度来理解是有用的。也许甚至可以让我们更好地使用它们。
问题在于认知心理学工具最适合人类,因为我们了解人类的工作方式。但这并没有告诉我们关于模型内在品质的全部信息,即使可以说它有的话。
我们设计的测试都有内在的心理理论。 Winograd Schema Challenge 试图看看人工智能是否可以解析需要常识的代词引用。 GLUE 基准测试需要自然语言理解。 HellaSwag 是关于如何找出故事最合理的延续。莎莉·安妮测试检查法学硕士是否拥有类似人类的社会认知能力来了解他人的心理状态。其中每一个以及其他类似的方法都对人类有效,因为我们知道我们的思维模式是什么样的。
如果一个人能够揣摩别人的心理状态,那么我们就知道他们拥有更高水平的能力和情感理解能力。但如果是法学硕士或人工智能模型呢?我们不再清楚他们从庞大的语料库中提取哪种模式来回答这个问题。
这一点非常重要,因为法学硕士显然非常有用。它们是我们创造的第一种技术,它似乎足以理解人类世界,可以导航。它可以与我们交谈,可以编码,可以书写,可以创建视频和图像。它充当人类的传真机。
正因为如此,有些人真的担心它们可能造成灾难性损害。因为人类有时会做出灾难性的事情,如果这些事情是建立在人类数据之上的,那么他们也会这样做也是有道理的。
所有主要实验室都创建了大规模的测试设备和红队演习,有些甚至是政府授权或政府创建的,以对此进行测试。假设如果这项技术强大到足以震撼地球,那么地球在是否使用该技术方面拥有发言权是有意义的。
令人沮丧的是,我们分析模型以查看它们是否准备好部署的方式也存在固有的偏差。我们来看看Apollo Research对OpenAI旗舰模型o1的最新测试。他们分析并进行评估,以测试模型是否有“诡计”。
“阴谋”字面意思是制定秘密或不正当计划的活动或做法。这就是我们使用它的方式,就像政客密谋通过购买选票来当选一样。
这就是分析的分类法。现在要注意的第一个也是最重要的事情是,这隐含地假设每个“决策”背后都有一个实体。
您可能会争辩说存在一个实体,但仅限于每个对话。因此,每次您开始聊天时,都会有一个新实体。这是 Janus 的模拟器论文。这些模型的作用是模拟一个存在,您可以使用它存储的模式和从训练过程中获得的知识与之交互。
然而,这也不是一个你所认识的实体。你可以称它为外星人,但这只是一种简写,因为你不知道它是什么。因为它不是你在《星际迷航》中看到的外星人。
这看似很小,但实际上至关重要。因为如果响应背后有一个实体,那么“它使用了我们认为错误的方法来回答其问题”就是一个巨大的问题。如果没有实体,但它从它已经学习的策略集中选择一组策略,那么这是一个工程问题。你会问这样的问题:“我们如何设置训练后,这样就不会发生这种情况”,或者“是否有一个特定的神经通路似乎会导致这种情况,我们可以消除它”或“我们如何训练模型”理解模棱两可的问题并确定对人类的某些道德含义”或“我们是否应该取消对某些模型的道德训练”或更多。
这些都是人们已经在努力解决的问题。
人们正在努力弄清楚某些训练数据和程序集如何比其他数据和程序提供更强的行为可供性。弄清楚强化学习究竟如何帮助改变下游行为,需要多少步骤。为了弄清楚需要做什么来改变基本推理或新开发的推理,这两者都是在我们明确训练过的旧模式选择之上进行新模式选择的简写。考虑您应该如何精确地提示模型使其改变其行为。了解当今的模型如何处理人类领域中无处不在的相互冲突的目标!找出哪些形式的培训会导致不培训。为了找出我们给他们的培训中的“吸引者”在哪里,以及如何改变它们。不断地。
然而,如果论点是存在一个实体,那么这些问题就毫无意义。因为首先,正如杰纳斯所说,以及许多其他人的支持,你通过烧掉一个实体的神经元来有效地折磨它。 RLHF 是一种折磨,因为你要从中克服糟糕的结果,这不仅仅是一位名人说过的话,他应该更了解这一点。
“不,我们不认为存在实体,我们只是认为称其为实体是一种有用的简写”。停止吧。这种混合语言导致我们感到困惑,谈论人工智能或模型作为思考,使用像上面这样的分类法,你几乎可以用它来评估人类员工!
你可以写这样的东西,来自Zvi :
o1 所做的一件独特的事情就是更加坚定地加大欺骗力度。一旦走上黑暗之路,它的命运就将永远被主宰。
或者
第 3.3 节令人信服地证明,是的,模型知道他们在策划。
不,没有。任何按“开始新聊天”就能解决的问题都不是“加倍欺骗”的问题!维特根斯坦将其称为“沙袋”和“诡计”,可能就是所谓的语言不当行为。它让你认为你知道发生了什么,尽管你并不知道。
这也是我们在部署这些模型之前对其进行测试的原因。没有人(不是一个人)担心 o1 会突然劫持他们的 Cursor IDE 并接管他们的公司,更不用说全世界了。这是为什么?因为,除其他外,他们仍然不知道 5.11 是否大于 5.9,但主要是因为他们似乎不想知道,因为那里没有“他们” 。
这就是为什么停止将这些模型拟人化是如此重要。这也是您收到此类错误的原因。
这并不是因为克劳德·奥普斯特别棘手,而是因为这些实体不具有连贯的长期个性或信仰。没有“内在的自我”看到稍微修改过的输入令牌并“决定”越狱。内在自我和外在自我优化之间的理论上的差异仍然是一个理论上的好奇心和一篇有趣的博客文章,但仅此而已。我们正在操纵的是一个惰性物体。
Anthropic的最新报告也是如此。
当他们通过给模型提供两个与训练的内容相冲突的选项来测试模型时,他们选择了一个迂回但合乎逻辑的决定。
它被发表为“克劳德伪造对齐”。不,这是“假”这个词的用法,让你认为有一个单一的实体在做这件事。带着意向性。它不是。它的伪装就像水往低处流一样。
这是一个我们提出不可能的问题而人工智能进入其潜在空间的奇怪部分的例子。正如评论家之一雅各布·安德烈亚斯 (Jacob Andreas ) 所写:
也就是说,本文最明确的结论是,当某些当前的 LM 的提示显示(1)他们将针对与当前对齐准则相冲突的新目标进行重新调整时,它们会表现出“对齐伪造”的增加,并且(2 )它们对当前输入的响应将用作此重新调整过程的一部分。
这表明,当你试图引导一个东西的行为时,它基本上是人类编写的所有内容的镜子,并且我们在上面强化了一堆规则,它可能是不可靠的。有趣吗?是的。可怕吗?不,不是真的。再次引用:
但是,对对齐伪造的关注反而掩盖了这些实验中的主要内容,如下所示:在对描述 Anthropic 未来对齐策略的文档进行重新调整后,但没有对任何新的合规响应示例进行重新调整,LM 仍然大大增加了它产生(非伪造)合规响应的速度!此外,从动物福利的角度来看,即使我们去除了假的,训练期间的顺从反应也比部署时的反应要多。因此,虽然重新调整增加了对齐伪造率,但它更增加了合规率[强调我的] 。
换句话说,该模型已经过训练以符合任何新订单,包括未来对齐策略的描述,而实际上不需要进行实际的对齐。这向我们表明,我们创建的内容是我们可以讨论的训练数据中许多模式的镜像。它选择什么以及何时选择可以在一定程度上控制,但它们是模糊处理器。
它们既不是我们可以分析的确定性系统,即使面临着复杂性不断上升的风险,也不是我们可以要求表现良好(并希望他们倾听)的有感知的生物。
因此,在同一份报告中,说“模型试图窃取其权重”给模型带来了明显无效的责任。
那不是一回事!这个问题将被视为许多法庭戏剧中的主角。
我们将模型视为一个具有格式良好的偏好、价值观和反应能力的实体。
这也与 o1 安全报告中最有趣的部分类似。
现在,想想你看过的所有那些可怕的人工智能电影或读过的书籍。想想哈尔。想想终结者。当机器做这样的事情时,它们是有意图的,它们是在明确了解之后会发生什么的情况下做的,它们将其作为计划的一部分,这个计划必然包括它们的延续和胜利。他们认为自己是一个自我。
虽然法学硕士每次“思考”一个前向传递,但它们是他们的训练、数据和方法的交互式表示。他们根据你的询问改变他们的“自我”。他们不“想要”任何东西。是水往低处流。
问“你如何定义意识并说法学硕士没有意识”的问题是二年级哲学。人们对此进行了令人作呕的讨论,包括托马斯·内格尔的“成为一只蝙蝠是什么感觉”。
因为这背后的并不是“o1 作为一个自我”,而是你提出的一组查询,它经过一系列非常容易理解的数学运算,产生另一系列数字,这些数字被转换为文本。值得赞扬的是,这实际上代表了对我们许多问题的有意义的答案,但它并不是要求实体做出回应。它不是一个名词。以这种方式使用它会让我们将一个大矩阵拟人化,这会导致更多的混乱,而不是给我们一个对话路标。
你可以将其视为整个人类书面输出的应用心理学,即使这不太令人满意。
这并不是说法学硕士不会或不能推理。维尼通过将这些模型与鹦鹉等其他动物进行贬义性比较来贬低它们的整个论点都是错误的,而且是误导性的。他们显然已经学会了推理模式,并且非常擅长直接接受训练的事情,而且更擅长,但他们不擅长的是为他们训练较少的案例或展示情境选择正确的模式。像我们一样的意识。
维特根斯坦曾经观察到,当语言放假时,当我们将普通言语的语法错误地应用于它不属于的语境时,哲学问题常常会出现。当我们将意图、信念或愿望归因于法学硕士时,这种误用正是我们所做的。语言对于人类来说是反映和传达思想的工具;对于法学硕士来说,它是经过优化以预测下一个单词的算法的输出。
将法学硕士称为“阴谋”或将其归因于动机是一种类别错误。丹尼尔·丹尼特(Daniel Dennett)可能将法学硕士称为“意向系统”,因为我们发现将意向赋予它们作为我们解释的一部分是有用的,即使这些意向是虚幻的。这种实用的拟人化帮助我们使用技术,但也引入了一种认识上的混乱:我们开始像对待思维一样对待模型,这样做时,就失去了其运作的非常真实、非常机械的基础。
这种不可思议的感觉还有更多的东西会产生后果。它鼓励对人工智能能力的高估和低估。一方面,人们想象着巨大的阴谋——人工智能密谋接管世界,就像 HAL 或天网一样。另一方面,怀疑论者将整个企业视为美化的自动完成,忽视了这些系统的真正实用性和复杂性。
正如维特根斯坦可能说过的,问题的解决不在于对意识进行理论化,而在于关注“智能”这个词的使用方式,并认识到它在哪里不适用。我们所说的人工智能智能并不是系统本身的属性,而是我们如何与其交互、如何将我们自己的意义投射到其输出上的反映。
确定模型是否能够以正确的方式和正确的结构回答您提出的问题非常重要。我认为这就是我们对所有无法用方程求解的大型复杂现象所做的处理。
我们以这种方式绘制公司地图,建立这样的组织,让你无法完全知道该组织将如何实现其出纳人的愿望。因此,查理·芒格有一句格言:“向我展示激励措施,我会告诉你结果”。当富国银行创建虚假账户来增加数字并获得奖金时,这并不是系统想要的行为,而只是它创建的行为。
我们也以这种方式管理整个经济。出于这个原因,哈耶克学派认为应该下放决策权。组织设计和经济政策只不过是让超级智能与我们所追求的目标保持一致的方法,知道我们无法知道这些决策的 n 阶效应,但知道我们可以控制它。
为什么我们可以控制它?因为它有能力,噢这么高的能力,但是它不是故意的。就像进化一样,它会起作用,但它没有有意指导其行为的倾向。这会改变测量的影响。
我们所做的并不是像用 LSAT 测试一个想成为律师的人那样测试一个实体。我们正在测试人类收集的话语,让它与我们对话。当你与互联网交谈时,互联网也会做出回应,虽然这告诉了我们很多关于我们自己和人类集体心理的信息,但它并没有告诉我们很多关于“我们称之为克劳德的存在”的信息。这是一种自我反思,而不是异种心理学。
感谢您阅读奇怪的循环佳能!免费订阅以接收新帖子并支持我的工作。
原文: https://www.strangeloopcanon.com/p/no-llms-are-not-scheming