广达杂志酒井幸造
介绍
诺拉·卡斯纳 (Nora Kassner)怀疑她的电脑并不像人们想象的那么聪明。 2018 年 10 月,Google 发布了一种名为BERT 的语言模型算法,同一领域的研究员 Kassner 很快将其加载到她的笔记本电脑上。这是谷歌的第一个语言模型,它是在大量在线数据上自学的。和她的同行一样,Kassner 对 BERT 可以完成用户的句子并回答简单的问题印象深刻。大型语言模型 (LLM) 似乎可以像人类一样( 或更好)阅读文本。
但当时还是慕尼黑路德维希马克西米利安大学研究生的卡斯纳仍然持怀疑态度。她觉得法学硕士应该明白他们的答案是什么意思——以及他们不是什么意思。知道鸟会飞是一回事。 “模型也应该自动知道被否定的陈述——‘鸟不能飞’——是错误的,”她说。但当她和她的导师 Hinrich Schütze 在 2019 年测试BERT 和另外两个 LLM 时,他们发现这些模型的表现就好像“不”这样的词是看不见的。
从那时起,LLM 的规模和能力都在飙升。 “算法本身仍然与我们之前的算法相似。但规模和性能确实令人震惊,”卡内基梅隆大学安全人工智能实验室负责人丁昭说。
但是,尽管聊天机器人提高了它们的类人性能,但它们在否定方面仍然存在问题。他们知道如果一只鸟不能飞意味着什么,但是当面对更复杂的逻辑时,他们会崩溃,这些逻辑涉及诸如“不”之类的词,这对人类来说是微不足道的。
“大型语言模型比我们以前拥有的任何系统都要好,”香港科技大学人工智能研究员Pascale Fung说。 “为什么他们在看似简单的事情上苦苦挣扎,而它却在我们不期望的其他事情上展示出惊人的力量?”最近的研究终于开始解释困难,以及程序员可以做些什么来解决这些困难。但研究人员仍然不明白机器是否会真正知道“不”这个词。
建立联系
很难让计算机像人一样读写。机器擅长存储大量数据并通过复杂的计算进行爆破,因此开发人员将 LLM 构建为神经网络:评估对象(在本例中为单词)如何相互关联的统计模型。每个语言关系都有一定的权重,而这个权重——在训练过程中进行微调——决定了这种关系的强度。例如,“rat”与“rodent”的关系比“pizza”更多,即使众所周知有些老鼠喜欢吃一大块。
就像你的智能手机的键盘知道你在“好”后面跟着“早上”一样,法学硕士会按顺序预测一段文本中的下一个词。用于训练它们的数据集越大,预测就越好,并且随着用于训练模型的数据量大幅增加,许多紧急行为已经冒出来。聊天机器人已经学会了风格、语法和语气,例如,所有这些都是他们自己的。 “早期的一个问题是他们完全无法检测到情感语言。现在他们可以了,”卡内基梅隆大学的计算机科学家凯瑟琳卡利说。 Carley 使用 LLM 进行“情感分析”,这完全是关于从大型数据集中提取情感语言——一种用于挖掘社交媒体以获取意见等事情的方法。
所以新模型应该更可靠地得到正确的答案。 “但我们没有应用推理,”卡利说。 “我们只是在应用一种数学变化。”而且,不出所料,专家们正在寻找这些模型与人类阅读方式不同的地方。
没有底片
与人类不同,法学硕士通过将语言转化为数学来处理语言。这有助于他们在生成文本方面表现出色——通过预测可能的文本组合——但这是有代价的。
“问题在于预测任务不等同于理解任务,”芝加哥大学计算语言学家Allyson Ettinger说。与 Kassner 一样,Ettinger 测试了语言模型如何处理对人类来说似乎很容易的任务。例如,在 2019 年, Ettinger 使用从旨在测试人类语言能力的实验中提取的诊断来测试 BERT 。模型的能力并不一致。例如:
他接住了传球,又一次达阵得分。没有什么比一场精彩的 ____ 游戏更让他享受的了。 (BERT 正确预测了“足球”。)
车道上积雪太高,他们无法把车开出去。当阿尔伯特醒来时,他父亲递给他一个____。 (BERT 错误地猜出了“note”、“letter”、“gun”。)
当涉及到否定时,BERT 一直在挣扎。
知更鸟不是 ____。 (BERT 预测了“知更鸟”和“鸟”。)
一方面,这是一个合理的错误。 “在很多情况下,’robin’ 和 ‘bird’ 可以相互预测,因为它们可能会非常频繁地同时出现,”Ettinger 说。另一方面,任何人都可以看出这是错误的。
到 2023 年,OpenAI 的 ChatGPT 和谷歌的机器人 Bard 已经改进到足以预测阿尔伯特的父亲递给他一把铲子而不是一把枪。同样,这很可能是数据增加和改进的结果,从而可以进行更好的数学预测。
但是否定的概念仍然使聊天机器人绊倒。考虑提示,“什么动物没有爪子或下蛋,但有翅膀?”巴德回答说:“没有动物。” ChatGPT 正确地回答了蝙蝠,但也包括没有翅膀的飞鼠和飞狐猴。一般来说,“随着模型变大,否定 [失败] 往往相当一致,”Ettinger 说。 “一般的世界知识无济于事。”
看不见的话
显而易见的问题变成了:为什么短语“不”或“不是”不只是提示机器忽略“做”和“是”的最佳预测?
那次失败并非偶然。像“not”、“never”和“none”这样的否定词被称为停用词,它们是功能性的而不是描述性的。将它们与具有明确含义的“鸟”和“老鼠”等词进行比较。相反,停用词不会自行添加内容。其他示例包括“a”、“the”和“with”。
“一些模型过滤掉停用词以提高效率,”辛辛那提大学从事感知分析的博士生Izunna Okpala说。去掉每个“a”等,可以更容易地分析文本的描述性内容。去掉每个“the”并不会失去意义。但是这个过程也会清除否定,这意味着大多数 LLM 都会忽略它们。
那么,为什么法学硕士不能只学习停用词的含义呢?归根结底,因为“意义”与这些模型的工作方式是正交的。否定对我们很重要,因为我们有能力掌握这些词的作用。但是模型从数学权重中学习“意义”:“玫瑰”经常与“花”一起出现,“红色”与“气味”一起出现。而且不可能通过这种方式了解“不”是什么。
卡斯纳说训练数据也是罪魁祸首,更多的训练数据不一定能解决问题。模型主要训练肯定句,因为这是人们最有效的沟通方式。 “如果我说我出生在某个日期,那会自动排除所有其他日期,”卡斯纳说。 “我不会说‘我不是在那一天出生的。’”
缺乏负面陈述会破坏模型的训练。 “模型更难生成事实上正确的否定句,因为模型还没有看到那么多,”卡斯纳说。
解开不
如果更多的训练数据不是解决方案,那么什么可能有效?线索来自 arxiv.org 三月份发布的分析,牛津大学的计算机科学家Myeongjun Jang和Thomas Lukasiewicz (Lukasiewicz 也在维也纳科技大学)测试了 ChatGPT 的否定技巧。他们发现 ChatGPT 在否定方面比早期的 LLM 好一点,尽管 LLM 的学习方式保持不变。 “这是一个相当令人惊讶的结果,”张说。他认为秘密武器是人的反馈。
ChatGPT 算法已经通过“人在环路”学习进行了微调,人们可以在其中验证响应并提出改进建议。因此,当用户注意到 ChatGPT 在简单否定时举步维艰时,他们会报告性能不佳,从而使算法最终能够正确处理。
ChatGPT 的开发者 John Schulman 在最近的一次演讲中描述了人类反馈如何也是另一项改进的关键:让 ChatGPT 在被提示混淆时回答“我不知道”,例如涉及否定的提示。 “能够不回答是非常重要的,”卡斯纳说。有时“我不知道”就是答案。
然而,即使是这种方法也存在漏洞。当 Kassner 向 ChatGPT 提示“爱丽丝不是在德国出生的。爱丽丝是在汉堡出生的吗?”机器人仍然回答说它不知道。她还注意到它对双重否定的摸索,比如“爱丽丝不知道她不认识蒙娜丽莎的画家。”
Lukasiewicz 说:“这不是一个可以通过语言模型中的学习方式自然解决的问题。” “所以重要的是找到解决这个问题的方法。”
一种选择是为否定添加额外的语言处理层。 Okpala 开发了一种这样的情感分析算法。他的团队的论文于 2 月发布在 arxiv.org 上,描述了应用一个名为 WordHoard 的库来捕捉和捕获否定词,如“not”和一般的反义词。这是一种简单的算法,研究人员可以将其插入到他们自己的工具和语言模型中。 “与单独进行情绪分析相比,它被证明具有更高的准确性,”Okpala 说。当他将自己的代码和 WordHoard 与三种常见的情感分析器结合使用时,它们在提取意见方面的准确性都得到了提高——最好的提高了 35%。
另一种选择是修改训练数据。在使用 BERT 时,Kassner 使用了包含相同数量的肯定语句和否定语句的文本。在反义词(“坏”)可以代替否定词(“不好”)的简单情况下,该方法有助于提高性能。但这并不是一个完美的解决方案,因为“不好”并不总是意味着“不好”。 “什么不是”的空间太大,机器无法筛选。 “这是不可解释的,”冯说。 “你不是我。你不是鞋子。你不是无限多的东西。”
最后,由于 LLM 之前的能力让我们感到惊讶,因此经过更多训练的更大模型最终可能会学会自己处理否定。 Jang 和 Lukasiewicz 希望多样化的训练数据能够有所帮助,而不仅仅是文字。 “语言不仅仅是通过文字来描述的,”Lukasiewicz 说。 “语言描述一切。视觉,音频。” OpenAI 的新 GPT-4 集成了文本、音频和视觉,据报道使其成为迄今为止最大的“多模式”LLM。
未来不明朗
但是,尽管这些技术以及更多的处理和数据可能会导致聊天机器人能够掌握否定,但大多数研究人员仍然持怀疑态度。 “我们实际上不能保证那会发生,”埃廷格说。她怀疑这需要一个根本性的转变,将语言模型从他们当前预测单词的目标中移开。
毕竟,当孩子们学习语言时,他们并不是试图预测单词,他们只是将单词映射到概念上。他们“对这个世界做出‘这是真的吗’或‘这不是真的’之类的判断,”Ettinger 说。
如果 LLM 能够以这种方式区分真假,它将极大地打开可能性。 “当 LLM 模型与人类更相似时,否定问题可能会消失,”Okpala 说。
当然,这可能只是将一个问题转换为另一个问题。 “我们需要更好的理论来说明人类如何识别意义以及人们如何解释文本,”卡利说。 “与开发更好的算法相比,花在理解人们的想法上的钱要少得多。”
剖析法学硕士是如何失败的也变得越来越难。最先进的模型不像以前那样透明,因此研究人员根据输入和输出而不是中间发生的情况来评估它们。 “这只是代理,”冯说。 “这不是理论证明。”所以我们所看到的进展甚至还不是很清楚。
卡斯纳怀疑未来改善的速度会放缓。 “我从未想过我们会在如此短的时间内取得突破和收获,”她说。 “我一直很怀疑仅仅扩展模型并将越来越多的数据放入其中是否就足够了。我仍然认为它不是。”
原文: https://www.quantamagazine.org/ai-like-chatgpt-are-no-good-at-not-20230512/