衡量人工智能的进步变得越来越困难

智能手机上的 ChatGPT 应用程序界面在这张照片插图中，一个人在智能手机上导航 ChatGPT 应用程序界面，选择 AI 模型选项。

到 2024 年底，我对有关人工智能的“扩展法则”是否遇到现实生活中的技术障碍的所有讨论提出了看法。我认为这个问题并不像许多人想象的那么重要：现有的人工智能系统强大到足以深刻改变我们的世界，未来几年将由人工智能的进步来定义，无论缩放定律是否成立。

对人工智能进行预测总是一件冒险的事情，因为你很快就会被证明是错误的。当你对来年的预测没有实现时，作为一名作家，这已经够尴尬的了。当你对下周的预测被证明是错误的时？那真是太糟糕了。

但在我写完那篇文章后不到一周，OpenAI 的年终系列发布就包括了他们最新的大型语言模型 (LLM) o3 。 o3 并没有完全揭穿用于定义人工智能进步的缩放定律在未来不再那么有效的说法，但它明确地揭穿了人工智能进步正在碰壁的说法。

o3 真的非常非常令人印象深刻。事实上，为了理解它有多么令人印象深刻，我们必须稍微偏离一下我们如何测量人工智能系统的科学。

机器人标准化测试

如果您想比较两种语言模型，您需要测量它们在一组以前从未见过的问题上的性能。这比听起来更难——因为这些模型在训练过程中被输入了大量的文本，所以他们之前已经见过大多数测试。

因此，机器学习研究人员所做的就是为人工智能系统建立基准测试，让我们可以将它们直接相互比较，并与人类在一系列任务中的表现进行比较：数学、编程、阅读和解释文本等等。有一段时间，我们在美国数学奥林匹克竞赛（一项数学锦标赛）以及物理、生物和化学问题上测试了人工智能。

问题在于，人工智能的进步速度太快，以至于基准测试变得毫无价值。一旦人工智能在基准测试上表现得足够好，我们就说基准测试已经“饱和”，这意味着它不再能有效地区分人工智能的能力，因为它们都获得了近乎完美的分数。

2024 年是一个又一个人工智能能力基准像太平洋一样饱和的一年。我们过去常常根据物理、生物和化学基准（称为 GPQA）来测试人工智能，该基准非常困难，即使是相应领域的博士生，得分通常也低于 70%。但人工智能现在的表现比拥有相关博士学位的人类更好，因此这并不是衡量进一步进展的好方法。

在数学奥林匹克预选赛上，这些模型现在也跻身顶尖人类之列。名为 MMLU 的基准旨在衡量对许多不同领域的问题的语言理解。最好的模型也已经饱和了这一点。一个名为 ARC-AGI 的基准测试本来是非常非常困难的，它可以衡量一般类人智能，但 o3（针对该任务进行调整后）在该测试上取得了令人震惊的 88% 的成绩。

我们总是可以创造更多的基准。（我们正在这样做——ARC-AGI-2 很快就会公布，而且应该会更加困难。）但按照人工智能的进步速度，每个新基准充其量也只能持续几年。对于我们这些不是机器学习研究人员的人来说，也许更重要的是，基准越来越多地必须衡量人工智能在人类无法自己完成的任务上的表现，以描述他们能够做什么和不能做什么。

是的，人工智能仍然会犯愚蠢而烦人的错误。但是，如果您已经六个月没有关注了，或者如果您主要只使用在线提供的语言模型的免费版本（这些版本远远落后于前沿），那么您就高估了他们犯了多少愚蠢而烦人的错误，并低估了他们完成艰巨、智力要求高的任务的能力。

看不见的墙

本周，加里森·拉弗利（Garrison Lovely）在《时代》杂志上指出，人工智能的进步与其说是“碰壁”，不如说是变得看不见，主要是以人们没有注意到的方式取得了突飞猛进的进步。（我从未尝试过让人工智能来解决精英编程、生物学、数学或物理问题，而且也无法判断它是否正确。）

任何人都可以区分 5 岁孩子学习算术和高中生学习微积分之间的区别，因此这些点之间的进步看起来和感觉上都是有形的。我们大多数人都无法真正区分一年级数学本科生和世界上最天才的数学家之间的区别，因此人工智能在这些点之间的进步并不明显。

但这种进步实际上是一件大事。人工智能真正改变我们世界的方式是，将曾经由人类完成的大量智力工作自动化，而三件事将推动其实现这一目标的能力。

一是越来越便宜。 o3 取得了惊人的结果，但思考一个难题并给出答案可能要花费超过 1000 美元。然而，中国DeepSeek的年底发布表明，或许可以非常便宜地获得高质量的性能。

第二个是我们与它交互的方式的改进。与我谈论人工智能产品的每个人都相信，在我们如何与人工智能互动、人工智能如何检查自己的工作以及我们如何设置哪个人工智能用于哪个任务方面，还有大量的创新需要实现。您可以想象一个系统，其中通常由中间层聊天机器人完成工作，但当您的问题需要时可以在内部调用更昂贵的模型。这都是产品工作而不是纯粹的技术工作，这就是我在 12 月警告的，即使所有人工智能进展都停止，这也将改变我们的世界。

第三是人工智能系统变得更加智能——尽管有很多关于撞墙的声明，但看起来他们仍然在这样做。最新的系统更擅长推理，更擅长解决问题，并且通常更接近于成为各个领域的专家。在某种程度上，我们甚至不知道它们有多聪明，因为一旦我们不再真正能够使用针对人类专业知识的测试，我们仍在努力找出如何测量它们。

我认为这是未来几年的三大决定性力量——这就是人工智能的重要性。不管喜欢与否（我自己也不太喜欢；我认为这个改变世界的过渡根本没有得到负责任的处理）这三个人中没有一个碰壁，而且三个中的任何一个都会足以持久地改变我们生活的世界。

这个故事的一个版本最初出现在未来完美时事通讯中。在这里注册！

原文： https://www.vox.com/future-perfect/394336/artificial-intelligence-openai-o3-benchmarks-agi