人工智能系统需要多长时间才能在没有人工干预的情况下承担很长的任务?
这是一个对生产力、自动化和未来工作具有重大影响的问题。 METR 评估公司最近的一项分析表明,人工智能维持任务执行的能力正在快速提高。人工智能可以自主完成的任务长度每七个月就会增加一倍。如果这一趋势持续下去,到 2027 年,现成的人工智能可以以 50% 的成功率处理 8 小时的工作日。
想象一下,如果一名工厂工人现在只能进行 10 分钟轮班工作,但三年内可以不间断地完成 8 小时轮班工作。这就是人工智能可能走的轨迹。
这是一个大胆的主张。这不仅来自外部观察家,主要人工智能实验室的内部人士,包括 Anthropic联合创始人贾里德·卡普兰 (Jared Kaplan ),也表达了类似的期望。我非常认真地对待他们的主张。他们可以访问模型、数据和新兴的扩展趋势。无论是正式讨论还是休闲对话,2027 年(有时是 2028 年)都会不断出现。
这意味着什么?如果人工智能能够可靠地执行长时间任务,它将重塑各个行业,从知识工作到自动化密集型领域。但这种趋势真的像看起来那样不可避免吗?这些系统需要有多可靠才能真正实现变革?
任务长度和成功率的概念很重要。 GPT-3 擅长两秒或三秒的任务:它在提取句子中的名词或实体方面非常可靠。 GPT-3.5 可能会达到几十秒;以平庸的方式解析一个段落。我们这些使用 o1 或 Sonnet 的人知道我们可以向他们扔更复杂的任务。
METR对该测试的性质规定了明确的界限:
每个任务的指令都设计得明确,理解该任务所需的附加上下文最少……由人类机器学习或软件工程师执行的大多数任务往往需要引用先前的上下文,这些上下文可能不容易紧凑地描述,并且不包含明确指定的模块化任务
更:
与此相关的是,每个任务都带有一个易于描述的算法评分函数。在许多现实世界中,定义这样一个明确的评分函数即使不是不可能,也是很困难的。我们所有的任务都涉及通过容器化环境与软件工具或互联网进行交互。它们还被设计为自主执行,不需要与人类或其他代理交互。
METR 的研究重点是具有明确评分功能的模块化、明确定义的任务——这些条件并不总是适用于现实场景。
这些任务需要具有多大的通用性?人工智能系统已经擅长执行国际象棋分析或异常检测等任务,这些任务需要人类花费数小时的时间才能在几分钟内完成。想想 Stockmaster,国际象棋引擎。或者任何检测金融数据中异常模式的机器学习系统。 METR 选择了比那些狭隘案例更普遍的任务。
我们需要什么级别的性能? 50% 的成功率并不能真正与人类的努力相提并论。虽然人类远非完美,但在大多数工作情况下,我们的目标可能是大于一半的机会。
一位Twitter X 用户可视化了 METR 的数据,以对数刻度绘制了 80%、95% 和 99% 的准确率。结果显示出一个明显的趋势:较低的准确度阈值会迅速提高,而达到近乎完美的性能 (99%) 则遵循一条更慢、更费力的曲线。这加大了实现人工智能输出高可靠性的挑战。
这是帕累托关系。达到 80% 的准确率相对较快,到 2028 年可能可以完成四个小时的任务,而达到 99% 的准确率则需要付出指数级的努力,从而进一步推迟时间表。这种差异影响了对人工智能实际部署的期望。
即使是一个快速、便宜且准确率达到 50% 的系统也可以改变游戏规则——只要我们能够快速检查它的工作情况。如果它犯了错误,我们可以要求它重做一次或将其发送到一个可能更慢但更可靠的系统(比如人类)。当然,如果我们不能廉价地评估其工作,那么评估成本(以美元或时间为单位)可能会使其变得不经济。
另一方面,80% 准确率的东西看起来像是一个可靠系统的公平构建块。
不可阻挡的经济学
我对一项名义上的四小时任务进行了一些餐巾纸数学计算。
-
假设每项任务需要 1,000,000 个代币,价格约为 10 美元。 (代币成本正在下降,但我们现在就使用它。)
-
每项任务都必须由人工验证,可能使用一些正式的验证软件。该验证需要 15 分钟。
-
如果任务没有正确完成,则需要人类来完成。这需要四个小时。
-
人类的满载成本是每小时 100 美元。
手动执行 1,000 项此类任务需要花费 4,000 个工时或 400,000 美元。
那么人工智能呢?
原文: https://www.exponentialview.co/p/how-soon-will-ai-work-a-full-day