OpenAI 的新 o3 系统在 ARC-AGI-1 公共训练集上进行训练,在我们规定的公共排行榜 1 万美元计算限制的半私人评估集上取得了突破性的 75.7% 成绩。高计算 (172x) o3 配置得分为 87.5%。
这是人工智能能力中令人惊讶且重要的阶跃函数增强,显示出 GPT 系列模型中从未见过的新颖的任务适应能力。就背景而言,ARC-AGI-1 用了 4 年时间从 2020 年 GPT-3 的 0% 上升到 2024 年 GPT-4o 的 5%。所有关于 AI 功能的直觉都需要针对 o3 进行更新。
[…] 注意:OpenAI 要求我们不要公布高计算成本。计算量大约是低计算配置的 172 倍。
— François Chollet ,ARC 奖联合创始人
标签: o1 ,生成式人工智能,推理缩放, francois-chollet ,人工智能, llms , openai , o3
原文: https://simonwillison.net/2024/Dec/20/francois-chollet/#atom-everything