今天,我们很高兴推出 ARC-AGI-2 来挑战新领域。 ARC-AGI-2 对于人工智能(特别是人工智能推理系统)来说更加困难,同时对于人类来说保持同样的相对容易性。纯法学硕士在 ARC-AGI-2 上的得分为 0%,而公共人工智能推理系统仅获得个位数的百分比分数。相比之下,ARC-AGI-2 中的每项任务都由至少 2 个人在 2 次尝试内解决。 […]
所有其他人工智能基准测试都通过测试“PhD++”技能来关注超人能力或专业知识。 ARC-AGI 是唯一采用相反设计选择的基准——通过专注于对人类来说相对容易,但对人工智能来说困难或不可能的任务,我们将注意力集中在那些不会从“扩展”中自发出现的能力差距上。
—格雷格·卡姆拉特,ARC-AGI-2
原文: https://simonwillison.net/2025/Mar/25/greg-kamradt/#atom-everything