引用格雷格·卡姆拉特的话 – 搞英语 → 看世界

今天，我们很高兴推出 ARC-AGI-2 来挑战新领域。 ARC-AGI-2 对于人工智能（特别是人工智能推理系统）来说更加困难，同时对于人类来说保持同样的相对容易性。纯法学硕士在 ARC-AGI-2 上的得分为 0%，而公共人工智能推理系统仅获得个位数的百分比分数。相比之下，ARC-AGI-2 中的每项任务都由至少 2 个人在 2 次尝试内解决。 […]

所有其他人工智能基准测试都通过测试“PhD++”技能来关注超人能力或专业知识。 ARC-AGI 是唯一采用相反设计选择的基准——通过专注于对人类来说相对容易，但对人工智能来说困难或不可能的任务，我们将注意力集中在那些不会从“扩展”中自发出现的能力差距上。

—格雷格·卡姆拉特，ARC-AGI-2

标签：评估,人工智能

原文： https://simonwillison.net/2025/Mar/25/greg-kamradt/#atom-everything