我认为人们并没有真正理解 ARC-AGI-1 的简单性以及解决它的真正含义。
它被设计为最简单、最基本的流体智力评估。未能通过意味着在不熟悉的情况下几乎完全无法适应或解决问题。
通过它意味着你的系统表现出非零的流体智能——你终于看到了一些不纯粹是记忆技能的东西。但它很少说明你的系统有多智能,或者它与人类智能有多接近。
标签: o1 、 evals 、生成人工智能、推理缩放、 francois-chollet 、 ai 、 llms
原文: https://simonwillison.net/2025/Jan/6/francois-chollet/#atom-everything