李飞飞团队仅需 50 美元即可训练 O1 级推理模型!
AI 社区一直在谈论 OpenAI 的O1 模型,该模型展示了出色的测试时间扩展和强大的推理能力。然而,到目前为止,O1 背后的方法仍未公开。斯坦福大学李飞飞领导的团队推出了S1 ,这是一种推理模型,它不仅可以复制甚至在某些情况下超越 O1 的性能,而且训练成本仅为 50 美元。
什么是测试时间缩放,为什么它很重要?
传统的人工智能模型通过增加训练计算来改进(例如,GPT 缩放法则)。然而,一种新的范例——测试时间缩放——通过在推理过程中分配更多计算来增强模型性能。策略性地使用测试时计算来动态改进答案,而不是使用大量数据集和昂贵的培训。 OpenAI 的 O1 暗示了这种潜力,但没有透露如何实现它。输入S1:一种极其简单且开放的测试时间扩展方法。
S1 的关键创新
S1 通过一些关键创新实现了令人印象深刻的推理能力。 S1 没有依赖大量数据集,而是仅根据1,000 个精心策划的推理样本 (s1K)进行了微调。另一个重大突破是预算强制,这是一种控制模型推理时间的技术,从而通过控制计算成本提高准确性。尽管使用最少的资源, S1-32B 在竞赛级数学问题(包括 AIME24 和 MATH500)上的表现优于 O1-preview 。
他们是怎么做到的?
S1 成功的基础在于其精心策划的数据集 (s1K) ,该数据集优先考虑质量而非数量。研究团队从 AIME、奥林匹克竞赛和博士级别问题等来源中选择了具有挑战性和多样化的问题,同时还从 Google Gemini 中提炼推理痕迹来加强其训练基础。他们没有从头开始训练模型,而是对公开模型Qwen2.5-32B-Instruct进行了微调,在16 个 NVIDIA H100 GPU 上仅用了 26 分钟就完成了该过程,计算成本仅为 50 美元。
S1 最有趣的方面之一是它的预算强制机制。通过调节模型推理的时间,S1 可以有效地双重检查自己的思维过程。如果模型试图过早终止推理,则会收到一个简单的“等待”命令提示,通常会导致自我纠正和更准确的答案。
S1 与 OpenAI 的 O1:对决
模型 | AIME24(数学) | 数学500 | GPQA(博士级科学) |
---|---|---|---|
S1-32B | 56.7% | 93.0% | 59.6% |
O1-预览 | 44.6% | 85.5% | 73.3% |
深寻R1 | 79.8% | 97.3% | 71.5% |
要点: S1 在数学竞赛中击败了 OpenAI 的 O1 预览版,同时仅使用1,000 个样本和简单的测试时间技巧。它是样本效率最高的开放推理模型。
为什么这很重要
S1 之所以重要有几个原因。它是OpenAI O1 的第一个完全开放的替代方案,提供对其代码、数据和模型权重的透明访问。此外,它还表明强大的人工智能模型不再需要数百万美元的计算资源——S1 只需50 美元即可实现类似的性能。更广泛地说,测试时间扩展挑战了更大的训练数据集总是会带来更好的模型的观念,证明更智能的推理技术也可以同样强大。
哪里可以试用 S1?
您可以在 GitHub 上找到完整的模型、数据集和代码:
该模型也可在 Hugging Face 上找到:
有关 S1 背后研究的更多详细信息,您可以阅读全文:
通过测试时间扩展和预算强制, S1 证明强大的推理不一定需要高昂的价格标签。这项工作可以重新定义我们构建和扩展下一代人工智能模型的方式。
你怎么认为?测试时间扩展是人工智能的未来吗?让我们在评论中讨论吧!
原文: https://atlassc.net/2025/02/08/s1-simple-test-time-scaling