S1：6 美元的 R1 竞争对手？ – 搞英语 → 看世界

S1：6 美元的 R1 竞争对手？

Tim Kellogg 在一篇新论文s1：简单的测试时间缩放中分享了他的笔记，该论文描述了一种在 Qwen2.5-32B-Instruct 之上进行微调的推理缩放模型，仅需 6 美元——在 16 个 NVIDIA H100 GPU 上运行 26 分钟的成本。

蒂姆强调了最令人兴奋的结果：

在将 56K 示例数据集筛选到最佳 1K 后，他们发现核心 1K 就足以在 32B 模型上实现 o1 预览性能。

该论文描述了一种称为“预算强制”的技术：

为了强制执行最小值，我们抑制思考结束标记分隔符的生成，并可选择将字符串“Wait”附加到模型的当前推理跟踪中，以鼓励模型反思其当前的生成

这与几周前Theia Vogel 所描述的一样。

这是Hugging Face 上的s1-32B模型。我在brittlewis12/s1-32B-GGUF找到了它的 GGUF 版本，我使用Ollama运行它，如下所示：

 ollama run hf.co/brittlewis12/s1-32B-GGUF:Q4_0

我还在simplescaling/s1K数据存储库中的 Hugging Face 上找到了这 1,000 个样本。

我使用 DuckDB 将 parquet 文件转换为 CSV（并将一个VARCHAR[]列转换为 JSON）：

 COPY ( SELECT solution, question, cot_type, source_type, metadata, cot, json_array(thinking_trajectories) as thinking_trajectories, attempt FROM 's1k-00001.parquet' ) TO 'output.csv' (HEADER, DELIMITER ',');

然后我将该 CSV 加载到sqlite-utils中，以便我可以使用convert命令使用json.dumps()和eval()将 Python 数据结构转换为 JSON：

 # Load into SQLite sqlite-utils insert s1k.db s1k output.csv --csv # Fix that column sqlite-utils convert s1k.db s1u metadata 'json.dumps(eval(value))' --import json # Dump that back out to CSV sqlite-utils rows s1k.db s1k --csv > s1k.csv

这是Gist 中的CSV，这意味着我可以将其加载到 Datasette Lite 中。

$Datasette Lite 的屏幕截图，显示 cot_type 1，填字游戏 15，链接：93，rowid：93，解决方案：“### 答案：事故室 ### 解释：定义：调查员设施 **字谜分析**（...更改）注意到轻微。定义：...在警察局。”问题文本：“解决填字游戏。您会看到一条线索作为输入，以及括号中的字母数量。”线索：“注意到调查员的设施 (8,4) 发生了微小变化” cot_type: crossword, source_type: 0xharib/xword1,metadata: { “instruction”: “您是神秘填字游戏的专家级解算者。您会收到一条线索作为输入。请回答答案和解释。” }$

这确实是少量的训练数据。主要是数学和科学，但也有15 个神秘的填字游戏示例。

标签: duckdb , datasette-lite ,推理缩放, ai , ollama , llms , datasette ,生成人工智能, qwen

原文： https://simonwillison.net/2025/Feb/5/s1-the-6-r1-competitor/#atom-everything