Anthropic 首席执行官(之前是 OpenAI 的 GPT-2/GPT-3 开发负责人)Dario Amodei 关于 DeepSeek 的文章包含了过去几年 AI 开发的许多有趣背景。
Dario 是 2020 年原始扩展定律论文的作者之一,他详细讨论了有关扩展训练的最新想法:
该领域不断提出大大小小的想法,使事情变得更加有效或高效:它可能是对模型架构的改进(对当今所有模型使用的基本 Transformer 架构的调整),或者只是一个在底层硬件上更有效地运行模型的方法。新一代硬件也有同样的效果。这通常会改变曲线:如果创新是 2 倍“计算乘数”(CM),那么它可以让您以 500 万美元而不是 1000 万美元的价格获得编码任务的 40%;或者 5000 万美元而不是 1 亿美元的 60%,等等。
他认为 DeepSeek v3 虽然令人印象深刻,但代表了基于当前缩放定律的模型的预期演变。
[…] 即使您从表面上看 DeepSeek 的训练成本,它们充其量只是趋势,甚至可能还不是。例如,这比原始 GPT-4 到 Claude 3.5 Sonnet 推理价格差异 (10 倍) 的陡峭程度要小,并且 3.5 Sonnet 是比 GPT-4 更好的模型。所有这一切都表明 DeepSeek-V3 并不是一个独特的突破,也不是从根本上改变 LLM 经济学的东西;这是持续成本降低曲线上的预期点。这次不同的是,最先展示预期成本降低的公司是中国公司。
Dario 包含了有关 Claude 3.5 Sonnet 的详细信息,我以前从未在任何地方看到过这些信息:
- Claude 3.5 Sonnet“训练花费了几千万美元”
- 3.5 Sonnet “没有以任何涉及更大或更昂贵模型的方式进行训练(与一些谣言相反)” – 我见过这些谣言,它们涉及 Sonnet 是更大的、未发布的 3.5 Opus 的蒸馏版本。
- Sonnet 的训练是在“9-12 个月前”进行的 – 大约在 2024 年 1 月到 4 月之间。如果您向 Sonnet 询问其训练截止时间,它会告诉您“2024 年 4 月” – 这是令人惊讶的,因为大概截止时间应该是在该培训期开始时?
这里的总体信息是 DeepSeek v3 的进步符合我们期望现代模型如何改进的总体趋势,包括训练成本的显着下降。
Dario 对 DeepSeek R1 印象不太好,称其“从创新或工程角度来看,不如 V3 有趣”。我喜欢这个脚注:
我怀疑 R1 受到如此多关注的主要原因之一是它是第一个向用户展示模型所展示的思想链推理的模型(OpenAI 的 o1 只显示最终答案)。 DeepSeek 表明用户觉得这很有趣。需要明确的是,这是一个用户界面选择,与模型本身无关。
文章的其余部分主张继续对中国进行芯片出口管制,其基础是,如果未来的人工智能开启“科学技术的极快进步”,美国需要先行一步,因为他担心“人工智能的军事应用”技术”。
标签: anthropic 、 openai 、 deepseek 、 ai 、 llms 、生成式 AI 、推理缩放、 o1
原文: https://simonwillison.net/2025/Jan/29/on-deepseek-and-export-controls/#atom-everything