在昨天神秘发布了未记录的模型权重之后,DeepSeek v3 论文(和模型卡)已经发布。
这里有很多有趣的细节。该模型对 14.8 万亿个“高质量且多样化的代币”进行了预训练(未另行记录)。
接下来,我们在 DeepSeek-V3 的基础模型上进行后训练,包括监督微调(SFT)和强化学习(RL),以使其符合人类偏好并进一步释放其潜力。在训练后阶段,我们从DeepSeek-R1系列模型中提炼推理能力,同时小心地保持模型精度和生成长度之间的平衡。
到目前为止,最有趣的细节是培训费用是多少。 DeepSeek v3 在 H800 GPU 上训练了 2,788,000 个小时,估计成本为 5,576,000 美元。相比之下,Meta AI 的 Llama 3.1 405B(比 DeepSeek v3 的 685B 参数小)的训练时间是后者的 11 倍,即 30,840,000 个 GPU 小时,同时也使用了 15 万亿个代币。
DeepSeek v3 基准测试与 Claude 3.5 Sonnet 相当,这表明现在可以以不到 600 万美元的价格训练前沿级模型(至少对于 2024 年版本的前沿)!
DeepSeek 还公布了他们的 API 定价。 2月8日起:
输入:0.27 美元/百万代币(0.07 美元/百万代币,缓存命中)
产出:1.10 美元/百万代币
Claude 3.5 Sonnet 目前的输入价格为 3 美元/百万美元,输出价格为 15 美元/百万美元,因此,如果模型确实具有同等质量,那么这将是正在进行的 LLM 定价战中的一个戏剧性的新转折。
标签: deepseek 、训练数据、 llms 、 ai 、生成人工智能、 llm 定价、 llama 、元
原文: https://simonwillison.net/2024/Dec/26/deepseek-v3/#atom-everything