H100 受到了芯片禁令的禁止,但 H800 却没有受到禁止。每个人都认为训练前沿模型需要更多的芯片间内存带宽,但这正是 DeepSeek 优化其模型结构和基础设施的原因。
再次强调这一点,DeepSeek 在该模型设计中所做的所有决定只有在您仅限于 H800 时才有意义;如果 DeepSeek 能够访问 H100,他们可能会使用更大的训练集群,而专门针对克服带宽不足的优化则要少得多。
— Ben Thompson ,DeepSeek 常见问题解答
标签: deepseek ,人工智能, GPU , Nvidia
原文: https://simonwillison.net/2025/Jan/28/ben-thompson/#atom-everything