Jeffrey Emanuel 的长篇精彩文章捕捉了 AI/LLM 行业的现状。最初的标题是“Nvidia 股票的简短案例”——我在这里使用了 Hacker News 的替代标题,但即便如此,我还是觉得这篇文章的卖点不够。
杰弗里在计算机科学和投资分析方面拥有罕见的经验。他在这里将这两个世界结合起来,通过提供对一系列相关且有趣的主题的深入见解来评估 NVIDIA 的挑战。
正如 Jeffrey 所描述的,NVIDA 的护城河由四个部分组成:高质量的 Linux 驱动程序、作为行业标准的 CUDA、他们于 2019 年从Mellanox获得的快速 GPU 互连技术以及他们可以投资巨额利润(75-90%)的飞轮效应。在某些情况下,利润!)投入更多研发。
其中每一个都受到威胁。
MLX 、Triton 和 JAX 等技术使 ML 开发人员更容易瞄准多个后端,从而削弱了 CUDA 的优势 – 而且法学硕士本身也有足够的能力帮助将事物移植到替代架构。
GPU 互连可帮助多个 GPU 协同工作来完成模型训练等任务。像 Cerebras 这样的公司正在开发巨大的芯片,可以在单个芯片上完成更多的工作。
75-90% 的利润率为其他公司追赶提供了巨大的动力 – 包括目前在 NVIDIA 上花费最多的客户 – 微软、亚马逊、Meta、谷歌、苹果 – 所有这些公司都有自己的内部芯片项目:
现在,Nvidia 的超大规模客户群存在强大的幂律分布,这已不是什么秘密,少数顶级客户代表了高利润收入的最大份额。当这些 VIP 客户中的每一位都在专门为人工智能训练和推理构建自己的定制芯片时,人们应该如何思考这一业务的未来?
本文真正的乐趣在于它以相对容易理解的方式描述了现代法学硕士的技术细节。与传统 Transformer 相比,我喜欢 O1 和 R1 使用的推理缩放技巧的描述:
基本上,变形金刚在每一步预测下一个标记的工作方式是,如果它们在最初的响应中开始走上一条糟糕的“路径”,它们就会变得几乎像一个搪塞的孩子,试图编造一个故事来解释为什么他们会这样做。实际上是正确的,即使他们应该在中途使用常识意识到他们所说的不可能是正确的。
因为模型总是寻求内部一致,并且让每个连续生成的标记自然地从前面的标记和上下文中流动,所以它们很难纠正和回溯。通过将推理过程有效地分成许多中间阶段,他们可以尝试很多不同的事情,看看什么是有效的,并不断尝试修正路线并尝试其他方法,直到他们能够达到相当高的置信度阈值,确信自己没有效果。胡说八道。
文章的最后一个季度讨论了由DeepSeek v3 和 R1 引起的当前行业震动。尽管 v3 的训练效率比竞争对手高出约 45 倍,但它仍然是排名最高的开放权重模型:如果您销售 GPU,那么这是个坏消息! R1 代表了训练和推理效率的另一个巨大突破 – DeepSeek R1 API 目前比 OpenAI 的 o1 便宜 27 倍,但质量水平相似。
Jeffrey 总结了v3 论文中的一些关键思想,如下所示:
一项重大创新是其复杂的混合精度训练框架,允许他们在整个训练过程中使用 8 位浮点数 (FP8)。 […]
DeepSeek 通过开发一个巧妙的系统解决了这个问题,该系统将数字分解为用于激活的小块和用于权重的块,并在网络中的关键点策略性地使用高精度计算。与其他实验室进行高精度训练然后进行压缩(在此过程中损失一些质量)不同,DeepSeek 的原生 FP8 方法意味着他们可以在不影响性能的情况下节省大量内存。当您在数千个 GPU 上进行训练时,每个 GPU 内存需求的大幅减少意味着总体上需要的 GPU 数量大大减少。
然后对于R1 :
借助 R1,DeepSeek 基本上破解了人工智能的圣杯之一:让模型在不依赖大量监督数据集的情况下逐步推理。他们的 DeepSeek-R1-Zero 实验展示了一些非凡的东西:使用纯强化学习和精心设计的奖励函数,他们成功地让模型完全自主地开发复杂的推理能力。 […]
这里的技术突破是他们新颖的奖励建模方法。他们没有使用可能导致“奖励黑客”的复杂神经奖励模型(模型找到虚假的方法来提高奖励,但实际上并不会带来更好的现实世界模型性能),而是开发了一个聪明的基于规则的系统将准确性奖励(验证最终答案)与格式奖励(鼓励结构化思维)结合起来。事实证明,这种更简单的方法比其他人尝试过的基于流程的奖励模型更加强大和可扩展。
这篇文章充满了类似的见解 – 值得花时间吸收整篇文章。
通过黑客新闻
标签: cerebras 、 nvidia 、生成式人工智能、 deepseek 、 ai 、 llms 、 mlx 、推理缩放
原文: https://simonwillison.net/2025/Jan/27/deepseek-nvidia/#atom-everything