一家名为 DeepSeek 的中国公司最近发布了一系列大型语言模型,这些模型与 OpenAI 和 Anthropic 等美国公司制作的模型几乎一样好,但制作成本更低。在许多媒体和科技界,这被视为一个划时代的事件——中美人工智能竞赛的“ 人造卫星时刻”。
与三周前的洛杉矶野火一样,DeepSeek 引发了一系列的焦虑、喊叫、糟糕的言论和其他社交媒体的表演。一些人气喘吁吁地宣称美国股市即将崩盘:
事实上,纳斯达克指数今年上涨了约 25%,并且比两周前的水平更高:
英伟达的股票确实受到了这一消息的打击。 Nvidia 销售 GPU,即用于训练人工智能模型的芯片。 DeepSeek 表明可以使用更少的 GPU 来训练 AI 模型;这导致许多投资者预测未来对英伟达芯片的需求将会减少。由于英伟达是世界上最有价值的公司之一,因此以美元计算,任何大幅下跌都会显得很大。但该公司的股价仅跌至去年 10 月的水平;在过去的一年里,截至撰写本文时,它仍然增长了 90% 以上:
事实上,正如许多人已经指出的那样,更有效的创建法学硕士的方法实际上可以增加对 Nvidia 芯片的需求,原因很简单。当某样东西变得更便宜时,人们会购买更多。因此,如果法学硕士的生产成本变得更便宜,人们就会租用法学硕士来完成更多任务。这将需要购买更多芯片——特别是因为较新的模型使用大量计算进行推理(即“思考”每个问题的答案)。 1
对英伟达芯片的需求是上升还是下降取决于效率的提高是否超过了对法学硕士的需求的增长。确实,之前效率的大幅提升似乎并没有对英伟达的估值造成太大影响。
其他人则宣称 DeepSeek 将为全球经济带来强劲动力。一位顶级宏观经济学家宣称,中国法学硕士的发布将被证明比电力或内燃机的发明更重要:
显然,不可能证明这种说法是错误的,但考虑到该模型的性能与 其他模型(包括其他中国制造的法学硕士)的性能大致相同,这似乎不太可能。 DeepSeek 具有革命性的想法是基于这样一个事实:它可以以更便宜的价格完成同样的事情。不过,尽管该公司似乎确实在这方面做出了一些真正的创新,但 Anthropic 首席执行官达里奥·阿莫迪 (Dario Amodei) 指出,这些创新与之前的成本下降大致一致。 LLM 是一个成本下降非常快的领域——没有理由认为 DeepSeek 代表了这种趋势的独特结构性突破,以至于我们应该将其与火或轮子的发明进行比较。
最后,关于中美竞争有很多很多的看法。 DeepSeek 可能确实与此相关,但这里的许多评论的末日语气都被夸大了。诸如《中国的DeepSeek是否意味着美国的AI已沉没?》等标题的文章层出不穷。 ”,而一位著名的人工智能评论员宣称,Facebook 通过将其人工智能开源,已经出卖了美国:
这有点傻, 2因为DeepSeek本身也是开源的;如果说 Facebook 削弱了美国在人工智能领域的“优势”,那么 DeepSeek 本身就是在削弱中国的“优势”。正如我将提出的,一个更合理的结论是,这里并没有太多的国家优势可以破坏——保持这种模型的专有性并不像其他技术领域那样有用或可行。
除了所有这些夸张的说法之外,还有许多关于 DeepSeek 的严肃辩论和猜测。其中包括 DeepSeek 的关键技术创新是什么、它实际使用哪些芯片来训练模型、训练实际成本是多少、DeepSeek 是否以及如何规避美国出口管制等问题。我不是人工智能专家,没有资格评价那些有趣的争论。
但即使不回答这些棘手的问题,我认为冷静、理性的外部观察者也可以在这里学到一些非常明显的教训,仅仅从一家随机的中国公司成功培养出前沿水平的开源法学硕士的事实来看。在我看来,早期的关键要点是:
-
法学硕士没有太多的“护城河”——很多人都能够做出非常好的这种类型的人工智能,无论任何人做什么。
-
美国可以通过放慢该领域进展来立法“人工智能安全”的想法现在注定要失败。
-
通过剥夺法学硕士的无形部分(算法秘密和模型权重)来与中国竞争是行不通的。
-
出口管制实际上是有效的,但中国会试图利用 DeepSeek 的炒作为特朗普提供取消出口管制的政治掩护。
LLM 没有太多护城河
原文: https://www.noahpinion.blog/p/some-simple-lessons-from-chinas-big