原声带:蜂巢 – 不想说我告诉过你
在过去一周左右,尤其是周末,整个生成式人工智能行业陷入了混乱。
这不会是一篇冗长的技术性文章——尽管会有一些不可避免的技术复杂性,只是因为主题的性质需要它。相反,我将解决房间里的大象,即为什么西方科技巨头都被打得措手不及。
简而言之,最近的人工智能泡沫(尤其是其背后的数千亿支出)取决于这样一种想法:我们需要更大的模型,这些模型都在更大甚至更大的 GPU 上进行训练和运行,这些 GPU 几乎完全由 NVIDIA 出售,并基于微软和谷歌等公司拥有的越来越大的数据中心。人们预计情况总是如此,生成式人工智能将始终需要大量能源和计算,因此成本极其昂贵。
但随后,一家鲜为人知的中国人工智能公司 DeepSeek 推出了多种模型,这些模型不仅与 OpenAI 竞争,而且在几个有意义的方面削弱了它们。 DeepSeek 的模型都是开源的,而且效率显着提高(运行成本降低了 30 倍),甚至可以在相对普通的硬件上本地运行。
结果,市场陷入恐慌,因为人工智能泡沫的整个叙述是,这些模型必须昂贵,因为它们是未来,这就是为什么超大规模企业不得不燃烧 2000 亿美元的基础设施资本支出来支持生成OpenAI 和 Anthropic 等人工智能公司。有另一种方法可以做到这一点的想法——事实上,我们不需要花那么多钱,只要任何超大规模企业考虑一种不同的方法,而不是“在问题上投入尽可能多的钱”——简单地说没有被考虑。
然后,一个局外人颠覆了传统的理解,或许还废黜了一位美国科技皇室成员——他塑造了一个即使不是个人崇拜,也是无可争议的远见卓识的公众形象,将引领科技领域的先锋。自互联网出现以来最大的技术变革。当然,我说的是萨姆·奥尔特曼。
DeepSeek 只是一个局外人,但它是一家从一家非常非常小的对冲基金的副业项目崛起的公司(至少按照对冲基金的标准),其创始团队的名气和知名度远不及奥特曼。羞辱。
最重要的是,DeepSeek 最大、最丑陋的侮辱是,它的模型 DeepSeek R1 与 OpenAI 极其昂贵的 o1“推理”模型具有竞争力,但运行成本却低得多(96%~),甚至可以在本地运行。与我认识的一些开发人员交谈时,他们能够在配备 M1 芯片的 2021 款 MacBook Pro 上运行 DeepSeek 的 R1 模型。更糟糕的是,DeepSeek 的模型可以免费使用,其源代码在 MIT 许可证下发布,以及对其制作方式的研究(尽管不是训练数据),这意味着它们可以进行调整并用于商业用途无需版税或费用。
相比之下,OpenAI 一点也不开放,其最后一个在 MIT 许可下发布的 LLM 是 2019 年的 GPT-2。
不,等等。让我纠正一下。 DeepSeek 最大、最丑陋的秘密是,它显然瞄准了 OpenAI 产品组合中的每一个元素。由于该公司已经占据了头条新闻,它悄悄放弃了 Janus-Pro-7B 图像生成和分析模型,该公司表示该模型的性能优于 StableDiffusion 和 OpenAI 的 DALL-E 3。并且,与其其他代码一样,也可以免费使用商业和个人用户都一样,而OpenAI 大部分是付费的 Dall-E 3 。
这是愤世嫉俗、粗俗版本的《大卫与歌利亚》,一家由一家影子中国对冲基金支持、管理着 55 亿美元资金的科技初创公司,在某种程度上是勇敢的暴发户,而与这家由一家上市科技公司支持的价值 1500 亿美元的笨拙、亏损、愚蠢的初创公司相比,这家科技初创公司在某种程度上是勇敢的暴发户。市值达3.2万亿美元。
DeepSeek 的 V3 模型与 OpenAI 的 GPT 4o 和 Anthropic 的 Claude Sonnet 3.5 模型(具有一些推理功能)相当(且具有竞争力),在使用公司自己的云服务时运行成本要低 53 倍。而且,如上所述,该模型实际上免费供任何人使用(在本地或在自己的云实例中),并且如果他们愿意,任何商业企业都可以采用并转化为自己的产品。
从本质上讲,DeepSeek——我将了解它的背景以及人们可能对其中国起源的担忧——发布了两个模型,这些模型的性能与 OpenAI 和 Anthropic 的模型有竞争力(甚至击败),并降低了它们的价格,并使它们成为可能开放,不仅损害了最大的生成式人工智能公司的经济,而且还暴露了它们的运作方式。最后一点对于 OpenAI 的推理模型尤为重要, 它特意隐藏了自己的思维链,担心“不安全的想法”可能“操纵客户”,然后低声嘀咕,真正的原因是它是一个“竞争优势。”
让我们完全明确的是:OpenAI 相对于 Meta 和 Anthropic 的唯一竞争优势是其“推理”模型(o1 和 o3,目前处于研究预览阶段)。虽然我提到 Anthropic 的 Claude Sonnet 3.5 模型有一些推理功能,但它们比 o1 和 o3 中的那些功能相对更初级。
在人工智能环境中,推理的工作原理是将提示分解为一系列不同的步骤,并“考虑”不同的方法——有效地,大型语言模型在不涉及思考的情况下检查其工作,因为这些模型不“思考” ”或“知道”的东西。 OpenAI 去年急于推出其 o1 推理模型,因为(我引用《财富》杂志)的内容,Sam Altman“ 渴望在公司最新一轮融资中向潜在投资者证明 OpenAI 仍然处于人工智能开发的最前沿。”而且,正如我当时指出的那样,它并不是特别可靠,无法准确计算字母“r”在“草莓”一词中出现的次数。
在这一点上,很明显 OpenAI 还远远没有接近“人工智能开发的前沿”,而且现在它的竞争优势实际上已经消失了,人们对该公司的下一步发展感到真正的怀疑。
正如我将要谈到的,DeepSeek 的故事有许多值得怀疑的部分——它的资金、它拥有什么 GPU,以及它在训练这些模型上实际花费了多少——但我们明确了解的事实对 OpenAI 来说是个坏消息,而且,我认为,过去几年里所有其他追随生成式人工智能潮流的美国大型科技公司都是如此。
DeepSeek 的模型确实存在,它们有效(至少,按照容易产生幻觉的法学硕士的标准,这些法学硕士不知道这个词的真正含义,冒着重复自己的风险),它们已经被独立验证为它们在性能上具有竞争力,而且价格比超大规模提供商(例如:Google 的 Gemini、Meta 的 Llama、Amazon Q 等)以及 OpenAI 和 Anthropic 的产品便宜得多。
DeepSeek 的模型不需要大量的新数据中心(它们在目前用于运行 ChatGPT 等服务的 GPU 上运行,甚至可以在更简朴的硬件上运行),也不需要每年源源不断地供应更大、更快的 NVIDIA GPU进步。整个人工智能泡沫的膨胀是基于这样的前提:如果不消耗大量现金、给电网带来压力、 超出排放目标,这些模型根本不可能建立起来,而这些都是创造“强大人工智能”的必要成本。
显然,事实并非如此。现在市场正在问一个非常合理的问题:“我们刚刚浪费了 2000 亿美元吗?”
什么是 DeepSeek?
首先,如果你想深入了解 DeepSeek, 我强烈推荐 VentureBeat 的文章。我将大量引用它,因为它提供了非常简洁且解释良好的背景,值得称赞。
首先,介绍一下 DeepSeek 如何取得今天的成就的一些背景知识。 DeepSeek 是 2023 年从中国对冲基金 High-Flyer Quant 分拆出来的公司,它首先为其专有的聊天机器人开发人工智能模型,然后将其发布供公众使用。人们对该公司的确切方法知之甚少,但它很快就开源了其模型,而且该公司极有可能是建立在 Meta 生成的开放项目的基础上的,例如 Llama 模型和 ML 库 Pytorch。
为了训练其模型,High-Flyer Quant 在美国出口限制之前获得了 10,000 多个 Nvidia GPU,据报道,尽管存在贸易壁垒,但仍通过替代供应路线将 GPU 数量扩大到 50,000 个。这与 OpenAI、Google 和 Anthropic 等领先的人工智能实验室相比相形见绌,这些实验室各自运行着超过 500,000 个 GPU。
现在,您可能已经看到或听说过 DeepSeek“以 560 万美元训练其最新模型”,我想澄清的是,所有提到的这个数字都是估计值。事实上,“558 万美元”这个数字似乎是引用了 NVIDIA 工程师 Jim Fan 在《南华早报》的一篇文章中发表的一篇文章,该文章链接到《南华早报》的另一篇文章,该文章只是声明“DeepSeek V3 拥有 6710 亿个参数,训练时间约为两个月,成本为 558 万美元”,没有任何其他引用。因此,服用时应加少许盐。
虽然有些人估算了成本(据其论文称,DeepSeek 的 V3 模型据称使用 2048 个 NVIDIA h800 GPU 进行训练), 但正如 Stratechery 的 Ben Thompson 明确指出的那样,“550 万美元”的数字仅涵盖了该模型的字面训练成本。 V3 的官方训练运行(这在论文中已经说得很清楚了!),这意味着与先前关于如何构建模型的研究或实验相关的任何成本都被忽略了。
虽然可以肯定地说 DeepSeek 的模型训练成本更便宜,但实际成本(尤其是 DeepSeek 不共享其训练数据,有些人可能会认为这意味着它的模型并不是真正开源的)有点难以猜测。尽管如此,Thompson(我和科技行业的很多人都非常尊敬他)详细阐述了 DeepSeek 描述训练模型的具体方式如何表明它正在解决出售给 NVIDIA GPU 的内存受限问题。中国(NVIDIA 因美国出口管制而无法销售其最强大的硬件,因为担心这些硬件将有助于推进该国的军事发展):
事情是这样的:我上面解释的大量创新都是为了克服使用 H800 而不是 H100 所带来的内存带宽不足的问题。而且,如果你真的算了一下上一个问题,你会发现 DeepSeek 实际上有多余的计算能力;这是因为 DeepSeek 实际上对每个 H800 上 132 个处理单元中的 20 个进行了编程,专门用于管理跨芯片通信。这在CUDA中实际上是不可能做到的。 DeepSeek 工程师不得不转向 PTX,这是一种用于 Nvidia GPU 的低级指令集,基本上类似于汇编语言。这是一种疯狂的优化水平,只有使用 H800 才有意义。
DeepSeek 的模型——V3 和 R1——效率更高(因此运行成本更低),并且可以通过其 API 访问,价格比 OpenAI 的便宜得多。 DeepSeek-Chat — 运行 DeepSeek 的 GPT-4o 竞争性 V3 模型 — 每 100 万个输入代币成本为 0.07 美元(如给予模型的命令),每 100 万个输出代币成本为 1.10 美元(如模型的最终输出),这是一个惊人的价格OpenAI 对 GPT-4o 的收费为每 100 万个输入代币 2.50 美元和每 100 万个输出代币10 美元。 DeepSeek-Reasoner——它的“推理”模型——每 100 万个输入代币的成本为 0.55 美元,每 100 万个输出代币的成本为 2.19 美元,而 OpenAI 的 o1 模型每 100 万个输入代币的成本为 15 美元,每 100 万个输出代币的成本为 60 美元。
现在,这里有一个非常明显的“但是”。我们不知道 DeepSeek 在哪里托管其模型,谁有权访问该数据,或者该数据来自或去向。我们甚至不知道 DeepSeek 的资金来源是谁,只知道它与 2023 年从其分拆出来的对冲基金 High-Flyer 有关。有人担心 DeepSeek 可能是由国家资助的,而 DeepSeek 的低价是一种地缘政治武器,打破美国生成人工智能产业的后盾。
我不知道是否是这样。毫无疑问,中国长期以来一直将人工智能视为其国家产业政策的战略组成部分,据报道,中国正在帮助那些希望赶上西方世界的领域的企业。据报道,“中国制造2025 ”计划向芯片制造、航空,当然还有人工智能等行业的中国企业提供了数千亿美元的资金。支持的程度并不完全透明,因此 DeepSeek 并非完全不可能接受国家援助。好消息是我们很快就会找到答案。美国人工智能基础设施公司 Groq 已经将 DeepSeek 的模型上线,这意味着我们至少可以确认这些价格是否现实,或者是否得到了 DeepSeek 支持者的大力补贴。
DeepSeek 确实由一家对冲基金拥有,该基金可能并不缺乏资金来注入该企业。
旁白:考虑到 OpenAI 是数百万云计算积分的捐助者,并且微软 Azure 云服务的价格有所降低,他们很难抱怨竞争对手得到了有能力承担成本的更大实体的补贴。做生意,应该是这样的。是的,我知道微软不是一个国家,但它的市值高达 3.2 万亿美元,季度收入比一些欧盟和北约国家的 GDP 总和还要高,它是仅次于的好东西。
除了 DeepSeek 本身提供的低价之外,无论对中国的恶意影响有什么担忧,都近乎无关紧要,而且目前这也只是猜测。一旦这些模型被托管在其他地方,并且一旦重新创建 DeepSeek 的方法(我很快就会介绍)(这不会花很长时间),我相信我们会看到这些价格表明这些模型的运行成本有多低。
到底怎么便宜这么多?
这是一个非常好的问题,因为我就是我,所以我有一个假设:我不相信制作基础模型的公司(例如 OpenAI 和 Anthropic)会被激励用更少的钱做更多的事情,因为他们与超大规模企业几乎完全专注于“使用最大、最大的芯片,制造最大、最大的模型”,而且由于缺乏盈利能力并没有阻止他们筹集更多资金,因此效率对他们来说从来不是一个主要问题。
让我用更简单的话来说:想象一下每月靠 1,500 美元生活,然后想象一下你每月靠 150,000 美元生活,你必须,布鲁斯特的百万美元风格,花尽可能多的钱来完成使命“过你的生活。”在前一个例子中,你关心的是生存——你的钱是有限的,必须尽可能地利用它,你花的每一块钱都要做出真正的牺牲。在后者中,你会被激励去挥霍,倾向于过度,去追求“生活”的模糊职责。你的行动不是由任何存在的威胁——或者实际上是未来的计划——决定的,而是由你认为“生存”的机会决定的。
OpenAI 和 Anthropic 象征着当生存退居“生活”之后会发生什么。他们受到泡沫风险资本和公共市场的激励,迫切需要下一个大增长市场来构建更大的模型并出售更大的梦想,就像Anthropic 的达里奥·阿莫代 (Dario Amodei) 所说,你的人工智能“可能在几乎所有事情上超越几乎所有人类”“不久之后” 2027 年。” OpenAI 和 Anthropic 都靠着《模拟人生》的无限金钱骗局而生存,两家公司每年在收入后损失数十亿美元,但仍在运营,就好像钱永远不会用完一样。如果他们担心这一点,他们肯定会尝试做 DeepSeek 所做的事情,但他们没有必要这么做,因为他们都拥有无尽的现金,并且可以使用微软、亚马逊或谷歌的 GPU。
OpenAI 和 Anthropic 从来没有被逼得流汗,从科技和商业媒体那里获得了无数的免费营销,他们乐于刊登他们所说的任何乏味的废话,随意筹集资金( Anthropic 目前又筹集了 20 亿美元,公司估值为 600 亿美元) ),所有这些都是出于“我们需要比任何公司以前需要的更多的钱,因为我们正在做的事情必须花费这么多钱”的叙述。
我认为他们是否意识到有一些方法可以使他们的模型更加高效?当然。 OpenAI 在 2023 年尝试(但失败了)向 Microsoft 提供更高效的模型。我确信 Anthropic 和 OpenAI 都有专门致力于让事情“更高效”的团队。但他们没有必要这样做,所以他们没有这样做。
正如我之前写过的,OpenAI 只是烧钱,一直被允许烧钱,直到最近可能还被允许烧更多的钱,因为每个人——所有美国模型开发者——似乎都同意开发大型语言模型的唯一方法是使模型尽可能大,然后解决一些麻烦的事情,例如“让它们有利可图”,我认为这是“AGI发生”的时候,他们仍在处理这一事情定义。
另一方面,DeepSeek 必须找到一种方法,在可以合法销售到中国的 NVIDIA 芯片受到限制的情况下制作自己的大型语言模型。正如 Stratechery 的 Thompson 所解释的那样, 虽然在中国存在着一个利用经销商和其他方销售芯片的家庭手工业,以将受限制的芯片带入中国,但 DeepSeek 开发模型的整个方式表明,它正在努力解决非常重要的问题。特定的内存带宽限制(意味着可以输入和输出芯片的数据量)。从本质上讲,少花钱多办事不是它选择的事情,而是它必须做的事情。
虽然 DeepSeek 确实有可能不受限制地使用美国芯片,但它所做的实际工作(在 V3 模型附带的 研究论文中有详细记录)在很大程度上表明它是在较低内存带宽的限制下工作的。基本上,它无法在芯片周围移动尽可能多的数据,这是一个问题,因为 GPU 在人工智能中如此有用的原因是它们可以同时移动大量数据,然后并行处理它(同时运行多个任务)。较低的带宽意味着较少的数据移动,这意味着训练和推理等任务需要更长的时间。
因此,它必须要有创意。 DeepSeek 结合了多种不同的方法来减少在任何给定时间加载到内存中的模型量。这包括使用专家混合架构(其中模型被分为不同的“专家”,处理不同类型的输入和输出——类似于 OpenAI 的 GPT-4o 所做的技术)和多头潜在注意力,其中 DeepSeek 压缩密钥值缓存(将其视为大型语言模型将其生成的输入到目前为止处理的所有内容记录下来的地方)到称为“潜在向量”的东西中。本质上,它不是写下所有信息,而是缓存它认为最重要的信息。
简而言之,DeepSeek 的方法将大型语言模型分解为一系列不同的专家(模型的专家部分)来处理特定的输入和输出,并且它找到了一种在不牺牲性能的情况下对其缓存的信息量采取捷径的方法。是的,这里有一个更复杂的解释,但这是为了让你有一个参考框架。
还有训练数据的情况——以及另一个过失。我之前讨论过模型崩溃的概念,以及如何将合成数据(由人工智能而不是人类创建的训练数据)提供给人工智能模型最终会教它养成坏习惯,但 DeepSeek 似乎成功地训练了它的模型。使用生成数据的模型,但专门针对受试者( 引用 GeekWire 的 Jon Turow )“…就像正确性明确的数学”,并使用“…高效的奖励函数,可以识别哪些新的训练示例实际上可以改进模型,避免浪费对冗余数据进行计算。”
似乎已经奏效了。尽管模型崩溃仍然是可能的,但这种方法(极其精确地使用合成数据)与我从法学硕士开发人员那里听到的一些针对模型崩溃的防御措施是一致的。这也是我们不知道其确切训练数据的情况,并且它并不能否定之前关于模型崩溃的任何观点。合成数据可能适用于您可以在 TI-83 计算器上计算出输出的情况,但是当您遇到更模糊的内容(例如书面文本或任何带有分析元素的内容)时,您可能会开始遇到不愉快的副作用..
关于 DeepSeek从哪里获得这些数据也存在一些流言蜚语。 Stratechery 的 Ben Thompson 表示 DeepSeek 的模型有可能“提炼”其他模型的输出——通过这种方式。我的意思是让另一个模型(例如 Meta 的 Llama 或 OpenAI 的 GPT-4o, 这就是 DeepSeek 在某一时刻将自己标识为 ChatGPT 的原因)专门输出输出来训练 DeepSeek 的部分内容。
蒸馏是从另一个模型中提取理解的一种方法;您可以将输入发送到教师模型并记录输出,然后使用它来训练学生模型。这就是从 GPT-4 获得 GPT-4 Turbo 等模型的方法。对于公司来说,在自己的模型上进行蒸馏更容易,因为他们拥有完全访问权限,但您仍然可以通过 API 以某种更笨拙的方式进行蒸馏,或者甚至,如果您有创意,可以通过聊天客户端进行蒸馏。
蒸馏显然违反了各种模型的服务条款,但阻止它的唯一方法是通过 IP 禁止、速率限制等实际切断访问。它被认为在模型训练方面很普遍,这就是为什么有越来越多的模型趋于 GPT-4o 质量。这并不意味着我们知道 DeepSeek 蒸馏出了 4o 或 Claude,但坦率地说,如果他们不这样做那就奇怪了。
据英国《金融时报》报道,OpenAI 已发现“证据”表明 DeepSeek 使用 OpenAI 的模型来训练其竞争对手,尽管它没有提出任何正式指控,但确实表示使用 ChatGPT 来训练竞争模型违反了其服务条款。投资者、特朗普政府人工智能和加密货币沙皇大卫·萨克斯表示,这种情况“有可能”发生,尽管他未能提供证据。
就我个人而言,我真心希望OpenAI 将矛头指向 DeepSeek,指责其窃取知识产权,纯粹是因为虚伪。这是一家纯粹靠对个人创作者和互联网用户制作的内容进行大规模工业盗窃而存在的公司,现在却担心竞争对手窃取自己的商品?
多哭点吧,奥特曼,你这个讨厌的小虫子。
那么,为什么每个人都吓坏了?
正如我多次写过的那样,OpenAI、Anthropic、Google 和 Meta 等公司运行的大型语言模型是无利可图且不可持续的,而且它们运行的基于 Transformer的架构已经达到顶峰。他们的训练数据即将耗尽,而这些模型的实际能力 早在 2024 年 3 月就已达到顶峰。
尽管如此,我错误地认为没有办法提高它们的效率,因为我也错误地认为超大规模企业(以及 OpenAI 和 Anthropic)将不断寻找降低毁灭性成本的方法他们的服务。毕竟, OpenAI 在 2024 年损失了 50 亿美元(收入也达到了 37 亿美元!) ,而Anthropic 则在 2024 年损失了不到 30 亿美元。
我没有打赌的是,可能没有人尝试。我的错误是——如果你能相信的话——对人工智能公司过于慷慨,假设他们不追求效率是因为他们不能,而不是因为他们不愿意被打扰。
你看,DeepSeek 之前的现状是有几个事实允许该党继续前进:
- 这些模型的训练成本极其高昂——2024 年中期需要1 亿美元,未来模型则高达 10 亿美元——因此,训练未来模型需要在数据中心和 GPU 上花费数十亿美元,以继续训练更大的模型。
- 这些模型必须很大,因为让它们变大——向它们注入大量训练数据并进行大量计算——将解锁新功能,例如“人工智能可以帮助我们完成比没有人工智能时所能完成的更多的事情” ”,比如拥有“ 一个由不同领域的虚拟专家组成的个人人工智能团队,共同创造几乎任何我们能想象到的东西。”
- 这些模型的运行成本非常昂贵,但这是值得的,因为使这些模型变得强大比使其高效更重要,因为“一旦硅的价格下降”(我从多个不同的人那里听到过这样的说法)捍卫生成式人工智能的毁灭性成本)我们将拥有这些强大的模型,由于硅的存在,这些模型更便宜。
- 由于需要制造更大、更大的模型、最强大的模型、又大又漂亮的模型,我们当然需要继续购买更大、更强大的 GPU,这将延续 American Excellence™。
- 通过遵循这一路线图,“每个人”都会获胜——超大规模企业获得了创建更多庞大数据中心并花费大量资金所需的理由,OpenAI 及其同类继续致力于“构建强大的模型”,而 NVIDIA 则继续致力于“构建强大的模型”。卖 GPU 赚钱。这是一种以抄袭和傲慢为基础的资本主义死亡崇拜,其假设是在某些时候所有这些都会有意义。
现在,我已经争论了一段时间,认为后一个计划是疯狂的——这些大型语言模型没有盈利途径,因为我相信根本没有办法让这些模型更高效。
在某种程度上,我是对的。当前由超大规模企业(Gemini、Llama 等)和 OpenAI 和 Anthropic 等价值数十亿美元的“初创公司”开发的模型效率极低,我刚刚犯了一个错误,认为他们实际上试图使他们更有效率。
我们所目睹的是美国科技行业最狂妄的行为——为那些几乎没有意识的所谓“创新”管理者树立了一座纪念碑,他们无法打破“竞争”的原则,即每个人都生产相同的产品,对数量相同,并且大多在同一方向上“创新”。
不知怎的,没有人——谷歌、微软、OpenAI、Meta、亚马逊、甲骨文——想到尝试,或者有能力创造像 DeepSeek 这样的东西,这并不意味着 DeepSeek 的团队特别出色,或者发现了任何新东西。但对于所有的人才、数万亿美元的市值以及美国科技寡头所谓的专业知识来说,没有一个明亮的火花想到尝试 DeepSeek 尝试过的事情,这似乎是“如果我们不使用作为大量内存,如果我们尝试合成数据会怎样。”
而且由于模型开发和推理的成本是如此天文数字,他们从未认为有人会试图篡夺他们的地位。考虑到中国将人工智能作为其工业优先事项的战略组成部分已不是什么秘密——即使它支持国内企业的方式是秘密,这一点尤其糟糕。就像汽车行业被中国电动汽车制造商打了个措手不及一样,同样的情况现在也发生在人工智能领域。
肥胖、快乐、懒惰,最重要的是,美国最强大的科技公司却袖手旁观,建造了更大、更混乱的模型,这些模型由庞大的数据中心和数十亿美元的 NVIDIA GPU 提供支持,这种疯狂的支出 给我们的能源网格带来了压力并耗尽了能源。我们的水资源储备似乎并没有过多考虑是否有可能采取替代方案。我不相信这些公司中没有一家能够做到这一点——这意味着他们要么选择不这样做,要么就是太短视了,太兴奋了,为了追求进一步增长而烧了这么多钱,烧了地球这么多地方,以至于他们没想去尝试。
这与中国无关——如果我们让它与中国有关的话,事情就容易多了——这是关于美国科技行业是如何缺乏好奇、懒惰、自以为是、漫无目的和不负责任的。 OpenAi 和 Anthropic 是硅谷的对立面。他们是现任者、穿着初创公司服装的上市公司,不愿意接受真正的挑战,更关注光学和营销,而不是解决问题,甚至是他们自己用大型语言模型制造的问题。
通过让这个“关于中国”,我们忽视了问题的根源——美国科技行业不再对制造帮助人们的优秀软件感兴趣。
DeepSeek 不应该让他们害怕,因为他们应该先想出它。它使用更少的内存、更少的资源,并使用几种奇怪的解决方法来适应有限的可用计算资源——所有你以前与硅谷联系在一起的东西,除了硅谷的唯一兴趣,就像美国科技行业的其他公司一样,是腐烂经济。它不惜一切代价关心增长,即使这些成本很容易减轻,或者这些成本最终会弄巧成拙。
需要明确的是,如果所有这些公司根本没有提出这个想法,那么这本身就是对硅谷的严厉控诉。没有人思考过这个问题吗?如果是的话,为什么萨姆·奥尔特曼、达里奥·阿莫代、萨蒂亚·纳德拉或其他任何人不投入大量资源来提高效率?是因为没有理由吗?老实说,是因为这些公司之间没有真正的竞争吗?除了向模型投入尽可能多的计算和训练数据之外,还有人尝试过其他方法吗?
这一切都是如此愤世嫉俗,与创新本身背道而驰。当然,如果这些狗屎都很重要 – 如果生成的AI在这些公司眼中确实是有效且可行的,那么他们将积极地努力做类似DeepSeek的事情。
不要误会我的意思,似乎DeepSeek采用了各种怪异的技巧来制作这项工作,包括利用CPU和GPU的不同部分来创建虚拟数字处理单元,从本质上重新定义了在运行的服务器中如何通信数据培训和推理。它必须做一家拥有不受限制的资本和设备不必使用的公司。
然而,Openai和Anthropic都有足够的钱和雇用能力,可以尝试并成功地创建一种有效且能够在较旧的GPU上运行的模型,除了他们实际想要的是更加狂暴的增长,并且有机会建立更大的数据的机会以更多的计算为中心。 Openai已承诺为“星际之门”数据中心提供190亿美元的资金,尽管这可能会通过进一步的债务和股权提高来提高,尽管事实上可能已经在筹集了另一回合的过程中,因为我们是为了保留债务公司漂浮。
Openai和Google或Microsoft一样懒惰,笨拙,这也是如此。其“操作员”“代理”的推出是个笑话,这是一种勉强功能的产品,据称是为了控制您的计算机并采取不同的操作,但似乎行不通。凯西·牛顿(Casey Newton)是一个如此刻薄的人,以至于我想尖叫,当然写道,这是一个“引人入胜的示威”,“代表了一个非凡的技术成就”,以某种方式也是如此,“比某种程度上更慢,更令人沮丧,更昂贵,而且比只是自己完成这些任务。”
当然,凯西(Casey)对DeepSeek有一些想法 – 有理由担心,但是“ 美国AI实验室仍然处于领先地位”,他说DeepSeek是“仅优化Openai和其他人首先发明的技术,”在说“直到上周,Openai才能为Pro计划用户可以使用自身的计算机才能使用”,该声明实际上是不正确的。
坦率地说:这些公司不是在建造狗屎。 Openai和Anthropic都围绕着“可能的代理人”的想法,试图筹集更多的钱来燃烧,而DeepSeek推出后,我不得不想知道任何投资者认为他们正在投资什么。
Openai不能简单地将DeepSeek“添加”到其模型中,即使不仅是用于光学器件。这将是一个让步。这是它滑倒并需要赶上的,而不是成为主要竞争对手,或者是另一家庞大的科技公司,而是在上周末之前很少有人听说过的公司。反过来,这将使任何投资者都三思而后行,这是空白的支票 – 正如我所说的那样,这可能是致命的,因为Openai需要不断地筹集更多的资金而且它没有破裂的途径。
如果Openai想要自己更便宜,更有效的模型,它可能必须从头开始创建它,虽然它可以使用OpenAi自己的型号进行蒸馏以使其“更像Openai”,但这实际上就是DeepSeek已经有效的做过。即使有Openai的更大的团队和更强大的硬件,也很难看到创建一个较小,效率更高且几乎是O1的版本如何使该公司受益,因为所说的版本已经通过DeepSeek,感谢DeepSeek几乎可以肯定会有很大的竞争,该产品至今仍缺乏任何真正的杀手应用程序。
而且,再次,任何人都可以在DeepSeek已经建立的基础上建立。 Openai的护城河在哪里?人类的护城河在哪里?真正使这些公司价值60亿美元或1500亿美元的事情是什么?他们拥有的技术是什么,或者他们拥有的才能证明这些估值是什么,因为很难说他们的模型再有价值。
名人,也许?如前所述,奥特曼(Altman)是一个巧妙的牛头人,他从正确的地方建立了职业,建立了正确的联系,并确切地知道该说些什么 – 尤其是对无脊柱或倾向的无私的技术媒体,他更幻想的主张。而且, Altman已经试图摆脱DeepSeek的崛起,承认“ DeepSeek的R1是一个令人印象深刻的型号”,尤其是在效率方面,“ [OpenAi]显然会提供更好的模型,而且它的合法性使得拥有一个合法的模型新竞争对手!”
他以“期待带给你所有的Agi及以后”的结尾 – 我补充说,这一直在Altman世界的地平线上,尽管奇怪的是尚未实现,甚至接近实现。
本质上,奥特曼(Altman)是科技的穆罕默德·赛义德·萨哈夫(Muhammad Saeed Al-Sahhaf) – 萨达姆时代的伊拉克信息部长,当艾布拉姆斯坦克进入巴格达和枪声时,可以在后台听到枪声,宣布一个完全反面的世界,在这里,联盟部队weren”仅仅输了,但美军“ 在巴格达大门上自杀。”它很可爱,是的,也可以理解,但是没有人应该(或可以)相信Openai不仅遭受了某种形式的生存伤口。
DeepSeek已经商品化了大型语言模型,同时发布了源代码和构建自己的指南。是否有人选择支付DeepSeek在很大程度上是无关紧要的 – 其他人将采取自己的创造并建造自己的东西,或者人们将开始运行自己的DeepSeek实例,从各种云计算公司之一租用GPU。
尽管NVIDIA会找到其他赚钱的方法 – Jensen Huang总是会这样做 – 对于任何超级评分者来说,这将是一件很难的销售,可以证明在GPU上花费数十亿美元的市场是合理的,这些市场现在知道,现在知道可以为一小部分而建立的几乎相同的模型旧硬件的成本。你为什么需要布莱克韦尔? “这是建立强大模型的唯一途径”的叙述不再含水,而它唯一的卖点是“如果中国人做某事怎么办?”
好吧,中国人做了一些事情,现在他们已经证明他们不仅可以与美国AI公司竞争,而且可以有效地这样做,以至于他们可以有效地崩溃。
目前尚不清楚这些模型是否会盈利 – 正如所讨论的那样,尚不清楚谁资助了DeepSeek,以及其当前的价格是否可持续 – 但是它们可能比Openai鞭打的任何东西都更有盈利。毕竟,Openai在每笔交易中都损失了钱, 即使是每月200美元的“ Chatgpt Pro”订阅。而且,如果Openai降低了与DeepSeek竞争的价格,那么它的损失只会加深。
正如我上面说的那样,这一切都是如此愤世嫉俗,因为很明显,这都不是关于生成AI的扩散,或者确保生成的AI“可访问”。
抛开我的个人信念一秒钟,很明显,这些公司为什么不想创建诸如DeepSeek之类的东西 – 因为创建一个使用较少资源的开源模型意味着Openai,Anthropic及其相关的超级评分会失去他们的软垄断大型语言模型。
我会解释一下。
在DeepSeek之前,要建立一个具有竞争力的大语言模型(就像您可以商业化的模型一样)需要大量的资本,并有效地要求您亲吻微软,Google或Amazon的戒指。虽然尚不清楚培训OpenAI的O1推理模型的成本, 但我们知道GPT-4O的成本约为1亿美元,而O1作为一个更复杂的模型,可能会花费更多。
我们还知道,OpenAI在2024年的培训和推理成本约为70亿美元,这意味着精炼当前模型或建立新模型的成本是相当昂贵的。
Openai和Anthropic的神话是这些大量资本不仅是必要的,而且是这样做的唯一方法。尽管这些公司表面上是“竞争”,但他们似乎都不关心这样做,因为实际生产的产品更便宜,更有效地运行,因为这样做会破坏创造唯一的途径,即创建“”强大的人工智能”是将数十亿美元交给两家公司之一,并建立巨大的数据中心来建立更大的语言模型。
这是人工智能的腐烂经济 – 两家伐木公司声称自己是创业公司创造的叙述,“建立未来”的唯一途径就是继续增长,建立更多的数据中心,建立更大的语言模型,以消费更多的培训数据,随着每次注入资本,GPU购买和数据中心的建设,都会创造出基础设施护城河,这总是会导致一些技术高度标准之一。
Openai和Anthropic需要叙述来说“购买更多GPU并建立更多的数据中心”,因为这样做会创造基础设施垄断的条件,因为术语 – 忘记了“构建软件”,这些软件可以“做东西”第二秒 – 隐含的是,较小的玩家无法进入市场”。
请记住,这些公司都没有根据实际生产的产品来销售自己。大型语言模型本身就是一种相当平淡的软件产品,这就是为什么我们尚未看到任何杀手级应用程序的原因。对于投资者或公共市场而言,这并不是一个特别令人兴奋的推销,因为没有可以指向的产品,创新或商业模式,如果他们实际上尝试将其制成并将其转变为业务,那么这很明显指出,生成AI的确没有数万亿美元的行业。
确实,请查看对Microsoft在Office 365用户(个人和商业)上对副驾驶的强力组装的反应。没有人说:“哇,太好了。”很多人问:“为什么我不在乎的产品被大幅收费?”
OpenAI仅赚取27%的收入,从销售对其型号的访问(年度经常性收入约为10亿美元),其余的(27亿美元左右)来自订阅到Chatgpt。如果您忽略了炒作,OpenAI和Anthropic是无聊的软件业务,这些软件业务具有无利可图的,不可靠的产品, 容易幻觉的产品及其新产品(例如Openai’s Sora) 花费了太多钱来运行和火车,以获取成果,以获得结果,很好,很好,吮吸。即使是Openai的推动, 随着Chatgpt Gov的释放,也不太可能扭转其惨淡的命运。
Openai和Anthropic可以做的唯一的事情就是向市场出售一个关于它尚未建立的东西的故事( 例如AI会以某种方式使人类的寿命加倍),并非常亲密( 或完全说),构建这些唯一的方法是 – 事情是为了使他们的公司数十亿美元,并且扩展到了大型标准将不得不继续向NVIDIA汇集数十亿美元,并建立数据中心,以期使这个数字崩溃,希望这个美妙,美丽和美丽,美丽和完全虚构的世界将实现。
为了使这个 *不仅仅是一个无聊的软件业务,OpenAI和人类所需的模型,以使其更大,而故事始终只有一种建设未来的方法,它花费了数千亿美元,并且只有最大的天才(所有人都在同一两个或三个地方工作)才能做到这一点。
深认识后,实际上没有一个令人信服的论点,即在数据中心投资数千亿美元,购买新的GPU,甚至在目前持有大型语言模型。通过其研究论文,有可能详细解释了如何与Openai领先的模型建立具有竞争力的模型,并且假设您不仅仅是在DeepSeek发行的模型中构建。
它还严重质疑您要在各种订阅中支付Openai的费用 – 其中大多数(除了每月200美元的“ Pro”订阅除外)对您可以使用Openai最先进的推理的数量有艰巨的限制模型。
我们确实知道的一件事是,OpenAI和Anthropic现在必须降低访问其模型的价格,甚至可能会降低其订阅成本。我认为,尽管O1和DeepSeek的R1推理模型之间的价格差异很大,但对OpenAI和人类的真正危险是DeepSeek V3,它与GPT-4O竞争。
DeepSeek的叙事转变不仅仅是整个LLM商品化的商品化,还商品化了由另外三个垄断者支持的两位垄断者经营的最昂贵的转变。
从根本上讲,魔术已经死了。山姆·奥特曼(Sam Altman)或达里奥·阿莫迪(Dario Amodei)的头部没有光环,因为他们唯一的真正论点是“我们是唯一可以做到这一点的人,”这是没有人首先相信的。
到目前为止,人们认为这些模型之所以如此昂贵的原因是因为它们必须是,我们必须建造更多的数据中心并购买更多的硅,因为那是事物的样子。他们认为“推理模型”是未来,即使媒体的成员似乎并不真正了解他们的所作所为或为什么重要,因此他们必须变得昂贵,因为Openai和他们的同类只是如此聪明,尽管“推理”允许您做什么,尽管这并不明显。
现在,我们将找出答案,因为推理是商品化的,以及一般的大型语言模型。有趣的是,DeepSeek可能已经接受过培训的方式(至少部分地是合成数据)也推动了这些公司甚至需要使用其他人的培训数据的范式,尽管他们的论点当然是他们“需要更多。”
我们也不知道环境效果,因为即使更便宜,这些模型仍然需要昂贵的,能量耗尽的GPU才能全面运行。
无论如何,如果我不得不猜测,结果将是市场接受生成AI不是未来的市场。 Openai和Anthropic不再有护城河可以筹集资金。当然,他们可以从Masayoshi儿子和其他无数亿万富翁中再筹集几十亿美元,但是他们到底提供了什么呢?有机会继续在整个行业范围内?参加资本主义死亡邪教的机会吗?比WeWork更快地赚钱的机会吗?
还是这是Microsoft,Amazon和Google Drop Openai和Anthropic的时间,根据DeepSeek的工作制作自己的模型?他们有什么动力让他们继续为这些公司提供资金?高级标准持有所有卡片 – GPU和基础设施,在微软的情况下,不可撤销的许可证允许其不受限制地使用和访问OpenAI的技术 – 几乎没有阻止他们构建自己的型号并倾倒GPT和Claude。
正如我之前说过的,我相信我们处于AI的峰值,现在生成的AI已经商品化,Openai和Anthropic剩下的唯一的是它们的创新能力,我不确定他们是否有能力做。
而且,由于我们坐在硅谷的废墟中,我们最大的“初创企业”都以最低效率的方式做同样的事情,生活在贝克和拥有数百万美元市值的上市公司的贝克和呼唤,所以每个人都在尝试以同样的方式来做同样的事情,这是一个梦幻般的营销胡说八道,这是一系列无方向的有钱人,他们都想创造美国的下一个顶级垄断。
现在该醒来并接受从来没有“ AI军备竞赛”,而Hyperscalers建造如此多的数据中心并购买了如此多的GPU的唯一原因,因为它们是由没有遇到真正问题和的人经营的因此,不知道真正的人面临哪些问题。 Generative AI不能解决任何万亿美元的问题,也不会创造出对任何特定业务都有盈利的结果。
DeepSeek的车型可以便宜,但是他们提取的真正的魔术是,他们展示了像Openai这样的公司(以及通过扩展任何大型语言模型公司)的完全可替代的。这些公司中的任何一个都没有什么特别的东西了 – 他们没有护城河,他们的基础设施优势是虚构的,他们的人才无关紧要。
DeepSeek证明的不仅是技术,而且是哲学上的。它表明,硅谷建筑商的杂乱精神已经死了,取而代之的是一系列不同的管理顾问,这些顾问使工程师团队基于共鸣做事。
您可能会问所有这些都意味着生成的AI是否突然变得更加普遍 – 毕竟,微软的Satya Nadella引用了Jevons Paradox ,这表明当资源更有效时,他们的使用效率会增加。
可悲的是,我假设发生了其他事情。目前,我不认为有些公司因Openai及其同类产品的价格所困扰,我也不认为有很多公司或用例不存在,因为大型语言模型太昂贵了。 AI公司去年占据了所有风险投资资金的三分之一,最重要的是,尝试诸如O1之类的推理模型并做出概念证明而无需建立整个运营公司,这是相当容易的。我认为由于成本而没有任何人在生成AI的“场景”中(记住,似乎很少有人能够为O1或其他推理模型提出一个很棒的用例)和DeepSeek的模型,而同时便宜,没有任何新功能。
混乱假设!整个立面可能会跌落的一种方式是,如果马克·扎克伯格(Mark Zuckerberg)决定他想简单地破坏大型语言模型的整个市场。 Meta已经形成了四个独立的战争室,以分解有多大的作用,显然是引用信息的“追求骆驼,首席执行官马克·扎克伯格(Mark Zuckerberg比AI模型本身的销售更多的钱。这可能会损害Meta的AI竞争对手,例如OpenAI和人类,这正处于从这种销售中获得数十亿美元的收入。”
我绝对可以看到Meta发布了自己的DeepSeek模型版本 – 它的GPU和Zuckerberg永远不会被解雇,这意味着,如果他决定简单地抛出数十亿美元,以专门创建自己的深层LLM,以消灭OpenAi,以消灭OpenAi,那么他绝对他会绝对可以。毕竟, 上周五扎克伯格说,梅塔今年将花费在600亿至650亿美元的资本支出中– 在DeepSeek处境受到狂热之处 – 我想市场会喜欢一个更适度的提议只是在山姆·奥特曼(Sam Altman)上他妈的。
结果,除了诸如Anthropic and Openai之类的公司最终崩溃之外,我并没有真正看到任何变化。大型语言模型(和推理模型)是利基市场。 Chatgpt变得如此重要的唯一原因是因为技术行业没有其他增长思想,尽管整个科技行业和公众市场都在尖叫,但我想不出任何真正重要的大型市场产品。
Chatgpt之所以很大,是因为“每个人都在谈论AI”,而Chatgpt是AI中的大品牌。这不是必不可少的,而且仅被视为这样,因为媒体(和市场)以他们几乎没有理解的叙述逃跑了。 Deepseek刺穿了这种叙述,因为认为这也要求您相信Sam Altman是一位魔术师,而不是一位非常卑鄙的首席执行官,却燃烧了很多钱。
当然,您可以说“ DeepSeek刚刚建立在已经存在的软件之上,这要归功于Openai”,这引出了一个相当明显的问题:为什么不开放?还有另一个相当明显的问题:为什么重要?
无论如何,运行生成模型的巨额费用并不是其部署或成功的限制 – 您可以将其归咎于他们作为一项技术,既不是人工智能,也不能够提供那种有意义的结果将使他们成为下一个智能手机。
这一切都是一个骗局,一个非常痛苦的人,自2024年2月以来我一直在尖叫着,试图解释说,在炒作下方是一个提供最佳结果的行业,而不是类似于任何类似于“下一个大型大型”事物。”
如果没有“推理”作为神奇的新作品,Openai就一无所有。 “代理人”没有来。 “ AGI”没有来。掩盖了所谓的“ AI革命”的基本原理的平庸和不可靠,这一切都是Flimflam。
所有这些金钱,时间,精力和才华都浪费了,这要归功于一个媒体行业无法掌握强大的账户,而由高管们经营的市场不了解任何东西,而且看起来它被两次破碎了几百名中国工程师决定参加比赛的那一刻。
这完全令人作呕。