低效的人工智能模型会消耗能源。话又说回来,高效的人也是如此——只是出于不同的原因。
DeepSeek 颠覆了人工智能行业,从训练和运行人工智能所需的芯片和资金,到预计在不远的将来消耗的能源。由于预测人工智能数据中心供电的电力需求将大幅增长,能源股在 2024 年飙升, 发电公司 Constellation Energy 和 Vistra 的股价创下历史新高。
这还不是全部。 Constellation 以 164 亿美元收购了天然气生产商 Calpine Energy,这是美国电力行业历史上最大的交易之一,假设天然气作为人工智能发电来源的需求将会增长。与此同时,核电似乎已做好了复兴的准备。 Google 与 Kairos Power 签署了一项协议, 购买小型模块化反应堆 (SMR) 生产的核能。另外,亚马逊与三个不同的 SMR 开发商达成了协议,微软和 Constellation 宣布将重启三哩岛的一座反应堆。
当这种确保可靠基本负载电力的狂热逐渐增强时, DeepSeek 的 R1出现并毫不客气地破坏了聚会。它的创建者表示,他们使用其前身的一小部分硬件和计算能力来训练该模型。能源股暴跌,冲击波在能源和人工智能界引起反响,突然间,锁定新能源的所有努力似乎都化为泡影。
但如此剧烈的市场震荡值得吗? DeepSeek 对于未来的能源需求到底意味着什么?
目前,得出明确的结论还为时过早。然而,各种迹象表明,市场对 DeepSeek 的下意识反应比 R1 将如何影响能源需求的准确指标更为保守。
训练与推理
DeepSeek 声称,它只花费了 600 万美元来训练 R1 模型,并且使用的芯片数量比 OpenAI 等公司少(且不那么复杂)。关于这些数字的确切含义存在很多争论。该模型似乎确实包含了真正的改进,但相关成本可能比披露的要高。
即便如此,R1 的进步也足以扰乱市场。要了解原因,值得深入研究一下具体细节。
首先,需要注意的是,训练大型语言模型与使用同一模型来回答问题或生成内容完全不同。最初,训练人工智能是向其提供大量数据的过程,人工智能用这些数据来学习模式、建立联系和建立关系。这称为预训练。在训练后,更多的数据和反馈被用来微调模型,通常是由人类参与其中。
一旦模型经过训练,就可以对其进行测试。这个阶段称为推理,人工智能根据提示回答问题、解决问题或编写文本或代码。
传统上,对于人工智能模型,需要大量资源用于预先训练它们,但用于运行它们的资源相对较少(至少在每个查询的基础上)。 DeepSeek 确实找到了在训练前和训练后更有效地训练模型的方法。进步包括巧妙的工程技巧和新的训练技术——比如通常由人处理的强化反馈的自动化——给专家留下了深刻的印象。这导致许多人质疑公司是否真的需要花费如此多的资金来建设巨大的数据中心,从而消耗能源。
理性的代价是高昂的
DeepSeek 是一种称为“推理”模型的新型模型。推理模型从预先训练的模型(如 GPT-4)开始,并接受进一步的训练,学习如何使用“思维链推理”将任务分解为多个步骤。在推理过程中,他们测试不同的公式以获得正确答案,识别错误并改进输出。它更接近人类的思维方式,而且需要更多的时间和精力。
过去,训练使用最多的计算能力,因此也消耗最多的能量,因为它需要处理巨大的数据集。但是,一旦经过训练的模型进行推理,它只需将其学习的模式应用于新的数据点,这不需要那么多的计算能力(相对)。
在某种程度上,DeepSeek 的 R1 颠倒了这个等式。该公司使培训变得更加高效,但它解决查询和回答的方式提示比旧模型消耗更多的能量。一对一比较发现,在回答相同的一组提示时,DeepSeek 比 Meta 的非推理 Llama 3.3 多使用 87% 的能量。此外,OpenAI(其 o1 模型首先具有推理功能)发现,让这些模型有更多时间“思考”会产生更好的答案。
尽管推理模型不一定对所有事情都更好(例如,它们擅长数学和编码),但它们的崛起可能会促进向能源密集型用途的转变。即使训练模型变得更加高效,推理期间增加的计算也可能会抵消一些收益。
假设训练效率提高会导致能源消耗减少,这种假设也可能不成立。与直觉相反,培训中更高的效率和成本节省可能仅仅意味着公司在该阶段做得更大,使用同样多(或更多)的精力来获得更好的结果。
DeepSeek 的 Anthropic 联合创始人 Dario Amodei 写道:“成本效率的提升最终完全用于训练更智能的模型,仅受公司财务资源的限制。”
如果成本更低,我们就会使用更多
微软首席执行官萨蒂亚·纳德拉(Satya Nadella)同样提出了这种趋势,即所谓的杰文斯悖论,即效率的提高导致资源使用的增加,最终抵消了效率的提高,以回应 DeepSeek 的混战。
如果您的新车每英里消耗的汽油量是旧车的一半,您不会购买更少的汽油;相反,您购买的汽油量不会减少。您将进行您一直在考虑的公路旅行,并计划另一次公路旅行。
同样的原则也适用于人工智能。虽然推理模型现在相对耗能,但它们可能不会永远如此。如今,较旧的人工智能模型比首次发布时的效率要高得多。我们将在推理模型中看到同样的趋势;尽管它们在短期内会消耗更多的能源,但从长远来看,它们会变得更有效率。这意味着在这两个时间范围内他们可能会使用更多的能源,而不是更少。低效的模型将首先消耗过多的能量,然后效率更高的模型将激增并在以后得到更大程度的使用。
正如纳德拉在 X 上发布的那样,“随着人工智能变得更加高效和易于使用,我们将看到它的使用量猛增,将其变成我们无法满足的商品。”
如果你建造它
鉴于 DeepSeek 的 R1 麦克风下降,美国科技公司是否应该放弃增加能源供应的努力?取消那些小型模块化核反应堆合同?
2023 年,数据中心用电量占美国总用电量的 4.4%。 R1 发布前 12 月发布的一份报告预测,到 2028 年,这一数字可能会飙升至 12% 。由于将广泛实施的 DeepSeek 带来的训练效率提高,这一比例可能会缩小。
但考虑到推理模型及其用于推理的能量可能会激增,更不用说后来效率驱动的需求增加,我的钱花在了达到 12% 的数据中心上,正如分析师在听说 DeepSeek 之前所预测的那样。
科技公司似乎也有同样的看法。在最近的财报电话会议上,谷歌、微软、亚马逊和 Meta 宣布,仅今年他们就将花费 3000 亿美元——主要用于人工智能基础设施。人工智能领域仍然有大量的现金和精力。
DeepSeek 发布后导致能源股暴跌。这就是为什么它不应该这样。首先出现在SingularityHub上。
原文: https://singularityhub.com/2025/02/13/deepseek-crashed-energy-stocks-heres-why-it-shouldnt-have/