DeepSeek 的人工智能在 Groq 和 Cerebras 的替代芯片上瞬间完成“推理”任务。
冠军不是永远的。上周,DeepSeek AI 以其低廉的价格实现了飞速发展,让投资者和科技公司都感到不寒而栗。现在,两家计算机芯片初创公司正在借鉴这种氛围。
Cerebras Systems 生产巨大的计算机芯片——餐盘大小——具有激进的设计。与此同时,Groq 为大型语言模型量身定制芯片。在一项正面交锋的测试中,这些另类芯片在运行 DeepSeek 病毒式人工智能版本的竞争中脱颖而出。
虽然在其他硬件上可能需要几分钟才能完成答案,但Cerebras 表示,其 DeepSeek 版本在短短 1.5 秒内就完成了一些编码任务。根据Artificial Analysis的数据,该公司的晶圆级芯片比在GPU上运行人工智能的竞争对手快57倍,毫无疑问是最快的。那是上周的事了。昨天,Groq 凭借新产品超越了 Cerebras,位居榜首。
从数字来看,DeepSeek 的进步比表面上看起来更加微妙,但趋势是真实的。尽管实验室计划大幅扩展人工智能模型,但算法本身的效率却大大提高。在硬件方面,Nvidia 也取得了同样的成绩,但 Cerebras 和 Groq 等芯片初创公司也在推理方面表现出色。
大型科技公司致力于购买更多硬件,英伟达不会很快被抛弃,但替代品可能会开始蚕食边缘,特别是如果它们能够比更传统的选择更快或更便宜地为人工智能模型提供服务。
讲道理
DeepSeek 的新 AI R1 是一个“推理”模型,就像 OpenAI 的 o1 一样。这意味着它不会吐出生成的第一个答案,而是仔细研究问题,逐步将答案拼凑在一起。
对于休闲聊天来说,这没有多大区别,但对于复杂且有价值的问题(例如编码或数学)来说,这是一个飞跃。
DeepSeek 的 R1 已经非常高效。这是上周的新闻。
R1 不仅训练成本更低——据称只需 600 万美元(尽管这个数字的含义存在争议)——运行成本也很低,而且其重量和工程细节也是公开的。这与有关即将投资比阿波罗计划规模更大的专有人工智能项目的头条新闻形成鲜明对比。
这一消息让投资者犹豫不决——也许人工智能并不需要科技领导者想象的那么多现金和芯片。英伟达可能是这些投资的受益者,但其股市却遭受了沉重打击。
体积小、速度快,但仍然智能
所有这些都在软件方面,算法变得更便宜、更高效。但训练或运行人工智能的芯片也在改进。
去年,由曾开发谷歌内部人工智能芯片的工程师乔纳森·罗斯(Jonathan Ross)创立的初创公司Groq因专为大型语言模型量身定制的芯片而成为头条新闻。流行的聊天机器人响应是在 GPU 上逐行进行的,而 Groq 芯片上的对话则接近实时。
就是那时。根据设计,新型推理人工智能模型需要更长的时间才能提供答案。
这些模型被称为“测试时计算”,会在后台生成多个答案,选择最佳答案,并为其答案提供理由。公司表示,他们“思考”的时间越长,答案就越好。这些模型并没有全面击败旧模型,但它们在旧算法难以胜任的领域(例如数学和编码)取得了长足进步。
随着推理模型将重点转移到推理(完成的人工智能模型处理用户查询的过程),速度和成本变得更加重要。人们希望快速得到答案,并且不想为此支付更多费用。尤其是在这方面, 英伟达面临着日益激烈的竞争。
在这种情况下,Cerebras、Groq 和其他几个推理提供商决定托管 R1 的简化版本。
他们运行的是 DeepSeek R1 Llama-70B,而不是最初的 6710 亿参数模型(参数是算法大小和复杂性的衡量标准)。顾名思义,该模型较小,只有 700 亿个参数。但即便如此,根据 Cerebras 的说法,它在选定的基准测试中仍然可以超越 OpenAI 的 o1-mini。
人工智能分析平台 Artificial Analysis 上周对多家推理提供商进行了头对头的性能比较,Cerebras 名列前茅。在类似的成本下,晶圆级芯片每秒吐出约 1,500 个令牌,而 SambaNova 和 Groq 分别为 536 和 235 个。在展示效率提升时,Cerebras 表示,其 DeepSeek 版本只需 1.5 秒即可完成一项编码任务,而 OpenAI 的 o1-mini 则需要 22 秒。
昨天,Artificial Analysis进行了更新,其中包含了 Groq 超越 Cerebras 的新产品。
较小的 R1 模型无法与较大的模型相媲美,但 Artificial Analysis 指出,该结果是推理模型首次达到与非推理模型相当的速度。
除了速度和成本之外,推理公司还可以在任何地点托管模型。 DeepSeek 上周在受欢迎度排行榜上名列前茅,但其模型托管在中国的服务器上,此后专家们提出了对安全和隐私的担忧。 Cerebras 在其新闻稿中明确指出其在美国托管 DeepSeek。
少即是多
无论其长期影响如何,这一消息都体现了人工智能提高效率的强大趋势(值得注意的是,这种趋势已经存在)。
自从 OpenAI 去年预览了 o1 以来,该公司已经转向下一个模型 o3。上周,他们为用户提供了最新型号 o3-mini 的较小版本。昨天,谷歌发布了自己的推理模型版本,其效率接近 R1 。由于 DeepSeek 的模型是开放的,并且包含有关其开发的详细论文,现有企业和新贵都会采用这些进步。
与此同时,前沿实验室仍然致力于扩大规模。谷歌、微软、亚马逊和 Meta 今年将花费 3000 亿美元——主要用于人工智能数据中心。 OpenAI 和软银已就一项为期四年、耗资 5000 亿美元的数据中心项目达成一致,名为 Stargate。
Anthropic 的首席执行官 Dario Amodei 将其描述为由三部分组成的飞轮。更大的模型带来能力的飞跃。公司后来完善了这些模型,除其他改进外,现在还包括开发推理模型。硬件和软件的进步贯穿始终,使得算法更便宜、更高效。
后一种趋势意味着公司可以在前沿以更少的成本进行更大的扩展,而具有先进功能的更小、更灵活的算法则可以开辟新的应用程序和需求。在这个过程耗尽之前(这是一些争论的话题),将会对各种人工智能芯片产生需求。
忘记 Nvidia:DeepSeek AI 在这些奇怪的芯片上几乎瞬时运行的帖子首先出现在SingularityHub上。