2023 年 7 月 11 日,OpenAI 首席执行官 Sam Altman 抵达太阳谷旅馆参加媒体金融会议时向媒体发表讲话。
当谈到人工智能时,我认为自己是一个偶然的用户并且是一个好奇的人。几年来,它已经渗透到我的日常生活中,至少,人工智能聊天机器人可以擅长让苦差事变得不那么苦差事。
但每当我开始确信像 ChatGPT 和 Claude 这样的工具实际上可以让我的生活变得更好时,我似乎就遇到了付费墙,因为最先进、可以说是最有用的工具需要订阅。然后是 DeepSeek。
周一,中国初创公司DeepSeek 发布了一款可以廉价推理的新开源模型:DeepSeek-R1,导致几家主要科技公司的股价下跌。该公司表示,R1 的性能与OpenAI 最初的“推理”模型 o1相匹配,并且只使用了一小部分资源。使用成本也低很多。这构成了一个免费向公众开放的先进人工智能模型,对于想要在其基础上构建应用程序的开发人员来说也很便宜。
虽然 OpenAI、Anthropic、谷歌、Meta 和微软总共花费了数十亿美元来训练他们的模型,但 DeepSeek 声称它在使用设备训练 R1 的前身 DeepSeek-V3 上花费了不到 600 万美元。 (披露:Vox Media 是与 OpenAI 签署合作伙伴协议的几家出版商之一。我们的报道在编辑上保持独立。)
要无限制地访问 OpenAI 的 o1,您需要一个专业帐户,每月费用为 200 美元。 DeepSeek 确实向访问其应用程序编程接口 (API) 的公司收费,该接口允许应用程序相互通信,并帮助开发人员将人工智能模型融入到他们的应用程序中。 但 DeepSeek 对 API 访问收取的费用只是OpenAI 对 o1 访问收取的费用的一小部分。因此,截至周三上午,DeepSeek 不仅仅是苹果和谷歌应用商店中最受欢迎的人工智能应用程序,这可能并不令人意外。这是当时最受欢迎的应用程序。
“人们对 DeepSeek 感到非常兴奋的主要原因并不是因为它比任何其他模型都要好,”AI 平台 Hugging Face 的研究主管Leandro von Werra表示。 “更重要的是,它是一个开放的模式,并且来自人们没有想到的地方。”
因此,当硅谷和华盛顿思考人工智能的“人造卫星时刻”的地缘政治影响时,我一直坚信人工智能工具既强大又便宜。最重要的是,我想象了如何以同样的开源原则构建由人工智能软件驱动的未来,这些原则给我们带来了 Linux 和万维网等东西。
这可能是一厢情愿,而且有点天真。毕竟,OpenAI 最初是一家非营利公司,其使命是创造为整个世界服务的人工智能,而不考虑财务回报。 现在情况已不再是这样了。
但这就是为什么 DeepSeek 爆炸性地进入全球人工智能领域可以让我的如意算盘变得更加现实。虽然我自己对 R1 模型的实验表明,聊天机器人的行为基本上与其他聊天机器人一样——同时引导您完成其推理,这很有趣——真正的价值在于它指向人工智能的未来,至少部分是开源的。它表明,即使是最先进的人工智能功能也不需要花费数十亿美元来构建,或者由价值数万亿美元的硅谷公司来构建。这意味着更多的公司可能会竞相构建更有趣的人工智能应用程序。
尽管美国科技公司花费了数十亿美元试图在人工智能军备竞赛中取得领先, DeepSeek的突然走红也表明,在升温的同时,中美之间的数字冷战不一定是一场零和游戏。
DeepSeek 的非传统、近乎开源的方法
虽然您可能直到本周才听说过 DeepSeek,但该公司的工作几年前就引起了人工智能研究界的关注。该公司实际上源于 High-Flyer,这是一家由工程师梁文峰于 2016 年创立的中国对冲基金。 High-Flyer使用人工智能预测股市走势取得了巨大成功。然而,这促使北京方面对投机交易进行了打击,因此梁在 2023 年将公司的研究部门分拆为 DeepSeek,这是一家专注于先进人工智能研究的公司。
从一开始,DeepSeek 就以低廉的成本构建强大的开源模型并为开发人员提供廉价的访问权限,从而脱颖而出。在软件世界中,开源意味着任何人都可以使用、修改和分发代码。在人工智能的背景下,这适用于整个系统,包括其训练数据、许可证和其他组件。得益于 DeepSeek 的开源方法,任何人都可以下载其模型、调整它们,甚至在本地服务器上运行它们。
人工智能竞赛中的美国主要参与者——OpenAI、谷歌、Anthropic、微软——已经关闭了基于专有数据构建的模型,并作为商业秘密进行保护。 Meta 通过发布开源模型而脱颖而出。传统观点认为开放模型比封闭模型落后一年左右。 DeepSeek 显然打破了这个想法。
然而,DeepSeek 的模型并不是真正的开源。它们就是所谓的开放权重人工智能模型。这意味着允许模型生成内容的数据(也称为模型的权重)是公开的,但该公司尚未发布其训练数据或代码。 Hugging Face 的 Von Werra 正在开展一个项目来完全重现 DeepSeek-R1 ,包括其数据和训练管道。目标之一是弄清楚 DeepSeek 到底是如何以比 OpenAI 等竞争对手少得多的资源完成如此先进的推理的,然后向公众发布这些发现,为开源 AI 开发提供新的支持。
“如果更多的人能够使用开放模型,就会有更多的人在此基础上进行开发,”冯·韦拉说。
尽管如此,我们对 DeepSeek 模型如何工作的了解已经比对 OpenAI 模型的了解多得多。 DeepSeek 在 MIT 许可证下发布了有关 R1 的详细技术报告,该许可证允许重复使用、修改或分发该软件。 12 月发布的有关V3 模型的类似技术报告称,它是在 2,000 个 NVIDIA H800 芯片上进行训练的,而训练所需的竞争模型则需要 16,000 个左右的集成电路。据 DeepSeek 称,训练耗时 55 天,成本为 560 万美元,而训练 Meta 最新开源模型 Llama 3.1 的成本估计约为 1 亿美元到6.4 亿美元。但由于 Meta 并不共享其模型的所有组件,包括训练数据,因此有些人并不认为 Llama 是真正开源的。
在性能方面,毫无疑问 DeepSeek-R1 提供了令人印象深刻的结果,可以与最昂贵的竞争对手相媲美。通过Artificial Analysis的模型对比可以看出, R1在推理和人工分析方面仅次于OpenAI的o1 。实际上,它在定量推理和编码方面略胜于 o1。最大的权衡似乎是速度。 DeepSeek 有点慢,如果您在应用程序或网络上使用 R1,您会注意到这一点。不过,它确实向你展示了它在想什么,这有点简洁。
现在,使用的芯片数量或在计算能力上花费的美元是人工智能行业中非常重要的指标,但它们对普通用户来说意义不大。 ChatGPT 的最基本版本(使 OpenAI 名声大噪的模型)以及 Anthropic 的聊天机器人 Claude 对于很多人来说都足够强大,而且它们是免费的。他们可以总结内容,帮助您计划假期,并帮助您搜索网络并获得不同的结果。但聊天机器人远非人工智能能做的最酷的事情。
美国全球人工智能霸主地位面临挑战
DeepSeek 及其更开放的方法最令人兴奋的是,它将如何让人工智能的构建变得更便宜、更容易。对于试图创建杀手级应用程序的开发人员以及试图做出突破性发现的科学家来说,这都是一件大事。这对硅谷机构来说也是一个巨大的挑战,他们已经向 OpenAI 这样的公司投入了数十亿美元,因为他们明白,引领蓬勃发展的全球人工智能行业需要巨额资本支出。
毫不夸张地说,DeepSeek 正在从根本上撼动人工智能行业。股市对DeepSeek-R1 到来的反应使科技股蒸发了近 1 万亿美元的价值,并扭转了支撑人工智能行业的公司两年来看似永无休止的收益,其中包括最著名的 NVIDIA,其芯片用于训练 DeepSeek 的模型。
这也表明, 拜登政府为减缓中国人工智能创新进展而限制芯片出口的举措可能并未达到预期效果。乔·拜登于 2022 年开始阻止向中国出口先进人工智能芯片,并在特朗普上任前扩大了这些努力。然而,中国的人工智能产业继续领先于美国竞争对手。阿里巴巴、百度、字节跳动和腾讯等中国科技巨头也加入了 DeepSeek 的行列,尽管受到禁令,它们也继续推出强大的人工智能工具。
这对于美国寻求人工智能主导地位的未来意味着什么,尚有争议。 唐纳德·特朗普总统称赞 DeepSeek 有能力提出“更快的人工智能方法和更便宜的方法”。他补充道:“一家中国公司发布的人工智能 DeepSeek 应该给我们的行业敲响警钟,我们需要集中精力在竞争中获胜。”
但我们在这场比赛中还为时过早,还不知道谁最终会夺得金牌。卡托研究所高级研究员Jennifer Huddleston表示:“这就像在 90 年代末甚至 2000 年左右,试图预测 20 年后谁将成为领先的科技公司或领先的互联网公司。”
显而易见的是,参赛者的目标是相同的终点线。梁在 2024 年 7 月接受中国科技媒体 36kr采访时表示,与 OpenAI 一样,他的公司希望实现通用人工智能,并将保持其模型的开放性。他补充道,“OpenAI 不是神。”梁的目标与 Sam Altman 和 OpenAI 的目标一致,这让人们对 DeepSeek 最近的成功产生了怀疑。据报道,微软和 OpenAI 正在调查 DeepSeek 是否使用 ChatGPT 输出来训练其模型,新任命的白宫人工智能和加密货币沙皇 David Sacks 本周重申了这一指控。
当然,这一切也有可能重蹈另一家挑战美国科技霸主地位的中国公司 TikTok 的覆辙。最初是特朗普以国家安全问题为由禁止这款由字节跳动拥有的应用程序。国会和拜登政府接手了这项任务,现在TikTok 被禁止,等待该应用程序出售给一家美国公司。
DeepSeek 使用字节跳动作为云提供商,并将美国用户数据托管在中国服务器上,这正是 TikTok 多年前陷入困境的原因。这里的担忧是中国政府可能获取这些数据并威胁美国的国家安全。 DeepSeek 在其隐私政策中还表示,它可以使用这些数据来“审查、改进和开发服务”,这在任何隐私政策中并不罕见。
毫不奇怪,DeepSeek 确实遵守中国的审查法,这意味着它的聊天机器人不会向您提供有关天安门广场大屠杀以及其他审查主题的任何信息。但目前尚不清楚北京是否正在使用这一流行的新工具来加强对美国人的监视。耶鲁大学隐私实验室创始人肖恩·奥布莱恩 (Sean O’Brien ) 最近对 DeepSeek 的应用程序进行了一些网络分析,他表示,至少,它并没有像谷歌和苹果这样的公司那样做更多。
“从隐私的角度来看,人们需要明白大多数主流应用程序都在监视他们,这也不例外,”奥布莱恩告诉我。 “问题只是是谁在进行间谍活动。”
这让我们回到了付费专区的问题。有一句古老的格言说,如果互联网上的在线东西是免费的,那么您就是产品。因此,虽然 DeepSeek 正在构建强大的人工智能模型并将其免费提供给公众,这令人兴奋甚至令人钦佩,但它让你想知道该公司对未来有何计划。
与此同时,人工智能方面的更多惊喜也值得期待。您甚至还可以修补这些惊喜。 OpenAI 最近推出了 Operator 代理,如果您支付 200 美元购买专业版,它可以代表您有效地使用计算机。本周,人们开始免费共享可以使用 DeepSeek 完成相同操作的代码。
原文: https://www.vox.com/technology/397330/deepseek-openai-chatgpt-gemini-nvidia-china