DeepSeek的办公室位于北京一栋不起眼的建筑内。
上周我向大家介绍了中国人工智能公司 DeepSeek 最近发布的模型以及它们为何如此具有技术成就。 DeepSeek 团队似乎在训练他们的模型快速找出需要大量时间思考的答案方面取得了巨大进展,这是之前机器学习突破的关键一步,可以实现快速且廉价的改进。
本周我想跳到一个相关问题:为什么我们都在谈论 DeepSeek?这被称为美国的人工智能人造卫星时刻。它取代了 OpenAI 的 ChatGPT,位居 iPhone 应用商店 榜首。主要人工智能公司的首席执行官在 X 上对此发表了防御性的言论。那些通常忽视人工智能的人对我说,嘿,你见过 DeepSeek 吗?
我有,别误会我的意思,这是一个很好的模型。但 OpenAI 最先进的模型 o1 和 o3 也是如此,目前聊天机器人竞技场排行榜上表现最好的 LLM 实际上是 Google 的 Gemini(DeepSeek R1 排名第四)。
所有这些都提出了一个问题:是什么让一些人工智能的发展突破了普通大众,而其他同样令人印象深刻的发展却只有内部人士注意到?
ChatGPT 的教训
在 2022 年末 ChatGPT 推出前几个月,OpenAI发布了模型 – GPT 3.5 – 该模型后来成为 ChatGPT 的基础模型。任何人都可以通过访问 OpenAI 的沙箱(一个用于试验最新法学硕士的网站)来免费访问 GPT 3.5。
GPT 3.5 是大型语言模型的一大进步;我探索了它的功能并给我留下了深刻的印象。许多其他密切关注人工智能进展的人也是如此。然而,几乎没有其他人听说过或讨论过它。
当OpenAI推出ChatGPT时,它在短短两个月内就达到了1亿用户,创下了纪录。 ChatGPT 与 GPT 3.5 完全相同,后者的发布基本上没有引起人们的注意。不同之处在于,它不是一个带有技术短语和设置的“沙箱”(比如,你希望人工智能达到什么“温度”?),而是一个来回聊天机器人,其界面对于任何人来说都很熟悉。曾经在计算机上的框中输入过文本。
推动 ChatGPT 快速采用的并不是技术,而是其呈现的格式。我认为这也是推动我们目前 DeepSeek 热情的现象。
DeepSeek R1 并不是最好的人工智能。作为一个很大程度上开放的模型,与 OpenAI 或 Anthropic 的模型不同,这对于开源社区来说是一件大事,而且就其地缘政治影响而言,这也是一件大事,因为它清楚地证明了中国不仅仅是跟上人工智能的发展。但这些都不能解释 DeepSeek 为何占据应用商店榜首,也不能解释人们对它的热情。
我怀疑推动其广泛采用的原因是它通过可见推理得出答案的方式。它是第一个将可见的思想链打包到友好的聊天机器人用户界面中的。人们喜欢看到 DeepSeek 大声思考。他们谈论见证它“思考”如何帮助他们更加信任它并学习如何更好地促进它。 (具有讽刺意味的是,这也使该模式的中国政府驱动的审查制度更加明显——不要问台湾的情况——但我认为,与更巧妙地进行类似的意识形态审查相比,这最终是一件好事。)
相比之下,OpenAI 在发布 o1(在给出答案之前会进行类似的思考和推理)时决定不公开和可见“思维过程”。这可能有几个原因——首先,这是一个商业秘密,而且该模型在推理过程中比在最终答案中更有可能“失误”并违反安全规则。 (事实上,在中国发现问题并回头之前,已经有很多 DeepSeek R1 的视频批评中国了。)
但我认为对于典型用户来说,思考过程与聊天界面的作用类似。它使人工智能更直接、更容易理解、更具互动性、更少混乱。这并不是基础产品的主要差异,而是人们使用该产品的倾向的巨大差异。
Y Combinator 主席 Garry Tan写道:“看到推理(即使它对它知道的和可能不知道的有多么认真)会大大增加用户的信任。”
自您上次签到以来,AI 已有所改进
让我们快速回应 DeepSeek 的一些最突出的误解:不,这并不意味着美国公司投入的所有资金都被浪费了。 DeepSeek 证明(如果我们从表面上理解他们的流程声明),您可以用更少的资源做比人们想象的更多的事情,但您仍然可以用更多的资源做更多的事情。
DeepSeek 可能对 Meta 来说是一个生存挑战,Meta 试图开拓廉价的开源模型利基市场,并且可能会威胁 OpenAI 的短期商业模式。但人工智能的长期商业模式始终是自动化在计算机上完成的所有工作,DeepSeek 并不是认为这会变得更困难或商业价值更低的理由。
推动 DeepSeek 热潮的另一件事很简单——大多数人都不是人工智能高级用户,也没有亲眼目睹自 ChatGPT 首次推出以来这两年的进步。但在这两年里,人工智能几乎在每一个可衡量的指标上都取得了显着的进步,特别是对于普通用户来说可能过于昂贵的前沿模型。
因此,如果您是第一次登录,因为您听说人们正在谈论一种新的人工智能,并且您使用的最后一个模型是 ChatGPT 的免费版本 – 是的,DeepSeek R1 会让您大吃一惊。虽然这是一个非常好的模型,但故事的一个重要部分是所有模型在过去两年中都变得更好了。
我在今年年初写道,无论你是否喜欢关注人工智能,它的发展速度都非常快,并且将极大地改变我们的世界——忽视它不会改变这一事实。
这就是为什么每当任何新的病毒式人工智能应用程序说服人们重新审视这项技术时,这都是一件好事。为了决定我们要对人工智能采取什么政策方法,我们不能根据两年前对其优势和局限性的印象进行推理——更不能使用发展如此迅速的技术。鉴于 DeepSeek 激励政策制定者停下来并注意 2025 年的世界与 2023 年的世界有何不同,这是个好消息。
然而,由于 DeepSeek 引发了人们对中国的普遍恐慌,我认为这并不是什么好消息。中国共产党是一个独裁实体,有系统地错误地对待自己的公民和世界其他国家;我不希望它获得更多的地缘政治权力,无论是通过人工智能,还是通过残酷的征服台湾战争,或者是通过美国放弃我们所有的全球联盟。但人工智能竞赛与核武器竞赛不同,因为核武器从来不存在任何将事情掌握在自己手中的风险。
专家们强烈警告说,如果我们在设计数十亿个在世界上独立行动的超级智能、超级强大的人工智能代理方面做得不好,人工智能可能会从人类手中夺取世界的控制权。 (我们会那么粗心吗?是的,绝对如此——我们正在努力解决这个问题!)
许多人对这种情况感到紧张,并采取了病态的幽默。 “称我为民族主义者或其他什么吧,”一篇流行的 X 帖子写道。 “但我希望把我变成回形针的人工智能是美国制造的。”但让我们严肃点吧。中国不想毁灭世界。有迹象表明,他们正在模仿美国机构建议和美国实验室采取的大部分安全措施。目前这些措施是完全不够的——但如果我们采取适当的措施,我认为他们很可能也会效仿这些措施,我们应该努力实现这一目标。
我们正处于一场真正的地缘政治竞争中,有着真实而巨大的利害关系,但我们不能忽视共同点,不能创建一个强大的新地缘政治实体,它会很乐意从我们手中夺取控制权,而中共也是一个有共同点的地方。共同点。
这个故事的一个版本最初出现在未来完美时事通讯中。在这里注册!
原文: https://www.vox.com/future-perfect/397539/deepseek-artificial-intelligence-chatgpt-openai-china