可以编写自己的食谱的微波炉。一款可制定个性化锻炼计划的智能手表。用自然语言协商退款的售票亭。这不是科幻小说——现在是 2025 年,而 DeepSeek 只是让它变得更加便宜。
这家中国人工智能公司发布了两项突破:V3,训练成本降低90%以上;R1,以1/40的成本提供顶级性能。但真正的创新是什么?他们证明有时越简单越好。
人工智能模型因其与事实的创造性关系而臭名昭著。整个 2024 年,研究人员针对这个问题提出了越来越复杂的解决方案。
DeepSeek 的 R1 表明,答案出人意料地简单:只需让 AI 展示其工作即可。通过叙述他们的推理过程,人工智能模型变得更加准确。更好的是,这些改进可以被提炼成更小、更便宜的模型。 1
网络:强大的小型模型几乎具有其大型模型的所有功能,小型模型的延迟较低,再加上价格降低 25-40 倍 – 我们在 2025 年数据热门主题中讨论了这一趋势。
这对于 Startupland 意味着什么?
-
科技巨头不会坐以待毙。随着大型竞争对手争先恐后地复制和改进这些结果,预计会出现军备竞赛。这保证了 2025 年更多创新和进一步降低成本,为初创公司创建更广泛的人工智能模型选择。
-
初创企业的利润率将会飙升。随着每美元的人工智能性能飙升,初创企业的经济效益将从根本上改善。产品变得更加智能,同时成本大幅下降。根据杰文悖论,这种成本降低不会抑制需求,而是会导致需求爆炸。准备好看到人工智能无处不在,从厨房用具到交通系统。
-
数据中心的经济状况和能源需求可能会发生根本性的变化。 Google、Meta 和 Microsoft 每年在数据中心上花费 60-80B 美元,押注于越来越大的基础设施需求。但是,如果培训成本下降 95% 并且较大模型的回报趋于稳定怎么办?这可能会引发从训练到推理工作负载的巨大转变,从而扰乱整个芯片行业。由于这一风险,NVidia 今天下跌了 12%。
大型模型对于开发 R1 等小型模型仍然至关重要。大型模型为推理模型生成训练数据,然后在蒸馏中充当较小模型的教师。我用图解说明了下面 R1 论文中模型的使用。模型是黄色圆圈。 2
- R1 和类似模型在人工智能领域做了一些了不起的事情:他们展示了自己的工作。这不仅仅是良好的用户体验 – 它可能会改变法规遵从性的游戏规则。 GDPR 要求可解释的决策和明确的推理可以满足监管机构和需要可审计性的企业客户。此外,它还创建了一个反馈循环,帮助用户理解和信任系统的决策。
- 房间里的大象:美国公司会采用中国模式吗?随着技术限制不断升级(从 GPU 出口管制到网络设备禁令),仅靠卓越的性能可能无法克服安全问题。企业和政府部门可能会坚持国内选择,但消费市场可能会更加灵活。
显而易见的是,人工智能的经济学正在以比任何人预测的更快的速度被改写。对于初创企业来说,这既创造了机会,也带来了紧迫感。那些迅速采取行动利用这些更高效模型的人将在成本结构和能力方面获得显着优势。
1我这里简化一下。这项创新是思想链微调和强化学习的结合,循环两次。
2 R1 论文描述了一个从非常大(600b+ 参数模型)开始的过程。创建思想链训练数据,根据推理微调新模型,然后应用强化学习。重复该过程。获取输出的模型并使用 Llama3 对其进行提炼(教一个较小的模型来复制它)。最终结果是 R1(一个非常大、快速、高效的推理模型)和一个精炼模型(较小的模型,具有大模型 95% 以上的功能)。