上周末,一家小型中国对冲基金转型为明星人工智能研究机构,推出了DeepSeek R1 ,这是一种新的大型开放权重模型,具有最先进的性能,并且在预算有限的情况下进行训练。
人们对这一进展到底有多少兴趣?
我分析了 Ollama 上的 R1 下载,并记录了使用语音、AI 模型和开发人员环境通过 AI 执行此分析的步骤。如果您好奇我是如何做到的,请观看下面的视频。
正如上图所示,人们对此很感兴趣。 R1 在每日下载量方面名列前茅。
但就整体下载量而言,现在还相对较早。当然,所有模型下载模式都遵循衰减函数,大部分兴趣都发生在开始时。其中许多模型已经存在数周了。有些像 Gemma & Phi 是小模特; Llama3.3 等其他版本包含更大的版本。
R1 消息有两个含义:
首先,这项创新是在圣诞节推出Deepseek v3 模型之后推出的,该模型优先考虑延迟,这表明人工智能创新的整体步伐有增无减。
其次,R1 的技术方法凸显了人工智能模型领域中正在出现的分歧。该团队对量化(一种保持 90-95% 准确度的复杂压缩技术)的使用预示着未来有两种不同的模型类别:
- 高速压缩模型针对表格重新格式化和快速分析等即时任务进行了优化
- 为复杂的多步骤推理而构建的面向研究的模型(类似于 Gemini 的 Deep Research)
R1是一个推理模型。它的健谈性质意味着它明确地推理并使用户清楚其计划。对于可能需要 10-15 分钟的工作,此技术应该可以减少错误。它类似于 Gemini 的深度研究模型。
DeepSeek R1 的推出强化了人工智能的两个主要趋势:创新的快速步伐以及快速、轻量级模型和更深思熟虑的推理模型之间的新分裂。从下载数据来看,市场对这两种方法都表现出了明显的兴趣。
以下是有关我如何进行分析的分步视频。