中国人工智能初创公司 DeepSeek 发布了迄今为止最强大的开源语言模型之一,该模型使用受限的 Nvidia H800 GPU 进行训练,成本仅为 550 万美元。本周在商业许可下发布的拥有 6710 亿参数的 DeepSeek V3 在内部基准测试中的表现优于开源和闭源人工智能模型,包括 Meta 的 Llama 3.1 和 OpenAI 的 GPT-4 在编码任务上的表现。该模型在两个月内接受了 14.8 万亿个代币数据的训练。 DeepSeek V3 的大小是 Meta 的 Llama 3.1 的 1.6 倍,需要强大的计算能力才能以合理的速度运行。 OpenAI 和 Tesla 前高管 Andrej Karpathy 评论道:作为参考,这种能力水平应该需要接近 16K GPU 的集群,而今天提出的集群则更多是 100K GPU 左右。例如,Llama 3 405B 使用了 3080 万 GPU 小时,而 DeepSeek-V3 看起来是一个更强的模型,仅使用 280 万 GPU 小时(计算量减少约 11 倍)。如果该模型也通过了氛围检查(例如,LLM 竞技场排名正在进行中,到目前为止我的几次快速测试进展顺利),这将是资源限制下的研究和工程的令人印象深刻的展示。这是否意味着前沿法学硕士不需要大型 GPU 集群?不,但你必须确保你不会浪费你所拥有的东西,这看起来像是一个很好的演示,表明数据和算法还有很多工作要做。
在 Slashdot 上阅读这个故事的更多内容。