阿里巴巴推出了名为 Qwen2.5-Max 的新版本人工智能模型,声称基准分数超过了 DeepSeek 最近发布的 R1 模型以及 GPT-4o 和 Claude-3.5-Sonnet 等行业标准。该模型使用专家混合架构实现了这些结果,该架构所需的计算能力比传统方法少得多。此次发布之际,人们对中国人工智能能力的担忧日益加剧,上周 DeepSeek 推出 R1 模型导致英伟达股价暴跌 17%。 Qwen2.5-Max 在 Arena-Hard 基准测试中得分为 89.4%,在代码生成和数学推理任务中表现出强大的性能。与严重依赖大规模 GPU 集群的美国公司不同——据报道 OpenAI 在其最新模型中使用了超过 32,000 个高端 GPU——阿里巴巴的方法侧重于架构效率。该公司声称,与传统部署相比,这可以实现可比的 AI 性能,同时将基础设施成本降低 40-60%。
在 Slashdot 上阅读这个故事的更多内容。