我们看到社区对 Arena 上最新版本的 Llama-4 提出了疑问。为了确保完全透明,我们将发布2,000 多个正面对战结果以供公众审查。 […]
此外,我们还将 Llama-4-Maverick 的 HF 版本添加到竞技场,排行榜结果很快就会发布。 Meta 对我们政策的解释与我们对模型提供商的期望不符。 Meta 应该更清楚地表明“Llama-4-Maverick-03-26-Experimental”是一个针对人类偏好进行优化的定制模型。因此,我们正在更新排行榜政策,以加强我们对公平、可重复评估的承诺,以便将来不会出现这种混乱。
标签:元、人工智能伦理、生成人工智能、骆驼、人工智能、 LLMS 、 LM 竞技场
原文: https://simonwillison.net/2025/Apr/8/lmaren/#atom-everything