引用 lmarena.ai – 搞英语 → 看世界

我们看到社区对 Arena 上最新版本的 Llama-4 提出了疑问。为了确保完全透明，我们将发布2,000 多个正面对战结果以供公众审查。 […]

此外，我们还将 Llama-4-Maverick 的 HF 版本添加到竞技场，排行榜结果很快就会发布。 Meta 对我们政策的解释与我们对模型提供商的期望不符。 Meta 应该更清楚地表明“Llama-4-Maverick-03-26-Experimental”是一个针对人类偏好进行优化的定制模型。因此，我们正在更新排行榜政策，以加强我们对公平、可重复评估的承诺，以便将来不会出现这种混乱。

— lmarena.ai

标签：元、人工智能伦理、生成人工智能、骆驼、人工智能、 LLMS 、 LM 竞技场

原文： https://simonwillison.net/2025/Apr/8/lmaren/#atom-everything