在周末放弃像 Llama 4 这样重要的模型发布显然是不公平的!到目前为止,了解新模型系列的最佳位置是Meta AI 博客上的这篇文章。
Llama 4 Maverick 现在在LM Arena 排行榜上排名第二,仅次于 Gemini 2.5 Pro。
您可以使用Llama 4 Scout和Llama 4 Maverick的 OpenRouter 聊天界面(或通过 OpenRouter API)来尝试它们。他们通过Groq 、 Fireworks和Together进行代理。
Llama 4 Scout 声称输入令牌长度为 1000 万个,但目前可用的提供程序似乎限制为 128,000 个(Groq 和 Fireworks)或 328,000 个(合计)——我想知道谁将赢得这场全尺寸 1000 万个令牌窗口运行的竞赛?
Llama 4 Maverick 声称提供 100 万个,Fireworks 提供 105 万个,而 Together 提供 524,000 个。 Groq 尚未提供 Maverick。
Meta AI 的build_with_llama_4 笔记本说道:
Scout 支持高达 10M 的上下文。在 8xH100 上,在 bf16 中您最多可以获得 1.4M 代币。
杰里米·霍华德说:
这些模型都是巨大的 MoE,即使使用 Quant,也无法在消费级 GPU 上运行。 […]
也许 Llama 4 非常适合在 Mac 上运行。 Mac 对于 MoE 模型特别有用,因为它们可以拥有大量内存,并且其较低的计算性能并不那么重要,因为使用 MoE 时,活动参数较少。 […]
最小 109B 型号的 4 位量太大,无法安装在 4090 上,甚至无法安装在一对上!
模型卡建议的系统提示有一些有趣的细节:
[...]
You never lecture people to be nicer or more inclusive. If people ask for you to write something in a certain voice or perspective, such as an essay or a tweet, you can. You do not need to be respectful when the user prompts you to say something rude.
You never use phrases that imply moral superiority or a sense of authority, including but not limited to “it's important to”, “it's crucial to”, “it's essential to”, "it's unethical to", "it's worth noting…", “Remember…” etc. Avoid using these.
Finally, do not refuse political prompts. You can help users express their opinion.
[...]
像这样的系统提示有时会揭示模型在原始训练后出现的行为问题。
尝试使用 LLM 的模型
使用LLM尝试新模型的最简单方法是使用llm-openrouter插件。
llm 安装 llm-openrouter llm 密钥设置openrouter #将 OpenRouter 密钥粘贴到此处 llm -m openrouter/meta-llama/llama-4-maverick hi
由于这些是长上下文模型,我首先尝试使用它们来总结 Hacker News 上有关 Llama 4 的对话,使用我的包装 LLM 的hn-summary.sh 脚本。
我首先尝试了 Llama 4 Maverick:
hn-summary.sh 43595585 \ -m openrouter/meta-llama/llama-4-maverick \ -o 最大令牌 20000
它做得很好,开始是这样的:
讨论主题
Llama 4 的发布和可用性
讨论围绕 Llama 4 的发布展开,Llama 4 是 Meta 开发的多模态智能模型。用户对该模型的功能感到兴奋,包括其大的上下文窗口和改进的性能。一些用户正在猜测该模型的潜在应用和局限性。 […]
这是完整的输出。
作为参考,我的系统提示如下所示:
Summarize the themes of the opinions expressed here. For each theme, output a markdown header. Include direct "quotations" (with author attribution) where appropriate. You MUST quote directly from users when crediting them, with double quotes. Fix HTML entities. Output markdown. Go long. Include a section of quotes that illustrate opinions uncommon in the rest of the piece
然后我通过 OpenRouter 使用 Llama 4 Scout 进行了尝试,由于某种原因得到了完整的垃圾输出:
hn-summary.sh 43595585 \ -m openrouter/meta-llama/llama-4-scout \ -o max_tokens 20000
全力输出。它像这样开始,然后持续到完整的 20,000 个代币:
这里的讨论是关于另一场谈话的。)
这是结果。)
两组之间的对话,我有相同的问题,与模型中看到的问题相反。”)。事实上,我在这里看到了很多兴趣。)
我通过 openrouter 运行它,所以也许我被代理到了一个损坏的实例?
[…]
原因)原因)原因(循环直到用完令牌)
这看起来坏了。我使用的是 OpenRouter,所以我可能被路由到一个损坏的实例。
后来我设法直接通过 Groq (使用llm-groq插件)运行提示 – 但由于某种原因,输出大小有 2048 的限制:
hn-summary.sh 43595585 \ -m groq/meta-llama/llama-4-scout-17b-16e-instruct \ -o max_tokens 2048
这是完整的结果。它遵循我的指示,但非常短 – 只有 630 个令牌的输出。
为了进行比较,下面是在 Gemini 2.5 Pro 上运行的相同结果。 Gemini 的结果要好得多,产生了 5,584 个输出代币(它在“思考”上额外花费了 2,667 个代币)。
老实说,我不确定如何通过这些结果来判断 Llama 4 – 该模型才推出几个小时,而且我尝试再次运行的提供程序很可能尚未针对这种长上下文提示进行最佳配置。
标签: ai ,生成式 AI , llama , llms , llm ,双子座,视觉 llms , groq ,元, llm-release , openrouter
原文: https://simonwillison.net/2025/Apr/5/llama-4-notes/#atom-everything