Qwen2.5-1M：部署您自己的 Qwen，上下文长度高达 1M 代币

Qwen2.5-1M：部署您自己的 Qwen，上下文长度高达 1M 代币

阿里巴巴 Qwen 团队发布了非常重要的新版本。他们的公开许可（有时是 Apache 2，有时是 Qwen 许可，我很难跟上）Qwen 2.5 LLM 以前的输入令牌限制为 128,000 个令牌。这个新模型使用一种名为Dual Chunk Attention的新技术将其增加到 100 万，该技术于 2024 年 2 月首次在本文中描述。

他们在 Hugging Face 上发布了两个模型： Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M ，两者都需要 CUDA 并且都在 Apache 2.0 许可证下。

您需要大量VRAM 才能满负荷运行它们：

处理 100 万个令牌序列的 VRAM 要求：

Qwen2.5-7B-Instruct-1M ：至少 120GB VRAM（跨 GPU 的总和）。

Qwen2.5-14B-Instruct-1M ：至少 320GB VRAM（跨 GPU 的总和）。

如果您的 GPU 没有足够的 VRAM，您仍然可以使用 Qwen2.5-1M 模型来执行较短的任务。

Qwen 建议使用他们的 vLLM 自定义分支来为模型提供服务：

您也可以使用之前支持Qwen2.5的框架进行推理，但对于超过262,144个token的序列可能会出现精度下降的情况。

模型的 GGUF 量化版本已经开始出现。 LM Studio 的“官方模型策展人” Bartowski发布了lmstudio-community/Qwen2.5-7B-Instruct-1M-GGUF和lmstudio-community/Qwen2.5-14B-Instruct-1M-GGUF – 大小范围从 4.09GB 到 8.1GB 7B 型号为 7.92GB 至 15.7GB，14B 型号为 7.92GB 至 15.7GB。

这些可能无法很好地处理完整的上下文长度，因为底层llama.cpp库可能需要一些更改。

我尝试在 Mac 上使用Ollama运行 8.1GB 7B 模型，如下所示：

 ollama run hf.co/lmstudio-community/Qwen2.5-7B-Instruct-1M-GGUF:Q8_0

然后是法学硕士：

 llm install llm-ollama llm models -q qwen # To search for the model ID # I set a shorter q1m alias: llm aliases set q1m hf.co/lmstudio-community/Qwen2.5-7B-Instruct-1M-GGUF:Q8_0

我尝试像这样输入一个大的提示：

 files-to-prompt ~/Dropbox/Development/llm -e py -c | llm -m q1m 'describe this codebase in detail'

这应该给我llm 项目中的每个 Python 文件。首先通过ttok管道告诉我这是 63,014 个 OpenAI 代币，我预计 Qwen 的数量与此类似。

结果令人失望：它似乎只描述了流式传输的最后一个 Python 文件。然后我注意到令牌使用报告：

 2,048 input, 999 output

这对我来说表明有些东西不正常 – 也许 Ollama 托管框架正在截断输入，或者我正在使用的 GGUF 有问题？

当我弄清楚如何在 Mac 上使用 GGUF 权重通过新的 Qwen 模型运行更长的提示时，我会更新这篇文章。

通过VB

标签: llms , ai , qwen ,生成人工智能, llm , ollama

原文： https://simonwillison.net/2025/Jan/26/qwen25-1m/#atom-everything