Qwen2.5-1M:部署您自己的 Qwen,上下文长度高达 1M 代币
阿里巴巴 Qwen 团队发布了非常重要的新版本。他们的公开许可(有时是 Apache 2,有时是 Qwen 许可,我很难跟上)Qwen 2.5 LLM 以前的输入令牌限制为 128,000 个令牌。这个新模型使用一种名为Dual Chunk Attention的新技术将其增加到 100 万,该技术于 2024 年 2 月首次在本文中描述。
他们在 Hugging Face 上发布了两个模型: Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M ,两者都需要 CUDA 并且都在 Apache 2.0 许可证下。
您需要大量VRAM 才能满负荷运行它们:
处理 100 万个令牌序列的 VRAM 要求:
- Qwen2.5-7B-Instruct-1M :至少 120GB VRAM(跨 GPU 的总和)。
- Qwen2.5-14B-Instruct-1M :至少 320GB VRAM(跨 GPU 的总和)。
如果您的 GPU 没有足够的 VRAM,您仍然可以使用 Qwen2.5-1M 模型来执行较短的任务。
Qwen 建议使用他们的 vLLM 自定义分支来为模型提供服务:
您也可以使用之前支持Qwen2.5的框架进行推理,但对于超过262,144个token的序列可能会出现精度下降的情况。
模型的 GGUF 量化版本已经开始出现。 LM Studio 的“官方模型策展人” Bartowski发布了lmstudio-community/Qwen2.5-7B-Instruct-1M-GGUF和lmstudio-community/Qwen2.5-14B-Instruct-1M-GGUF – 大小范围从 4.09GB 到 8.1GB 7B 型号为 7.92GB 至 15.7GB,14B 型号为 7.92GB 至 15.7GB。
这些可能无法很好地处理完整的上下文长度,因为底层llama.cpp
库可能需要一些更改。
我尝试在 Mac 上使用Ollama运行 8.1GB 7B 模型,如下所示:
ollama run hf.co/lmstudio-community/Qwen2.5-7B-Instruct-1M-GGUF:Q8_0
然后是法学硕士:
llm install llm-ollama llm models -q qwen # To search for the model ID # I set a shorter q1m alias: llm aliases set q1m hf.co/lmstudio-community/Qwen2.5-7B-Instruct-1M-GGUF:Q8_0
我尝试像这样输入一个大的提示:
files-to-prompt ~/Dropbox/Development/llm -e py -c | llm -m q1m 'describe this codebase in detail'
这应该给我llm 项目中的每个 Python 文件。首先通过ttok
管道告诉我这是 63,014 个 OpenAI 代币,我预计 Qwen 的数量与此类似。
结果令人失望:它似乎只描述了流式传输的最后一个 Python 文件。然后我注意到令牌使用报告:
2,048 input, 999 output
这对我来说表明有些东西不正常 – 也许 Ollama 托管框架正在截断输入,或者我正在使用的 GGUF 有问题?
当我弄清楚如何在 Mac 上使用 GGUF 权重通过新的 Qwen 模型运行更长的提示时,我会更新这篇文章。
通过VB
标签: llms , ai , qwen ,生成人工智能, llm , ollama
原文: https://simonwillison.net/2025/Jan/26/qwen25-1m/#atom-everything