新的 Qwen2.5-Turbo 拥有一百万个令牌上下文窗口(Qwen 2.5 为 128,000 个)和更快的性能:
使用稀疏注意力机制,我们成功地将处理 1M 个令牌上下文的第一个令牌的时间从 4.9 分钟减少到 68 秒,实现了 4.3 倍的加速。
他们发布的基准看起来令人印象深刻,包括 100 万令牌万能钥匙检索任务的 100% 得分(不是第一个实现这一目标的模型)。
有一个问题:与 Qwen 2.5 系列的之前型号不同,这款型号似乎尚未作为开放权重发布:它只能通过他们的(廉价的)付费 API 获得 – 看起来您可能需要一部 +86 中国手机数字。
原文: https://simonwillison.net/2024/Nov/18/qwen-turbo/#atom-everything