这里的主要创新只是使用更多数据。具体来说,Qwen2.5 Coder 是早期 Qwen 2.5 模型的延续。最初的 Qwen 2.5 模型是在分布于各种语言和任务(例如写作、编程、问答)的 18 万亿个令牌上进行训练的。 Qwen 2.5-Coder 看到他们在额外的 5.5 万亿个代币数据上训练这个模型。这意味着 Qwen 已经接受了总共约 23T 个令牌的数据训练——从角度来看,Facebook 的 LLaMa3 模型接受了大约 15T 个令牌的训练。我认为这意味着 Qwen 是(迄今为止)公开披露的单一语言模型中数量最多的代币。
— 杰克·克拉克
标签: jack-clark ,生成人工智能,训练数据,人工智能, qwen , llms
原文: https://simonwillison.net/2024/Nov/18/jack-clark/#atom-everything