Mistral 已经牢固地确立了自己作为 OpenAI 之外最令人兴奋的人工智能实验室的地位,可以说更令人兴奋的是,因为他们的大部分工作都是在开放许可下发布的。
12 月 8 日,他们在推特上发布了一个 torrent 的链接,没有任何额外的上下文(这是他们过去使用过的一个巧妙的营销技巧)。 87GB 的 torrent 包含一个新模型 Mixtral-8x7b-32kseqlen – 专家混合。
三天后,他们发表了一篇完整的文章,描述了“Mixtral 8x7B,一种具有开放权重的高质量稀疏专家混合模型 (SMoE)” – 已获得 Apache 2.0 许可。
他们声称“Mixtral 在大多数基准测试中都优于 Llama 2 70B,推理速度提高了 6 倍”,而且它在大多数基准测试中也优于 GPT-3.5。
这甚至不是他们目前最好的模型。新的 Mistral API 平台(目前在候补名单上)将 Mixtral 称为“Mistral-small”(将其之前的 7B 模型称为“Mistral-tiny”),并且还提供对当前关闭模型“Mistral-medium”的访问,该模型他们声称可以与 GPT-4 竞争。
原文: https://simonwillison.net/2023/Dec/11/mixtral-of-experts/#atom-everything