新的 Pleias 1.0 法学硕士专门接受公开许可数据的培训

我早在三月份就写过有关Common Corpus公共领域数据集的文章。现在，Common Corpus 背后的团队 Pleias 发布了第一个模型系列，它们是：

[…] 专门针对开放数据进行培训，这意味着数据要么不受版权保护，要么在允许的许可下发布。

这里有很多东西需要吸收。 Pleias 1.0 系列具有三种基本型号尺寸：350M、1.2B 和 3B。他们还发布了两种专门用于多语言 RAG 的模型：Pleias-Pico (350M) 和 Pleias-Nano (1.2B)。

这是 Pleias-Pico 的官方 GGUF 。

我期待看到来自其他来源的基准测试，但 Pleias 运行了他们自己的定制多语言 RAG 基准测试，其 Pleias-nano-1.2B-RAG 模型位于 Llama-3.2-Instruct-3B 和 Llama-3.2-Instruct- 之间8B.

350M 和 3B 模型在法国政府的 Jean Zay 超级计算机上进行训练。 Pleias 为其训练模型的二氧化碳足迹感到自豪 – 三个模型分别为 0.5、4 和 16 tCO2eq，他们将其与 Llama 3.2 报告的 133 tCO2eq 进行了比较。