RedPajama 是一个创建领先开源模型的项目,它首先复制包含超过 1.2 万亿个令牌的 LLaMA 训练数据集
自两个月前发布以来,有大量项目使用 LLaMA 作为基础模型——尽管它的非商业许可——很明显,人们强烈希望获得完全公开许可的替代方案。
RedPajama 是 Together、Ontocord.ai、ETH DS3Lab、Stanford CRFM、Hazy Research 和 MILA Québec AI Institute 之间的合作项目,旨在构建这一点。
第一步是收集训练数据:LLaMA 论文描述了从维基百科、Common Crawl、GitHub、arXiv、Stack Exchange 等来源收集的 1.2 万亿令牌训练集。
RedPajama-Data-1T 是重新创建该训练集的尝试。现在可以下载它,作为 2,084 个独立的多 GB jsonl 文件。
即使没有经过训练的模型,这也是对开源 LLM 领域具有巨大影响力的贡献。任何希望从头开始构建自己的 LLaMA 的团队现在都可以直接跳到下一阶段,训练模型。
原文: http://simonwillison.net/2023/Apr/17/redpajama/#atom-everything