RedPajama 是一个创建领先开源模型的项目，它首先复制包含超过 1.2 万亿个令牌的 LLaMA 训练数据集

自两个月前发布以来，有大量项目使用 LLaMA 作为基础模型——尽管它的非商业许可——很明显，人们强烈希望获得完全公开许可的替代方案。

RedPajama 是 Together、Ontocord.ai、ETH DS3Lab、Stanford CRFM、Hazy Research 和 MILA Québec AI Institute 之间的合作项目，旨在构建这一点。

第一步是收集训练数据：LLaMA 论文描述了从维基百科、Common Crawl、GitHub、arXiv、Stack Exchange 等来源收集的 1.2 万亿令牌训练集。