简介
RedPajama 数据集由 Together Computer 维护,提供了用于构建和准备大规模训练语料的工具链与组织好的数据集。它的目标是为研究者和工程师提供可复现、可审计的训练数据准备流程,降低大模型训练的数据获取与预处理门槛。
主要特性
- 系统化的数据预处理脚本,涵盖清洗、去重和分片处理。
- 面向大规模训练的高效数据管道与格式转换支持。
- 开源许可(Apache-2.0),便于社区复用与二次加工。
使用场景
- 构建或微调大语言模型时作为训练数据来源或预处理参考。
- 在研究中用于复现或验证数据处理流程与数据质量影响。
- 用于教学、数据可视化与分析,帮助理解大型语料的组织方式。
技术特点
- 采用模块化脚本,支持并行化处理与可插拔的数据清洗规则。
- 输出可与常见训练框架和数据仓库(如 Hugging Face 数据集)兼容。
- 提供清晰的元数据与数据来源说明,便于审计与合规检查。