《智能体设计模式》中文版已发布, 点击阅读

RedPajama 数据集

RedPajama 数据集是用于训练大规模语言模型的开源语料准备工具与数据集合。

简介

RedPajama 数据集由 Together Computer 维护,提供了用于构建和准备大规模训练语料的工具链与组织好的数据集。它的目标是为研究者和工程师提供可复现、可审计的训练数据准备流程,降低大模型训练的数据获取与预处理门槛。

主要特性

  • 系统化的数据预处理脚本,涵盖清洗、去重和分片处理。
  • 面向大规模训练的高效数据管道与格式转换支持。
  • 开源许可(Apache-2.0),便于社区复用与二次加工。

使用场景

  • 构建或微调大语言模型时作为训练数据来源或预处理参考。
  • 在研究中用于复现或验证数据处理流程与数据质量影响。
  • 用于教学、数据可视化与分析,帮助理解大型语料的组织方式。

技术特点

  • 采用模块化脚本,支持并行化处理与可插拔的数据清洗规则。
  • 输出可与常见训练框架和数据仓库(如 Hugging Face 数据集)兼容。
  • 提供清晰的元数据与数据来源说明,便于审计与合规检查。

评论区

RedPajama 数据集
资源信息
💾 数据 🌱 开源