简介
DeepFabric 是一个面向训练小型智能体(SLM,Small Language Models)以具备代理行为能力的数据集生成与微调框架。它通过层级主题生成、结构化推理模板与多格式导出,简化了从数据生成到训练的全流程,使研究者和工程师可以更高效地构建具备工具调用与多步推理能力的模型。
主要特性
- 层级话题生成:支持树状/图状主题生成,覆盖领域知识结构;
- 多格式导出:直接输出 TRL、XLAM、GRPO 等训练格式,无需额外转换;
- 工具调用支持:生成包含函数调用 schema 的示例,便于训练具备工具调用能力的模型;
- 质量控制:内置去重与模式校验以提高数据质量;
- 多提供方兼容:可与 OpenAI、Anthropic、Google、Ollama 等模型配合使用。
使用场景
- 训练具备工具调用能力的对话式智能体;
- 将复杂决策或多步骤任务蒸馏到小模型中以降低部署成本;
- 为学术研究或工程实验快速生成高质量的训练集;
- 在本地或私有环境中构建可控、可复现的代理训练流水线。
技术特点
- 结构化推理轨迹(Structured CoT):通过 Pydantic 与 Outlines 强制输出 schema;
- 多框架兼容:直接支持 HuggingFace TRL、Unsloth、Axolotl 等训练工具链;
- 可扩展的格式引擎:用户可自定义 formatter 输出到任意训练格式;
- 开箱即用的质量控制与数据管道组件,减少前处理成本。