Agent Data Protocol(ADP):统一 LLM 智能体微调数据的新标准
ADP(Agent Data Protocol)通过标准化智能体训练数据格式,极大简化了 LLM 智能体的微调流程,提升了跨任务泛化能力,并推动了开源生态的协同发展。
简介
智能体(Agent)是让大语言模型(LLM)与外部环境交互、调用工具、执行任务的关键形式。然而,高质量智能体训练数据的缺乏与格式碎片化,成为成这一领域快速发展的主要瓶颈。
论文《 Agent Data Protocol 》(ADP)由 CMU、OSU、HKU 等机构联合提出,旨在通过标准化协议层统一不同来源的智能体数据集,从而实现高效的监督微调(SFT)与跨任务泛化。
ADP 通过定义统一的「动作(Action)」与「观测(Observation)」结构,将复杂的交互数据转换为通用的训练语料,使得异构数据能被任意智能体框架(如 OpenHands、SWE-Agent、AgentLab)直接使用。
研究动机
在深入了解 ADP 之前,首先需要明确当前智能体训练数据面临的主要挑战,以及 ADP 试图解决的核心问题。
当前问题
- 数据碎片化:不同智能体数据集(浏览、代码、API 调用等)格式各异,难以整合。
- 数据复用困难:每个数据集都需针对不同 Agent 框架定制转换脚本,工程成本高。
- 缺乏可比较性:异构格式阻碍了跨数据集的评估与统计分析。
ADP 的目标
ADP 的设计目标主要包括以下三点:
- Simplicity:结构清晰,易于解析与验证。
- Standardization:统一所有智能体任务的数据格式。
- Expressiveness:兼容多种任务类型(编程、网页、工具使用、通信等),保留原始语义。
ADP 核心架构
ADP 采用 Pydantic Schema 定义统一的轨迹(Trajectory)结构,便于数据解析与验证。
下方为 Trajectory 的结构定义示例:
Trajectory {
id: str,
content: [Action | Observation],
details: dict # 元数据
}
在 ADP 中,动作(Action)和观测(Observation)类型的标准化定义如下表所示:
在实际应用中,动作和观测类型的标准化对于数据兼容性至关重要。
| 类型 | 描述 | 示例 |
|---|---|---|
| APIAction | 外部工具调用 | goto(url="https://google.com") |
| CodeAction | 代码执行 | print("Hello World") |
| MessageAction | 自然语言回复 | "How can I help you?" |
| 类型 | 描述 | 示例 |
|---|---|---|
| TextObservation | 文本环境反馈 | Execution result: Hello World |
| WebObservation | 网页状态(HTML/AX 树/截图等) | url=google.com, html=<html>...</html> |
ADP 数据转换流程
ADP 的数据标准化流程采用“多对多 → 中心辐射”架构,极大简化了数据集与智能体框架之间的适配复杂度。
下图展示了整体流程:
如上图所示,ADP 的数据转换流程分为以下三个阶段:
阶段 1:Raw → ADP
将已有数据集(如 AgentInstruct、Mind2Web、SWE-Gym 等)映射为统一的 Action/Observation 结构。
阶段 2:ADP → SFT
为不同智能体框架编写一次性转换脚本(如 OpenHands、SWE-Agent、AgentLab),从而适配其特定格式。这样,工程复杂度从 O(D×A)(每数据集 × 每 Agent)降为 O(D+A)。
阶段 3:质量验证
自动校验动作配对、推理解释存在率(Reasoning Coverage ≥ 90%)、数据一致性等,确保数据质量。
标准化数据集
ADP 协议已整合了 13 个主流智能体数据集(共 130 万条轨迹),覆盖四大类别,具体如下表:
| 类别 | 示例数据集 | 说明 |
|---|---|---|
| Coding | CodeActInstruct, Code-Feedback | 代码生成与执行任务 |
| Software Engineering | SWE-Gym, SWE-smith | 多步代码修复与测试 |
| API/Tool Use | Orca AgentInstruct, OpenHands Feedback | 工具调用任务 |
| Web Browsing | Mind2Web, Synatra, Go-Browse | 网站交互与任务执行 |
实验结果
基于 Qwen2.5 / Qwen3 模型的多框架实验结果表明,ADP 显著提升了智能体在多项任务上的表现。
下表展示了主要实验结果:
| 框架 | 任务 | 模型 | Base | +ADP | 提升 |
|---|---|---|---|---|---|
| SWE-Agent | SWE-Bench | Qwen2.5-7B | 0.4% | 20.2% | +19.8% |
| OpenHands | SWE-Bench | Qwen2.5-7B | 2.8% | 20.4% | +17.6% |
| AgentLab | WebArena | Qwen2.5-7B | 4.5% | 21.0% | +16.5% |
| OpenHands | AgentBench | Qwen2.5-7B | 3.5% | 27.1% | +23.6% |
这些结果在 7B、14B、32B 模型上均保持一致,且在 SWE-Bench 上超过 Claude 3.5 Sonnet (33.6%) 的表现。
跨任务泛化能力
ADP 数据在多个任务间展现出强大的迁移性,显著优于单一领域微调。
下图展示了跨任务泛化的性能提升:
具体实验数据如下:
- SWE-smith only:1.0% → ADP:10.4%
- AgentInstruct only:0.6% → ADP:9.1%
- Go-Browse only:16.0% → ADP:20.1%
可见,跨域混合数据优于单一领域微调,能有效避免负迁移。
社区与生态价值
ADP 的开源与社区贡献极大推动了智能体领域的标准化进程。
贡献与开源计划
- 统一了 13 个异构数据集;
- 代码总量仅约 4,900 LOC;
- 每个新 Agent 仅需 ~77 LOC 即可适配;
- 已开源于 agentdataprotocol.com 。
潜在影响
- 促进研究复现与公平比较
- 大幅降低智能体微调门槛
- 推动跨领域智能体标准化生态
未来方向
ADP 未来的发展方向包括:
- 多模态扩展:整合图像、屏幕录制、音频等多模态数据。
- 评测协议标准化:让 Agent 与环境共用统一接口,提升评测一致性。
- 自动化数据验证与转换:通过 AI 自动清洗与标准化数据,进一步提升效率。
总结
Agent Data Protocol(ADP)通过标准化智能体训练数据格式,极大简化了 LLM 智能体的微调与跨任务泛化流程。其统一的 Schema、丰富的开源数据集和显著的实验效果,为智能体生态的协同发展奠定了坚实基础。未来,ADP 有望在多模态、评测标准化和自动化数据处理等方向持续拓展,推动智能体领域迈向更高水平。