草稿

Agent Data Protocol(ADP):统一 LLM 智能体微调数据的新标准

ADP(Agent Data Protocol)通过标准化智能体训练数据格式,极大简化了 LLM 智能体的微调流程,提升了跨任务泛化能力,并推动了开源生态的协同发展。

简介

智能体(Agent)是让大语言模型(LLM)与外部环境交互、调用工具、执行任务的关键形式。然而,高质量智能体训练数据的缺乏与格式碎片化,成为成这一领域快速发展的主要瓶颈。

论文《 Agent Data Protocol 》(ADP)由 CMU、OSU、HKU 等机构联合提出,旨在通过标准化协议层统一不同来源的智能体数据集,从而实现高效的监督微调(SFT)与跨任务泛化。

ADP 通过定义统一的「动作(Action)」与「观测(Observation)」结构,将复杂的交互数据转换为通用的训练语料,使得异构数据能被任意智能体框架(如 OpenHands、SWE-Agent、AgentLab)直接使用。

研究动机

在深入了解 ADP 之前,首先需要明确当前智能体训练数据面临的主要挑战,以及 ADP 试图解决的核心问题。

当前问题

  • 数据碎片化:不同智能体数据集(浏览、代码、API 调用等)格式各异,难以整合。
  • 数据复用困难:每个数据集都需针对不同 Agent 框架定制转换脚本,工程成本高。
  • 缺乏可比较性:异构格式阻碍了跨数据集的评估与统计分析。

ADP 的目标

ADP 的设计目标主要包括以下三点:

  1. Simplicity:结构清晰,易于解析与验证。
  2. Standardization:统一所有智能体任务的数据格式。
  3. Expressiveness:兼容多种任务类型(编程、网页、工具使用、通信等),保留原始语义。

ADP 核心架构

ADP 采用 Pydantic Schema 定义统一的轨迹(Trajectory)结构,便于数据解析与验证。

下方为 Trajectory 的结构定义示例:

Trajectory {
  id: str,
  content: [Action | Observation],
  details: dict  # 元数据
}

在 ADP 中,动作(Action)和观测(Observation)类型的标准化定义如下表所示:

在实际应用中,动作和观测类型的标准化对于数据兼容性至关重要。

类型描述示例
APIAction外部工具调用goto(url="https://google.com")
CodeAction代码执行print("Hello World")
MessageAction自然语言回复"How can I help you?"
表 1: ADP 动作(Action)类型
类型描述示例
TextObservation文本环境反馈Execution result: Hello World
WebObservation网页状态(HTML/AX 树/截图等)url=google.com, html=<html>...</html>
表 2: ADP 观测(Observation)类型

ADP 数据转换流程

ADP 的数据标准化流程采用“多对多 → 中心辐射”架构,极大简化了数据集与智能体框架之间的适配复杂度。

下图展示了整体流程:

图 1: ADP 数据标准化流程
图 1: ADP 数据标准化流程

如上图所示,ADP 的数据转换流程分为以下三个阶段:

阶段 1:Raw → ADP

将已有数据集(如 AgentInstruct、Mind2Web、SWE-Gym 等)映射为统一的 Action/Observation 结构。

阶段 2:ADP → SFT

为不同智能体框架编写一次性转换脚本(如 OpenHands、SWE-Agent、AgentLab),从而适配其特定格式。这样,工程复杂度从 O(D×A)(每数据集 × 每 Agent)降为 O(D+A)。

阶段 3:质量验证

自动校验动作配对、推理解释存在率(Reasoning Coverage ≥ 90%)、数据一致性等,确保数据质量。

标准化数据集

ADP 协议已整合了 13 个主流智能体数据集(共 130 万条轨迹),覆盖四大类别,具体如下表:

类别示例数据集说明
CodingCodeActInstruct, Code-Feedback代码生成与执行任务
Software EngineeringSWE-Gym, SWE-smith多步代码修复与测试
API/Tool UseOrca AgentInstruct, OpenHands Feedback工具调用任务
Web BrowsingMind2Web, Synatra, Go-Browse网站交互与任务执行
表 3: ADP 标准化数据集类别与示例

实验结果

基于 Qwen2.5 / Qwen3 模型的多框架实验结果表明,ADP 显著提升了智能体在多项任务上的表现。

下表展示了主要实验结果:

框架任务模型Base+ADP提升
SWE-AgentSWE-BenchQwen2.5-7B0.4%20.2%+19.8%
OpenHandsSWE-BenchQwen2.5-7B2.8%20.4%+17.6%
AgentLabWebArenaQwen2.5-7B4.5%21.0%+16.5%
OpenHandsAgentBenchQwen2.5-7B3.5%27.1%+23.6%
表 4: ADP 多框架实验结果

这些结果在 7B、14B、32B 模型上均保持一致,且在 SWE-Bench 上超过 Claude 3.5 Sonnet (33.6%) 的表现。

跨任务泛化能力

ADP 数据在多个任务间展现出强大的迁移性,显著优于单一领域微调。

下图展示了跨任务泛化的性能提升:

图 2: ADP 跨任务泛化能力
图 2: ADP 跨任务泛化能力

具体实验数据如下:

  • SWE-smith only:1.0% → ADP:10.4%
  • AgentInstruct only:0.6% → ADP:9.1%
  • Go-Browse only:16.0% → ADP:20.1%

可见,跨域混合数据优于单一领域微调,能有效避免负迁移。

社区与生态价值

ADP 的开源与社区贡献极大推动了智能体领域的标准化进程。

贡献与开源计划

  • 统一了 13 个异构数据集;
  • 代码总量仅约 4,900 LOC
  • 每个新 Agent 仅需 ~77 LOC 即可适配;
  • 已开源于 agentdataprotocol.com

潜在影响

  1. 促进研究复现与公平比较
  2. 大幅降低智能体微调门槛
  3. 推动跨领域智能体标准化生态

未来方向

ADP 未来的发展方向包括:

  1. 多模态扩展:整合图像、屏幕录制、音频等多模态数据。
  2. 评测协议标准化:让 Agent 与环境共用统一接口,提升评测一致性。
  3. 自动化数据验证与转换:通过 AI 自动清洗与标准化数据,进一步提升效率。

总结

Agent Data Protocol(ADP)通过标准化智能体训练数据格式,极大简化了 LLM 智能体的微调与跨任务泛化流程。其统一的 Schema、丰富的开源数据集和显著的实验效果,为智能体生态的协同发展奠定了坚实基础。未来,ADP 有望在多模态、评测标准化和自动化数据处理等方向持续拓展,推动智能体领域迈向更高水平。

参考文献

文章导航

章节内容

这是章节的内容页面。

章节概览