当 Agent 成为长期运行的分布式状态机:解读 Agentic AI 基础设施可靠性

解读 Hesham ElBakoury 的《AI Infrastructure Reliability Features and Architecture for Agentic AI》,从可靠性五维框架、容错、恢复、可观测性到混合架构,分析 Agentic AI 基础设施的设计原则,并从 AI Infra 视角给出评价。

声明
本文是对 Hesham ElBakoury 在 Open Compute Project (OCP) 社区分享的论文《AI Infrastructure Reliability Features and Architecture for Agentic AI》(2026 年 6 月)的解读与评价,融合了我个人在 Kubernetes / AI Infra 方向的工程视角,并非论文原文翻译。

Agent 不是一次推理请求,而是长期运行的分布式状态机;因此,Agent 的可靠性问题本质上是分布式系统问题。

写在前面:为什么我要专门聊这篇论文

做云原生这么多年,我有一种很顽固的直觉:一个新的技术形态成不成熟,不看它的模型多强、Demo 多炫,而看它有没有一套成体系的可靠性语言。 Kubernetes 当年能赢,靠的不是容器 runtime,而是 liveness/readiness、控制器 reconcile、PD/PDB、SRE 那一套把“长期运行的分布式状态”讲清楚的话语体系。

前阵子在 Open Compute Project (OCP) 社区里看到 Hesham ElBakoury 分享的一篇论文,眼前一亮,它没有提出任何新算法、新框架,通篇在做一件事:把传统 SRE 的可靠性语言,系统地翻译到 Agentic AI 身上。 这正是我过去半年在 Agentic Runtime 的现实主义Ark Agentic Runtime 深度解析 里反复想讲、却一直没找到一篇“基准文献”来对齐的东西。所以我决定专门写一篇,把它的框架拆开,再从 AI Infra 从业者的角度做一次批判性评价。

一句话定位:它更像是一篇 Agentic AI 的 SRE 白皮书,而不是一篇系统论文。 它的价值不在创新,在于“建立共识”。

一句话总结

传统 AI 关注模型准确率,而 Agentic AI 必须关注“长期运行中的可靠性”,因此需要把容错、恢复、监控、安全和状态管理提升为架构设计的一等公民(first-class citizen)。

传统 AI 与 Agentic AI 的根本分野

论文认为,传统 AI 与 Agentic AI 的根本区别在于执行模型。传统 AI 是一次性的请求 - 响应,关注准确率、延迟和吞吐;而 Agentic AI 是一个持续循环,一次错误不再只是一个错误答案,而是一个可能改变 Agent 后续所有行为的错误决策。

图 1: 传统 AI 的请求 - 响应 vs Agentic AI 的感知→思考→行动→观察循环
图 1: 传统 AI 的请求 - 响应 vs Agentic AI 的感知→思考→行动→观察循环

下面这张对照表把这种区别讲得最清楚。我建议你重点看最后一行“失败影响”,那才是整篇论文的题眼:

特性传统 AIAgentic AI
执行模型请求 - 响应(Request-Response)持续循环(Continuous Loop)
状态管理无状态(Stateless)有状态(Stateful)
触发方式人工触发(Human-triggered)自主发起(Self-initiated)
时间跨度单次交互长期运行会话
失败影响单次输出错误级联行为变化(Cascading behavior changes)
资源使用突发(Bursty)持续(Continuous)
表 1: 传统 AI 与 Agentic AI 的执行模型对照

这张表的关键不在技术细节,而在心智模型的转变:当失败的影响从“一个错误答案”升级为“行为级连锁错误”时,可靠性的权重就必须从架构的最底层重新分配。给一个无状态 API 做容错,和给一个会自主决策、会持续运行的状态机做容错,根本不是同一件事。

核心贡献:Agent 可靠性五维框架

这是全文最值得记住的部分。作者把 Agent 的可靠性拆成五个维度,构成一个完整的评估坐标系。我把它画了出来,中间是“Agent 可靠性”,五个维度像花瓣一样展开:

图 2: Agent 可靠性五维框架:前四维描述 Agent 自身行为,第五维描述承载它的平台
图 2: Agent 可靠性五维框架:前四维描述 Agent 自身行为,第五维描述承载它的平台

逐个拆开看:

  • 功能可靠性(Functional Reliability):Agent 是否能完成任务。关注正确性、准确性、一致性、完整性。直白点:这个 Agent 能不能把事办成?
  • 时间可靠性(Temporal Reliability):Agent 是否能持续稳定。关注时效性、响应性、稳定性、耐久性。直白点:它能不能一直把事办成?
  • 环境可靠性(Environmental Reliability):面对环境变化是否仍有效。关注适应性、鲁棒性、可移植性。直白点:换个环境它还能干活吗?
  • 社会可靠性(Social Reliability):这是 Agent 独有的维度。关注安全性、可信度、协作性、可解释性。直白点:它能不能跟人和其他 Agent 安全协作?
  • 系统可靠性(Systemic Reliability):基础设施层。关注可用性、容错、可扩展性、安全性。直白点:支撑 Agent 的平台靠谱吗?
为什么这个框架有价值
这五个维度的真正价值,在于它让“Agent 可靠性”从一个模糊的概念,变成了可被拆解、可被度量、可被分别负责的工程问题。前四个维度描述 Agent 自身的行为属性,第五个维度描述承载它的平台,而这第五维,正是我们这些做 AI Infra / Kubernetes 的人最该接住的落点。

把 Agent 当作“有状态服务”

论文的第二个核心判断,我深以为然:Agent 最大的基础设施挑战,不是推理,而是状态。

一个 Agent 同时持有记忆(Memory)、目标(Goal)、计划(Plan)、上下文(Context)和工具状态(Tool state)。把它当成 HTTP API + Model 来运维,是当前绝大多数 Demo 经不起生产考验的根因。它真实的形态更接近一个数据库 + 工作流引擎 + LLM + 分布式系统的复合体:

图 3: 错误的运维心智(左)vs 正确的运维心智(右):Agent 本质是有状态的分布式系统
图 3: 错误的运维心智(左)vs 正确的运维心智(右):Agent 本质是有状态的分布式系统

这其实和当下业界的演进方向完全一致,LangGraph、Temporal、OpenAI Responses API 都在把“有状态的长期运行逻辑”变成一等公民。当一个 Agent 运行数小时甚至数天,它的状态比模型参数本身更关键,也更容易因为一次重启而彻底丢失。 模型可以重新加载,但一个跑了三小时的规划上下文,丢了往往就是丢了。

容错:Agent 系统的“黄金组合”

论文给出了一份 Agent 容错模式清单:

机制作用复杂度
冗余(Redundancy)备用 Agent 随时接管
检查点(Checkpointing)保存状态用于恢复
心跳(Heartbeat)存活检测
断路器(Circuit Breaker)隔离异常 Agent,防止级联
回滚(Rollback)回滚错误决策
法定人数(Quorum)多 Agent 投票达成共识
自愈(Self-Healing)自动检测并纠正错误
表 2: Agent 容错模式清单:机制、作用与实现复杂度

其中作者最看重 检查点 + 冗余 + 心跳 这三件套,称为 Agent 系统的“黄金组合”。我用一张闭环图把它们的关系画了出来,这三者缺一不可,少任何一环,恢复链路就断了:

图 4: Agent 容错黄金组合:心跳发现问题 → 检查点保存现场 → 冗余切换实例
图 4: Agent 容错黄金组合:心跳发现问题 → 检查点保存现场 → 冗余切换实例
黄金组合的闭环逻辑
心跳负责快速发现问题,检查点负责保存可恢复的状态,冗余负责在故障时无缝接管。三者共同构成“发现问题 → 保存现场 → 切换实例”的闭环。这也是为什么这套机制听着都是分布式系统的老朋友,因为 Agent 的可靠性问题,本来就是个分布式系统问题。

恢复机制:把传统灾备思想搬到 Agent

这部分其实是把传统 DR(灾备)的 RTO/RPO 思想搬到了 Agent 场景。论文比较了几种恢复方式:

恢复方式RTORPO复杂度
冷启动(Cold Start)分钟~小时高(完全丢失)
温启动(Warm Start)秒~分钟
热备(Hot Start)秒级低(极小丢失)
检查点恢复(Checkpoint Recovery)秒~分钟中(自上次检查点)
状态重建(State Reconstruction)分钟~小时低(可完整恢复)
表 3: Agent 恢复方式对比:RTO、RPO 与实现复杂度

作者的结论是:Agent 最适合检查点恢复(Checkpoint Recovery)。 原因前面已经埋下伏笔,Agent 的状态远比模型参数重要。检查点恢复在 RTO、RPO 和实现复杂度三者之间,取得了最平衡的取舍。这也是为什么前面“黄金组合”里检查点排在 C 位。

Agent 可观测性 = 基础设施指标 + 行为分析

这一节是我个人最有共鸣的部分。论文认为传统监控远远不够:传统监控盯的是 CPU、内存、延迟、QPS,而 Agent 必须额外监控行为本身。

  • Agent 健康(Agent Health):心跳、资源利用率、错误率、决策延迟。
  • 行为(Behavioral):动作频率、决策模式、状态转换、目标进度。
  • 系统(System):Agent 数量、通信量、基础设施健康。

其中“行为”这一层是 Agent 独有的。

最容易踩的坑
一个 Agent 的 CPU 不高、延迟正常,但如果它的“动作频率”突然飙升、“决策模式”偏离基线,这往往才是真正危险的信号。 换句话说:Agent Observability = Infra Metrics + Behavior Analytics。 只盯基础设施指标,会完美错过 Agent 的“行为失控”。

这与我之前在 GPU 到 Token 的可观测性 一文中讨论的思路完全相通,Agent 时代必须把行为信号纳入可观测性的第一公民,而不是停留在硬件 / 推理指标那一层。

推荐的混合架构(Hybrid Architecture)

论文比较了四种架构:

架构复杂度可扩展性故障隔离对 Agent 适用性
单体(Monolithic)有限
分层(Layered)中等中等
微服务(Microservices)优秀优秀
事件驱动(Event-driven)优秀
表 4: 四种架构对 Agent 系统的适用性对比

最终建议是:生产级 Agent 系统采用混合架构,即“分层 + 微服务 + 事件驱动”的组合:

图 5: 生产级 Agent 系统的混合架构:分层 + 微服务 + 事件驱动
图 5: 生产级 Agent 系统的混合架构:分层 + 微服务 + 事件驱动

分层提供清晰的关注点分离,微服务提供独立的扩缩容和故障隔离,事件驱动提供松耦合的异步协作。没有任何单一架构能同时满足 Agent 系统对清晰性、弹性和协作的要求,所以混合是必然结论。 对 K8s 老兵来说,这套分层栈看上去应该很眼熟,它就是把云原生那套分层治理,原样搬到了 Agent 之上。

从 AI Infra 视角看这篇论文最大的价值

如果站在 Kubernetes / AI Infra 的角度,这篇论文真正传递的是一个范式的迁移:Agent 基础设施将从“Serving”转向“Runtime”。

图 6: 范式迁移:从模型 Serving 到 Agent Runtime,关注点全面右移
图 6: 范式迁移:从模型 Serving 到 Agent Runtime,关注点全面右移

过去关注的是 GPU 利用率、吞吐、延迟;未来关注的是状态恢复、长任务连续性、Agent 隔离、Agent 调度、Agent 可观测性、Agent 安全治理。

我对趋势的判断
AI Infra 的下一个阶段,不是更好的模型 Serving,而是更可靠的 Agent Runtime。 这也正是我在 Ark Agentic Runtime 分析Agentic Runtime 的现实主义 中反复强调的方向,Agent 正在从“一个被 import 的类”变成“一个需要被治理的 workload”。

总结

这篇论文真正的贡献,是把 Agentic AI 的可靠性问题重新归类。它不再是一个模型问题,也不再是一个 prompt 工程问题,而是一个分布式系统问题,而且是一个有状态、长期运行、会自主决策的分布式系统问题。

对于 AI Infra 从业者,这意味着两件事。第一,传统 SRE 的工具箱(检查点、冗余、心跳、断路器、RTO/RPO)可以直接迁移过来,但必须扩展到“行为层”。第二,基础设施的关注重心将从“如何更快地 Serving 模型”转向“如何更可靠地运行 Agent”,也就是 Agent Runtime。

未来的 AI 平台,不仅要跑得快,更要跑得稳。

参考资料

宋净超(Jimmy Song)

宋净超(Jimmy Song)

专注于 AI 原生基础设施与云原生应用架构的研究与开源实践。

文章导航