云原生与 AI 的深度融合,ARK 平台为多智能体系统工程化落地提供了新范式。
引言
AI Agent(智能体)正在从“单 Agent Demo”阶段迈向“规模化运行”。真正的挑战并不在于模型本身,而在于运行时的工程问题:模型管理、工具调用、状态维护、弹性伸缩、团队协作、可观测性、部署升级等。这些问题是传统 Agent 库难以解决的。
ARK(Agentic Runtime for Kubernetes) 提供了一套可运行、可观测、可治理、可持续交付的多智能体操作系统。它不是一个 Python 库,而是完整的运行时平台。

注意:本文中提到的 ARK 指的是麦肯锡开源的 ARK Agent Runtime for Kubernetes 。
本文将以工程师视角,重新梳理 ARK 的核心能力,解答如下问题:
- ARK 到底解决了哪些工程难题?
- 为什么它值得云原生领域重点关注?
- 它与 LangChain、CrewAI 等框架有何本质差异?
- 对 Agentic Runtime 生态有哪些启示?
ARK 的基础架构:将 Agent 作为 Kubernetes 原生工作负载
ARK 的核心思想是:Agent 不是脚本,而是一个可调度、可治理、可观测的 Kubernetes 工作负载(Workload)。
下面这张架构图展示了 ARK 的底层结构。
这张图体现了 ARK 的关键设计:
- CRD 负责声明需求(Agent、Model、Team、Tool、Memory 等)
- Controller 负责将声明转化为实际的 Pod / Service
- API 提供统一通信入口与 Team 编排能力
- Memory 支持 Agent 的长期状态管理
- MCP Server 让外部系统成为工具
- Dashboard 提供可视化管理与观测能力
ARK 采用了典型的云原生 Operator 模式,并将其应用于多智能体系统。
CRD:ARK 的“抽象层”
与传统 Agent 框架“代码即逻辑”的方式不同,ARK 通过 CRD(自定义资源定义,Custom Resource Definition)来抽象 Agent 应用的组成部分。
ARK 的 CRD 主要包括以下类型:
- Model
- Agent
- Team
- Tool
- Memory
- Evaluation
这些 CRD 对应了 Agent 系统的所有关键部件。
下图展示了 CRD 的结构关系:
通过 CRD,ARK 实现了如下工程特性:
- 所有资源可 GitOps 化,支持声明式管理
- 变更可审计、可回滚、可持续交付
- 模型、工具、Agent 的演进无需改动业务代码
这正是 ARK 面向工程体系的关键基因。
Agent 执行链路:从 Query 到工具调用

在 ARK 中,一个 Agent 接收到 Query(请求)后的完整执行链路如下:
该链路具备以下特性:
- Memory(记忆模块)在执行链路中天然参与,无需代码特化
- 大语言模型(LLM, Large Language Model)和工具调用由运行时统一治理
- Agent 可以长期驻留于 Pod,不是一次性进程
这使得 ARK 更像一个“Agent 微服务平台”。
下面是一个请求的响应事例:
请求响应事例
kubectl describe query test-password-reset
Name: test-password-reset
Namespace: default
Labels: <none>
Annotations: <none>
API Version: ark.mckinsey.com/v1alpha1
Kind: Query
Metadata:
Creation Timestamp: 2025-12-11T11:16:45Z
Finalizers:
ark.mckinsey.com/finalizer
Generation: 2
Resource Version: 63109
UID: 52bf94fc-cda2-48a7-9d2f-085489fc4877
Spec:
Input: How do I reset my password?
Targets:
Name: support-agent
Type: agent
Timeout: 5m0s
Ttl: 720h0m0s
Type: user
Status:
Conditions:
Last Transition Time: 2025-12-11T11:16:49Z
Message: Query completed successfully
Observed Generation: 2
Reason: QuerySucceeded
Status: True
Type: Completed
Duration: 3.070165248s
Phase: done
Responses:
Content: I'm sorry, but I don't have the tools to assist with resetting your password. However, I can guide you on the general steps you might need to take:
1. Visit the login page of the website or application.
2. Look for a link or button that says "Forgot Password" or "Reset Password."
3. Click on that link and follow the instructions provided. Typically, you'll need to enter your email address or username.
4. Check your email for a password reset link or code.
5. Follow the link or enter the code to create a new password.
If you're still having trouble, you might want to contact the customer support of the specific service for further assistance.
Phase: done
Raw: [{"name":"support-agent","content":"I'm sorry, but I don't have the tools to assist with resetting your password. However, I can guide you on the general steps you might need to take:\n\n1. Visit the login page of the website or application.\n2. Look for a link or button that says \"Forgot Password\" or \"Reset Password.\"\n3. Click on that link and follow the instructions provided. Typically, you'll need to enter your email address or username.\n4. Check your email for a password reset link or code.\n5. Follow the link or enter the code to create a new password.\n\nIf you're still having trouble, you might want to contact the customer support of the specific service for further assistance.","role":"assistant"}]
Target:
Name: support-agent
Type: agent
Token Usage:
Completion Tokens: 145
Prompt Tokens: 146
Total Tokens: 291
Events:
Type Reason Age From Message
---- ------ ---- ---- -------
Normal QueryExecutionStart 68s ark-controller Executing query test-password-reset (timestamp: 2025-12-11T11:16:46.073237149Z)
Normal TargetExecutionStart 68s ark-controller Executing target agent/support-agent (timestamp: 2025-12-11T11:16:46.089103821Z)
Normal AgentExecutionStart 68s ark-controller Executing agent default/support-agent (timestamp: 2025-12-11T11:16:46.0895992Z)
Normal LLMCallStart 68s ark-controller Calling model mistralai/devstral-2512:free (timestamp: 2025-12-11T11:16:46.089628283Z)
Normal LLMCallComplete 65s ark-controller Model call completed successfully (timestamp: 2025-12-11T11:16:49.123529026Z)
Normal AgentExecutionComplete 65s ark-controller Agent execution completed successfully (timestamp: 2025-12-11T11:16:49.123840945Z)
Normal TargetExecutionComplete 65s ark-controller Target execution completed successfully (timestamp: 2025-12-11T11:16:49.123929654Z)
Normal QueryExecutionComplete 65s ark-controller Query execution completed (timestamp: 2025-12-11T11:16:49.152154135Z)
多 Agent 的真正价值:Team Orchestration
ARK 的 Team CRD 允许将多个 Agent 编织成一个高层次的“系统”,实现多智能体协作。
下图展示了多 Agent 团队的协作模式:
Team 的工程价值体现在:
- 让“专家协作”变得声明式、可配置
- 策略灵活(如轮询、角色分配、路由等)
- A2A Gateway 负责消息传递
- Team 本身具备可观测性(每轮协作均有日志)
对于企业而言,这意味着“Agent 组织结构”可以标准化、可重放、可调优。
ARK 与其它框架的本质差异
许多工程师初见 ARK 时会疑惑:
“它是不是只是把 LangChain 或 CrewAI 用 Kubernetes 包装了一下?”
实际上,二者有本质区别。下图对比了 ARK 与主流 Agent 框架的结构差异:
下表进一步总结了两者的关键差异:
| 维度 | 传统 Agent 库 | ARK |
|---|---|---|
| 核心模式 | 写 Python 代码 | 写 CRD(声明式) |
| 部署 | 本地/容器 | Kubernetes 原生调度 |
| 状态 | 代码内部管理 | Memory CR + 服务 |
| 工具 | 在代码层集成 | Tool CR + MCP |
| 多 Agent 协作 | 代码管理对话 | Team CR + A2A 协议 |
| 观测 | 几乎没有 | OTel / Langfuse / Dashboard |
| 适用场景 | Demo / 原型 / 单 Agent | 企业级生产 / 多 Agent 系统 |
一句话总结:
LangChain 是“构建 Agent 的库”,ARK 是“运行 Agent 的平台”。
两者并不冲突,甚至高度互补。
ARK 的工程价值
用简明语句总结 ARK 的工程价值:
- 将 Agent 变成 可治理的 Workload
- 将模型、工具、记忆统一抽象为 可复用资源
- 使多 Agent 协作 结构化、可观测、可调优
- 让 Agent 的升级与迭代进入 CI/CD + GitOps 模式
- 让企业可以像管理微服务一样 管理智能体
这是一条明确的演进路线:
Agent → Service → Platform → Runtime → Operating System
ARK 当前定位于第四阶段:Runtime。
对 Agentic Runtime 的启发
ARK 为 Agentic Runtime 的建设提供了三条直接启发:
统一调度系统
- Agent Runtime 必须运行在统一调度系统上(Kubernetes、MicroVM、Wasmtime 等)
声明式能力边界
- 必须用 declarative(声明式)抽象来拆分能力边界,包括:
- Model Layer
- Tool Layer
- Memory Layer
- Workflow Layer
- Team Layer
- State Layer
可观测性
- 必须有可观测性,否则多 Agent 系统无法工程化
- Langfuse
- OTel
- 日志 / 事件
- 结构化 JSON
ARK 展示了一个方向:
多智能体系统是一个工程问题,而非提示词工程问题。
总结
如果你只需要构建一个简单的 Agent,LangChain、CrewAI、AutoGPT 等框架已经足够。
但如果你要运营一个由几十到几百个 Agent 组成的系统,并且它们需要协作、长期运行、持续交付与治理,ARK 这类 Runtime 是必然趋势。
它为 Agentic AI 提供了:
- 云原生的运行模型
- 可观测的执行路径
- 可治理的抽象层
- 可扩展的组件化架构
因此,ARK 值得被视为多智能体工程化的早期范本。