📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

智能体的 21 种设计模式总结:Agentic Design Patterns 书评

探索智能体设计的 21 种模式,提升 AI 系统的自主性与效率,助力开发者应对复杂挑战。

最近笔者在尝试各种工具构建 AI Agent(智能体),但是缺少一套方法论支撑,正好看到 Antonio Gulli 的这本新书 Agentic Design Patterns ,很好的总结了目前在构建智能体时使用的各种模式,比如 RAG、MCP、Memory 等,在此我整理成幻灯片和读书笔记分享给大家。

本书作者 Antonio Gulli,任职于 Google CTO Office。这本书的所有版税将捐献给救助儿童会。下面的幻灯片总结了书中列举的智能体的 21 种设计模式,并给出了示意图说明,此外你也可以在 Bilibili 上观看我的视频讲解。

幻灯片: Agentic 设计模式

简介:Agentic 系统与设计模式

Agentic 系统是一种能够感知环境、做出决策并自主执行行动以实现目标的计算实体。与传统软件不同,智能体具备自主性主动性响应性目标导向的特性。其关键能力包括工具使用记忆通信

Agentic 设计模式是经过实战检验的模板和蓝图,为智能体行为设计与实现中的常见挑战提供可复用解决方案。使用设计模式能提升智能体构建的结构性、可维护性、可靠性和效率,避免重复造轮子,并使开发者能专注于应用创新。

本书提炼了 21 个关键设计模式,涵盖从基础到高级主题,并结合 LangChain、LangGraph、Crew AI 和 Google Agent Developer Kit (ADK) 等主流框架进行实战演示。作者强调,虽然 AI 变化迅速,但这些模式和原则将成为智能体开发的基础模块,帮助大家关注核心理念。

查看/隐藏 - 智能体的 21 种设计模式思维导图

AI 智能体的特征

AI Agent 是一种能够感知环境并采取行动以实现特定目标的系统。它遵循简单的五步循环完成任务:获取任务目标 → 扫描环境信息 → 制定计划 → 执行行动 → 学习与优化。AI Agent 市场正以惊人速度增长,预计到 2034 年将达到近 2000 亿美元。

AI 范式在短短两年内经历了巨大转变:

  • Level 0:核心推理引擎:LLM 本身,无工具、记忆、环境交互能力,仅依赖预训练知识。
  • Level 1:连接型问题解决者:LLM 通过连接外部工具(如搜索、数据库)获取和处理信息。
  • Level 2:战略型问题解决者:Agent 具备战略规划、主动协助和自我优化能力,通过“上下文工程”战略性筛选和管理信息。
  • Level 3:协作型多 Agent 系统崛起:多个专业 Agent 协作完成复杂目标,如新产品发布中的“项目经理”Agent 协调“市场调研”、“产品设计”等 Agent。

Agent 未来:五大假设

  1. 通才 Agent 的出现:Agent 将进化为能高可靠性地管理复杂、模糊和长期目标的通才。可能通过大型通才模型或“小语言模型”(SLM)组合实现。
  2. 深度个性化与主动目标发现:Agent 将通过学习用户行为和目标,从被动执行命令转向主动预测需求,成为“主动型伙伴”。
  3. 具身化与物理世界交互:Agent 将与机器人结合,实现“具身 Agent”,突破数字领域,在物理世界执行任务,如修理水龙头。
  4. Agent 驱动经济:高度自治的 Agent 将成为经济参与者,创造新市场和商业模式,运营整个电商业务。
  5. 目标驱动、变形多 Agent 系统:系统将根据用户声明的目标自主规划并达成,动态调整多 Agent 结构,具备个体和整体自我优化能力。

核心 Agentic 设计模式

1. 提示链(Prompt Chaining)

  • 概述:将复杂任务拆解为一系列更小、更易管理的子问题。每个子问题通过专门提示处理,前一步输出作为下一步输入,形成链式依赖。它引入了模块化和清晰性,提升了输出的准确性和针对性,并能集成外部知识和工具。
  • 示例:LangChain 示例演示两步提示链,先从文本提取规格,再转为 JSON。
  • 上下文工程:系统性方法,为模型构建完整信息环境,包括系统提示、外部数据(检索文档、工具输出)和隐性数据,比传统提示工程更全面。
  • 应用场景:信息处理流程、复杂问答、数据提取与转换、内容生成流程、有状态对话 Agent、代码生成与优化、多模态与多步推理。
  • 重要性:是构建复杂 AI Agent 的基础技术,让 Agent 能够自主规划、推理和行动,适应动态环境。

2. 路由(Routing)

  • 概述:Agent 根据环境状态、用户输入或前序操作结果等因素,动态地将控制流导向不同的专用函数、工具或子流程,实现自适应响应。核心组件是执行评估并引导流程的机制。
  • 实现方式:基于 LLM、基于嵌入、基于规则或基于机器学习模型的路由。
  • 示例:LangChain 示例中,协调者 Agent 根据用户请求意图(预订、信息、不明确)路由到不同子代理。Google ADK 示例中,协调者代理通过 Auto-Flow 机制自动委托给 Booker 或 Info 子代理。
  • 应用场景:人机交互中的用户意图解析、自动化数据与文档处理流程中的分类与分发、复杂系统中的高级调度器。
  • 重要性:为 Agent 框架引入条件逻辑,使其从固定执行路径转变为动态评估标准,选择最佳后续动作,从而实现更灵活、具备上下文感知的系统行为。

3. 并行化(Parallelization)

  • 概述:同时执行多个组件(LLM 调用、工具使用或子 Agent),大幅缩短可拆分为独立部分的任务的整体执行时间。核心思想是识别流程中彼此无依赖的部分,并将它们并行执行。
  • 示例:LangChain 示例通过 RunnableParallel 并行执行主题摘要、问题生成和关键词提取。Google ADK 示例通过 ParallelAgent 并行运行多个调研员 Agent。
  • 应用场景:信息收集与调研(同时搜索多个来源)、数据处理与分析(并行应用不同分析方法)、多 API 或工具交互、多组件内容生成、验证与校验、多模态处理、A/B 测试或多方案生成。
  • 重要性:提升 Agentic 系统的效率和响应速度,尤其适用于涉及多个独立查找、计算或外部服务交互的任务。

4. 反思(Reflection)

  • 概述:Agent 对自身的工作、输出或内部状态进行评估,并利用评估结果来提升性能或优化响应。这是一种自我纠错或自我改进机制,引入了反馈循环。
  • 典型流程:执行 → 评估/批判 → 反思/优化 → 迭代。
  • 实现方式:将流程分为生产者(Producer)和批评者(Critic)两个逻辑角色,由不同 Agent 或不同系统提示的 LLM 调用扮演。
  • 示例:LangChain 示例中,Agent 迭代生成并优化 Python 函数,批评者 Agent 反复批判代码。Google ADK 示例通过 SequentialAgent 编排生成器 Agent 和审查器 Agent。
  • 应用场景:创意写作与内容生成、代码生成与调试、复杂问题求解、摘要与信息整合、规划与策略制定、对话 Agent。
  • 重要性:构建能够输出高质量结果、处理复杂任务、具备一定自我意识和适应性的 Agent。

5. 工具使用(Tool Use / Function Calling)

  • 概述:Agent 通过“函数调用”机制与外部 API、数据库、服务或代码进行交互。LLM 根据用户请求或任务状态,决定何时及如何调用特定外部函数。
  • 典型流程:工具定义 → LLM 决策 → 函数调用生成 → 工具执行 → 观察/结果 → LLM 处理。
  • 工具与函数调用的区别:工具调用更具包容性,可指复杂 API、数据库请求,甚至面向其他 Agent 的指令。
  • 示例:LangChain 示例中,Agent 使用 search_information 工具。CrewAI 示例中,Agent 使用 get_stock_price 工具。Google ADK 示例展示 Google Search、代码执行、Vertex AI Search 工具的使用。
  • 应用场景:外部信息检索、与数据库和 API 交互、计算与数据分析、发送通讯、执行代码、控制其他系统或设备。
  • 重要性:突破 LLM 训练数据限制,访问最新信息、执行内部无法完成的计算、操作用户专属数据或触发现实世界动作。

6. 规划(Planning)

  • 概述:Agent 或 Agent 系统能够制定一系列行动,从初始状态逐步迈向目标状态的能力。计划并非预先设定,而是根据请求动态生成,并能根据新信息灵活调整。
  • 规划与可预测性权衡:当问题解决路径已知且可重复时,限制 Agent 按固定流程执行更有效。
  • 示例:Crew AI 示例中,规划者智能体制定并撰写摘要的计划。Google DeepResearch 和 OpenAI Deep Research API 演示了多步骤、迭代式的研究规划。
  • 应用场景:流程自动化(新员工入职)、机器人与自主导航、结构化信息合成(生成复杂报告)、多步骤客户支持。
  • 重要性:使 Agent 具备前瞻性思考,将复杂任务拆解为可管理的小步骤,并制定实现目标的策略。

7. 多智能体协作(Multi-Agent Collaboration)

  • 概述:将系统结构化为多个独立且专用的 Agent 协作团队,共同实现复杂、多领域目标。通过任务分解原则,将高层目标拆分为子问题并分配给具备相应能力的 Agent。
  • 协作形式:顺序交接、并行处理、辩论与共识、层级结构、专家团队、批评 - 审查者模式。
  • Agent 关系与通信结构:单 Agent、网络型、监督者、工具型监督者、层级型、定制型。
  • 示例:Crew AI 示例中,研究员 Agent 和写作者 Agent 协作撰写博客。Google ADK 示例展示了层级、循环、顺序、并行 Agent 以及“Agent 即工具”模式。
  • 应用场景:复杂研究与分析、软件开发、创意内容生成、金融分析、客户支持升级、供应链优化、网络分析与修复。
  • 重要性:通过分工与协同实现集体优势,使多 Agent 系统的整体性能远超任何单一 Agent。

8. 记忆管理(Memory Management)

  • 概述:Agent 保留并利用过去交互、观察和学习经验的信息能力。分为短期记忆(上下文窗口中的临时信息)和长期记忆(持久存储在外部知识库,如向量数据库)。
  • 短期记忆:LLM 上下文窗口,保存当前或最近交互信息。
  • 长期记忆:持久存储在外部,通过语义搜索检索。分为语义记忆(事实)、情景记忆(经历)和程序性记忆(规则)。
  • 示例:Google ADK 通过 Session(聊天线程)、State(临时数据)和 MemoryService(长期知识库)管理记忆。LangChain 和 LangGraph 提供 ConversationBufferMemory、ChatMessageHistory 等工具。Vertex Memory Bank 提供托管的长期记忆服务。
  • 应用场景:聊天机器人与对话式 AI、任务型 Agent、个性化体验、学习与提升、信息检索(RAG)、自主系统。
  • 重要性:让 Agent 能够维护历史、学习、个性化交互,并处理复杂的时序问题,超越基础问答能力。

9. 学习与适应(Learning & Adaption)

  • 概述:Agent 通过根据新经验和数据改变思维、行为或知识来实现学习与适应。使 Agent 能够从简单执行指令,逐步变得更智能。
  • 学习类型:强化学习(PPO、DPO)、监督学习、无监督学习、少样本/零样本学习、在线学习、基于记忆的学习。
  • 案例分析:自我改进编码 Agent(SICA)通过迭代优化自身代码,提升编码能力。Google AlphaEvolve 结合 LLM、自动评估和进化算法发现和优化算法。OpenEvolve 利用 LLM 迭代优化代码。
  • 应用场景:个性化助手 Agent、交易机器人 Agent、应用 Agent、机器人与自动驾驶 Agent、反欺诈 Agent、推荐系统 Agent、游戏 AI Agent、知识库学习 Agent。
  • 重要性:提升 Agent 能力的关键,使其能够突破预设参数,通过经验和环境交互自主改进,有效应对新情况并在无需持续人工干预的情况下优化自身表现。

10. 模型上下文协议(Model Context Protocol, MCP)

  • 概述:MCP 是一项开放标准,为 LLM 与外部应用、数据源和工具的通信提供标准化接口,实现一致性和可预测集成的关键机制。它采用客户端 - 服务器架构,服务器暴露数据、Prompt 和可执行功能,客户端(LLM 宿主应用或 AI Agent)消费这些能力。
  • 与工具函数调用的区别:函数调用是 LLM 直接请求预定义工具,是专有的一对一通信。MCP 则是通用框架,目标是建立一个任何合规工具都能被任何合规 LLM 访问的生态系统,促进互操作性、可组合性和复用性。
  • 更多考量:工具、资源与 Prompt 的区别;可发现性;安全性;实现复杂度;错误处理;本地与远程服务器;按需与批量处理;传输机制。
  • 示例:ADK 示例演示 Agent 配置 MCP 文件系统服务器、连接 UVX MCP 服务器、与 FastMCP 服务器的集成。
  • 应用场景:数据库集成、生成式媒体编排、外部 API 交互、推理型信息抽取、自定义工具开发、标准化 LLM-应用通信、复杂流程编排、物联网设备控制、金融服务自动化。
  • 重要性:为 LLM 与外部资源的对接提供标准化接口,解决每次集成都需要定制开发的问题,是实现复杂、互联 AI 系统不可或缺的标准化通信框架。

11. 目标设定与监控(Goal Setting & Monitoring)

  • 概述:为 Agent 设定具体目标,并赋予其追踪进度、判断目标是否达成的能力。这使 Agent 能够有明确的方向感,判断自身行为是否有效,从而提升整体效能。
  • 规划:Agent 根据高层目标,自动或半自动地生成一系列中间步骤或子目标。
  • 示例:LangChain 示例中,Agent 自主生成并优化 Python 代码,通过 AI 判断代码是否达成初始目标,实现迭代优化。
  • 应用场景:客户支持自动化、个性化学习系统、项目管理助手、自动化交易机器人、机器人与自动驾驶、内容审核。
  • 重要性:为 Agent 提供智能自我管理的基础框架,使其能够自主可靠运行于复杂现实场景,具备主动达成目标的能力。

12. 异常处理与恢复(Exception Handling & Recovery)

  • 概述:Agent 具备应对突发状况、错误和故障的能力。该模式旨在打造极其坚韧和弹性的 Agent,使其在面对各种困难和异常时,依然能够保持不间断的功能和运行完整性。
  • 关键方面:错误检测、错误处理(日志记录、重试、备用方案、优雅降级、通知)、恢复(状态回滚、诊断、自我修正、升级处理)。
  • 示例:ADK 示例中,鲁棒位置查询系统包含 primary_handler 和 fallback_handler,实现分层位置查询与异常处理。
  • 应用场景:客服聊天机器人处理数据库错误、自动化金融交易应对市场异常、智能家居代理解决设备故障、数据处理 Agent 遇到损坏文件、网页爬虫 Agent 遇到网站结构变化、机器人制造业部件错位。
  • 重要性:将 AI 智能体从脆弱不可靠的系统转变为坚实可靠的组件,使其在充满挑战和高度不可预测的环境中高效、弹性运行。

13. 人类参与环节(Human-in-the-Loop, HITL)

  • 概述:有意识地将人类认知的独特优势(判断力、创造力、细致理解)与 AI 的计算能力和高效性相结合。确保 AI 在伦理边界内运行,遵循安全协议,并以最佳效果达成目标。
  • 关键方面:人类监督、干预与纠正、人类反馈用于学习、决策增强、人机协作、升级策略。
  • Human-on-the-loop:人类专家制定总体策略,AI 负责即时执行以确保合规。
  • 示例:ADK 示例中,基于 HITL 的技术支持 Agent 在复杂或敏感问题时,可请求人类介入(escalate_to_human 工具)。
  • 应用场景:内容审核、自动驾驶、金融欺诈检测、法律文档审查、客户支持(复杂问题)、数据标注与注释、生成式 AI 优化、自动化网络管理。
  • 重要性:将人类监督、战略输入和协作互动视为不可或缺,确保 AI 系统始终与人类伦理、价值观、目标和社会期望保持一致。

14. 知识检索(Retrieval Augmented Generation, RAG)

  • 概述:RAG 模式显著增强了 LLM 的能力,使其在生成响应前能够访问外部知识库。系统通过语义搜索从知识库中检索相关信息,并将其“增强”到原始提示中,再送入 LLM 生成响应。
  • 核心概念:嵌入、文本相似度、语义相似度与距离、文档分块、向量数据库。
  • RAG 的挑战:答案所需信息分散、检索质量(引入噪声)、整合矛盾信息、知识库预处理与同步、性能延迟与成本。
  • 图 RAG(GraphRAG):利用知识图谱进行信息检索,通过遍历实体间关系回答复杂问题,提供更具上下文和细致度的答案。
  • Agentic RAG:RAG 的进化版,引入推理和决策层。Agent 主动审查检索结果的质量、相关性和完整性,调和知识冲突,多步推理综合复杂答案,识别知识空缺并调用外部工具。
  • 示例:Google Search 工具实现 RAG。ADK 利用 Vertex AI RAG 能力。LangChain 示例通过 Weaviate 向量库实现 RAG 流程。
  • 应用场景:企业搜索与问答、客户支持与服务台、个性化内容推荐、新闻与时事摘要。
  • 重要性:让 LLM 能够访问并集成外部、最新、特定场景的信息,从而提升输出的准确性、相关性和事实基础,突破 LLM 训练数据的限制。

15. 智能体间通信(Agent-to-Agent, A2A)

  • 概述:A2A 协议是一项开放标准,旨在实现不同 AI 智能体框架之间的通信与协作,确保互操作性。它得到了众多科技公司和开源社区的支持。
  • 核心概念:用户、A2A 客户端(客户端 Agent)、A2A 服务器(远程 Agent);Agent Card(Agent 的数字身份);Agent 发现(Well-Known URI、管理型注册表、直接配置);通信与任务(异步任务、消息、artifact、HTTP/JSON-RPC 2.0 协议、contextId);交互机制(同步请求/响应、异步轮询、流式更新、推送通知);安全性(双向 TLS、完整审计日志、Agent Card 声明、凭证处理)。
  • A2A 与 MCP 对比:MCP 关注 Agent 与外部数据和工具的上下文结构化,而 A2A 专注于 Agent 间的协调与通信。
  • 示例:ADK Agent 示例演示如何用 Google 认证工具搭建 A2A 服务器。
  • 应用场景:多框架协作、自动化工作流编排、动态信息检索。
  • 重要性:使得不同框架构建的 AI 智能体能够高效协作,实现无缝协调、任务委托和信息交换,是构建复杂 AI 解决方案不可或缺的基础。

16. 资源感知优化(Resource-Aware Optimization)

  • 概述:Agent 在运行过程中动态监控和管理计算、时间和财务资源。其核心是在指定资源预算内实现目标或优化效率,如在更准确但昂贵的模型与更快、低成本模型之间进行选择。
  • 回退机制:当首选模型不可用时,系统自动切换到默认或更经济的模型,保证服务连续性。
  • 示例:LangChain 示例中,路由 Agent 根据查询长度分流到 Gemini Flash(经济型)或 Gemini Pro(高阶型)。OpenAI 示例将问题分类为 simple、reasoning 或 internet_search,选择最合适且经济的处理路径。OpenRouter 提供统一接口实现自动故障转移和成本优化。
  • 其他资源优化技术:动态模型切换、自适应工具选择、上下文剪枝与摘要、主动资源预测、成本敏感探索、能效部署、并行与分布式计算感知、学习型资源分配策略、优雅降级与回退机制。
  • 应用场景:成本优化的 LLM 使用、延迟敏感操作、能效优化、服务可靠性回退、数据使用管理、自适应任务分配。
  • 重要性:确保 Agent 在有限资源下高效运行,提升整体效能和目标达成度。

17. 推理技术(Reasoning Techniques)

  • 概述:Agent 的高级推理方法,重点关注多步逻辑推理和问题分解。通过在推理阶段分配更多计算资源,提升准确性、连贯性和鲁棒性。
  • 推理技术
  • 链式思维(Chain-of-Thought, CoT):引导模型生成一系列中间推理步骤,提升多步推理任务表现。
  • 树式思维(Tree-of-Thought, ToT):在 CoT 基础上扩展,探索多条推理路径,支持回溯、自我纠错和多方案评估。
  • 自我纠错(Self-correction):Agent 对生成内容进行自我评估和迭代优化。
  • 程序辅助语言模型(PALMs):将 LLM 与符号推理结合,生成并执行代码。
  • 可验证奖励强化学习(RLVR):训练模型生成长推理链,支持自我纠错和回溯。
  • ReAct(推理与行动):将 CoT 推理与 Agent 工具交互结合,形成“思考 - 行动 - 观察”循环。
  • CoD(辩论链):多个模型协作辩论解决问题。
  • GoD(辩论图):将讨论建模为动态非线性网络。
  • MASS(多 Agent 系统搜索):通过多阶段优化,自动探索和优化 MAS 设计空间。
  • 推理扩展定律:LLM 性能与推理阶段分配计算资源的关系,通过增加计算资源,小模型也能获得优异结果。
  • 示例:Google 开源 DeepSearch 代码(基于 Gemini 2.5 和 LangGraph),Agent 通过反思推理识别知识空缺并迭代优化答案。
  • Agent 如何“思考”:结构化方法,结合推理与行动,通过 LLM 生成“思考”,指导后续行动(搜索、信息检索),直到任务完成。
  • 应用场景:复杂问答、数学问题求解、代码调试与生成、战略规划、医学诊断、法律分析。
  • 重要性:使 Agent 能够拆解问题、考虑中间步骤,并得出更稳健、准确的结论,是自主 Agent 发展的基础。

18. 护栏与安全模式( & Safety Patterns)

  • 概述:护栏是确保 Agent 安全、合规、按预期运行的关键机制。它们作为保护层,引导 Agent 行为和输出,防止有害、偏见、无关或其他不良响应。
  • 实施阶段:输入验证/清洗、输出过滤/后处理、行为约束、工具使用限制、外部内容审核 API、人类介入(Human-in-the-Loop)。
  • 注意事项:可采用计算资源消耗较低的模型作为额外防线,对主模型的输入或输出进行预筛查。
  • 示例:CrewAI 示例中,policy_enforcer_agent 通过 SAFETY_GUARDRAIL_PROMPT 和 Pydantic 护栏筛查用户输入。Vertex AI 示例展示工具调用前的参数校验回调。
  • 工程化可靠 Agent:遵循传统软件工程原则(模块化、结构化日志、最小权限原则、检查点与回滚),将 Agent 视为复杂系统。
  • 应用场景:客服聊天机器人、内容生成系统、教育助教/辅导员、法律研究助手、招聘与人力资源工具、社交媒体内容审核、科研助手。
  • 重要性:确保 Agent 运行稳健、可信且有益,构建负责任的 AI 系统,降低风险,维护用户信任。

19. 评估与监控(Evaluation & Monitoring)

  • 概述:Agent 系统性评估自身性能、监控目标进展以及检测运行异常的方法。包括指标定义、反馈回路建立和报告系统实现,确保 Agent 在实际环境中的表现符合预期。
  • 评估指标:Agent 响应评估(事实正确性、流畅度、语法精度、用户意图符合度)、延迟监控、LLM 交互 Token 用量追踪、LLM 评审(自定义“有用性”指标)。
  • 评估方法对比:人工评估、LLM 评审、自动化指标。
  • Agent 轨迹评估:分析 Agent 执行任务时的完整日志,包括决策质量、推理过程和最终结果。
  • 多 Agent 评估:评估各 Agent 分工和整体协作,如是否有效协作、是否制定并遵循合理计划、是否选择了合适 Agent。
  • 从 Agent 到高级“承包商”:将 AI Agent 从概率性、易出错系统升级为更确定、可问责的“承包商”,通过正式合同、动态协商与反馈、质量导向迭代执行、分层分解与子合同,实现可客观验证的结果。
  • Google ADK 框架:支持 Web UI、pytest 集成和命令行自动化评估。
  • 应用场景:生产环境性能追踪、A/B 测试优化、合规与安全审计、企业系统治理(AI“合同”)、漂移检测、异常行为检测、学习进度评估。
  • 重要性:保障 Agent 持续性能,实现持续改进、A/B 测试和异常检测,确保 Agent 始终符合目标。

20. 优先级排序(Prioritization)

  • 概述:Agent 根据任务的重要性、紧急性、依赖关系和既定标准进行评估和排序,确保 Agent 将精力集中在最关键的任务上,从而提升整体效能和目标达成度。
  • 核心要素:标准定义(紧急性、重要性、依赖关系、资源可用性、成本/收益、用户偏好)、任务评估、调度或选择逻辑、动态优先级调整。
  • 应用层级:总体目标选择、规划步骤排序、从可选项中选择下一步行动。
  • 示例:LangChain 示例中,项目经理智能体自动创建、排序并分配任务,展示了项目管理自动化。
  • 应用场景:自动化客户支持、云计算资源调度、自动驾驶系统、金融交易、项目管理、网络安全、个人助理 AI。
  • 重要性:Agent 在面对多重需求、资源有限、时间紧迫、目标可能冲突的真实场景时,能够做出明智决策,有效管理任务和目标。

21. 探索与发现(Exploration & Discovery)

  • 概述:Agent 能够主动寻找新信息、发现新可能性并识别“未知的未知”。其核心在于 Agent 主动进入陌生领域,尝试新方法,并生成新的知识或理解。
  • Google Co-Scientist:Google Research 开发的科学协作 AI 系统,基于 Gemini LLM,辅助人类科学家进行假设生成、方案完善和实验设计。采用多代理框架,核心代理包括生成代理、反思代理、排序代理、进化代理、邻近代理和元评审代理。
  • Agent Laboratory:开源科研工作流框架,旨在增强而非取代人类科学研究。通过专用 LLM 自动化科研各阶段,包括文献综述、实验阶段、报告撰写和知识共享。
  • 应用场景:科学研究自动化、游戏策略生成、市场调研与趋势发现、安全漏洞发现、创意内容生成、个性化教育与培训。
  • 重要性:对于在开放式、复杂或快速变化领域中工作的 Agent 至关重要,因为静态知识或预编程方案已无法满足需求。它强调 Agent 扩展自身认知和能力的能力。

结论:Agentic 设计的未来

本书将 Agent 构建视为技术画布上的艺术创作。21 种 Agentic 设计模式是构建智能系统的工具箱,它们赋予大语言模型的认知能力以可靠性与目标性,使其超越简单的响应式模型,成为主动、目标导向、具备复杂推理与行动能力的 Agent。

Agentic 核心原则回顾

  1. 核心执行与任务分解:Prompt Chaining(线性分步拆解)、Routing(条件逻辑选择路径)、Parallelization(并行执行提升效率)、Planning(制定多步计划)。
  2. 与外部环境交互:Tool Use(函数调用,调用外部 API/数据库)、Knowledge Retrieval(RAG,查询知识库整合信息)。
  3. 状态、学习与自我提升:Memory Management(短期上下文、长期知识)、Reflection 与 Self-Correction(自我批判、迭代优化)、Learning and(根据反馈和经验进化)。
  4. 协作与沟通:Multi-Agent Collaboration(多个专职 Agent 协同)、Inter-Agent Communication (A2A) 与 Model Context Protocol (MCP)(规范 Agent 与工具的信息交换)。

这些模式的组合是 Agentic 设计的真正力量,将单一能力转化为强大的自主系统。

展望未来

  1. 更高级的自主性与推理能力:Agent 需应对模糊性、进行抽象与因果推理,甚至具备常识。将从“人类参与”转变为“人类监督”。
  2. Agent 生态与标准化:将出现开放平台与市场,MCP 和 A2A 等协议将成为行业标准。
  3. 安全性、对齐性与鲁棒性:需确保 Agent 的学习与适应不会偏离初衷,抵御攻击,应对不可预测的现实场景,需要新的“安全模式”和工程规范。

文章导航

评论区