第 12 章：异常处理与恢复

为了让智能体在多样化的真实世界环境中可靠运行，必须具备应对突发状况、错误和故障的能力。正如人类会适应意外障碍，智能体也需要健全的系统来检测问题、启动恢复流程，或至少确保受控失败。这一基本需求构成了异常处理与恢复模式的核心。

该模式专注于打造极其坚韧和弹性的智能体，使其在面对各种困难和异常时，依然能够保持不间断的功能和运行完整性。它强调主动预防与被动应对策略的重要性，确保智能体在遇到挑战时仍能持续运作。这种适应性对于智能体在复杂和不可预测环境中成功运行至关重要，最终提升其整体效能和可信度。

具备应对突发事件的能力，使这些 AI 系统不仅智能，还稳定可靠，从而增强部署和运行的信心。集成全面的监控和诊断工具，进一步强化智能体快速识别和解决问题的能力，防止潜在中断，确保在不断变化的条件下平稳运行。这些先进系统对于维护 AI 运行的完整性和效率至关重要，强化了其应对复杂性和不可预测性的能力。

该模式有时会与反思机制结合使用。例如，初次尝试失败并抛出异常后，可以通过反思过程分析失败原因，并以改进的方式（如优化提示词）重新尝试任务，从而解决错误。

异常处理与恢复模式概述

异常处理与恢复模式旨在解决智能体运行过程中出现故障的需求。该模式包括预判潜在问题（如工具错误或服务不可用），并制定应对策略。这些策略可能包括错误日志记录、重试、备用方案、优雅降级和通知。此外，模式还强调恢复机制，如状态回滚、诊断、自我修正和升级，以将智能体恢复到稳定运行状态。实施该模式可增强智能体的可靠性和健壮性，使其能够在不可预测环境中正常工作。实际应用场景包括：聊天机器人处理数据库错误、交易机器人应对金融异常、智能家居智能体解决设备故障等。该模式确保智能体即使遇到复杂和失败，也能持续有效运行。

错误检测：细致识别运行中出现的问题。例如，工具输出无效或格式错误、API 返回 404（未找到）或 500（服务器内部错误）等特定错误码、服务或 API 响应时间异常延长，或响应内容不符合预期格式。还可以通过其他智能体或专用监控系统进行主动异常检测，提前捕捉潜在问题，防止事态扩大。

错误处理：检测到错误后，需要制定周密的响应方案。包括详细记录错误信息以便后续调试和分析（日志记录）；对操作或请求进行重试，参数略作调整以应对临时性错误（重试）；采用替代策略或方法（备用方案），确保部分功能得以维持；无法立即恢复时，智能体可保持部分功能，至少为用户提供一定价值（优雅降级）；最后，向人工操作员或其他智能体发出警报，便于人工干预或协作（通知）。

恢复：恢复阶段旨在将智能体或系统恢复到稳定运行状态。可能需要撤销最近的更改或事务（状态回滚）；深入调查错误原因，防止再次发生；通过自我修正机制或重新规划，调整智能体的计划、逻辑或参数，避免未来重复错误；遇到复杂或严重问题时，可将问题升级至人工操作员或更高层系统（升级处理）。

实施健壮的异常处理与恢复模式，可将智能体从脆弱不可靠的系统转变为坚实可靠的组件，使其在充满挑战和高度不可预测的环境中高效、弹性运行。这样不仅保证智能体功能持续，最大限度减少停机时间，还能在遇到意外问题时为用户提供流畅可靠的体验。

实践应用与场景

异常处理与恢复对于任何部署在真实场景中的智能体都至关重要，因为理想条件无法保证。

客服聊天机器人：当聊天机器人尝试访问客户数据库而数据库暂时不可用时，不应崩溃。应检测到 API 错误，告知用户暂时性问题，建议稍后重试，或将查询升级给人工客服。
自动化金融交易：交易机器人执行交易时可能遇到“资金不足”或“市场关闭”等错误。需要通过日志记录错误，不要重复尝试无效交易，并及时通知用户或调整策略。
智能家居自动化：控制智能灯的智能体因网络或设备故障无法开灯时，应检测失败，尝试重试，若仍失败则通知用户，并建议手动操作。
数据处理智能体：处理文档批量任务时遇到损坏文件，应跳过损坏文件并记录错误，继续处理其他文件，最后报告跳过的文件，而不是中断整个流程。
网页爬虫智能体：爬虫遇到验证码、网站结构变化或服务器错误（如 404、503）时，应优雅处理，如暂停、使用智能体或报告失败的具体 URL。
机器人与制造业：机械臂装配任务因部件错位未能成功拾取时，应通过传感器反馈检测失败，尝试重新调整并重试，若持续失败则通知人工操作员或切换其他部件。

简而言之，该模式是构建智能、可靠、弹性且用户友好的智能体应对真实世界复杂性的基础。

实战代码示例（ADK）

异常处理与恢复对于系统健壮性和可靠性至关重要。例如，智能体调用工具失败时，可能因工具输入错误或外部服务故障导致。

📄 异常处理与恢复示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
from google.adk.agents import Agent, SequentialAgent

# Agent 1：尝试主工具，目标明确。
primary_handler = Agent(
   name="primary_handler",
   model="gemini-2.0-flash-exp",
   instruction="""
你的任务是获取精确的位置信息。
请使用 get_precise_location_info 工具，并传入用户提供的地址。
   """,
   tools=[get_precise_location_info]
)

# Agent 2：备用处理器，根据状态决定行动。
fallback_handler = Agent(
   name="fallback_handler",
   model="gemini-2.0-flash-exp",
   instruction="""
检查 state["primary_location_failed"] 是否为 True。
- 若为 True，从用户原始查询中提取城市，并使用 get_general_area_info 工具。
- 若为 False，无需操作。
   """,
   tools=[get_general_area_info]
)

# Agent 3：输出最终结果。
response_agent = Agent(
   name="response_agent",
   model="gemini-2.0-flash-exp",
   instruction="""
查看 state["location_result"] 中的位置信息。
请清晰简明地向用户展示这些信息。
若 state["location_result"] 不存在或为空，请向用户致歉，说明无法获取位置信息。
   """,
   tools=[] # 仅处理最终状态，无需工具。
)

# SequentialAgent 保证子智能体按顺序执行。
robust_location_agent = SequentialAgent(
   name="robust_location_agent",
   sub_agents=[primary_handler, fallback_handler, response_agent]
)

上述代码定义了一个基于 ADK SequentialAgent 的健壮位置查询系统，包含三个子智能体。primary_handler 首先尝试使用 get_precise_location_info 工具获取精确位置信息。fallback_handler 作为备用方案，通过检查状态变量判断主查询是否失败，若失败则提取城市并调用 get_general_area_info 工具。response_agent 负责输出最终结果，若未获取到位置信息则向用户致歉。SequentialAgent 保证三者按预定顺序执行，实现分层位置查询与异常处理。

一图速览速读

是什么：智能体在真实环境中不可避免地会遇到突发状况、错误和系统故障。这些问题可能包括工具失效、网络异常、数据无效等，威胁智能体完成任务的能力。若无结构化管理机制，智能体将变得脆弱、不可靠，遇到意外障碍时容易彻底失败，难以应用于关键或复杂场景。

为什么：异常处理与恢复模式为构建健壮、弹性的智能体提供标准化解决方案，使其具备预判、管理和恢复运行故障的能力。该模式包括主动错误检测（如监控工具输出和 API 响应）、被动处理策略（如日志诊断、重试临时故障、备用机制），以及严重故障时的恢复协议（如回滚到稳定状态、自我修正或升级至人工处理）。系统化方法确保智能体保持运行完整性、从失败中学习，并在不可预测环境下可靠工作。

经验法则：只要智能体部署在动态真实环境，存在系统故障、工具错误、网络异常或不可预测输入，且运行可靠性是关键要求时，都应采用该模式。

视觉摘要

关键要点

请牢记以下要点：

异常处理与恢复是构建健壮可靠智能体的基础。
该模式包括错误检测、优雅处理和恢复策略。
错误检测可通过验证工具输出、检查 API 错误码和超时实现。
处理策略包括日志记录、重试、备用方案、优雅降级和通知。
恢复聚焦于诊断、自我修正或升级，恢复稳定运行。
该模式确保智能体在不可预测的真实环境中依然高效运行。

总结

本章系统探讨了异常处理与恢复模式，这是开发健壮可靠智能体的关键。该模式涵盖智能体如何识别和应对突发问题，采取适当响应，并恢复到稳定运行状态。章节详细介绍了错误检测、日志记录、重试、备用方案等处理机制，以及恢复智能体或系统正常运行的策略。通过多个领域的实际应用，展示了异常处理与恢复模式在应对真实世界复杂性和潜在故障中的重要价值。为智能体赋予异常处理能力，有助于其在动态环境中实现可靠性和适应性。

参考文献

McConnell, S. (2004). Code Complete (2nd ed.). Microsoft Press.
Shi, Y., Pei, H., Feng, L., Zhang, Y., & Yao, D. (2024). Towards Fault Tolerance in Multi-Agent Reinforcement Learning. arXiv preprint arXiv:2412.00534.
O’Neill, V. (2022). Improving Fault Tolerance and Reliability of Heterogeneous Multi-Agent IoT Systems Using Intelligence Transfer. Electronics, 11(17), 2724.

测验：异常处理与恢复

检验你对第 12 章“异常处理与恢复”主要概念的理解。