AI 基础设施的可观测性

AI 可观测性让工程师重新获得对智能系统的解释权，打破“黑箱”，实现全链路治理。

AI 系统的行为并非由固定逻辑驱动，而是由大型模型、检索链路、工具决策和动态上下文共同作用。可观测性因此不再是“监控几个指标”，而是重建系统的可解释性。工程师需要一种方式，让模型推理、Agent 决策、检索来源、治理策略、成本路径共同进入同一可视化视野。

从传统监控到 AI 可观测性

AI 可观测性与传统监控的最大区别在于，前者关注系统行为的解释和根因定位，而不仅仅是异常检测。

下方流程图展示了两者的本质差异：

图 1: 传统监控与 AI 可观测性对比

AI 可观测性的核心挑战

AI 应用的四个典型难点构成可观测设计基础。下表总结了各类别的挑战及可观测性需要解决的问题：

类别	难点	可观测需要解决的问题
可靠性	延迟不稳定、提供商异常、工具调用失败	找到长尾延迟、失败链路、退避与重试路径的真实来源
成本	Token 消耗不可预测	精确记录输入/输出 Token、缓存命中、重试次数
质量	幻觉、偏差、内容漂移	记录输入、输出、检索材料、提示模板，支持事后评估
合规	PII 泄露、越权访问、违规内容	路由日志 + 安全判决 + 审计链路具备统一可追溯性

表 1: AI 可观测性核心挑战与解决目标

这些问题无法靠指标堆叠解决，而必须建立结构化、跨组件的观测模型。

参考架构：LLM 可观测性的最小系统

LLM（Large Language Model，大语言模型）可观测性可以抽象为三个关键流：请求流、计算流、语义流。

下方序列图展示了典型的观测链路：

图 2: LLM 可观测性最小系统链路

架构特征说明：

Gateway 是最完整的观测点，可以看到身份、策略、路由、成本。
LLM 是最关键的计算黑盒，需要领域化 Trace 才能被看见。
Tools 决定 Agent 执行效率，需要独立统计失败模式与成本。
Guardrails 提供合规/安全背景信息。
全部数据依赖统一 TraceID 聚合。

遥测模型：AI 系统统一观测语义

为了让链路具备可解释性，需要定义一个领域化遥测模型。下方类图展示了 LLM Trace 的核心字段：

图 3: LLM Trace 遥测模型结构

核心字段是跨系统统一的：trace_id、prompt_hash、token、latency、tool_calls 等。缺少统一模型的可观测系统难以进行跨层分析。

全栈可观测：从应用到推理引擎

AI 可观测性并非在某个层级单点增强，而是贯穿应用、网关、推理引擎、向量数据库、Agent 工程的分层体系。下文分层介绍各观测重点。

应用层

应用层的观测重点是交互逻辑，包括 Prompt 模板与上下文构建流程、工具规划路径（plan → act → observe）、上下文长度增长趋势与截断，以及异常行为（如循环、无效重试、错误工具选择）。

下方流程图可视化了 Agent 的计划结构：

图 4: Agent 计划结构 Trace

应用层无需复杂监控系统，但需要详细的结构化 Trace。

AI 网关层

网关是可观测性的核心枢纽，具有洞察所有上游访问模式的能力。下表总结了网关关键指标矩阵：

指标维度	示例
性能	QPS、P95 Latency、SSE 流式首包时间
策略	缓存命中率、Fallback 次数、限流触发源
安全	风险类型统计、护栏拒绝率
成本	模型维度 Token 统计、API 调用者费用归集
治理	用户/租户访问模式、异常访问行为

表 2: AI 网关关键指标矩阵

对企业而言，网关可观测性不仅是监控，更是治理能力。

推理引擎层（如 vLLM）

推理引擎的内部指标决定了可用性与性能，必须以结构化方式暴露。下表总结了关键指标及用途：

维度	关键指标	示例用途
计算路径	TTFT、Prefill/Decode 时间	定位慢首 token
调度	等待队列长度、被抢占数	判断调度饱和
资源	KV Cache 使用率	评估 GPU 紧张度
质量	输出 token 间隔	反映引擎稳定性

表 3: 推理引擎关键指标与用途

推理引擎的观测常常需要与 Trace 做深度关联，否则难以进行因果分析。

Agent 层

Agent 的可观测性重点在于“计划结构”和“工具行为”。下方图示展示了 Agent Trace 的主要观测维度：

图 5: Agent 层可观测性结构

如果没有 Agent 层的结构性观测，错误常被误判为 LLM“质量不佳”。

向量数据库层

RAG（Retrieval-Augmented Generation，检索增强生成）系统中，向量数据库是质量和性能风险最高的组件之一。下表总结了关键新增指标：

类别	指标	说明
质量	Recall@K、Vector Drift	影响检索质量
性能	Query Latency、Index Build Time	影响 SLA
数据	Index Size、Embedding Trace	影响数据治理

表 4: 向量数据库关键指标

未来会出现更通用的“Embedding Telemetry”，将向量生命周期纳入链路追踪。

总结

AI 可观测性最终目标不是“监控”，而是：

解释 AI 行为
量化 AI 成本
衡量 AI 质量
约束 AI 风险
调优 AI 性能
形成治理闭环

它让 AI 系统从“黑箱”变成“可调试系统”，并让工程师重新获得控制权。这也是 AI 原生基础设施的核心价值所在。

创建于 2025/10/25 更新于 2025/11/13 1854 字阅读约 4 分钟