已完成

AI 基础设施的可观测性

AI 可观测性让工程师重新获得对智能系统的解释权,打破“黑箱”,实现全链路治理。

AI 系统的行为并非由固定逻辑驱动,而是由大型模型、检索链路、工具决策和动态上下文共同作用。可观测性因此不再是“监控几个指标”,而是重建系统的可解释性。工程师需要一种方式,让模型推理、Agent 决策、检索来源、治理策略、成本路径共同进入同一可视化视野。

从传统监控到 AI 可观测性

AI 可观测性与传统监控的最大区别在于,前者关注系统行为的解释和根因定位,而不仅仅是异常检测。

下方流程图展示了两者的本质差异:

图 1: 传统监控与 AI 可观测性对比
图 1: 传统监控与 AI 可观测性对比

AI 可观测性的核心挑战

AI 应用的四个典型难点构成可观测设计基础。下表总结了各类别的挑战及可观测性需要解决的问题:

类别难点可观测需要解决的问题
可靠性延迟不稳定、提供商异常、工具调用失败找到长尾延迟、失败链路、退避与重试路径的真实来源
成本Token 消耗不可预测精确记录输入/输出 Token、缓存命中、重试次数
质量幻觉、偏差、内容漂移记录输入、输出、检索材料、提示模板,支持事后评估
合规PII 泄露、越权访问、违规内容路由日志 + 安全判决 + 审计链路具备统一可追溯性
表 1: AI 可观测性核心挑战与解决目标

这些问题无法靠指标堆叠解决,而必须建立结构化、跨组件的观测模型。

参考架构:LLM 可观测性的最小系统

LLM(Large Language Model,大语言模型)可观测性可以抽象为三个关键流:请求流、计算流、语义流。

下方序列图展示了典型的观测链路:

图 2: LLM 可观测性最小系统链路
图 2: LLM 可观测性最小系统链路

架构特征说明:

  • Gateway 是最完整的观测点,可以看到身份、策略、路由、成本。
  • LLM 是最关键的计算黑盒,需要领域化 Trace 才能被看见。
  • Tools 决定 Agent 执行效率,需要独立统计失败模式与成本。
  • Guardrails 提供合规/安全背景信息。
  • 全部数据依赖统一 TraceID 聚合。

遥测模型:AI 系统统一观测语义

为了让链路具备可解释性,需要定义一个领域化遥测模型。下方类图展示了 LLM Trace 的核心字段:

图 3: LLM Trace 遥测模型结构
图 3: LLM Trace 遥测模型结构

核心字段是跨系统统一的:trace_id、prompt_hash、token、latency、tool_calls 等。缺少统一模型的可观测系统难以进行跨层分析。

全栈可观测:从应用到推理引擎

AI 可观测性并非在某个层级单点增强,而是贯穿应用、网关、推理引擎、向量数据库、Agent 工程的分层体系。下文分层介绍各观测重点。

应用层

应用层的观测重点是交互逻辑,包括 Prompt 模板与上下文构建流程、工具规划路径(plan → act → observe)、上下文长度增长趋势与截断,以及异常行为(如循环、无效重试、错误工具选择)。

下方流程图可视化了 Agent 的计划结构:

图 4: Agent 计划结构 Trace
图 4: Agent 计划结构 Trace

应用层无需复杂监控系统,但需要详细的结构化 Trace。

AI 网关层

网关是可观测性的核心枢纽,具有洞察所有上游访问模式的能力。下表总结了网关关键指标矩阵:

指标维度示例
性能QPS、P95 Latency、SSE 流式首包时间
策略缓存命中率、Fallback 次数、限流触发源
安全风险类型统计、护栏拒绝率
成本模型维度 Token 统计、API 调用者费用归集
治理用户/租户访问模式、异常访问行为
表 2: AI 网关关键指标矩阵

对企业而言,网关可观测性不仅是监控,更是治理能力。

推理引擎层(如 vLLM)

推理引擎的内部指标决定了可用性与性能,必须以结构化方式暴露。下表总结了关键指标及用途:

维度关键指标示例用途
计算路径TTFT、Prefill/Decode 时间定位慢首 token
调度等待队列长度、被抢占数判断调度饱和
资源KV Cache 使用率评估 GPU 紧张度
质量输出 token 间隔反映引擎稳定性
表 3: 推理引擎关键指标与用途

推理引擎的观测常常需要与 Trace 做深度关联,否则难以进行因果分析。

Agent 层

Agent 的可观测性重点在于“计划结构”和“工具行为”。下方图示展示了 Agent Trace 的主要观测维度:

图 5: Agent 层可观测性结构
图 5: Agent 层可观测性结构

如果没有 Agent 层的结构性观测,错误常被误判为 LLM“质量不佳”。

向量数据库层

RAG(Retrieval-Augmented Generation,检索增强生成)系统中,向量数据库是质量和性能风险最高的组件之一。下表总结了关键新增指标:

类别指标说明
质量Recall@K、Vector Drift影响检索质量
性能Query Latency、Index Build Time影响 SLA
数据Index Size、Embedding Trace影响数据治理
表 4: 向量数据库关键指标

未来会出现更通用的“Embedding Telemetry”,将向量生命周期纳入链路追踪。

总结

AI 可观测性最终目标不是“监控”,而是:

  • 解释 AI 行为
  • 量化 AI 成本
  • 衡量 AI 质量
  • 约束 AI 风险
  • 调优 AI 性能
  • 形成治理闭环

它让 AI 系统从“黑箱”变成“可调试系统”,并让工程师重新获得控制权。这也是 AI 原生基础设施的核心价值所在。