第 13 章：可观测的系统

本章系统梳理了云原生系统的可观测性设计与实现，涵盖度量、日志、健康检查、分布式追踪、自动修复与主流可观测性工具，帮助开发者构建高可用、易维护的生产级微服务平台。

可观测性的重要性与云原生挑战

在云原生分布式系统中，服务数量激增、部署频繁、组件解耦，导致系统行为复杂且难以追踪。可观测性（Observability）成为保障系统可用性、可维护性和业务连续性的核心能力。它不仅支撑技术运维，也是业务敏捷和持续交付的基础。

可观测系统的核心能力

度量（Metrics）：量化系统状态与性能，支持趋势分析与容量规划
日志（Logs）：记录系统行为与事件，便于故障定位与审计
健康检查（Health Check）：实时反映服务可用性，支撑自动化运维
分布式追踪（Tracing）：端到端追踪请求流，定位性能瓶颈与依赖关系
自动修复（Self-healing）：基于可观测数据自动触发扩容、重启等运维动作

十二要素运维与可观测性

可观测性是生产级应用的基础能力。遵循十二要素原则，应用需具备：

标准化日志输出，便于集中收集与分析
健康检查与度量端点，支持平台自动化管理
配置与依赖外部化，提升可维护性与可移植性

Spring Boot Actuator 与度量体系

Spring Boot Actuator 提供丰富的管理端点，支持度量、健康检查、配置信息等。常用端点包括：

端点	用途
/info	应用基本信息
/metrics	运行时度量（JVM、HTTP 等）
/health	健康检查
/loggers	日志级别管理
/env	环境与配置属性
/beans	Spring Bean 图谱
/mappings	HTTP 路由映射
/auditevents	审计事件

表 1: Spring Boot Actuator 主要端点

自定义与扩展度量

开发者可通过 CounterService、GaugeService 等接口自定义业务指标，也可集成 Dropwizard Metrics、Prometheus、StatsD 等主流度量系统，实现集中式采集与可视化。

@Component
class CustomerPublicMetrics implements PublicMetrics {
    @Autowired
    private CustomerRepository customerRepository;
    @Override
    public Collection<Metric<?>> metrics() {
        long count = customerRepository.count();
        return Collections.singleton(new Metric<>("customers.count", count));
    }
}

日志管理与集中分析

日志是系统行为的第一手资料。推荐将日志输出到标准输出（stdout），由平台（如 Cloud Foundry、Kubernetes）统一收集。结合 Logstash、Elasticsearch、Grafana 等工具，实现日志的结构化、检索与可视化。

日志级别可通过配置或 Actuator 动态调整
支持日志聚合、告警与审计

健康检查与自动化运维

健康检查端点（/health）实时反映服务状态，支持负载均衡器、平台自动剔除异常实例。可自定义 HealthIndicator，结合事件驱动动态调整健康状态。

@Component
class EmotionalHealthIndicator extends AbstractHealthIndicator {
    private EmotionalEvent event;
    @EventListener
    public void onHealthEvent(EmotionalEvent event) { this.event = event; }
    @Override
    protected void doHealthCheck(Health.Builder builder) {
        if (event instanceof SadEvent) builder.down();
        else builder.up();
    }
}

分布式追踪与链路分析

分布式追踪通过 traceId、spanId 贯穿请求全链路，定位性能瓶颈与依赖关系。Spring Cloud Sleuth 自动集成日志追踪，支持与 Zipkin、Jaeger 等后端对接，实现可视化链路分析。

支持 HTTP、消息队列、Feign、Zuul 等多种通信方式
可配置采样率，平衡性能与数据量

自动修复与自愈能力

基于可观测数据，平台可自动扩容、重启异常实例，实现自愈。Spring Cloud Data Flow 支持事件驱动的自动化运维流程，如根据队列深度自动扩容消费者实例。

rabbit-queue-metrics --rabbitmq.metrics.queueName=remediation-demo | transform --expression=headers['queue-size'] | cloudfoundry-autoscaler --applicationName=remediation-consumer --instanceCountMaximum=10 --thresholdMaximum=5

可观测性工具与仪表盘

主流可观测性工具包括：

Prometheus + Grafana：度量采集与可视化
Elasticsearch + Kibana：日志检索与分析
Zipkin/Jaeger：分布式追踪
Spring Boot Admin：服务聚合与健康监控
Hystrix Dashboard/Turbine：断路器流量监控

总结

本章系统梳理了云原生系统的可观测性设计与实现，包括度量、日志、健康检查、分布式追踪、自动修复与主流可观测性工具。通过合理设计可观测性体系，结合自动化运维与平台能力，开发者可实现高可用、弹性、易维护的生产级微服务系统，支撑复杂业务与大规模分布式场景。