Jimmy Song – Jimmy Song

服务网格简介

Jimmy Song — Tue, 24 Sep 2024 00:00:00 +0000

在现代分布式架构中，微服务的使用变得越来越普遍。微服务的优点在于它们能够独立扩展和部署，允许团队在不同的时间周期内开发和发布新功能。然而，随着微服务数量的增加，管理服务间的通信、流量控制、安全策略和可观测性也变得更加复杂。这就是服务网格的作用所在。

服务网格是一种基础设施层，负责处理服务间的通信。它为微服务间的请求提供了可靠性、安全性、流量管理和监控能力，而不需要将这些责任分配给开发团队。通过将通信逻辑与业务逻辑解耦，服务网格能够让应用开发者专注于核心功能的开发，而无需关心底层网络的细节。

Envoy 在服务网格中的应用

在服务网格架构中，Envoy 扮演着核心数据平面的角色。它有两种主要的部署模式，分别适应不同的架构需求：

Sidecar 模式：在这种模式下，Envoy 作为每个服务实例的“旁车”（Sidecar）运行，直接管理该服务的所有入站和出站流量。控制平面（如 Istio）通过与 Envoy 交互，动态下发流量管理、身份认证、以及可观测性等策略。这种方式确保了每个服务的流量控制独立且细粒度。
Ambient 模式：在该模式下，Envoy 作为服务网格的七层代理被部署。每个节点上运行一个四层代理（在 Istio 中称为 Ztunnel），并根据 Namespace 或 Service Account 的不同，部署专门的七层代理（在 Istio 中称为 Waypoint 代理）。Envoy 在这个架构中主要承担七层流量的管理工作，提供高层次的流量控制和安全策略。

依托 Envoy 的强大功能，服务网格能够实现以下特性：

流量管理：Envoy 提供细致的流量控制功能，如路由、负载均衡、重试机制和限流，确保服务间通信高效且可控。
安全性：通过支持 mTLS，Envoy 可以加密所有服务间的通信，并确保双方身份的双向认证，提供了更高的安全保障。
可观测性：Envoy 拥有强大的可观测性工具，能够生成详细的日志、指标，并与分布式追踪系统无缝集成，帮助开发者深入了解服务运行状态。

Envoy 作为服务网格的核心代理，使得微服务架构中的通信更加透明、可靠和安全。通过 Sidecar 或 Ambient 模式的部署，服务网格能够灵活应对不同的场景需求，帮助应用程序轻松应对复杂的分布式环境。

Lua

Jimmy Song — Thu, 19 Sep 2024 00:00:00 +0000

假设我们希望在请求到达后端服务之前，添加一个自定义的 HTTP 头部，并在响应返回客户端之前，记录响应的状态码。

配置示例

以下是 Envoy 的部分配置，展示了如何使用 envoy.filters.http.lua 过滤器来实现上述功能。

static_resources:
  listeners:
  - name: listener_0
    address:
      socket_address:
        address: 0.0.0.0
        port_value: 8080
    filter_chains:
    - filters:
      - name: envoy.filters.network.http_connection_manager
        typed_config:
          '@type': type.googleapis.com/envoy.extensions.filters.network.http_connection_manager.v3.HttpConnectionManager
          stat_prefix: ingress_http
          route_config:
            name: local_route
            virtual_hosts:
            - name: backend
              domains: ["*"]
              routes:
              - match:
                  prefix: "/"
                route:
                  cluster: backend_service
          http_filters:
          - name: envoy.filters.http.lua
            typed_config:
              '@type': type.googleapis.com/envoy.extensions.filters.http.lua.v3.Lua
              inline_code: |
                function envoy_on_request(handle)
                  -- 添加自定义请求头
                  handle:requestHeaders():add("x-custom-header", "envoy")
                end

                function envoy_on_response(handle)
                  -- 记录响应状态码
                  local status = handle:headers():get(":status")
                  handle:logInfo("Response status: " .. status)
                end                
          - name: envoy.filters.http.router

解释

envoy.filters.http.lua：这是一个可以在请求和响应期间执行 Lua 脚本的过滤器。我们在其中定义了两个函数：envoy_on_request 和 envoy_on_response。
- envoy_on_request：在请求阶段执行，添加自定义头部 x-custom-header，值为 envoy。
- envoy_on_response：在响应阶段执行，获取并记录响应的状态码。
过滤器执行顺序：
- 当请求到达时，lua 过滤器首先执行 envoy_on_request 函数，添加自定义头部。
- 然后请求通过 router 过滤器，被路由到上游服务 backend_service。
- 当上游服务返回响应时，lua 过滤器执行 envoy_on_response 函数，记录响应状态码。
- 最后，响应返回给客户端。

工作流程

客户端请求：客户端向 Envoy 发送 HTTP 请求。
添加自定义头部：lua 过滤器的 envoy_on_request 函数捕获请求，添加 x-custom-header: envoy 到请求头部。
请求路由：router 过滤器将修改后的请求路由到指定的上游集群 backend_service。
上游响应：上游服务处理请求并返回响应。
记录状态码：lua 过滤器的 envoy_on_response 函数捕获响应，获取响应状态码并记录日志。
响应返回客户端：Envoy 将响应发送回客户端。

注意事项

过滤器链的配置顺序很重要：lua 过滤器必须在 router 过滤器之前配置，以确保请求阶段的脚本在请求被路由之前执行，响应阶段的脚本在响应返回给客户端之前执行。
日志记录：handle:logInfo 函数用于记录日志，方便调试和监控。
可扩展性：使用 Lua 脚本可以快速实现自定义的请求和响应处理逻辑，而无需编写和编译 C++ 扩展。

Kubernetes Ingress 支持

Jimmy Song — Wed, 04 Sep 2024 00:00:00 +0000

Cilium 通过标准的 Kubernetes Ingress 资源定义提供服务，使用时将 ingressClassName 设置为 cilium。这支持基于路径的路由和 TLS 终结。为了向后兼容，也支持 kubernetes.io/ingress.class 注解，值为 cilium。

注意：Ingress 控制器会创建一个类型为 LoadBalancer 的服务，所以你的环境需要支持此类服务。

Cilium 允许你为 Ingress 资源指定负载均衡模式：

dedicated：Ingress 控制器将为每个 Ingress 创建一个专用的负载均衡器。
shared：Ingress 控制器将使用一个共享的负载均衡器服务于所有 Ingress 资源。

每种负载均衡模式都有其优缺点。共享模式通过在集群中所有 Ingress 资源间共享单一的 LoadBalancer 配置节省资源，而专用模式可以帮助避免资源之间的潜在冲突（例如路径前缀）。

准备条件

安装 Cilium 时需要启用 NodePort，通过设置 nodePort.enabled=true 或启用 kubeProxyReplacement=true。
Cilium 必须配置启用了 L7 代理，使用 l7Proxy=true（默认启用）。
默认情况下，Ingress 控制器创建的是 LoadBalancer 类型的服务，你的环境需要支持此功能。或者，从 Cilium 1.16 开始，你可以直接在主机网络上暴露 Cilium L7 代理。

Ingress 路径类型和优先级

Ingress 规范支持三种类型的路径：

Exact（精确）：完全匹配给定的路径。
Prefix（前缀）：匹配 URL 路径的前缀，最后一个路径段必须完整匹配。
ImplementationSpecific（实现特定）：路径的解释取决于 IngressClass。在 Cilium 的案例中，我们定义实现特定为“Regex（正则表达式）”，因此 Cilium 会将任何给定路径视为正则表达式并相应地配置 Envoy。

支持的 Ingress 注解

ingress.cilium.io/loadbalancer-mode：设置 Ingress 的负载均衡模式，可选 dedicated 或 shared。
ingress.cilium.io/service-type：指定专用 Ingress 的服务类型，可选 LoadBalancer 或 NodePort。
ingress.cilium.io/tls-passthrough：为此 Ingress 启用 TLS 透传模式，可选 enabled 或 disabled。

主机网络模式

从 Cilium 1.16+ 开始支持。主机网络模式允许你直接在主机网络上暴露 Cilium Ingress 控制器（Envoy 监听器）。这在没有 LoadBalancer 服务的开发环境或其他环境中非常有用。

可以通过 Helm 启用主机网络模式，并通过注解为每个 Ingress 资源指定主机网络端口。

此外，云服务商特定的注解也受到支持，例如 cloud.google.com 等。

Cilium Ingress 和 Gateway API 与其他 Ingress 控制器的不同

Cilium 的 Ingress 和 Gateway API 与其他 Ingress 控制器最大的不同在于，它与 CNI 的结合更为紧密。对于 Cilium 来说，Ingress 和 Gateway API 是网络栈的一部分，因此与其他 Ingress 或 Gateway API 控制器（即使是在 Cilium 集群中运行的）的行为方式不同。

其他 Ingress 或 Gateway API 控制器通常作为 Deployment 或 Daemonset 在集群中安装，并通过 Loadbalancer 服务或类似方式暴露。Cilium 的 Ingress 和 Gateway API 配置可以通过 Loadbalancer 或 NodePort 服务暴露，或者可选地在主机网络上暴露。在所有这些情况下，当流量到达服务端口时，eBPF 代码会拦截流量并透明地转发到 Envoy（使用 TPROXY 内核功能）。

这影响了客户端 IP 可见性的工作方式，与其他 Ingress 控制器的支持不同。此外，Cilium 的网络策略引擎可以将 CiliumNetworkPolicy 应用于绑定到 Ingress 的流量和来自 Ingress 的流量。

Cilium 的 Ingress 配置和 `CiliumNetworkPolicy`

通过 Cilium 绑定到后端服务的 Ingress 和 Gateway API 流量会通过每个节点的 Envoy 代理。这个节点 Envoy 代理有特殊的代码，使其能够与 eBPF 策略引擎交互，并对流量进行策略查找。这使 Envoy 成为网络策略的执行点，不仅适用于 Ingress（和 Gateway API）流量，还适用于通过 GAMMA 或 L7 流量管理的东西流量。

对于 Ingress 配置，还有一个额外的步骤。到达 Envoy 的 Ingress 或 Gateway API 流量会在 Cilium 的策略引擎中被赋予特殊的ingress身份。来自集群外部的流量通常被赋予 world 身份（除非集群中有 IP CIDR 策略）。这意味着在 Cilium Ingress 中实际上有两个逻辑策略执行点——在流量到达 ingress 身份之前和之后，即将离开每个节点的 Envoy 时。

源 IP 可见性

默认情况下，Cilium 的 Ingress 配置（无论是 Ingress 还是 Gateway API）应该在大多数安装中正常工作。Cilium 的 Envoy 实例默认配置为将来自 HTTP 连接的可见源地址附加到 X-Forwarded-For 头部，使用通常的规则。默认情况下，Cilium 将信任跳数设置为0，表示 Envoy 应该使用连接打开的地址，而不是 X-Forwarded-For 列表中的值。

Loadbalancer 或 NodePort 服务的 `externalTrafficPolicy`

Cilium 的 Ingress 支持（无论是 Ingress 还是 Gateway API）经常使用 Loadbalancer 或 NodePort 服务来暴露 Envoy Daemonset。在这些情况下，服务对象中有一个与客户端 IP 可见性特别相关的字段——externalTrafficPolicy字段。

这有两个相关的设置：

Local：节点只会将流量路由到本地节点上运行的 Pod，并且不会隐藏源 IP。因此，在使用kube-proxy的集群中，这是确保源 IP 可见性的唯一方式。
Cluster：节点将流量均匀地路由到集群中的所有端点。这意味着在许多情况下，使用Cluster可能导致后端 pod 看不到源 IP。

TLS 透传和源 IP 可见性

Ingress 和 Gateway API 都支持 TLS 透传配置（通过 Ingress 的注解和 Gateway API 的 TLSRoute 资源）。这种配置允许多个 TLS 透传后端共享同一个负载均衡器上的 TLS 端口，Envoy 会检查 TLS 握手的服务器名称指示（SNI）字段，并使用该字段将 TLS 流转发到后端。

然而，这对源 IP 可见性构成了问题，因为 Envoy 正在对 TLS 流进行 TCP 代理。当进行 TLS 透传时，后端将看到 Envoy 的 IP 地址作为转发 TLS 流的源地址。

集群简介

Jimmy Song — Thu, 15 Aug 2024 00:00:00 +0000

Cluster 是 Envoy 的核心概念之一，代表了后端服务的一个集合，用来路由出站请求。这个概念在负载均衡、服务发现和故障处理中扮演了关键角色。

Cluster 的定义与功能

Cluster 是 Envoy 配置中定义的逻辑服务端点的集合。每个 Cluster 包含了一组逻辑上相似的服务实例，这些服务实例能够处理相同类型的请求。Envoy 将请求路由到这些实例，通常基于配置的负载均衡策略。

主要属性

Envoy 的 Cluster 配置包括以下主要属性：

服务发现机制（Service Discovery）：Envoy 支持多种服务发现机制，包括静态定义的 IP 列表、动态服务发现（如 DNS、Consul）以及集成的服务发现 API（如 EDS, Endpoint Discovery Service）。
健康检查（Health Checking）：Cluster 支持配置健康检查，以便定期检查后端服务实例的健康状态。如果检查失败，相应的实例会从负载均衡中移除。
负载均衡策略（Load Balancing Strategies）：Envoy 支持多种负载均衡策略，包括随机、轮询、最少请求、加权轮询等，以便根据不同需求分配流量。
传输协议（Transport Protocol）：可配置为 TCP 或 HTTP，决定了 Envoy 如何与后端服务通信。

配置示例

下面是一个基本的 Cluster 配置示例，它使用静态地址列表和简单的轮询负载均衡策略：

static_resources:
  clusters:
  - name: service_cluster
    connect_timeout: 0.25s
    type: STATIC
    lb_policy: ROUND_ROBIN
    load_assignment:
      cluster_name: service_cluster
      endpoints:
      - lb_endpoints:
        - endpoint:
            address:
              socket_address:
                address: 192.168.1.10
                port_value: 80
        - endpoint:
            address:
              socket_address:
                address: 192.168.1.11
                port_value: 80

该配置定义了一个名为 service_cluster 的静态集群，使用**轮询（ROUND_ROBIN）**负载均衡策略，将请求分发到两个后端服务实例，分别位于IP地址 192.168.1.10:80 和 192.168.1.11:80，连接超时时间为 0.25 秒。

动态能力

Envoy 的动态配置能力允许在不重启服务的情况下动态改变 Cluster 配置。例如，通过集成的 xDS API（如 CDS），可以实时添加、更新或删除 Cluster 配置。

高级特性

除了基础功能外，Cluster 还支持许多高级特性，如：

连接池化：减少了频繁建立连接的开销，提高了性能。
断路器：在后端服务超载时防止进一步的连接尝试，帮助服务恢复正常。
超时和重试：可配置的请求超时和重试机制，增强了请求的健壮性。
连接预热：在集群初始化时，Envoy 会执行连接预热，以确保在开始处理流量之前，所有主机都处于健康状态并且已准备好接受请求。
子集选择：Envoy 可以根据元数据将集群中的端点划分为多个子集，允许基于特定条件（如版本或环境）选择不同的后端服务。
流量控制：Envoy 支持流量控制策略，允许用户配置流量的速率限制和优先级，从而管理流量的流入和流出。

过滤器简介

Jimmy Song — Thu, 15 Aug 2024 00:00:00 +0000

Envoy 中的 Filter 是一种可插拔的组件，用于处理进出代理的流量。过滤器可以在不同的层次上工作，包括网络层（L3/L4）和 HTTP 层。

过滤器的类型

Envoy 提供了多种类型的过滤器，主要可以分为以下几类：

监听器过滤器（Listener Filters）：这些过滤器在网络层级上操作，处理传入的连接请求，如 TLS 握手或协议检测。
网络过滤器（Network Filters）：网络过滤器直接操作 TCP 流量，负责处理所有通过特定监听器的数据。典型的网络过滤器包括 TCP 代理、HTTP 连接管理器等。
HTTP 过滤器（HTTP Filters）：这些过滤器专门用于处理 HTTP 流量，可以操作 HTTP 请求和响应。它们在 HTTP 连接管理器的上下文中运行，例如实现路由、身份验证和授权等功能。
自定义过滤器（Custom Filters）：Envoy 也支持自定义过滤器开发，允许开发者根据特定需求创建过滤器。

过滤器的工作流程

在 Envoy 中，过滤器以管道的形式组织，请求和响应数据会依次流经每个过滤器。每个过滤器可以对数据进行处理，并决定是否将数据传递给链中的下一个过滤器。这种设计允许灵活地添加、修改或删除任何处理步骤，而不会影响其他组件。

过滤器的工作流程

网络过滤器 (Network Filters)

网络过滤器在 Listener 级别工作，用于处理原始字节流。它们在 Listener 接收到新连接时被实例化。常见的网络过滤器包括：

TLS 终止：处理 TLS 握手并终止 TLS 连接。
Redis 代理：实现 Redis 协议的代理逻辑。
MongoDB 代理：实现 MongoDB 协议的代理逻辑。
DynamoDB 代理：实现 DynamoDB 协议的代理逻辑。

网络过滤器按照配置的顺序组成一个过滤器链，依次处理进出的流量。

HTTP 过滤器 (HTTP Filters)

HTTP 过滤器在 HTTP 连接管理器级别工作，用于处理 HTTP 请求和响应。它们在 HTTP 连接管理器接收到新的 HTTP 请求时被实例化。常见的 HTTP 过滤器包括：

路由：实现请求路由逻辑，将请求转发到合适的上游集群。
速率限制：对请求速率进行限制。
缓冲：为请求和响应实现缓冲。
CORS：实现 CORS 策略。
Gzip：对响应进行 Gzip 压缩。

HTTP 过滤器也是按照配置的顺序组成一个过滤器链，依次处理 HTTP 请求和响应。

Listener 过滤器 (Listener Filters)

Listener 过滤器在 Listener 接收到新连接时被实例化，用于收集连接信息，为后续的网络过滤器链选择做准备。例如，Listener 过滤器可以收集 TLS 握手数据，包括 SNI 和 ALPN，以选择合适的网络过滤器链。

如何配置 Envoy 过滤器？

配置 Envoy 过滤器通常涉及定义 YAML 或 JSON 配置文件。下面是一个配置 HTTP 过滤器的简单示例：

static_resources:
  listeners:
  - name: listener_0
    address:
      socket_address: { address: 0.0.0.0, port_value: 80 }
    filter_chains:
    - filters:
      - name: envoy.filters.network.http_connection_manager
        typed_config:
          "@type": type.googleapis.com/envoy.extensions.filters.network.http_connection_manager.v3.HttpConnectionManager
          stat_prefix: ingress_http
          codec_type: AUTO
          route_config:
            name: local_route
            virtual_hosts:
            - name: local_service
              domains: ["*"]
              routes:
              - match: { prefix: "/" }
                route: { cluster: service_cluster }
          http_filters:
          - name: envoy.filters.http.router

在这个配置中，我们设置了一个 HTTP 连接管理器作为网络过滤器，它使用了 HTTP 路由过滤器来管理请求的路由。

HTTP 连接管理器（HCM）简介

Jimmy Song — Thu, 15 Aug 2024 00:00:00 +0000

HTTP 连接管理器（HTTP Connection Manager，HCM）是 Envoy Proxy 中的一个核心网络过滤器，负责管理 HTTP 连接的生命周期和流量控制。它提供了丰富的功能，使得 Envoy 能够处理和路由 HTTP 请求。

主要功能

以下是 HCM 的几个主要功能：

路由：HCM 支持基于请求的路由，可以根据请求的路径、头部信息等进行动态路由到后端服务。它允许用户定义复杂的路由规则，以满足不同的业务需求。
流量控制：HCM 提供流量控制机制，包括速率限制和重试策略。这些机制可以帮助保护后端服务，防止过载。
连接管理：HCM 负责管理 HTTP 连接的建立和关闭。它支持 HTTP/1.1 和 HTTP/2 协议，能够根据配置选择最佳的连接方式。
安全性：HCM 支持 TLS 配置，能够在传输层提供加密，确保数据在网络中的安全性。此外，它还支持 JWT（JSON Web Token）等身份验证机制。
监控和日志：HCM 集成了监控和日志功能，可以通过统计信息和日志记录来跟踪请求的性能和状态。这对于故障排查和优化非常重要。
集成和扩展：HCM 能够与 Envoy 的其他组件紧密集成，如访问控制、速率限制、熔断器、全局速率限制服务等。由于 HCM 的设计高度模块化，用户可以通过配置或编写自定义过滤器来扩展其功能。

配置示例

HCM 的配置通常在 Envoy 的配置文件中定义，以下是一个简单的配置示例：

static_resources:
  listeners:
  - name: listener_0
    address:
      socket_address:
        address: 0.0.0.0
        port_value: 10000
    filter_chains:
    - filters:
      - name: envoy.filters.network.http_connection_manager
        typed_config:
          "@type": type.googleapis.com/envoy.extensions.filters.network.http_connection_manager.v3.HttpConnectionManager
          stat_prefix: ingress_http
          access_log:
          - name: envoy.access_loggers.stdout
            typed_config:
              "@type": type.googleapis.com/envoy.extensions.access_loggers.stream.v3.StdoutAccessLog
          http_filters:
          - name: envoy.filters.http.router
            typed_config:
              "@type": type.googleapis.com/envoy.extensions.filters.http.router.v3.Router
          route_config:
            name: local_route
            virtual_hosts:
            - name: local_service
              domains: ["*"]
              routes:
              - match:
                  prefix: "/"
                route:
                  host_rewrite_literal: www.envoyproxy.io
                  cluster: service_envoyproxy_io
  clusters:
  - name: service_envoyproxy_io
    type: LOGICAL_DNS
    dns_lookup_family: V4_ONLY
    load_assignment:
      cluster_name: service_envoyproxy_io
      endpoints:
      - lb_endpoints:
        - endpoint:
            address:
              socket_address:
                address: www.envoyproxy.io
                port_value: 443
    transport_socket:
      name: envoy.transport_sockets.tls
      typed_config:
        "@type": type.googleapis.com/envoy.extensions.transport_sockets.tls.v3.UpstreamTlsContext
        sni: www.envoyproxy.io

在这个示例中：

stat_prefix 用于指定统计信息的前缀。
codec_type 设置了 HCM 支持的 HTTP 协议版本（如自动选择 AUTO）。
route_config 定义了路由配置，virtual_hosts 包含了路由的具体规则。
http_filters 配置了 HCM 中的 HTTP 过滤器链，这里使用了一个基础的 router 过滤器。
admin 接口提供了一种管理和监控 Envoy 代理实例的方式，允许你实时查看其状态、配置和统计信息。

这个 Envoy 配置文件定义了一个基本的反向代理服务，监听本地端口 10000，将所有进入的 HTTP 请求路由到 www.envoyproxy.io，并通过 TLS 加密与上游服务通信。

HTTP 协议支持

Envoy 的 HTTP 连接管理器原生支持 HTTP/1.1、HTTP/2 和 HTTP/3，包括 WebSockets。Envoy 的 HTTP 支持最初是为了成为一个 HTTP/2 多路复用代理。内部使用 HTTP/2 术语来描述系统组件，比如一个 HTTP 请求和响应发生在一个"流"上。

使用一个编解码器 API 来将不同的协议翻译成一种与协议无关的流、请求、响应等形式。对于 HTTP/1.1，编解码器将协议的串行/流水线功能翻译成看起来像 HTTP/2 的东西，这意味着大部分代码不需要理解一个流是从 HTTP/1.1、HTTP/2 还是 HTTP/3 连接上来的。

HTTP 头部清理

HTTP 连接管理器出于安全原因执行各种操作，如清理敏感头部。

路由表配置

每个 HTTP 连接管理器都有一个关联的路由表，可以通过两种方式指定：

静态配置
通过 RDS API 动态配置

内部重定向

Envoy 支持在内部处理 3xx 重定向，即捕获一个可配置的 3xx 重定向响应，合成一个新请求，将其发送到新路由匹配指定的上游，并将重定向响应作为原始请求的响应返回。原始请求的头部和主体将在重定向时发送到新位置，但不支持尾部。

Envoy 的 HTTP 连接管理器是处理 HTTP 流量的核心组件，提供了丰富的功能，如协议支持、头部清理、路由和重定向，使其能够满足现代微服务架构的需求。

监听器简介

Jimmy Song — Thu, 15 Aug 2024 00:00:00 +0000

Envoy 中的 Listener 是定义如何接收入站连接的基础组件，它决定了 Envoy 如何处理入站数据流。Listener 是配置的核心部分，可以高度自定义以满足各种网络和应用需求。本文将详细介绍 Envoy 中的 Listener 组件，其功能和如何配置它们。

Listener 的功能

在 Envoy 中，Listener 负责监听网络端口上的入站连接。每个 Listener 可以配置一系列的过滤器链（Filter Chains），这些过滤器链定义了对通过该 Listener 的数据进行处理的规则。这种架构提供了处理各种网络协议的灵活性，使得 Envoy 可以用作 HTTP/HTTPS 服务、TCP 代理，甚至是更复杂的用例如 MongoDB 或 DynamoDB 代理。

监听器连接了下游主机

主要特性

Envoy 的 Listener 配置具有以下主要特性：

多协议支持： Listener 可以配置为处理多种协议，包括 TCP 和 HTTP。对于 HTTP Listener，Envoy 使用 HTTP 连接管理器过滤器来详细控制 HTTP 协议的行为。
过滤器链： Listener 可以配置一个或多个过滤器链，每个链根据特定条件（如安全传输层属性）选择适用的过滤器配置。这使得可以在同一个端口上处理多种类型的流量。
安全特性： Listener 支持 TLS 加密，包括自动的 TLS 协商以及多种证书管理功能，确保数据传输的安全。
高级路由功能：通过整合 HTTP 连接管理器，Listener 可以执行复杂的路由决策、重定向、重写和增强的负载均衡。

配置示例

以下是一个基础的 Envoy Listener 配置示例，它定义了一个监听端口 80 的 HTTP Listener，并配置了一个基本的 HTTP 连接管理器过滤器：

static_resources:
  listeners:
  - name: main_listener
    address:
      socket_address: { address: 0.0.0.0, port_value: 80 }
    filter_chains:
    - filters:
      - name: envoy.filters.network.http_connection_manager
        typed_config:
          "@type": type.googleapis.com/envoy.extensions.filters.network.http_connection_manager.v3.HttpConnectionManager
          stat_prefix: ingress_http
          route_config:
            name: local_route
            virtual_hosts:
            - name: local_service
              domains: ["*"]
              routes:
              - match: { prefix: "/" }
                route: { cluster: service_cluster }
          http_filters:
          - name: envoy.filters.http.router

动态监听功能

Envoy 支持动态监听器配置，允许运行时添加、修改或删除 Listener 而不需要重启代理。这通过 Listener Discovery Service (LDS) 实现，是 xDS API 的一部分，使得 Listener 配置可以从远程管理服务动态获取。

路由简介

Jimmy Song — Thu, 15 Aug 2024 00:00:00 +0000

Envoy 中的 Route 是用来定义如何将入站 HTTP 请求转发到后端服务的关键配置。Envoy 的路由配置提供了高度灵活的路由决策和流量管理功能，使得开发者可以精确地控制请求流向及其处理方式。本文将详细介绍 Envoy 中的路由配置概念和其功能。

路由配置的作用

在 Envoy 中，路由配置负责将来自客户端的请求映射到上游服务。这包括定义请求应当如何被处理、是否应当被重写或重定向、以及应当被发送到哪个具体的上游集群。路由配置通常与 HTTP 连接管理器 过滤器一起使用，后者是处理 HTTP 流量的主要网络过滤器。

主要特性

Envoy 路由配置的主要特性包括：

请求匹配：路由规则可以根据请求的属性如 HTTP 头部、URL 路径、查询参数等进行匹配。
路由动作：一旦请求与某个路由规则匹配，可以进行多种动作，例如路由到特定的上游集群、重定向到另一个 URL、直接响应等。
重写规则：允许在转发请求前修改请求的 URI、主机名或其他头部信息。
超时与重试策略：对于每条路由规则，可以定义特定的超时和重试策略，以增强服务的健壮性。
请求分流与加权路由：支持根据一定的比例将流量分配到不同的服务，或者根据权重分配流量到多个集群。

配置示例

以下是一个简单的 Envoy 路由配置示例，其中定义了一个基本的路由规则，该规则将所有根路径（/）的 GET 请求路由到名为 service_cluster 的上游集群：

static_resources:
  listeners:
  - name: listener_0
    address:
      socket_address: { address: 0.0.0.0, port_value: 80 }
    filter_chains:
    - filters:
      - name: envoy.filters.network.http_connection_manager
        typed_config:
          "@type": type.googleapis.com/envoy.extensions.filters.network.http_connection_manager.v3.HttpConnectionManager
          stat_prefix: ingress_http
          codec_type: AUTO
          route_config:
            name: local_route
            virtual_hosts:
            - name: local_service
              domains: ["*"]
              routes:
              - match: { prefix: "/", methods: ["GET"] }
                route: { cluster: service_cluster }
          http_filters:
          - name: envoy.filters.http.router

高级路由功能

除了基础的匹配和路由功能之外，Envoy 还提供了高级的路由功能，包括：

Header-to-Header 路由：允许基于请求头部中的特定键值对进行路由决策。
gRPC 路由：对 gRPC 交通进行支持，包括基于服务名和方法名的路由。
环境敏感路由：支持基于运行时环境参数（如不同环境或配置标志）动态调整路由决策。

Web 应用防火墙（WAF）

Jimmy Song — Thu, 08 Aug 2024 00:00:00 +0000

本节将介绍如何在 Envoy 中使用 WAF 来增强应用安全性，并以 Coraza 为例进行详细讲解。

什么是 WAF？

WAF 是一种安全技术，用于监控、过滤或阻止向 Web 应用发送的恶意流量。WAF 主要保护应用免受 SQL 注入、跨站脚本（XSS）、文件包含等攻击，是现代 Web 应用安全不可或缺的一部分。

WAF 的基本概念

了解下面的概念及组件将有助于你理解 WAF 是如何运行的。

Envoy 使用 Coraza 作为其 WAF 的实现。
Coraza 作为 WAF，保护 Web 应用，并支持 SecLang 语言。
SecLang 是 ModSecurity 的规则语言。
ModSecurity 定义了 OWASP CRS (OWASP Core Rule Set)。
OWASP CRS 的具体项目名为 coreruleset。

下图展示了它们之间的关系。

WAF 基本概念

接下来我们将详细介绍这些概念，并将其与机场安检系统类比，加深你对 WAF 的理解。

OWASP CRS (OWASP Core Rule Set)

OWASP CRS 是一套为 WAF 设计的开源规则集，旨在防护 Web 应用免受广泛的攻击。

示例（配置示例）：

# 在Apache服务器上启用OWASP CRS
SecRuleEngine On
Include owasp-modsecurity-crs/crs-setup.conf
Include owasp-modsecurity-crs/rules/*.conf

ModSecurity

ModSecurity 是一个跨平台的开源 WAF 引擎，最初为 Apache HTTP 服务器设计，现已扩展到多个平台，用于实时监控、记录和阻止 HTTP 流量中的恶意请求。

示例（使用方式）：

# 在Apache中启用ModSecurity
LoadModule security2_module modules/mod_security2.so
<IfModule mod_security2.c>
    Include modsecurity.d/*.conf
    Include modsecurity.d/activated_rules/*.conf
</IfModule>

SecLang

SecLang 是 ModSecurity 使用的规则语言，允许用户定义复杂的安全策略来监控和控制进入 Web 应用的 HTTP 流量。

示例（配置示例）：

# SecLang规则示例，防止SQL注入
SecRule ARGS "select|insert|update|delete|union|select|drop" "id:'100001',phase:2,deny,status:403,msg:'SQL injection attempt'"

WAF (Web Application Firewall)

WAF 是一种专门设计来监视、过滤和阻止到 Web 应用的恶意流量的安全技术。

示例（使用方式）：

# 在Nginx中配置基本的WAF设置
server {
    location / {
        modsecurity on;
        modsecurity_rules_file /etc/nginx/modsec/main.conf;
    }
}

Coraza

Coraza 是一个开源、高性能的 WAF 库，兼容 ModSecurity 的 SecLang 规则，可作为 Go 应用的库或集成到其他平台。

示例（配置示例）：

// 使用 Coraza 在 Go 程序中创建 WAF 实例
import "github.com/corazawaf/coraza/v2"

waf := coraza.NewWaf()
rules, _ := waf.Rules.CompileFile("/path/to/modsec_rules.conf")

这些简要说明和示例展示了每种技术的核心用途和配置方式，有助于理解其在实际应用中的实施和运用。

如果以上解释还不够直观的理解 WAF 是如何运行的，那么将 WAF 比作机场的安检系统，将有助你理解。

类比：机场安全检查系统

OWASP CRS：想象 OWASP CRS 是安全检查中使用的检查标准和规程手册。这本手册详细列出了哪些物品是禁止携带的，以及如何检测这些违禁品。
ModSecurity：ModSecurity 像是执行这些规程的安检员，他使用手册中的规则来检查旅客和他们的行李是否符合安全标准。
SecLang：SecLang 是安检员使用的具体操作语言或指导，确保他们可以准确无误地理解和执行手册中的规则。
WAF（Web Application Firewall）：整个安检区域，装备了必要的设施和技术（如 X 光机和金属探测器，对应 ModSecurity 和 Coraza）来检查和过滤所有进出的旅客和行李。
Coraza：另一位安检员，在同一个安检区域内工作，使用与 ModSecurity 相同的手册，但可能有不同的检查技术或工具。
Envoy：Envoy 是整个机场的交通调度系统，负责协调旅客的流动，确保所有人都通过安检区。Envoy 确保信息和数据流在安全的环境下高效流通，优化整个机场的运作。

通过这个类比，我们可以看到 Envoy 如何协调和管理网络流量，而 WAF（如 ModSecurity 和 Coraza）则是进行安全检查的关键组件。OWASP CRS 提供了检查的规则和标准，SecLang 是执行这些规则的具体指南。这种设置保证了网络环境的安全，防止不安全或不合规的数据进入或离开网络系统。

WAF 的使用案例

使用 WAF 的两个常见的例子是防止 SQL 注入和 XSS 攻击。

SQL 注入

SQL 注入是攻击者试图通过 Web 应用执行恶意 SQL 代码的行为。例如，未经过滤的用户输入可能被直接用在 SQL 命令中，从而允许攻击者访问或修改数据库内容。WAF 可以识别并阻止这类恶意输入。

示例场景：假设一个登录页面通过拼接字符串的方式构造 SQL 查询来验证用户名和密码。

SELECT * FROM users WHERE username='$username' AND password='$password';

如果攻击者在用户名字段输入 ' OR '1'='1，则查询变为：

SELECT * FROM users WHERE username='' OR '1'='1' AND password='';

由于 '1'='1' 总是为真，攻击者可以绕过身份验证，访问系统。

XSS 攻击

跨站脚本攻击（XSS）允许攻击者将恶意脚本注入其他用户会看到的页面中。这可能用于窃取信息或欺骗用户。WAF 通过检测和阻断可疑的脚本执行，帮助防止 XSS 攻击。

示例场景：一个评论功能允许用户提交评论并在页面上显示，而没有对输入进行适当的过滤。

<input type="text" name="comment" />

如果攻击者输入 <script>alert('XSS');</script>，则当其他用户访问该页面时，会弹出一个警告框，显示“XSS”。这种攻击可以用于窃取用户会话信息、重定向到恶意网站等。

WAF 的工作原理

WAF 通过分析和过滤所有进入 Web 应用的 HTTP 请求来阻止恶意访问。WAF 的核心组件包括：

请求和响应监控：WAF 监控所有进入和离开 Web 应用的 HTTP 请求和响应。
规则引擎：WAF 使用一系列预定义的或自定义的规则，这些规则基于已知的攻击模式和行为。这些规则用于评估 HTTP 请求中的各种元素，如 URLs、查询字符串、POST 数据、HTTP 头部等。
攻击检测逻辑：当 HTTP 请求到达时，WAF 根据其规则引擎分析请求内容。如果发现符合攻击模式的请求，WAF 将根据配置决定拦截请求或仅记录攻击尝试。
响应决策：WAF 根据分析结果对请求做出响应。如果请求被确定为恶意的，WAF 可以阻止该请求，并发送错误页面给用户；如果请求是合法的，则允许它继续到达 Web 应用。

下图展示了 WAF 的工作原理。

WAF 的工作原理

从图中可以看到，当客户端发送 HTTP 请求时，它最初会被 WAF 拦截，然后才到达 Web 应用程序。WAF 会分析此请求并应用一组预定义的安全规则。根据此分析，WAF 会做出阻止请求或允许其继续的决定。如果请求被阻止，客户端将立即收到一条错误消息。相反，如果允许该请求，则 Web 应用程序将对其进行处理，从而生成响应。随后，此响应将通过 WAF 路由回 WAF，在 WAF 中，它将经历与请求类似的分析和规则应用过程。如果 WAF 在响应中检测到任何恶意内容，它会阻止响应并向客户端发送错误消息。如果未检测到任何问题，则允许将响应传回给客户端。这种全面的检查过程可确保对传入请求和传出响应进行安全威胁审查，从而有效阻止恶意流量，同时允许合法交互与 Web 应用程序顺利进行。

基于 Envoy 集成的 WAF

WAF 作为防火墙需要拦截流量，而 Envoy 代理也同样需要拦截流量，这样我们就可以在 Envoy 中集成 WAF 来拦截恶意流量。Envoy Proxy 可以通过多种方式集成 WAF，以下是一些常见的基于 Envoy 实现的 WAF：

WebAssembly 插件：Envoy 本身不具备内置的 WAF 功能，但可以通过 WebAssembly 插件接口实现。开发者可以使用 WebAssembly 编写插件，将现成的 WAF 库（如 Coraza）编译为 WebAssembly，以便在 Envoy 中使用。
Wafris：这是一个专为 Envoy Proxy 设计的原生 WAF，能够提升 Envoy 的安全性。Wafris 提供了一个完整的 WAF 安全套件，可以过滤潜在威胁并提供有价值的流量分析（截止到撰写本文时，该 WAF 尚未正式发布）。
Next-Gen WAF Agent：可以将 Next-Gen WAF 代理作为 sidecar 部署在 Kubernetes 中，与 Envoy Proxy 集成。此代理通过 Envoy 的 gRPC 服务进行通信，允许在 Envoy 配置中添加额外的安全层。
Gloo Edge API Gateway：Gloo Edge 是基于 Envoy 构建的 API 网关，支持 WAF 扩展。它通过在 Envoy 中实现 ModSecurity 框架和规则集来提供 WAF 功能，默认包含 OWASP 核心规则集（CRS），并允许创建和应用自定义规则集。
Coraza WAF：Tetrate Enterprise Gateway for Envoy（TEG）内置了Coraza WAF，使用标准的 mod_security 规则格式进行配置。Coraza 默认配置了 OWASP 核心规则集（CRS），可以根据需要进行调整。

实施建议

下图展示了流量如何经过集成了 WAF 的 Envoy 后处理流程：

流量如何经过集成了 WAF 的 Envoy 代理

步骤说明：

客户端发送请求到 Envoy 的 ext_authz 过滤器。
ext_authz 过滤器将请求转发到 WAF 代理。
WAF 代理 分析请求并应用规则，决定是否检测到攻击。
如果检测到攻击，WAF 代理将返回错误信息给客户端。
如果没有检测到攻击，WAF 代理将允许请求，并将其传递给 Web 应用，最终返回响应给客户端。

在实施 WAF 时，建议逐步调整规则以最大化其有效性并尽量减少误报。可以通过以下步骤实现：

将 WAF 设置为仅检测模式，以便在不干扰生产环境的情况下测试规则。
监控日志，识别并调整规则以减少误报和漏报。
在对规则集满意后，将 WAF 切换回正常模式以全面启用其保护功能。

通过合理配置和调整，Envoy 中的 WAF 功能可以显著增强 Web 应用程序的安全性，帮助开发者专注于功能开发，同时减少安全问题的处理时间。

Envoy 版本与功能：使用推荐的 Envoy 版本（v1.11.0 或更高）以获得最佳功能支持。低版本（v1.8.0 及以上）也支持，但可能功能受限。

集成ext_authz过滤器：

将envoy.ext_authz过滤器配置在 HTTP 过滤器链中，该过滤器负责将客户端请求的元数据发送到 WAF 代理进行安全审查。
根据 WAF 代理的判断，请求可能被允许继续处理或直接阻止。

配置访问日志服务（ALS）：

将响应数据通过访问日志服务异步发送到 WAF 代理，以便进行后续的审计和分析。
这有助于监控响应数据，并可能用于检测响应中的数据泄露等安全问题。

安全和 TLS 配置：

对于需要加密的部署，配置 TLS 支持以保证数据传输过程中的安全。
配置包括证书和密钥的管理。

请求和响应数据处理：

配置 Envoy 以启用对请求体和响应数据的处理，这可能需要在更高版本的 Envoy 中特别配置。

部署模式：

WAF 代理通常部署为 Kubernetes 中的 sidecar，与 Envoy 代理共存，提供低延迟和高效的数据处理。

Coraza

Coraza 是一个开源的、企业级的高性能 WAF 库，采用 Go 语言编写。它与 ModSecurity 的 SecLang 规则集兼容，并完全支持 OWASP Core Rule Set (CRS) v4。Coraza 旨在保护 Web 应用程序免受广泛攻击，包括 OWASP Top Ten 列出的常见威胁，如 SQL 注入、跨站脚本（XSS）、代码注入等。

主要特性

兼容性：Coraza 是 ModSecurity 引擎的替代方案，支持行业标准的 SecLang 规则集。
安全性：运行 OWASP CRS v4 以保护 Web 应用程序，减少误报。
可扩展性：作为一个库，Coraza 提供多种集成方式，可以在本地部署 WAF 实例。
性能：能够处理从大型网站到小型博客的负载，性能影响最小。
简单性：源代码易于理解和修改，便于扩展新功能。
社区支持：作为一个社区项目，Coraza 接受贡献，欢迎各种想法。

集成

Coraza 项目维护了多个服务器的实现和插件，包括：

Caddy 反向代理和 Web 服务器插件
Proxy WASM 扩展（例如用于 Envoy）
HAProxy SPOE 插件
Coraza C 库（用于 nginx 等）

使用

Coraza 可以作为 Go 程序的库来实现安全中间件，或与现有的应用程序和 Web 服务器集成。它支持通过 Go 的构建标签调整某些功能，以适应高级用例。也可以编译成 WebAssembly 插件，集成到 Web 服务器中运行。

如何在 Envoy 中集成 Coraza

要想在 Envoy 中集成 Coraza WAF 可以使用 Coraza Proxy WASM 这个项目，参考步骤如下：

编译 WASM 插件：使用 Go 和 TinyGo，你可以通过运行 go run mage.go build 命令来编译 Coraza WASM 插件。编译完成后，你会在 ./build 目录下找到生成的 main.wasm 文件。
配置和运行 Envoy：插件编译后，需要在 Envoy 配置文件中设置 WASM 插件。这涉及到配置 HTTP 过滤器以使用 WASM 扩展，然后指定 WASM 模块的位置和配置。具体配置包括指定处理规则和日志级别等。
测试和运行：使用 mage runExample 和 mage teardownExample 命令可以启动和关闭测试环境。测试环境默认在 localhost:8080 运行。你可以发送 HTTP 请求来测试 Coraza 的行为和规则。
使用 OWASP Core Rule Set (CRS)： Coraza Proxy WASM 支持直接集成 OWASP Core Rule Set，允许通过配置文件直接加载和使用。这有助于增强安全性并测试常见的 Web 攻击场景。
运行回归测试：使用 go run mage.go ftw 命令运行 Coraza 的回归测试，确保所有功能按预期工作并且新的更改没有引入错误。

通过这些步骤，你可以成功地部署和使用 Coraza Proxy WASM 来增强你的 Web 应用安全性。更多详细信息和配置示例，请访问 Coraza Proxy WASM 的 GitHub 页面。这里提供了完整的安装指南、示例和配置说明，帮助你更好地理解和使用该项目。

如何在 Istio 中集成 Coraza

与在 Envoy 中集成 Coraza 类似，要想在 Istio 中集成 Coraza，同样需要使用 Wasm 插件——利用 Istio 内置的 WasmPlugin 资源，例如下面的定义。

apiVersion: extensions.istio.io/v1alpha1
kind: WasmPlugin
metadata:
  name: coraza-waf
spec:
  selector:
    matchLabels:
      waf: enabled
  url: oci://ghcr.io/corazawaf/coraza-proxy-wasm:0.5.0
  imagePullPolicy: IfNotPresent
  phase: AUTHN
  pluginConfig:
    rules: |
      SecRuleEngine On
      Include @crs-setup-conf
      Include @owasp_crs/*.conf

这个配置允许 Istio 在处理请求的认证阶段利用 Coraza WAF 执行额外的安全检查，通过定义的规则集增强安全性。此外，使用 OWASP Core Rule Set 帮助防御常见的 Web 应用攻击，如跨站脚本攻击（XSS）和 SQL 注入等。这种方式使得在 Istio 环境中部署和管理 WAF 更为灵活和集成。

参考

Envoy 架构简介

Jimmy Song — Wed, 07 Aug 2024 00:00:00 +0000

本节将介绍 Envoy 架构机器核心组件。

部署架构

下图展示的是 Envoy 的典型部署架构，Envoy 代理在客户端和上游服务之间充当中间层，提供高效的流量管理、安全控制和监控功能，确保系统的稳定性和性能。

Envoy 的部署架构

简要说明：

客户端发送请求：
- 客户端（例如浏览器、移动应用或其他服务）发起一个请求，发送到 Envoy 代理。
Envoy 代理接收请求：
- Envoy 代理接收来自客户端的请求，并准备根据配置进行处理。
请求路由：
- Envoy 根据预定义的路由规则决定将请求转发到哪个上游集群（服务 1、服务 2 或服务 3）。
- 路由决策可以基于请求路径、头部信息等属性。
请求转发到上游集群：
- 根据路由决策，Envoy 将请求转发到相应的上游集群中的服务实例（例如，服务 1、服务 2 或服务 3）。
- Envoy 负责负载均衡，将请求均匀地分发到集群中的各个服务实例。
健康检查和服务发现：
- Envoy 定期对上游服务实例进行健康检查，确保请求只发往健康的服务实例。
- 通过服务发现机制，Envoy 动态获取上游集群中的服务实例信息，保持最新的服务状态。
监控和数据收集：
- Envoy 收集并发送指标、日志和追踪数据到监控系统，用于监控和分析服务的性能和健康状态。
- 这些数据帮助运维人员了解系统运行情况，并快速响应和解决问题。
认证和授权：
- Envoy 集成外部认证授权系统，对请求进行身份验证和访问控制。
- 认证授权系统可以是 OAuth、JWT 或其他安全机制，确保请求的合法性和安全性。
动态配置管理：
- 管理平面负责动态配置和管理 Envoy 代理。
- 管理平面将配置变更推送到 Envoy 代理，以适应业务需求的变化，确保系统的高可用性和灵活性。

核心组件

Envoy 的架构由多个核心组件组成，每个组件都有特定的职责，以确保代理的高效运行：

Listener（监听器）：监听来自客户端的网络请求，支持多种协议（如 TCP、HTTP）。
Filter Chains（过滤器链）：包含一系列过滤器，用于处理和转换请求和响应。
Cluster（集群）：定义后端服务的集合，提供负载均衡和健康检查功能。
Endpoint（端点）：具体的服务实例，作为集群中的成员。

下图展示了 Envoy 核心组件之间的关系。

Envoy 的核心组件

下面是对 Envoy 核心组件详细介绍。

Listener（监听器）

职责：
- 监听器是 Envoy 的入口点，负责监听来自客户端的网络请求。
- 支持多种协议，能够处理各种类型的网络流量。
- 监听器配置了网络地址（IP 地址和端口），用于接收来自客户端的连接请求。
功能：
- 网络监听：通过配置的网络地址和端口，接收并解析客户端请求。
- 协议识别：识别请求所使用的协议，并将请求分发到相应的过滤器链进行处理。
- 初步处理：可以在监听器级别进行一些基本的流量管理和控制，如速率限制和连接管理。

Filter Chains（过滤器链）

职责：
- 过滤器链包含一系列按顺序排列的过滤器，用于处理和转换请求和响应。
- 每个过滤器在请求和响应的生命周期中都扮演着特定的角色。
功能：
- 请求处理：从监听器接收到请求后，过滤器链中的每个过滤器依次对请求进行处理。
- 响应处理：上游服务返回响应后，过滤器链中的每个过滤器依次对响应进行处理。
- 各种过滤器类型：
  - HTTP 过滤器：用于处理 HTTP 请求和响应，如认证、路由、重试等。
  - 网络过滤器：处理低级别的网络层数据，如 IP 数据包或 TCP 数据流。这些过滤器通常用于执行安全检查、连接管理、协议解析等任务，如 TCP 代理、防火墙功能和数据加密。
  - TCP 过滤器：用于处理 TCP 连接和数据包，如负载均衡、健康检查等。
  - 自定义过滤器：用户可以编写自定义过滤器来实现特定的处理逻辑。

Envoy 中支持的过滤器概述

Envoy 代理支持多种类型的过滤器，每种过滤器在网络流量的处理过程中扮演不同的角色。以下列出的 Envoy 支持的各个过滤器。欲了解详情，请见 Envoy 文档。

点击查看

监听器过滤器 (Listener Filters)

HTTP Inspector Filter：检测和解析 HTTP 流量。
Local Rate Limit Filter：在本地对流量进行速率限制。
Original Dst Filter：使用原始目标地址。
Original Src Filter：使用原始源地址。
Proxy Protocol Filter：支持 Proxy Protocol，用于传递客户端连接信息。
TLS Inspector Filter：检测和解析 TLS 流量。

网络过滤器 (Network Filters)

Client TLS authentication：进行客户端 TLS 认证。
Connection limit：限制连接数量。
Direct response：直接响应请求。
Dubbo Proxy：支持 Dubbo 协议的代理。
Dubbo Proxy Route Configuration：配置 Dubbo 路由。
Echo：用于测试，回显请求内容。
Network External Authorization：进行外部授权。
Generic Proxy：通用代理过滤器。
Generic Proxy Route Configuration：配置通用代理路由。
Golang network filter：基于 Golang 的网络过滤器。
HTTP connection manager：管理 HTTP 连接。
Kafka Broker：支持 Kafka 协议的代理。
Kafka Mesh：支持 Kafka Mesh。
Local rate limit：在本地对流量进行速率限制。
Mongo proxy：支持 MongoDB 协议的代理。
MySQL proxy：支持 MySQL 协议的代理。
Postgres proxy：支持 Postgres 协议的代理。
Rate limit：进行速率限制。
RBAC：基于角色的访问控制。
Redis Proxy：支持 Redis 协议的代理。
RocketMQ Proxy：支持 RocketMQ 协议的代理。
Rocketmq Proxy Route Configuration：配置 RocketMQ 路由。
Set-Filter-State Filter：设置过滤器状态。
Sip Proxy：支持 SIP 协议的代理。
Sip Proxy Route Configuration：配置 SIP 路由。
SNI Cluster Filter：基于 SNI 进行集群选择。
SNI dynamic forward proxy：支持 SNI 动态正向代理。
TCP Proxy：TCP 代理过滤器。
Thrift Proxy：支持 Thrift 协议的代理。
Thrift Proxy Route Configuration：配置 Thrift 路由。
Wasm：WebAssembly 过滤器。
ZooKeeper proxy：支持 ZooKeeper 协议的代理。

UDP 监听器过滤器 (UDP Listener Filters)

DNS Filter：支持 DNS 协议的代理。
UDP proxy route configuration：配置 UDP 路由。
UDP proxy：UDP 代理过滤器。

UDP 会话过滤器 (UDP Session Filters)

Filter state dynamic forward proxy：动态正向代理。
UDP HTTP Capsule filter：支持 UDP HTTP 胶囊协议。

HTTP 过滤器 (HTTP Filters)

Adaptive Concurrency：自适应并发控制。
Admission Control：入场控制。
Alternate Protocols Cache：替代协议缓存。
AWS Lambda：集成 AWS Lambda。
AwsRequestSigning：AWS 请求签名。
Bandwidth limit：带宽限制。
Basic Auth：基本认证。
Buffer：请求缓冲。
HTTP Cache Filter：HTTP 缓存过滤器。
HTTP CDN-Loop Filter：CDN 循环检测过滤器。
Checksum HTTP filter：校验和过滤器。
Composite：组合过滤器。
Compressor：压缩过滤器。
Connect RPC to gRPC：将 RPC 连接桥接到 gRPC。
Cors：跨域资源共享过滤器。
Credential Injector：凭据注入过滤器。
CSRF：防跨站请求伪造过滤器。
Custom Response Filter：自定义响应过滤器。
Decompressor：解压缩过滤器。
Dynamic forward proxy：动态正向代理。
Dynamo：集成 AWS DynamoDB。
External Authorization：外部授权。
External Processing Filter：外部处理过滤器。
Fault Injection：故障注入过滤器。
FileSystemBufferFilterConfig：文件系统缓冲配置。
GCP authentication：谷歌云认证过滤器。
Geoip：地理位置过滤器。
Golang HTTP filter：基于 Golang 的 HTTP 过滤器。
gRPC Field Extraction：gRPC 字段提取。
gRPC HTTP/1.1 Bridge：gRPC 到 HTTP/1.1 桥接。
gRPC HTTP/1.1 Reverse Bridge：HTTP/1.1 到 gRPC 反向桥接。
gRPC-JSON transcoder：gRPC 到 JSON 转码。
gRPC statistics：gRPC 统计信息。
gRPC Web：gRPC Web 支持。
Gzip：Gzip 压缩过滤器。
Header mutation filter configuration：头部变更过滤器。
Header-To-Metadata Filter：头部信息转元数据过滤器。
Health check：健康检查过滤器。
IP tagging：IP 标记过滤器。
Json-To-Metadata Filter：JSON 转元数据过滤器。
JWT Authentication：JWT 认证过滤器。
Kill Request：请求终止过滤器。
Language：语言过滤器。
Local Rate limit：本地速率限制过滤器。
Lua：Lua 脚本过滤器。
OAuth：OAuth 认证过滤器。
On Demand Discovery：按需发现过滤器。
Original Src Filter：使用原始源地址过滤器。
Rate Limit Quota：速率限制配额过滤器。
Rate limit：速率限制过滤器。
RBAC：基于角色的访问控制过滤器。
Router：路由过滤器。
Set-Filter-State Filter：设置过滤器状态。
Set-Metadata Filter：设置元数据过滤器。
Squash：调试会话压缩过滤器。
Stateful session filter：有状态会话过滤器。
Signed HTTP Exchange Filter：签名 HTTP 交换过滤器。
Tap：流量捕获过滤器。
Thrift-To-Metadata Filter：Thrift 到元数据过滤器。
UpstreamCodec：上游编解码过滤器。
Wasm：WebAssembly 过滤器。

Dubbo 过滤器 (Dubbo Filters)

Router：Dubbo 路由过滤器。

Thrift 过滤器 (Thrift Filters)

Router：Thrift 路由过滤器。
Header-To-Metadata Filter：头部信息转元数据过滤器。
Payload-To-Metadata Filter：负载转元数据过滤器。
Rate limit：速率限制过滤器。

通用过滤器 (Generic Filters)

Generic Proxy Route Action Configuration：通用代理路由动作配置。
Dubbo codec configuration for Generic Proxy：通用代理的 Dubbo 编解码配置。
HTTP1 codec configuration for Generic Proxy：通用代理的 HTTP1 编解码配置。
Kafka codec configuration for Generic Proxy：通用代理的 Kafka 编解码配置。
Generic Proxy Route Matcher Configuration：通用代理路由匹配器配置。
Router for generic proxy：通用代理的路由过滤器。

这些过滤器涵盖了 Envoy 中各个层次和不同协议的处理需求，提供了灵活而强大的功能，帮助用户实现多种流量管理和处理场景。

Cluster（集群）

职责：
- 集群表示一组上游服务实例的集合，负责将请求负载均衡地分配给这些实例。
- 提供服务发现和健康检查功能，确保请求被分发到可用的服务实例。
功能：
- 负载均衡：根据配置的负载均衡策略（如轮询、随机、基于权重等），将请求分发到集群中的服务实例。
- 服务发现：动态发现和更新集群中的服务实例信息，保持最新的服务状态。
- 健康检查：定期对集群中的服务实例进行健康检查，确保请求只发往健康的实例。
- 集群类型：支持多种集群类型，如静态集群、DNS 集群和动态集群（如通过 xDS 协议发现的集群）。

Endpoint（端点）

职责：
- 端点是集群中的具体服务实例，负责实际处理来自客户端的请求。
- 每个端点通常对应一个运行中的服务实例或容器。
功能：
- 请求处理：接收来自集群负载均衡的请求并进行处理，返回相应的结果。
- 健康检查：端点定期接受健康检查，以报告其健康状态，确保只接收健康请求。
- 动态变化：随着服务实例的增加或减少，端点列表会动态更新，以反映集群的当前状态。

网络协议概述

Jimmy Song — Tue, 06 Aug 2024 12:20:00 +0800

我们将探讨什么是网络协议，为什么使用代理，以及代理如何区分和处理不同的网络协议。我们还将详细介绍 Envoy 支持的各种网络协议，包括 TCP、UDP、HTTP、HTTPS、HTTP/2、HTTP/3、TLS、WebSocket、Proxy Protocol、gRPC 和 QUIC。

什么是网络协议？

网络协议是通信双方在网络中进行数据交换所遵循的一组规则和约定。它定义了如何在网络上传输数据、如何建立和管理连接、如何处理错误等。常见的网络协议包括 HTTP、HTTPS、TCP/IP、UDP 等。

网络协议分为不同的层次，如应用层、传输层、网络层和数据链路层，每一层都有其特定的协议和功能。例如，HTTP 是应用层协议，用于浏览器与 Web 服务器之间的数据传输；TCP 是传输层协议，提供可靠的数据传输服务。

Envoy 支持的网络协议概述

下表是 Envoy 代理支持的网络协议。

协议	一句话描述	诞生背景	使用场景	性能
TCP	提供可靠、有序、错误检查的双向通信协议	1974年，作为互联网核心协议的一部分	文件传输、电子邮件、Web浏览等	可靠，但传输速度较慢，开销较大
UDP	提供快速、简单、不可靠的通信协议	1980年，为了减少开销和提高速度	视频流、在线游戏、实时通信	快速，低延迟，但不保证数据完整性
HTTP	超文本传输协议，用于传输网页数据	1990年，作为万维网的一部分	Web浏览、API调用	无状态，性能较低
TLS	传输层安全协议，提供加密通信	1999年，取代SSL提供更高安全性	安全Web浏览、电子邮件、VPN等	高安全性，但增加了加密开销和延迟
Proxy Protocol	在代理服务器和后端服务器之间传递客户端连接信息	2010年，由HAProxy开发，旨在解决在复杂网络架构中获取客户端真实IP地址的问题	负载均衡、反向代理	提供连接信息的透明度，但增加了一些开销
WebSocket	提供持久的双向通信通道，用于实时应用	2011年，为了弥补HTTP的实时通信不足	实时聊天、在线游戏、实时数据流	实时、低延迟，适合高频数据交换
QUIC	基于UDP的传输协议，提供低延迟和高吞吐量	2013年，由Google开发，为HTTP/3铺路	高性能Web浏览、实时应用	非常高效，低延迟，通过UDP传输
HTTP/2	增强版HTTP，支持多路复用和头部压缩	2015年，为了提高Web性能	高性能Web浏览、实时应用	高效，多路复用，较低的延迟
gRPC	基于HTTP/2的高性能RPC框架	2015年，由Google开发	微服务通信、高性能API	高效，多路复用，支持多种语言
HTTP/3	基于QUIC协议的HTTP，进一步减少延迟	2018年，为了进一步提升Web性能	高性能Web浏览、实时应用	非常高效，低延迟，通过UDP传输

下图展示了 Envoy 支持的网络协议之间的关系。

Envoy 支持的网络协议之间的关系

下面是对这些协议的简要介绍。

TCP

TCP（Transmission Control Protocol）是传输层协议，提供可靠的数据传输服务。TCP 通过建立连接、数据传输、确认和重传机制，确保数据包按顺序到达目标。Envoy 支持 TCP 协议，用于可靠的流量代理和转发。

UDP

UDP（User Datagram Protocol）是传输层协议，不提供可靠性保证。UDP 用于需要快速传输和低延迟的应用，如视频流、实时通信等。Envoy 支持 UDP 协议，可以代理和转发不需要可靠传输的流量。

HTTP

HTTP（HyperText Transfer Protocol）是用于在 Web 浏览器和服务器之间传输超文本数据的协议。它是无状态的、基于请求 - 响应模型的协议。HTTP/1.1 是目前最广泛使用的版本，但 HTTP/2 和 HTTP/3 提供了更高效的传输机制。

HTTPS

HTTPS（HyperText Transfer Protocol Secure）是在 HTTP 基础上通过 TLS（传输层安全）协议进行加密传输的安全版本。HTTPS 确保数据在传输过程中被加密，保护数据的机密性和完整性。Envoy 支持配置 TLS 来实现 HTTPS 通信。

HTTP/2和HTTP/3

HTTP/2是HTTP协议的改进版本，支持多路复用、头部压缩和服务端推送等特性，提高了传输效率。HTTP/3是基于QUIC协议的最新版本，进一步优化了传输性能。HTTP/3通过UDP实现低延迟和高吞吐量的传输服务。

HTTP 与 HTTP/2：HTTP/2 在 HTTP/1.1 的基础上引入了多路复用和头部压缩，提高了性能。
HTTP/2与HTTP/3：HTTP/3 基于 QUIC 协议，通过 UDP 传输数据，进一步减少了延迟和连接建立时间。

TLS

TLS（Transport Layer Security）是用于在两个通信应用程序之间提供保密性和数据完整性的协议。TLS 在传输层加密数据，防止窃听和篡改。Envoy 支持配置 TLS 来保护通信数据的安全。

WebSocket

WebSocket 是一种全双工通信协议，允许客户端和服务器之间建立持久连接。它适用于需要频繁数据交换的应用，如实时聊天和在线游戏。Envoy 支持 WebSocket 协议，可以代理和转发 WebSocket 通信。

全双工 vs 半双工

全双工（Full Duplex）通信模式允许数据在两个设备之间同时双向传输，无需等待对方完成传输。与此不同，半双工（Half Duplex）模式只允许单向传输，任意时刻只能有一个方向的数据流动。尽管现代应用中半双工协议使用较少，但它们在传统设备如无线电通信中仍然重要。

类似 WebSocket 的全双工协议包括 HTTP/2 和 HTTP/3，支持双向通信并利用 QUIC 的低延迟特性。QUIC 和 SCTP 通过 UDP 和多流机制提高网络效率。XMPP 和 MQTT 适用于即时消息和物联网，AMQP 用于企业级消息传递，而 WebRTC 则支持浏览器中的实时音视频通信。这些协议在各种场景下实现了双向、实时的数据传输。

WebSocket 在初始握手时使用 HTTP 协议，然后通过升级握手（Upgrade header）将连接切换到 WebSocket 协议，从而在同一连接上支持双向通信。WebSocket 在建立连接后，能够实现低延迟的双向数据传输。

Proxy Protocol

Proxy Protocol 是一种用于在负载均衡器和后端服务器之间传递客户端连接信息的协议。它允许后端服务器获取客户端的源 IP 地址和端口信息，Envoy 支持 Proxy Protocol，增强了连接信息的透明度。

gRPC

gRPC 是一种基于 HTTP/2 的高性能远程过程调用（RPC）框架，支持多种编程语言。gRPC 使用协议缓冲（Protocol Buffers）作为接口描述语言，具有高效、灵活和跨语言的特点。Envoy 支持 gRPC，可以代理和负载均衡 gRPC 服务。

QUIC

QUIC（Quick UDP Internet Connections）是 Google 开发的一种基于 UDP 的传输协议，旨在提高互联网的性能。QUIC 集成了 TLS 加密，提供低延迟和高吞吐量的传输服务。HTTP/3 基于 QUIC 协议，Envoy 支持 QUIC 协议，提升网络传输性能。

为什么要使用代理？

代理（Proxy）是位于客户端和服务器之间的中间设备或软件，代理客户端的请求和服务器的响应。使用代理有多个好处：

安全性：代理可以过滤和检查进出网络的数据，保护内部网络免受攻击。
性能优化：通过缓存常用数据，减少服务器负载，加快响应速度。
负载均衡：将客户端请求分散到多台服务器上，避免单点故障，提高系统可用性。
透明性：隐藏内部网络结构，防止外部用户直接访问内部资源。
访问控制：控制用户对特定资源的访问权限。

代理如何区分网络协议？

代理通过检查和解析数据包的头部信息来区分不同的网络协议。每种协议都有其特定的头部格式和标识符，代理可以根据这些信息判断数据包使用的协议，并进行相应的处理。例如，HTTP 协议的数据包头部包含请求方法、URL 和 HTTP 版本等信息，而 HTTPS 则是通过 TLS 加密的 HTTP。

Envoy 作为一个高性能代理，支持多种网络协议，并能够智能地解析和处理不同协议的数据包。

参考

High Performance Browser Networking - hpbn.co

前言

Jimmy Song — Tue, 06 Aug 2024 11:20:00 +0800

欢迎阅读《简明 Envoy 教程：Envoy Proxy 和 Envoy Gateway 的全面指南》。这本书旨在为开发者、系统架构师和运维工程师提供一个清晰、简明的 Envoy 入门和进阶教程。无论你是网络代理的初学者，还是希望深入了解 Envoy 核心功能的专业人士，这本书都将帮助你系统地掌握 Envoy 及其相关技术。

为什么选择 Envoy？

Envoy 是一个高性能的分布式代理，广泛应用于云原生应用程序。它提供了丰富的功能和极高的可扩展性，使其成为现代服务网格和 API 网关中的关键组件。Envoy 不仅可以提高服务间的通信效率，还能增强系统的安全性和可观测性。

目标读者

本书适合以下读者：

开发者：希望了解如何在项目中集成和使用 Envoy 进行服务间通信。
系统架构师：希望设计和优化使用 Envoy 的系统架构。
运维工程师：希望通过 Envoy 实现高效的流量管理和监控。

本书结构

为了帮助读者循序渐进地学习，本书按以下几个部分进行讲解：

Envoy 基础：从 Envoy 的基本概念、安装与配置开始，带领读者逐步熟悉 Envoy。
Envoy 架构：深入探讨 Envoy 的基本架构和组件。
Envoy 核心功能：详细讲解 Envoy 的核心组件和功能，包括 HTTP 连接管理器、集群、监听器等。
可观测性与日志：介绍如何通过 Envoy 进行系统监控和日志管理。
安全：讲解如何配置和管理 Envoy 的安全功能。
Envoy Gateway：深入探讨 Envoy Gateway 的架构、安装、配置及核心功能。
服务网格：了解如何将 Envoy 作为 Istio 服务网格数据平面。
实战案例与最佳实践：通过实际案例帮助读者将学到的知识应用到实践中，并提供优化和调优建议。
参考资料与附录：提供相关文档引用和常用配置示例，便于读者查阅。

使用本书的方法

为了最大限度地利用本书资源，我们建议读者：

按照章节顺序阅读，从基础概念逐步深入到高级功能。
结合书中的实验和实践部分动手操作，加深理解。
参考官方文档获取最新的信息和更详细的技术细节。

引用官方文档

本书在编写过程中，参考了大量官方文档，包括 Envoy 官方文档、Envoy Gateway 官方文档、Kubernetes Gateway API 文档以及 Istio 官方文档（侧重于 Sidecar 模式部分）。在需要深入了解某个主题时，我们强烈建议读者查阅这些官方文档，以获取最新的更新和详细的信息。

希望这本书能成为你学习和掌握 Envoy 及 Envoy Gateway 的重要资源，帮助你在项目中充分发挥这些强大工具的优势。

Cilium v1.16.0 新特性介绍

Jimmy Song — Thu, 25 Jul 2024 08:00:00 +0800

Cilium v1.16.0 发布于 2024 年 7 月 25 日，带来了许多令人兴奋的新功能和改进，以下是主要更新内容：

网络

Cilium NetKit： 容器网络的吞吐量和延迟达到与主机网络同等的水平。
BGPv2： 全新 API 用于 Cilium 的 BGP 功能。
BGP ClusterIP Advertisement： 对 ExternalIP 和 Cluster IP 服务的 BGP Advertisement 支持。
服务流量分布： Kubernetes 1.30 中的服务流量分布可以直接在服务规范中启用，而无需使用注释。
本地重定向策略稳定： 将指向服务的流量重定向到本地后端，例如节点本地 DNS。
多播数据路径： 在 Cilium 中定义多播组。
每 Pod 固定 MAC 地址： 可以指定 Pod 使用的 MAC 地址。

服务网格与入口/网关 API

Gateway API GAMMA 支持： 通过 Gateway API 进行集群内部东西向流量管理。
支持 Gateway API 1.1： Cilium 现在支持 Gateway API 1.1。
Ingress/Gateway API 的 ExternalTrafficPolicy 支持： 外部流量现在可以路由到节点本地或集群范围的端点。
L7 Envoy 代理作为专用 DaemonSet： 通过专用 DaemonSet，Envoy 和 Cilium 可以独立生命周期。新安装默认启用。
CiliumEnvoyConfig 的 NodeSelector 支持： 现在可以选择特定节点应用 CiliumEnvoyConfig，而不是应用到所有节点。

安全

网络策略端口范围支持： 期待已久的功能现已在 Cilium 中实现。
网络策略验证状态： kubectl describe cnp 可以告诉 Cilium 网络策略是否有效。
控制 Cilium 网络策略默认拒绝行为： 策略通常启用默认拒绝，但现在可以在每个策略基础上禁用此行为。
Egress 和 Deny 规则的 CIDRGroups 支持： 支持在 Egress 策略规则中匹配 CiliumCIDRGroups。
从文件系统加载“默认”网络策略： 除了从 Kubernetes 读取策略外，Cilium 还可以配置为本地读取策略。
选择节点作为 Cilium 网络策略的目标： 通过新的 ToNodes/FromNodes 选择器，可以根据目标节点的标签允许或拒绝流量。

Day 2 操作与规模

新的 ELF 加载逻辑： 新的加载逻辑使 Cilium 的中位内存使用量减少了 24%。
改进的基于 DNS 的网络策略性能： 基于 DNS 的网络策略尾部延迟减少了 5 倍。
KVStoreMesh 作为 ClusterMesh 的默认选项： 自 Cilium 1.14 引入以来，经过社区大量采用和反馈，KVStoreMesh 现在是部署 ClusterMesh 的默认方式。

Hubble 与可观测性

CEL 过滤器支持： Hubble 支持通用表达式语言（CEL），支持更复杂的条件，无法用现有的流过滤器表达。
改进的 HTTP 指标： 增加了统计 HTTP 请求及其持续时间的指标。
改进的 BPF 映射压力指标： 新指标用于跟踪连接跟踪 BPF 映射的 BPF 映射压力指标。
改进的 Egress 流量路径可观测性： 本次发布中增加了一些指标，以帮助排查 Cilium Egress 路由。
数据包丢弃的 K8S 事件生成： Hubble 现在可以为从 pod 丢弃的数据包生成 k8s 事件，可以使用 kubectl get events 验证。
按节点标签过滤 Hubble 流量： 按照匹配给定标签的节点过滤 Hubble 流量。

Cilium v1.16.0 的这些新特性和改进，使其在性能、可管理性和安全性方面都得到了显著提升。如果你对这些新功能感兴趣，建议尽快升级并体验这些改进。详细的发布记录请见 GitHub。

在 Envoy 中集成 SPIRE

Jimmy Song — Mon, 23 Oct 2023 00:00:00 +0800

本文指导你如何配置 Envoy 代理与 SPIFFE 和 SPIRE 配合使用。

Envoy 是一种流行的开源服务代理，广泛用于提供抽象、安全、经过身份验证和加密的服务间通信。Envoy 拥有丰富的配置系统，允许灵活地与第三方进行交互。

该配置系统的一个组成部分是 Secret Discovery Service 协议或 SDS。Envoy 使用 SDS 从 SDS 提供者检索和维护更新的“密钥”。在 TLS 身份验证的上下文中，这些密钥是 TLS 证书、私钥和可信 CA 证书。SPIRE 代理可以配置为 Envoy 的 SDS 提供者，使其能够直接向 Envoy 提供所需的密钥材料以进行 TLS 身份验证。SPIRE 代理还会根据需要重新生成短期密钥和证书。

有关如何将 SPIRE 与 Envoy 集成的基于 Kubernetes 的示例，请参阅使用 X.509 证书集成 Envoy 和使用 JWT 集成 Envoy。

工作原理

当 Envoy 连接到 SPIRE 代理提供的 SDS 服务器时，代理会对 Envoy 进行验证，并确定应向 Envoy 公开哪些服务标识和 CA 证书，以通过 SDS。

随着服务标识和 CA 证书的轮换，更新会流式传输回 Envoy，使其可以立即将其应用于新连接，无需中断或停机，并且无需私钥接触磁盘。换句话说，SPIRE 丰富的定义和验证服务的方法可以用于定位 Envoy 进程、为其定义标识，并为其提供 Envoy 可用于 TLS 通信的 X.509 证书和信任信息。

示意图展示了两个 Envoy 代理在使用 SPIRE 代理 SDS，实现获取用于服务间相互认证的 TLS 通信的密钥。

配置 SPIRE

在 SPIRE v0.10 版本中，默认启用了 SDS 支持，因此不需要进行 SPIRE 配置更改。在早期版本的 SPIRE 中，SPIRE 代理配置文件中需要设置 enable_sds = true。该设置现已停用，应在 SPIRE v0.10 及更高版本的 SPIRE 代理配置文件中删除该设置。

配置 Envoy

SPIRE 代理集群

必须配置 Envoy 以与 SPIRE 代理通信，方法是配置一个指向 SPIRE 代理提供的 Unix 域套接字的集群。

例如：

clusters:
  - name: spire_agent
    connect_timeout: 0.25s
    http2_protocol_options: {}
    hosts:
    - pipe:
      path: /tmp/spire-agent/public/api.sock

connect_timeout 影响当 Envoy 在启动时 SPIRE 代理未运行或 SPIRE 代理重新启动时，Envoy 能够快速响应的速度。

TLS 证书

要从 SPIRE 获取 TLS 证书和私钥，可以在 TLS 上下文中设置 SDS 配置。

例如：

tls_context:
  common_tls_context:
    tls_certificate_sds_secret_configs:
      - name: "spiffe://example.org/backend"
      sds_config:
        api_config_source:
          api_type: GRPC
          grpc_services:
            envoy_grpc:
              cluster_name: spire_agent

TLS 证书的名称是 Envoy 作为代理的服务的 SPIFFE ID。

验证上下文

Envoy 使用可信 CA 证书来验证对等证书。验证上下文提供这些可信 CA 证书。SPIRE 可以为每个信任域提供验证上下文。

要获取信任域的验证上下文，可以在 TLS 上下文的 SDS 配置中配置验证上下文，将验证上下文的名称设置为信任域的 SPIFFE ID。

例如：

tls_context:
  common_tls_context:
    validation_context_sds_secret_config:
      name: "spiffe://example.org"
      sds_config:
        api_config_source:
          api_type: GRPC
          grpc_services:
            envoy_grpc:
              cluster_name: spire_agent

SPIFFE 和 SPIRE 的重点是促进安全身份验证作为授权的构建块，而不是授权本身，因此验证上下文中的授权相关字段（例如 match_subject_alt_names）不在其范围之内。相反，我们建议你利用 Envoy 的广泛过滤器框架执行授权。

此外，你可以配置 Envoy 以将客户端证书详细信息转发到目标服务，使其能够执行自己的授权步骤，例如使用嵌入在客户端 X.509-SVID 的 URI SAN 中的 SPIFFE ID。

SPIFFE 基本概念

Jimmy Song — Mon, 23 Oct 2023 00:00:00 +0800

SPIFFE，即普适安全生产身份框架（Secure Production Identity Framework for Everyone），是一套开源标准，用于在动态和异构环境中安全地进行身份识别。采用 SPIFFE 的系统无论在哪里运行，都可以轻松可靠地相互认证。

SPIFFE 开源规范的核心是——通过简单 API 定义了一个短期的加密身份文件 SVID。然后，工作负载进行认证时可以使用该身份文件，例如建立 TLS 连接或签署和验证 JWT 令牌等。

SPIFFE 已经在云原生应用中得到了大量的应用，尤其是在 Istio 和 Envoy 中。下面将向你介绍 SPIFFE 的一些基本概念。

工作负载

工作负载是一个单一的软件实体，通过特定配置部署，用于单一目的；它可能包括多个运行中的软件实例，所有这些实例执行相同的任务。术语“工作负载”可能涵盖软件系统的各种不同定义，包括：

运行 Python Web 应用程序的 Web 服务器，部署在一组虚拟机上，前面有一个负载均衡器。
一个 MySQL 数据库的实例。
处理队列中条目的工作程序。
一组独立部署的系统共同工作，例如使用数据库服务的 Web 应用程序。Web 应用程序和数据库也可以分别被视为工作负载。

对于 SPIFFE 来说，工作负载往往比物理或虚拟节点更精细 - 通常精细到节点上的单个进程。对于在容器编排器中托管的工作负载而言，这对于多个工作负载可以共存（但在彼此之间隔离）于单个节点的情况非常重要。

对于 SPIFFE 来说，工作负载也可能跨越多个节点 - 例如，一个可以在多台机器上同时运行的弹性缩放的 Web 服务器。

尽管在不同的上下文中，将何为工作负载的粒度会有所不同，但对于 SPIFFE 的目的而言，假定工作负载与其他工作负载隔离得足够好，以至于恶意的工作负载在发放证书后无法窃取另一个工作负载的凭据。此隔离的稳固性以及其实现机制超出了 SPIFFE 的范围。

SPIFFE ID

SPIFFE ID 是一个字符串，唯一且具体地标识一个工作负载。SPIFFE ID 也可以分配给工作负载运行在的中间系统（如一组虚拟机）。例如，spiffe://acme.com/billing/payments 是一个有效的 SPIFFE ID。

SPIFFE ID 是一个统一资源标识符 (URI)，其格式如下：spiffe://信任域/工作负载标识符

工作负载标识符唯一地标识信任域中的特定工作负载。

SPIFFE 规范详细描述了 SPIFFE ID 的格式和用途。

信任域

信任域对应于系统的信任根。信任域可以代表运行其独立 SPIFFE 基础设施的个人、组织、环境或部门。在相同信任域中标识的所有工作负载都会收到可以与信任域的根密钥进行验证的身份文件。

通常建议将位于不同物理位置（例如不同数据中心或云区域）或应用不同安全实践的环境（例如与生产环境相比的暂存或实验环境）的工作负载保持在不同的信任域中。

SPIFFE 可验证身份文件（SVID）

SVID 是工作负载用于向资源或调用方证明其身份的文档。如果由 SPIFFE ID 信任域内的权威签名，SVID 被认为是有效的。

一个 SVID 包含一个单一的 SPIFFE ID，代表了呈现它的服务的身份。它将 SPIFFE ID 编码在一个密码学可验证的文档中，支持两种当前支持的格式之一：X.509 证书或 JWT 令牌。

由于令牌容易受到重放攻击，在传输中获取了令牌后，攻击者可以使用它来冒充一个工作负载，因此建议尽可能使用 X.509-SVIDs。但是，在某些情况下，JWT 令牌格式可能是唯一的选择，例如当你的架构在两个工作负载之间有一个 L7 代理或负载均衡器时。

有关 SVID 的详细信息，请参阅SVID 规范。

SPIFFE 工作负载 API

工作负载 API 提供以下功能：

对于 X.509 格式的身份文件（X.509-SVID）：

其身份，以 SPIFFE ID 形式描述。
与该 ID 相关的私钥，可用于代表工作负载对数据进行签名。还创建了相应的短暂的 X.509 证书，即 X509-SVID。这可用于建立 TLS 连接或以其他方式对其他工作负载进行身份验证。
一组证书 - 称为信任捆绑包 - 可用于验证另一个工作负载呈现的 X.509-SVID。

对于 JWT 格式的身份文件（JWT-SVID）：

其身份，以 SPIFFE ID 形式描述。
JWT 令牌
一组证书 - 称为信任捆绑包 - 可用于验证其他工作负载的身份。

与Amazon EC2 实例元数据 API和Google GCE 实例元数据 API类似，工作负载 API 不要求调用工作负载具有自己的身份知识，或在调用 API 时拥有任何身份验证令牌。这意味着你的应用程序无需将任何身份验证密钥与工作负载一起部署。

然而，与这些其他 API 不同，工作负载 API 是平台无关的，并且可以在进程级别以及内核级别识别运行的服务 - 这使其适用于与容器调度器（如 Kubernetes）一起使用。

为了最小化由于密钥泄露或被破坏而造成的风险，所有私钥（及相应的证书）都是短暂的，会经常自动轮换。在相应的密钥到期之前，工作负载可以从工作负载 API 请求新的密钥和信任捆绑包。

信任捆绑包

在使用 X.509-SVID 时，信任捆绑包用于由目标工作负载验证源工作负载的身份。信任捆绑包是一个包含一个或多个证书颁发机构（CA）根证书的集合，工作负载应将其视为可信任的。信任捆绑包包含了验证 X.509 和 JWT SVID 的公钥材料。

用于验证 X.509 SVID 的公钥材料是一组证书。用于验证 JWT 的公钥材料是一个原始的公钥。信任捆绑包的内容经常会发生变化。在调用工作负载 API 时，工作负载会检索信任捆绑包。

SPIFFE ID 和 SVID

Jimmy Song — Mon, 23 Oct 2023 00:00:00 +0800

SPIFFE 标准提供了一个规范，用于在异构环境和组织边界中引导和颁发服务的身份。它包括各种规范，每个规定了 SPIFFE 功能的特定子集的操作。

特别是本文档作为 SPIFFE 标准的核心规范。虽然在 SPIFFE 范围内还有其他规范，但符合本文档就足以实现 SPIFFE 合规性，并获得 SPIFFE 标准本身的互操作性好处。

引言

本文档提出了正式的 SPIFFE 规范。它定义了 SPIFFE 标准的两个最基本组件：SPIFFE 身份和 SPIFFE 可验证身份文档。

第 2 节概述了 SPIFFE 身份（SPIFFE ID）及其命名空间。SPIFFE ID 被定义为符合RFC 3986标准的 URI，包括“信任域名”和相关路径。信任域名作为 URI 的授权组件，用于识别发放给定身份的系统。以下示例演示了如何构造 SPIFFE ID：

spiffe://trust-domain-name/path

有效的 SPIFFE ID 必须将方案设置为spiffe，包含非零的信任域名，并且不能包含查询或片段组件。换句话说，SPIFFE ID 由spiffe方案和一个特定站点的hier-part（其中包括授权组件和可选路径）完全定义。

信任域

信任域对应于系统的信任根。信任域可以代表独立运行其自己的 SPIFFE 基础设施的个人、组织、环境或部门。

信任域名称通常是自我注册的，与公共 DNS 不同，没有委托权机构来断言并注册基本域名到实际的法律实体，或者断言该法律实体对任何特定信任域名拥有公正和正当的权利。

信任域名被定义为 URI 的授权组件，并应用以下限制：

授权组件的host部分不得为空。
授权组件的userinfo和port部分必须为空。
授权组件的host部分必须小写。
授权组件的host部分只能包含字母、数字、点、破折号和下划线（[a-z0-9.-_]）。
授权组件的host部分不能包含百分比编码的字符。

请注意，此定义不排除用点分四段表示法表示的 IPv4 地址，但排除了 IPv6 地址。DNS 名称是有效信任域名的严格子集。实现在处理信任域名时，无论它们是有效的 IP 地址还是有效的 DNS 名称，都不得以不同方式处理它们。

信任域名称冲突

信任域操作员可以自由选择任何他们认为合适的信任域名称：没有中央权威机构来监管或注册信任域名称。因此，不能保证全局唯一性，也没有技术手段阻止不同的信任域使用相同的信任域名称。

为防止意外碰撞（两个信任域选择相同的名称），建议操作员选择高度可能全球唯一的信任域名称。即使信任域名称不是 DNS 名称，但如果可用，使用注册的域名作为信任域名的后缀将降低意外碰撞的可能性；例如，如果信任域操作员拥有域名example.com，那么使用类似trust_domain_name.example.com的信任域名可能不会产生冲突。当信任域名在没有操作员输入的情况下自动生成时，强烈建议随机生成一个唯一的名称（例如 UUID）。

发生冲突时，这些信任域将继续独立运行，但将无法联合（相互连接）。因为每个信任域使用独特的信任根，由一个信任域发放的身份声明将在另一个信任域中验证失败。

路径

SPIFFE ID 的路径组件允许唯一标识给定的工作负载。路径的含义是开放式的，由管理员负责定义。

有效的 SPIFFE ID 路径组件必须遵循以下规则：

路径组件不能包含百分比编码的字符。
路径组件不能包含空段或相对路径修饰符（即.、..）。
路径组件不能以斜杠结尾。
单个路径段只能包含字母、数字、点、破折号和下划线（[a-zA-Z0-9.-_]）。

路径可以是分层的，类似于文件系统路径。路径的具体含义保留给实施者，不属于 SVID 规范的范围之内。以下是一些示例和约定。

直接标识服务

通常，直接标识服务是有价值的。例如，管理员可能会决定在特定一组节点上运行的任何进程都应该能够以特定的身份呈现自己。例如：

spiffe://staging.example.com/payments/mysql 或 spiffe://staging.example.com/payments/web-fe

上述两个 SPIFFE ID 指代了两个不同的组件 - mysql 数据库服务和一个运行在暂存环境中的支付服务的 web 前端。环境“staging”的含义和“payments”作为高级服务集合的含义由实施者定义。
标识服务所有者

通常，更高级别的编排器和平台可能已经内置了它们自己的身份概念（如 Kubernetes 服务账户或 AWS/GCP 服务账户），直接将 SPIFFE 身份映射到这些身份是很有帮助的。例如：

spiffe://k8s-west.example.com/ns/staging/sa/default

在这个示例中，example.com 的管理员正在运行一个名为 k8s-west.example.com 的 Kubernetes 集群，该集群有一个“staging”命名空间，在其中有一个名为“default”的服务账户（sa）。这些都是由 SPIFFE 管理员定义的约定，而不是本规范所保证的断言。
不透明的 SPIFFE 身份

上述示例是说明性的，在最一般的情况下，SPIFFE 路径可能是不透明的，不包含任何可见的分层信息。例如，地理位置、逻辑系统分区和/或服务名称等元数据可以由注册身份及其属性的次级系统提供。可以查询以检索与 SPIFFE 标识符相关联的任何元数据。例如：

spiffe://example.com/9eebccd2-12bf-40a6-b262-65fe0487d453

最大 SPIFFE ID 长度

如RFC 3986定义的 URI 没有最大长度。出于互操作性考虑，SPIFFE 实现必须支持最长为 2048 字节的 SPIFFE URI，并且不应生成长度大于 2048 字节的 URI。RFC 3986仅允许 ASCII 字符，因此 SPIFFE ID 的推荐最大长度为 2048 字节。

所有 URI 组件都会影响 URI 的长度，包括“spiffe”方案、“：//”分隔符、信任域名和路径组件。非 ASCII 字符在将其编码为 ASCII 字符后会影响 URI 的长度。请注意，RFC 3986为 URI 的“host”组件定义了最大长度为 255 个字符；因此，信任域名的最大长度为 255 字节。

SPIFFE ID 解析

SPIFFE ID 遵循由RFC 3986定义的 URI 规范。SPIFFE ID 的方案和信任域名对大小写不敏感，而路径对大小写敏感。

SPIFFE 可验证身份文档

SPIFFE 可验证身份文档（SVID）是工作负载将其身份通信给资源或调用者的机制。如果 SVID 已由 SPIFFE ID 所在信任域内的授权方签名，则认为 SVID 是有效的。

SVID 信任

SPIFFE 信任根植于给定 ID 的信任域。每个信任域必须存在一个签名授权机构，该授权机构必须携带自己的 SVID。签名授权机构的 SPIFFE ID 应该驻留在其具有权威性的信任域中，并且不应具有路径组件。授权机构的 SVID 然后形成了给定信任域的信任基础。

如果需要，可以通过使用外部信任域授权机构的私钥对授权机构的 SVID 进行签名来实现信任链。如果不需要链接信任，那么授权机构的 SVID 将进行自签名。

SVID 组件

SVID 是一个相当简单的构造，包括三个基本组件：

一个 SPIFFE ID
一个有效的签名
一个可选的公钥

SPIFFE ID 和公钥（如果存在）必须包含在签名的有效载荷的一部分中。如果包含了公钥，则相应的私钥将由发放 SVID 的实体保留，并用于证明对 SVID 本身的所有权。

个别的 SVID 规范可能要求或以其他方式允许在 SVID 中包含超出此处描述的内容。所包含信息的性质可能或可能不会严格由相关的 SPIFFE 规范定义 - 例如，JWT-SVID 规范允许用户在 SVID 本身中包含任意信息。在相关 SVID 规范未明确指定此附加信息的情况下，操作者在将此信息用作安全决策的输入时应格外小心，特别是如果要验证的 SVID 属于不同的信任域。有关更多信息，请参阅安全注意事项部分。

SVID 格式

SVID 本身不是一种文件类型。已经存在许多文件格式可以满足 SPIFFE SVID 的需求，我们不希望重新发明这些格式。相反，我们定义了一组特定于格式的规范，规范化了 SVID 信息的编码。

为了使 SVID 被视为有效，它必须利用已定义相应规范的文件类型。在撰写本文时，唯一受支持的文件类型是 X.509 和 JWT。请注意，特定于格式的 SVID 规范可能会升级本文中规定的要求。

安全注意事项

本节包含在使用 SPIFFE ID 和 SVID 时实施者和用户应考虑的安全注意事项。

SVID 断言

SVID 始终包含一组数据 - 至少是一个 SPIFFE ID。有时，此数据代表了信任域授权机构对 SVID 主体所做的断言。在从此数据中解释含义时，必须小心确保所有涉及方都充分理解所使用信息的含义和重要性。

在考虑给定断言的相对安全性时，有四个主要问题：

首先是时间上的准确性 - SVID 在到期之前一段时间内是有效的，SVID 中的断言在 SVID 的整个生命周期内是否为真？
其次，断言的范围和影响 - 断言最初是在什么上下文下进行的，它的影响有多大？
第三是解释和含义的问题 - 断言对授权机构和消费者是否具有相同的含义或解释，或者存在着不同的解释可能性？
最后，断言本身的真实性在某些情况下可能会受到质疑。

本节探讨了这四个关注领域的所有方面，并提供了操作者可以评估任何给定 SVID 断言的相对安全性的指导方针。一般来说，操作者应该以谨慎为原则，只包含那些对所涉及的断言的安全性具有非常高度信心的断言。

值得注意的是，虽然通常由 SPIFFE 规范直接形式化的断言通常不容易受到与解释和含义相关的问题的影响，但它们仍然可能容易受到与真实性相关的问题的影响。但是，由于 SPIFFE 定义的断言的范围非常有限，因此在这方面的真实性问题表明了与问题相关的信任域的安全姿态的更大问题，此时操作者应该认真考虑是否应该在第一时间与这些系统交换数据。

时间上的准确性

SVID 在一段有限的时间内有效，主要是为了降低密钥被泄露和相关损害的可能性。虽然通常情况下，SVID 中的断言在签发时是真实的，但并不一定意味着在使用时也是真实的。

某些类型的断言比其他类型更容易受到此问题的影响。服务所有者的名称、角色或组成员资格以及访问策略都是在 SVID 签发时和验证或使用时之间更有可能发生变化的示例。相反，工作负载及其运行时的自然属性（例如 SPIFFE ID 或工作负载所在的区域）通常与工作负载的生命周期绑定，因此不太可能发生变化，这使得它们不太容易受到时间上的准确性的问题影响。

在决定是否应该在 SVID 中包含某个特定的断言时，考虑到这一点是很重要的。在 SVID 中作出的断言将被认为在 SVID 的生命周期内都是有效的，并且对于具有旧断言的所有 SVID 来说，将首先过期，因此在活动系统上对此断言进行更改（或撤销）将会很费时。如果对于所考虑的断言的波动性不清楚，操作者应该以谨慎为原则，并将其排除在 SVID 之外。

范围和影响

SVID 由位于其信任域中的授权机构签名。签名授权机构有责任验证其签署的 SVID 中的所有信息，而包含在 SVID 中的所有断言实际上都是由签名授权机构所做的断言。

此授权机构的影响和断言所做的范围是自然有限的。一个信任域的授权机构的权限不应该对其他信任域中的实体做出断言（即其断言的范围仅限于其控制下的实体）。同样，在消费 SVID 数据时，消费者应该将其中包含的所有断言视为受到 SVID 所在信任域的限制。

例如：如果信任域 A 和 B 都使用名为“role”的属性，那么信任域 A 中具有“admin”角色的实体可以使用该角色做出自己信任域中 SVID 的断言，但信任域 B 中的实体不能使用与 A 中相同的断言对其 SVID 进行断言。

在这方面，SPIFFE 设计意图是将这些信任域之间的安全隔离形式化并保证在接受 SPIFFE SVID 的所有系统中得到正确执行。

解释

通过签名 SVID 断言，签名授权机构明确其对所签名断言的含义的解释。此解释的范围由信任域的信任基础确定。

此外，消费者和其他参与者也可以对断言的含义进行自己的解释。例如，可能存在一个交叉信任域的场景，其中包含了不同信任域中的实体。这些实体可能会在实体之间以不同方式解释相同的断言。

操作者和开发人员在评估任何给定 SVID 断言的相对安全性时应该非常小心，特别是如果要验证的 SVID 属于不同的信任域。尽管通常情况下这种情况不会出现问题，但它也可能会导致复杂的安全问题，甚至不可知的问题。

真实性

就像所有数字证书和断言一样，SVID 的真实性取决于其颁发方的安全性。签名授权机构的私钥的保护是 SVID 真实性的主要保障。如果授权机构的私钥暴露或泄漏，那么可以生成无效 SVID，并可能会导致错误的授权。

授权机构的私钥的安全性是信任域操作员的责任，他们应该采取必要的措施来确保私钥的安全，包括使用强大的密码学方法（如硬件安全模块）来保护私钥。此外，应定期更换私钥以降低突破的风险。

授权机构的私钥的安全性也是操作员选择是否使用外部信任域授权机构的一个重要考虑因素。如果使用外部授权机构的私钥进行签名，那么授权机构的私钥的安全性不再完全由信任域操作员控制，而是由外部授权机构的授权机构控制。这可能会引入一些风险和不确定性，特别是如果外部授权机构是第三方服务或实体。

请注意，上述文档是一个假设的 SPIFFE（面向所有人的安全生产身份框架）标准的核心规范的示例草稿。实际的 SPIFFE 规范可能会包含更多细节和具体规定，同时也可能会参考其他相关规范。在实际使用中，请始终参考最新的 SPIFFE 规范文档以确保遵守正确的标准和规定。

获取 SPIRE

Jimmy Song — Mon, 23 Oct 2023 00:00:00 +0800

本页面描述了一些开始使用 SPIRE 的选项。

Docker Compose

SPIRE 101 是一个在 Docker Compose 上运行的 SPIRE 入门介绍
spire-tutorials 存储库中提供了其他 Docker Compose 演示

Kubernetes

SPIRE 没有官方的 Helm chart、Kustomize 文件或自定义资源操作器，但 Kubernetes 快速入门包括一套用于测试 SPIRE Server 和 Agent 的基本 Kubernetes YAML 文件
spire-tutorials 存储库中提供了其他 Kubernetes 演示

Linux

SPIRE GitHub releases 页面提供了每个 SPIRE 版本的下载链接和变更日志
spiffe.io 的获取 SPIRE 页面提供了其他下载选项和构建 SPIRE 的说明
Linux 和 MacOS X 快速入门介绍了如何下载和测试 SPIRE Server 和 Agent 的简单单节点安装

MacOS

没有预编译的 MacOS 可执行文件可用，但 Linux 和 MacOS X 快速入门介绍了如何下载和构建 SPIRE 以测试 SPIRE Server 和 Agent 的简单单节点安装

扩展 SPIRE 部署：支持的 SPIRE 拓扑结构、身份联合和规模考虑

Jimmy Song — Mon, 23 Oct 2023 00:00:00 +0800

扩展 SPIRE 可以通过嵌套拓扑和联合拓扑来实现。嵌套拓扑允许将多个 SPIRE 服务器链接在一起，以发放属于同一信任域的身份。联合拓扑用于在不同信任域之间建立信任，使工作负载能够在不同信任域中进行身份验证。SPIRE 还可以与其他 SPIFFE 兼容系统和 OIDC 提供者系统进行联合，以实现安全的身份验证和通信。在部署规模时，需要考虑 SVID 和根证书的生存时间、工作负载数量和分布、JWT-SVID 的使用等因素，并注意数据存储的设计和规划。

SPIRE 部署可以根据工作负载的增长来调整大小或规模。一个 SPIRE 部署由一个或多个共享复制数据存储的 SPIRE 服务器组成，或者相反，由在同一信任域中的一组 SPIRE 服务器和至少一个 SPIRE 代理（通常是一个以上）组成。

部署的大小范围广泛。单个 SPIRE 服务器可以容纳多个代理和工作负载注册条目。一个规模大小的考虑是，由于涉及到管理和发放与这些条目相对应的身份所涉及的操作数量，SPIRE 服务器实例的内存和 CPU 消耗往往与部署中的工作负载注册条目数量成比例增长。单个 SPIRE 服务器实例也代表了一个单点故障。

为了支持给定部署中更多的代理和工作负载（数以万计或数十万个节点），可以水平扩展 SPIRE 服务器的数量。有了多个服务器，SPIRE 服务器执行的计算工作将在所有 SPIRE 服务器实例之间分布。除了额外的容量之外，使用多个 SPIRE 服务器实例还可以消除单点故障，实现高可用性。

高可用性模式下的 SPIRE 服务器

水平扩展 SPIRE Server

要水平扩展 SPIRE 服务器，无论是出于高可用性还是负载分配目的，都要配置所有属于同一信任域的服务器以读写相同的共享数据存储。

数据存储是 SPIRE 服务器持久保存动态配置信息的地方，例如注册条目和身份映射策略。SQLite 已捆绑到 SPIRE 服务器中，它是默认的数据存储。支持一些兼容的 SQL 数据库，以及一个用于使用 Kubernetes CRD 的 Kubernetes 插件。在水平扩展 SPIRE 服务器时，请选择符合你要求的数据存储，并配置所有 SPIRE 服务器以使用所选的数据存储。有关详细信息，请参阅数据存储插件配置参考。

在高可用性模式下，每个服务器都维护自己的证书颁发机构，可以是自签名证书，也可以是从共享根证书颁发机构获取的中间证书（即在配置了上游机构时）。

选择 SPIRE 部署拓扑

有三种主要的 SPIRE 部署拓扑：

单一信任域
嵌套 SPIRE
联合 SPIRE

诸如管理域边界、工作负载数量、可用性要求、云供应商数量和身份验证要求等因素将决定你环境中的适当拓扑，如下所述。

单一信任域

单一信任域最适合个体环境或在管理域内具有相似特征的环境。创建一个单一的主导信任域的主要动机是从单个证书颁发机构中发放身份，因为这会减少在不同部署中管理的 SPIRE 服务器数量。

然而，当将单个 SPIRE 信任域部署以跨越地理区域、平台和云提供商环境时，在跨越地理位置或跨越云提供商边界的多个地方管理共享数据存储会带来一定的复杂性。在这些情况下，当部署扩展以覆盖多个环境时，解决在单一信任域上使用共享数据存储的问题的方法是在嵌套拓扑中配置 SPIRE 服务器。

嵌套 SPIRE

嵌套 SPIRE 允许 SPIRE 服务器被“链接”在一起，所有服务器仍然发放属于同一信任域的身份，这意味着在同一信任域中识别的所有工作负载都会获得可以与信任域的根密钥进行验证的身份文档。

嵌套拓扑通过在每个下游 SPIRE 服务器与“链接”的 SPIRE 代理共存来工作。下游 SPIRE 服务器通过 Workload API 获取凭据，然后使用这些凭据直接与上游 SPIRE 服务器进行身份验证以获取中间 CA。

一个有助于理解嵌套拓扑功能的心理模型是将顶级 SPIRE 服务器想象成是一个全局服务器（或一组用于高可用性的服务器），而下游 SPIRE 服务器是区域或集群级别的服务器。

在此配置中，顶层 SPIRE 服务器保存根证书/密钥，而下游服务器请求中间签名证书，用作下游服务器的 X.509 签名授权机构。这提供了弹性，因为顶层可能会崩溃，中间服务器将继续运行。

嵌套拓扑非常适用于多云部署。由于能够混合匹配节点证明者，下游服务器可以驻留在不同云提供商环境中，为不同云提供商环境中的工作负载和代理提供身份。

作为为了实现高可用性和负载平衡而将 SPIRE 服务器水平扩展的补充，嵌套拓扑可以用作分隔故障域的约束策略。

联合 SPIRE

部署可能需要多个信任根：也许因为一个组织有不同的组织部门，各自有不同的管理员，或者因为它们有单独的临时和生产环境，需要偶尔进行通信。

另一个用例是在组织之间实现 SPIFFE 互操作性，例如在云提供商和其客户之间。

这些多信任域和互操作性用例都需要一种明确定义的、可互操作的方法，使一个信任域中的工作负载能够对另一个信任域中的工作负载进行身份验证。首先通过验证各自的束终点来建立不同信任域之间的信任，然后通过经过身份验证的端点检索外部信任域束。

有关如何实现这一点的更多细节，请参阅以下 SPIFFE 规范，其中描述了这种机制：SPIFFE 信任域和 Bundle

有关配置联合 SPIRE 的教程，请参阅：联合 SPIRE 教程

与外部系统的交互

与 SPIFFE 兼容的系统联合

与 SPIRE 兼容的系统联合

SPIFFE 身份颁发者可以与其他暴露 SPIFFE 联合 API 实现的 SPIFFE 身份颁发者联合，使联合域中的工作负载能够安全地进行身份验证和通信。与在 SPIRE 部署之间建立联合一样，SPIFFE 联合用于在 SPIFFE 兼容系统之间启用联合，比如在一个 Istio 服务网格和另一个 Istio 服务网格之间运行的 Istio 服务网格。

例如，在当前的 Istio 中，服务网格上的所有应用程序都位于同一个信任域中，因此共享一个共同的信任根。可能会有不止一个服务网格，或者在服务网格中通信到需要进行身份验证的外部服务。使用联合功能可以使得 SPIFFE 兼容的系统，比如多个 Istio 服务网格，能够为安全的跨网格和脱网通信建立信任。

与 OIDC 提供者系统的联合

与 OIDC 提供者系统联合

SPIRE 具有一个特性，可以代表已识别的工作负载对远程系统进行编程身份验证，例如与支持 OIDC 联合的公共云提供商服务和密钥存储进行交互。例如，在亚马逊网络服务的情况下，一个经过 SPIRE 认证的工作负载可以对接 AWS S3 存储桶、AWS RDS 实例或 AWS CodePipeline 进行身份验证和通信。

SPIRE OIDC 发现提供者使用 ACME 协议检索 WebPKI 证书，用于保护一个端点，该端点提供 OIDC 兼容的 JWKS 束和标准 OIDC 发现文档。然后需要配置远程 OIDC 认证服务以定位该端点并确定 WebPKI 服务。一旦完成此配置，可以设置远程系统的 IAM 策略和角色以映射到特定的 SPIFFE ID。工作负载随后将通过发送 JWT-SVID 与 OIDC 认证系统通信。然后，目标系统从预定义的 URI 获取 JWKS，该 URI 由 OIDC 发现提供者提供。目标系统使用 JWKS 文件验证 JWT-SVID，如果 JWT-SVID 中包含的 SPIFFE ID 被授权访问所请求的资源，则服务请求。然后，工作负载就能够访问外部远程服务，而无需拥有由其提供的任何凭据。

有关 OIDC 发现提供者的配置参考，请参阅：OIDC 发现提供者配置参考

有关在 Amazon Web Services 配置 OIDC 联合的详细教程，请参阅：配置 OIDC 到 Amazon Web Services

部署规模考虑

在为 SPIRE 部署调整大小以实现最佳性能时，需要考虑的因素包括但不限于以下内容：

SVID 和根证书的生存时间
每个节点的工作负载数量和分布
大量 JWT-SVID 的使用（因为 JWT 需要根据需要进行签名，而不像 x509 那样预先存储）
注册更改的频率
在 SPIRE 服务器节点上运行的其他进程
基础架构环境的“形状”和“大小”

特别要注意对数据存储的设计和规划。请注意，数据存储的性能在上述列表中没有得到解决，并且可能会限制 SPIRE 的性能。由于每个代理同步（每 5 秒一次）都会进行授权检查，因此数据存储通常是性能瓶颈。在嵌套拓扑中，由于嵌套拓扑中的每个 SPIRE 服务器集群都有自己的数据存储，因此可以降低此成本。

下表旨在提供关于在 SPIRE 部署中调整 SPIRE 服务器大小的参考信息。这些参考数字基于测试环境。它们仅作为数量级指南，不代表任何特定用户环境的性能保证。网络带宽和数据库查询信息未包含在内。此外，所显示的工作负载和代理数量不代表在理论上可能的 SPIRE 部署规模。

工作负载数量	10 代理	100 代理	1000 代理	5000 代理
10 工作负载	2 个服务器单元，1 个 CPU 核心，1GB RAM	2 个服务器单元，2 个 CPU 核心，2GB RAM	2 个服务器单元，4 个 CPU 核心，4GB RAM	2 个服务器单元，8 个 CPU 核心，8GB RAM
100 工作负载	2 个服务器单元，2 个 CPU 核心，2GB RAM	2 个服务器单元，2 个 CPU 核心，2GB RAM	2 个服务器单元，8 个 CPU 核心，8GB RAM	2 个服务器单元，16 个 CPU 核心，16GB RAM
1000 工作负载	2 个服务器单元，16 个 CPU 核心，8GB RAM	2 个服务器单元，16 个 CPU 核心，8GB RAM	2 个服务器单元，16 个 CPU 核心，8GB RAM	4 个服务器单元，16 个 CPU 核心，8GB RAM
10000 工作负载	每个 4 个服务器单元，16 个 CPU 核心，16GB RAM	每个 4 个服务器单元，16 个 CPU 核心，16GB RAM	每个 4 个服务器单元，16 个 CPU 核心，16GB RAM	每个 8 个服务器单元，16 个 CPU 核心，16GB RAM

配置 SPIRE

Jimmy Song — Mon, 23 Oct 2023 00:00:00 +0800

要根据你的应用程序需求自定义 SPIRE 服务器和 SPIRE 代理的行为，你需要编辑服务器和代理的配置文件。

如何配置 SPIRE

SPIRE 服务器和代理的配置文件分别为 server.conf 和 agent.conf。

默认情况下，服务器期望配置文件位于 conf/server/server.conf，但是服务器可以通过 --config 标志配置为使用不同位置的配置文件。有关更多信息，请参阅 SPIRE 服务器参考。

同样，代理期望配置文件位于 conf/agent/agent.conf，但是代理可以通过 --config 标志配置为使用不同位置的配置文件。有关更多信息，请参阅 SPIRE 代理参考。

配置文件在启动服务器或代理时加载一次。如果更改了服务器或代理的配置文件，则必须重新启动服务器或代理以使配置生效。

在 Kubernetes 中运行 SPIRE 时，通常将配置文件存储在 ConfigMap 对象中，然后将其作为文件挂载到运行代理或服务器进程的容器中。

SPIRE 代理支持使用 HCL 或 JSON 作为配置文件结构语法。下面的示例将假定使用 HCL。

配置信任域

此配置适用于 SPIRE 服务器和 SPIRE 代理

信任域对应于 SPIFFE 身份提供者的信任根。信任域可以表示运行其自己独立的 SPIFFE 基础设施的个人、组织、环境或部门。在同一信任域中标识的所有工作负载都将获得可以与信任域的根密钥进行验证的身份文件。

每个 SPIRE 服务器关联一个必须在该组织内唯一的信任域。信任域采用与 DNS 名称相同的形式（例如，prod.acme.com），但不需要与任何 DNS 基础设施对应。

在首次启动服务器之前，需要在 SPIRE 服务器中配置信任域。通过在配置文件的 server 部分的 trust_domain 参数中配置。例如，如果服务器的信任域应配置为 prod.acme.com，则应设置为：

trust_domain = "prod.acme.com"

同样，代理必须通过在代理配置文件的 agent 部分的 trust_domain 参数中配置来为相同的信任域颁发身份。

SPIRE 服务器和代理只能为单个信任域颁发身份，代理配置的信任域必须与其连接的服务器的信任域匹配。

配置服务器监听代理的端口

此配置适用于 SPIRE 服务器

默认情况下，SPIRE 服务器在端口 8081 上监听来自 SPIRE 代理的传入连接；要选择不同的值，请编辑 server.conf 文件中的 bind_port 参数。例如，要将监听端口更改为 9090：

bind_port = "9090"

如果从服务器的默认配置更改了此配置，则还必须在代理上更改服务端口的配置。

配置节点认证

此配置适用于 SPIRE 服务器和 SPIRE 代理

SPIFFE 服务器通过节点认证和解析的过程来识别和验证代理。这是通过节点验证器和节点解析器插件来完成的，你需要在服务器中配置和启用它们。

你选择的节点认证方法将确定你在 SPIRE 配置文件的服务器插件和代理插件部分中配置 SPIRE 使用哪些节点验证器插件。服务器上必须配置至少一个节点验证器，每个代理上只能配置一个节点验证器。

对运行在 Kubernetes 上的节点进行认证

为了向在 Kubernetes 集群中运行的工作负载发放身份，需要在每个运行负载的集群节点上部署一个 SPIRE 代理。（在 Kubernetes 上安装 SPIRE 代理了解如何在 Kubernetes 上安装 SPIRE 代理）。

可以使用 Kubernetes 的 Token Review API 对服务帐户令牌进行验证。因此，SPIRE 服务器本身不需要在 Kubernetes 上运行，并且单个 SPIRE 服务器可以支持在启用了 PSAT 认证的多个 Kubernetes 集群上运行的代理。

Projected Service Account Tokens

在撰写本文时，预投影的服务帐户是 Kubernetes 的一个相对较新的功能，不是所有部署都支持它们。你的 Kubernetes 平台文档将告诉你是否支持此功能。如果你的 Kubernetes 部署不支持预投影的服务帐户令牌，则应启用服务帐户令牌。

使用 Kubernetes 的 Projected Service Account Tokens (PSATs) 对节点进行认证允许 SPIRE 服务器验证在 Kubernetes 集群上运行的 SPIRE 代理的身份。预投影的服务帐户令牌相对于传统的 Kubernetes 服务帐户令牌提供了额外的安全保证，因此，如果 Kubernetes 集群支持，PSAT 是推荐的认证策略。

要使用 PSAT 节点认证，请在 SPIRE Server 和 SPIRE Agent 上配置启用 PSAT 节点认证器插件。

服务帐户令牌

在 Kubernetes 上运行工作负载时，如果集群上没有 Projected Service Account Token 功能，则 SPIRE 可以使用 Service Account Tokens 在 Server 和 Agent 之间建立信任。与使用 Projected Service Account Tokens 不同，此方法要求 SPIRE Server 和 SPIRE Agent 都部署在同一个 Kubernetes 集群上。

由于服务帐户令牌不包含可用于强力识别运行 Agent 的节点/守护程序/Pod 的声明，因此任何在允许的服务帐户下运行的容器都可以冒充 Agent。因此，强烈建议在使用此认证方法时，Agent 应在专用的服务帐户下运行。

要使用 SAT 节点认证，请在 SPIRE Server 和 SPIRE Agent 上配置和启用 SAT 节点认证器插件。

对运行 Linux 的节点进行认证

SPIRE 能够对运行 Linux 的物理或虚拟机（节点）上的工作负载的身份进行认证。作为认证过程的一部分，SPIRE Server 需要建立与运行 Linux 节点上的 SPIRE Agent 的信任关系。根据节点运行的位置，SPIRE 支持各种节点认证器，这些节点认证器允许在创建注册项时使用不同的选择器来标识特定的工作负载。

加入令牌（Join Token）

加入令牌是一种使用单次使用的令牌来对服务器进行认证的简单方法，该令牌在服务器上生成并在启动代理时提供给代理。它适用于在 Linux 上运行的任何节点。

SPIRE 服务器可以通过在 server.conf 配置文件中启用内置的join-token NodeAttestor 插件来支持加入令牌认证，如下所示：

NodeAttestor "join_token" {
    plugin_data {
    }
}

配置了加入令牌节点认证之后，可以使用spire-server token generate命令在服务器上生成加入令牌。可以使用-spiffeID标志将特定的 SPIFFE ID 与加入令牌关联起来。在此处阅读更多有关使用此命令的更多信息。

当第一次启动启用加入令牌证明的 SPIRE 代理时，可以使用 spire-agent run 命令启动代理，并使用 -joinToken 标志指定服务器生成的加入令牌。有关此命令的详细信息，请阅读更多。

服务器将验证加入令牌并向代理颁发 SVID（SPIFFE 身份验证信息文档）。只要代理与服务器保持连接，SVID 将自动轮换。在以后的启动中，除非 SVID 已过期且未续订，否则代理将使用该 SVID 对服务器进行身份验证。

要使用加入令牌节点证明，请在 SPIRE 服务器和 SPIRE 代理上配置和启用加入令牌节点证明插件。

要在服务器上禁用加入令牌证明，请在启动之前从配置文件中注释或删除此部分。

X.509 证书

在许多情况下，特别是在手动配置节点的情况下（例如在数据中心），可以通过验证先前安装在节点上的现有 X.509 叶子证书来识别节点并唯一标识它。

通常，这些叶子证书是从单个公共密钥和证书（在本指南中称为根证书包）生成的。服务器必须配置根密钥和任何中间证书，以便能够验证特定机器呈现的叶子证书。只有找到可以通过证书链验证到服务器的证书时，节点证明才会成功，并且可以向该节点上的工作负载发布 SPIFFE ID。

此外，证明者公开了 subject:cn 选择器，该选择器将匹配满足以下条件的证书：（a）有效，如上所述，（b）其通用名称（CN）与选择器中描述的通用名称匹配。

要使用 X.509 证书节点证明，请在 SPIRE 服务器和 SPIRE 代理上配置和启用 x509pop 节点证明插件。

SSH 证书

在某些环境中，每个节点都会自动配备一个有效且唯一的 SSH 证书，用于标识该节点。SPIRE 可以使用此证书来引导其身份验证。

通过这种方法进行验证的节点会自动获得形式为的 SPIFFE ID：

spiffe://<trust-domain>/spire/agent/sshpop/<fingerprint>

其中 <fingerprint> 是证书本身的哈希值。然后，可以使用此 SPIFFE ID 作为其他工作负载注册条目的基础。

要使用 SSH 证书节点验证，请在 SPIRE 服务器和 SPIRE 代理上配置并启用 sshpop 节点验证插件。

云供应商上的 Linux 节点验证

许多云供应商提供特权 API，允许在由该供应商托管的特定节点上运行的进程能够证明其所在的节点。SPIRE 可以配置为利用这些 API 进行节点验证。这对于自动化来说特别方便，因为在新实例上首次启动代理时，代理可以自动向 SPIRE 服务器证明其身份，而无需为其发行预先存在的证书或加入令牌。

Google Compute Engine 实例

Google Compute Engine（GCE）节点验证和解析允许 SPIRE 服务器自动识别和验证在 GCP GCE 实例上运行的 SPIRE 代理。简而言之，通过以下步骤完成：

SPIRE 代理 gcp_iit 节点验证插件检索 GCP 实例的实例标识令牌，并向 SPIRE 服务器 gcp_iit 节点验证插件标识自身。
如果 use_instance_metadata 配置值设置为 true，SPIRE 服务器 gcp_iit 节点验证插件调用 GCP API 验证令牌的有效性。
验证完成后，SPIRE 代理被视为经过验证，并分配其自己的 SPIFFE ID。
最后，如果工作负载与注册条目匹配，SPIRE 会向节点上的工作负载发放 SVID。注册条目可以包括节点验证插件或解析器公开的选择器，或者将 SPIRE 代理的 SPIFFE ID 作为父级。

要使用 GCP IIT 节点验证，请在 SPIRE 服务器和 SPIRE 代理上配置并启用 gcp_iit 节点验证插件。

Amazon EC2 实例

EC2 节点认证和解析允许 SPIRE 服务器自动识别和验证在 AWS EC2 实例上运行的 SPIRE Agent。简而言之，通过以下方式实现：

SPIRE Agent 的 aws_iid 节点证明插件检索 AWS 实例的实例身份文档，并向 SPIRE Server 的 aws_iid 节点证明插件进行身份验证。
SPIRE Server 的 aws_iid 节点证明插件使用具有有限权限的 AWS IAM 角色调用 AWS API 来验证文档的有效性。
如果配置了 aws_iid 节点解析器插件，则 SPIRE 将使用节点的已验证身份查找有关节点的其他信息。此元数据可以用作注册条目中的选择器。
验证完成后，SPIRE Agent 被视为经过验证的，并被分配其自己的 SPIFFE ID。
最后，如果工作负载与注册条目匹配，SPIRE 为节点上的工作负载发放 SVID。注册条目可以包含节点证明者或解析器提供的选择器，或者将 SPIRE Agent 的 SPIFFE ID 作为父级。

有关配置 AWS EC2 节点证明者或解析器插件的更多信息，请参阅 SPIRE 服务器的相应 SPIRE 文档，其中包括 SPIRE 服务器节点证明者和 SPIRE 服务器节点解析器，以及代理上的 SPIRE Agent 节点证明者。

Azure 虚拟机

Azure MSI 节点认证和解析允许 SPIRE 服务器自动识别和验证在 Azure VM 上运行的 SPIRE Agent。SPIRE 使用 MSI 令牌来验证代理。如果拦截，MSI 令牌必须进行范围限制以防止滥用。简而言之，通过以下方式实现：

SPIRE Agent 的 azure_msi 节点证明插件检索 Azure VM 的 MSI 令牌，并向 SPIRE Server 的 azure_msi 节点证明插件进行身份验证。
SPIRE Server 的 azure_msi 节点证明插件通过 API 调用从 Azure 检索 JSON Web Key Set (JWKS) 文档，并使用 JWKS 信息验证 MSI 令牌。
SPIRE Server 的 azure_msi 节点解析器插件与 Azure 交互，获取有关代理 VM 的信息，例如订阅 ID、VM 名称、网络安全组、虚拟网络和虚拟网络子网，以构建有关代理 VM 的属性集，然后可以将其用作 Azure 节点集的节点选择器。
一旦验证完成，SPIRE 代理将被视为已验证，并发放其自己的 SPIFFE ID。
最后，如果工作负载与注册条目匹配，SPIRE 将向节点上的工作负载发放 SVID。注册条目可以包括节点验证器或解析器公开的选择器，或者将 SPIRE 代理的 SPIFFE ID 作为父级。

默认情况下，代理插件分配的资源范围相对较大，它使用 Azure 资源管理器 (https://management.azure.com 端点) 的资源 ID。出于安全考虑，考虑使用自定义资源 ID 来进行更精细的范围设置。

如果在代理配置文件中配置自定义资源 ID，则必须在 server.conf 配置文件的 NodeAttestor 部分中为每个租户指定自定义资源 ID。

有关配置 Azure MSI 节点验证器或解析器插件的更多信息，请参阅对应的 SPIRE 文档，包括 Azure MSI SPIRE Server 节点验证器，SPIRE Server 节点解析器，以及代理上的 SPIRE 代理节点验证器。

配置工作负载验证

此配置适用于 SPIRE 代理

与节点验证器关注的是 SPIRE Server 如何在特定物理或虚拟机上识别 SPIRE 代理不同，工作负载验证关注的是 SPIRE 代理如何识别特定进程。通常，两者结合使用以识别特定的工作负载。

与节点验证类似，工作负载验证通过启用相关插件来完成。不同的插件提供了不同的选择器，可在注册条目中使用这些选择器来识别特定的工作负载。与节点验证不同，对于单个工作负载，工作负载验证可以使用多种策略。例如，对于给定的 Unix 组，可能要求单个工作负载运行，并从特定的 Docker 镜像启动。

为由 Kubernetes 调度的工作负载进行工作负载证明

当工作负载在 Kubernetes 中运行时，能够用 Kubernetes 构造描述它们是非常有价值的，比如与工作负载运行的 Pod 相关联的命名空间、服务账户或标签。

Kubernetes 工作负载证明插件通过与本地的 Kubelet 进行交互来检索有关特定进程的 Kubernetes 特定元数据，当它调用工作负载 API 时，使用这些元数据来识别与注册条目匹配的工作负载。

有关更多信息，包括暴露的选择器的详细信息，请参阅 Kubernetes 工作负载证明插件的相应 SPIRE 文档。

为 Docker 容器进行工作负载证明

当工作负载在 Docker 容器中运行时，能够用该容器的属性来描述它们是很有帮助的，比如容器启动的 Docker 镜像或特定环境变量的值。

Docker 工作负载证明插件通过与本地的 Docker 守护程序进行交互来检索有关特定进程的 Docker 特定元数据，当它调用工作负载 API 时。

有关更多信息，包括暴露的选择器的详细信息，请参阅 Docker 工作负载证明插件的相应 SPIRE 文档。

为 Unix 进程进行工作负载证明

当工作负载在 Unix 上运行时，能够用进程在 Unix 中的管理方式来描述它们是很有帮助的，比如它正在运行的 Unix 组的名称。

Unix 工作负载证明通过检查 Unix 域套接字的调用者来确定调用 Workload API 的工作负载的内核元数据。

有关更多信息，包括暴露的选择器的详细信息，请参阅 Unix 工作负载证明插件的相应 SPIRE 文档。

配置代理和服务器数据存储位置

此配置适用于 SPIRE 服务器和 SPIRE 代理

agent.conf 和 server.conf 配置文件中的 data_dir 选项设置了 SPIRE 运行时数据的目录。

如果你为 data_dir 指定了相对路径，即以 ./ 开头的路径，则 data_dir 将基于你执行 spire-agent 或 spire-server 命令时的当前工作目录进行评估。使用相对路径的 data_dir 对于对 SPIRE 进行初始评估可能很有用，但对于生产部署，你可能希望将 data_dir 设置为绝对路径。按照惯例，如果你已在 /opt/spire 安装了 SPIRE，则将 data_dir 指定为 "/opt/spire/data"。

确保你为 data_dir 指定的路径及其所有子目录对运行 SPIRE 代理或服务器可执行文件的 Linux 用户可读取。你可能需要使用 chown 来更改这些数据目录的所有权，以便其归属于将运行可执行文件的 Linux 用户。

如果你为 data_dir 指定的路径不存在，则 SPIRE 代理或服务器可执行文件将在具有执行权限的情况下创建该路径。

通常，你应该将 data_dir 的值用作在 agent.conf 和 server.conf 配置文件中配置的其他数据路径的基目录。例如，如果你在 agent.conf 中将 data_dir 设置为 "/opt/spire/data"，则将 KeyManager“disk”plugin_data directory 设置为 "/opt/spire/data/agent"。或者，如果你在 server.conf 中将 data_dir 设置为 /opt/spire/data，则将 connection_string 设置为 "/opt/spire/data/server/datastore.sqlite3"，如果你使用 SQLite 作为 SPIRE Server 数据存储，则如下所述。

配置服务器数据存储方式

此配置适用于 SPIRE 服务器

数据存储是 SPIRE 服务器用于持久化动态配置的地方，例如从 SPIRE 服务器检索的注册条目和标识映射策略。默认情况下，SPIRE 使用 SQLite 捆绑并将其设置为默认的服务器数据存储方式。SPIRE 还支持其他兼容的数据存储。对于生产用途，你应该仔细考虑使用哪个数据库，特别是在将 SPIRE 部署在高可用配置时。

可以通过配置默认的 SQL 数据存储插件来将 SPIRE 服务器配置为使用不同的 SQL 兼容存储后端，如下所述。有关如何配置此块的完整参考，请参阅SPIRE 文档。

将 SQLite 配置为 SPIRE 数据存储

默认情况下，SPIRE 服务器会创建并使用本地 SQLite 数据库来备份和存储配置数据。虽然对于测试来说很方便，但是在生产部署中通常不推荐使用，因为很难在多台机器上共享 SQLite 数据存储，这会使备份、HA 部署和升级变得复杂。

要配置服务器使用 SQLite 数据库，请在配置文件中启用以下类似的部分：

    DataStore "sql" {
        plugin_data {
            database_type = "sqlite3"
            connection_string = "/opt/spire/data/server/datastore.sqlite3"
        }
    }

配置文件中不应该有其他（取消注释的）DataStore 部分。

数据库将在 connection_string 中指定的路径中创建。有关选择 SPIRE 相关数据位置的更多信息，请参见配置代理和服务器数据存储位置。

将 MySQL 配置为数据存储

在生产环境中，建议使用专用数据库来备份和存储配置数据。尽管安装和配置 MySQL 数据库不在本指南的范围内，但值得注意的是 SPIRE 服务器需要：

用于 SPIRE 服务器配置的 MySQL 服务器上的专用数据库。
具有能力连接到运行 SPIRE 服务器的任何 EC2 实例，并能向该数据库中的表、列和行插入和删除的 MySQL 用户。

要配置 SPIRE 服务器使用 MySQL 数据库，请在配置文件中启用以下类似的部分：

    DataStore "sql" {
        plugin_data {
            database_type = "mysql"
            connection_string = "username:password@tcp(localhost:3306)/dbname?parseTime=true"
        }
    }

在上述连接字符串中，用以下内容替换：

username：要用于访问数据库的 MySQL 用户的用户名
password：MySQL 用户的密码
localhost:3306：MySQL 服务器的 IP 地址或主机名和端口号
dbname：数据库的名称

将 Postgres 配置为数据存储

在生产环境中，建议使用专用数据库来备份和存储配置数据。尽管安装和配置 Postgres 数据库不在本指南的范围内，但值得注意的是 SPIRE 服务器需要：

用于 SPIRE 服务器配置的 Postgres 服务器上的专用数据库。
具有能力连接到运行 SPIRE 服务器的任何实例，并能向该数据库中的表、列和行插入和删除的 Postgres 用户。

要配置 SPIRE 服务器使用 Postgres 数据库，请在服务器配置文件中启用以下部分：

    DataStore "sql" {
        plugin_data {
            database_type = "postgres"
            connection_string = "dbname=[database_name] user=[username]
                                 password=[password] host=[hostname] port=[port]"
        }
    }

connection_string 的值采用键=值格式，但也可以使用连接 URI（参见 Postgres 文档中支持的连接字符串格式的 34.1.1. 连接字符串）。

以下是你设置的连接字符串值的摘要：

[database-name]：数据库的名称
[username]：访问数据库的 Postgres 用户的用户名
[password]：用户的密码
[hostname]：Postgres 服务器的 IP 地址或主机名
[port]：Postgres 服务器的端口号

配置代理和服务器上存储生成的密钥的方式

此配置适用于 SPIRE 服务器和 SPIRE 代理

SPIRE 代理和 SPIRE 服务器在正常运行过程中会生成私钥和证书。保持这些密钥和证书的完整性非常重要，以确保维护所发行的 SPIFFE 身份的完整性。

目前，SPIRE 在代理和服务器上支持两种密钥管理策略。

存储于内存中。在此策略中，密钥和证书仅存储在内存中。这意味着，如果服务器或代理崩溃或重新启动，则必须重新生成密钥。对于 SPIRE 代理来说，这通常需要代理在重新启动时重新对服务器进行验证。通过启用和配置内存密钥管理器插件来管理此策略，可用于 SPIRE 服务器和/或 SPIRE 代理。
存储在磁盘上。在此策略中，密钥和证书存储在指定的磁盘文件中。使用此方法的一个优点是它们在 SPIRE 服务器或代理重新启动后仍然存在。缺点是，由于密钥存储在磁盘文件中，必须采取其他预防措施，以防止恶意进程读取这些文件。通过启用和配置磁盘密钥管理器插件来管理此策略，可用于 SPIRE 服务器和/或 SPIRE 代理。

另外，SPIRE 可以配置为通过第三方密钥管理器插件集成自定义后端，例如秘密存储。扩展 SPIRE 指南对此进行了更详细的介绍。

配置应用程序将使用的信任根/“上游授权机构”

此配置适用于 SPIRE 服务器

每个 SPIRE 服务器使用特定的根签名密钥，用于执行几个重要操作：

通过 SPIRE 代理对 SPIRE 服务器建立信任，因为代理持有由该密钥签名的证书（但请注意，服务器对代理的信任是通过验证建立的）。
生成发放给工作负载的 X.509 或 JWT SVID。
生成用于与其他 SPIRE 服务器建立信任的 SPIFFE 信任捆绑。

应将此签名密钥视为非常敏感的，因为获取它将允许恶意行为者冒充 SPIRE 服务器并代表其发放身份。

为了确保签名密钥的完整性，SPIRE 服务器可以自行对材料进行签名，使用存储在磁盘上的签名密钥，或委托签名给独立的证书颁发机构（CA），例如 AWS Secrets Manager。此行为通过 server.conf 文件中的 UpstreamAuthority 部分进行配置。

有关完整的服务器配置参考，请参阅 SPIRE 服务器配置参考。

配置磁盘上的签名密钥

SPIRE 服务器可以配置为从磁盘加载 CA 凭据，使用它们为服务器的签名机构生成中间签名证书。

SPIRE 服务器附带了一个“虚拟”密钥和证书，可用于简化测试，但由于该密钥分发给所有 SPIRE 用户，因此不应将其用于除测试目的之外的任何用途。相反，应生成一个在磁盘上的签名密钥。

如果已安装openssl工具，则可以使用类似以下命令生成有效的根密钥和证书：

sudo openssl req \\\\
       -subj "/C=/ST=/L=/O=/CN=acme.com" \\\\
       -newkey rsa:2048 -nodes -keyout /opt/spire/conf/root.key \\\\
       -x509 -days 365 -out /opt/spire/conf/root.crt

通过启用和配置磁盘 UpstreamAuthority 插件，可以管理此策略，用于 SPIRE 服务器。

配置 AWS 证书管理器

可以配置 SPIRE 服务器从亚马逊网络服务的证书管理器（Private Certificate Authority）加载 CA 凭据，并使用它们生成服务器签名授权的中间签名证书。

可以通过启用和配置 aws_pca UpstreamAuthority 插件来管理此策略，有关详细信息，请参阅 SPIRE 服务器。

配置另一个 SPIRE 安装

可以配置 SPIRE 服务器从另一个 SPIFFE 实现（例如 SPIRE）的 Workload API 加载 CA 凭据。这使得可以使用一种称为“嵌套 SPIRE”的技术，作为 HA 部署的补充，允许独立的 SPIRE 服务器针对单个信任域发出标识。

关于嵌套 SPIRE 的完整处理超出了本指南的范围。但是，可以通过启用和配置 spire UpstreamAuthority 插件来管理此策略，有关详细信息，请参阅 SPIRE 服务器。

导出用于监控的指标

此配置适用于 SPIRE 服务器和 SPIRE Agent

要将 SPIRE 服务器或 Agent 配置为将数据输出到指标收集器，请编辑 server.conf 或 agent.conf 中的遥测部分。SPIRE 可以将指标导出到 Datadog （DogStatsD 格式）、M3、Prometheus 和 StatsD。

可以同时配置多个收集器。在要将指标发送到多个收集器的情况下，DogStatsD、M3 和 StatsD 支持多个声明。

如果要使用 Amazon CloudWatch 进行指标收集，请查阅此文档以了解使用 CloudWatch 代理程序和 StatsD 检索自定义指标的方法。

以下是将遥测导出到 Datadog、M3、Prometheus 和 StatsD 并禁用内存收集器的 agent.conf 或 server.conf 的配置块示例：

telemetry {
        Prometheus {
                port = 9988
        }

        DogStatsd = [
            { address = "localhost:8125" },
        ]

        Statsd = [
            { address = "localhost:1337" },
            { address = "collector.example.org:8125" },
        ]

        M3 = [
            { address = "localhost:9000" env = "prod" },
        ]

        InMem {
            enabled = false
        }
}

有关更多信息，请参阅遥测配置指南。

日志记录

此配置适用于 SPIRE 服务器和 SPIRE Agent

可以在各自的配置文件中设置 SPIRE 服务器和 SPIRE Agent 的日志文件位置和日志级别。编辑 log_file 值以设置日志文件位置，编辑 log_level 值以设置日志级别。此值可以是 DEBUG、INFO、WARN 或 ERROR 中的一个。

默认情况下，SPIRE 日志将输出到 STDOUT。但是，可以通过在 log_file 属性中指定文件路径，将 SPIRE Agent 和 Server 配置为直接将日志写入文件。

Elasticsearch 权限

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

如果你的 Elasticsearch 访问受角色限制，你需要确保为 TSB 组件存在正确的角色。

OAP

对于 OAP，必要的角色权限在下面的 JSON 中描述如下。

{
  "cluster": ["manage_index_templates", "monitor"],
  "indices": [
    {
      "names": ["skywalking_*"],
      "privileges": ["manage", "read", "write"],
      "allow_restricted_indices": false
    }
  ],
  "applications": [],
  "run_as": [],
  "metadata": {},
  "transient_metadata": {
    "enabled": true
  }
}

你可以使用 cURL、Kibana 控制台或任何其他工具将此信息发布到 Elasticsearch 服务器以创建角色，然后你可以将该角色分配给将使用的 OAP 用户。

PostgreSQL 凭据

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

在开始之前，你必须具备以下条件：

Vault 1.3.1 或更新版本
Vault 注入器 0.3.0 或更新版本

设置 Vault

安装 Vault（不需要在 Kubernetes 集群中安装，但应该能够从 Kubernetes 集群内部访问）。Vault 注入器（agent-injector）必须安装到集群中，并配置以注入 sidecar。这可以通过自动完成 Helm 图表 v0.5.0+ 来实现，该图表安装了 Vault 0.12+ 和 Vault 注入器 0.3.0+。下面的示例假设 Vault 安装在 tsb 命名空间中。

有关详细信息，请查看 Vault 文档。

helm install --name=vault --set='server.dev.enabled=true' ./vault-helm

为 PostgreSQL 设置数据库秘密引擎

在 Vault 中启用数据库秘密引擎。

vault secrets enable database

预期输出：

Success! Enabled the database secrets engine at: database/

默认情况下，秘密引擎在与引擎同名的路径上启用。要在不同路径上启用秘密引擎，请使用 -path 参数。

使用适当的插件和连接信息配置 Vault。在 connection_url 参数中，将 postgres.tsb.svc:5432/tsb 替换为你的 PostgreSQL 集群的完整 host:port/db_name。只需更改 URL 中的小写 username 和 password，不要编辑在 URL 中的 {{ }}，它用作模板：

vault write database/config/tsb \
    plugin_name=postgresql-database-plugin \
    allowed_roles="pg-role" \
    connection_url="postgresql://{{username}}:{{password}}@postgres.tsb.svc:5432/tsb?sslmode=disable" \
    username="<postgres-username>" \
    password="<postgres-password>"

你可以使用 read 操作来查看配置：

vault read  database/config/tsb
# Key                                   Value
# ---                                   -----
# allowed_roles                         [pg-role]
# connection_details                    map[connection_url:postgresql://{{username}}:{{password}}@postgres.tsb.svc:5432/?sslmode=disable username:postgres]
# plugin_name                           postgresql-database-plugin
# root_credentials_rotate_statements    []

配置一个角色，将 Vault 中的名称映射到 Vault 可以执行以创建数据库凭据的模板化 SQL 语句。
max_ttl 定义了新凭证的有效时间。
default_ttl 定义了租约时间，Vault 注入器将续订租约，直到达到 max_ttl。

TTL 值必须与应用程序的数据库连接生命周期配对，以确保在 TTL 到期之前关闭它们。

运行以下命令，确保不要编辑 {{ }} 之间的参数，因为它们被 Vault 用作模板：

vault write database/roles/pg-role \
    db_name=tsb \
    creation_statements="CREATE ROLE \"{{name}}\" WITH LOGIN PASSWORD '{{password}}' VALID UNTIL '{{expiration}}'; \
        GRANT ALL ON ALL TABLES IN SCHEMA public TO \"{{name}}\";" \
    default_ttl="12h" \
    max_ttl="24h"

Success! Data written to: database/roles/pg-role

再次使用 read 操作来验证设置：

vault read  database/roles/pg-role
# Key                      Value
# ---                      -----
# creation_statements      [CREATE ROLE "{{name}}" WITH LOGIN PASSWORD '{{password}}' VALID UNTIL '{{expiration}}';       GRANT SELECT ON ALL TABLES IN SCHEMA public TO "{{name}}";]
# db_name                  tsb
# default_ttl              24h
# max_ttl                  24h
# renew_statements         []
# revocation_statements    []
# rollback_statements      []

现在，通过使用角色名称从 /creds 终端点生成新凭据。这是 Vault 注入器将用于为你的 Kubernetes 应用程序获取凭据的机制：

vault read database/creds/pg-role
Key                Value
---                -----
lease_id           database/creds/pg-role/tUEs8eogkk9KL5erU5rLv7hD
lease_duration     24h
lease_renewable    true
password           A1a-1ZYMcUHKJIJH6rrc
username           v-token-pg-role-KQ4ze3GYi5He0D70tEmo-1587973449

设置 Kubernetes 秘密引擎

配置一个名为 “pg-auth” 的策略。这是一个非常不受限制的策略，但在生产环境中，你应该添加更多的限制。

vault policy write pg-auth - <<EOF
path "database/creds/*" {
    capabilities = ["read"]
}
EOF
Success! Uploaded policy: pg-auth

配置 Vault 以启用对 Kubernetes API 的访问。此示例假设你正在 Vault pod 中使用 kubectl exec 运行命令。如果不是这样，你将需要找到正确的 JWT 令牌、Kubernetes API URL（Vault 将用于连接到 Kubernetes 的 URL）以及 vaultserver 服务帐户的 CA 证书，如 Vault 文档中所述。

vault auth enable kubernetes
vault write auth/kubernetes/config \
    token_reviewer_jwt="$(cat /var/run/secrets/kubernetes.io/serviceaccount/token)" \
    kubernetes_host=https://${KUBERNETES_PORT_443_TCP_ADDR}:443 \
    kubernetes_ca_cert=@/var/run/secrets/kubernetes.io/serviceaccount/ca.crt

将数据库策略附加到管理命名空间中的服务帐户（在这里是 tsb 命名空间）：

vault write auth/kubernetes/role/pg \
    bound

_service_account_names=* \
    bound_service_account_namespaces=tsb \
    policies=pg-auth \
    ttl=24h

要添加更多限制，为每个 ServiceAccount 创建一个角色。对于 PostgreSQL，你将需要为 tsb-iam、tsb-spm 和 default 服务帐户创建一个角色，因为 TSB API pod 使用 default 服务帐户运行：

vault write auth/kubernetes/role/pg \
    bound_service_account_names=default,tsb-spm,tsb-iam \
    bound_service_account_namespaces=tsb \
    policies=pg-auth \
    ttl=24h

将凭据注入到 Pod

要在管理平面中使用 Vault Agent 注入器与 PostgreSQL 结合使用，请向 ManagementPlane 自定义资源中的部署 pod 注释和环境变量中添加以下内容。

使用覆盖层来即时重新配置部署：

spec:
  dataStore:
    postgres:
      connectionLifetime: 1h # 设置连接生存期
  components:
    apiServer:
      kubeSpec:
        deployment:
          podAnnotations:
            vault.hashicorp.com/agent-inject: 'true'
            vault.hashicorp.com/agent-init-first: 'true'
            vault.hashicorp.com/agent-inject-secret-config.yaml: 'database/creds/pg-role'
            vault.hashicorp.com/agent-inject-template-config.yaml: |
              {{- with secret "database/creds/pg-role" -}}
              data:
                username: {{ .Data.username }}
                password: {{ .Data.password }}
              {{- end -}}              
            vault.hashicorp.com/role: 'pg'
            vault.hashicorp.com/secret-volume-path: /etc/dbvault
        overlays:
        - apiVersion: v1
          kind: Deployment
          name: tsb
          patches:
          - path: spec.template.spec.containers[name:tsb].args.[:/etc/db/config\.yaml]
            value: /etc/dbvault/config.yaml
          - path: spec.template.spec.initContainers[name:migration].args.[:/etc/db/config\.yaml]
            value: /etc/dbvault/config.yaml
    iamServer:
      kubeSpec:
        deployment:
          podAnnotations:
            vault.hashicorp.com/agent-inject: 'true'
            vault.hashicorp.com/agent-init-first: 'true'
            vault.hashicorp.com/agent-inject-secret-config.yaml: 'database/creds/pg-role'
            vault.hashicorp.com/agent-inject-template-config.yaml: |
              {{- with secret "database/creds/pg-role" -}}
              data:
                username: {{ .Data.username }}
                password: {{ .Data.password }}
              {{- end -}}              
            vault.hashicorp.com/role: 'pg'
            vault.hashicorp.com/secret-volume-path: /etc/dbvault
        overlays:
        - apiVersion: v1
          kind: Deployment
          name: iam
          patches:
          - path: spec.template.spec.containers[name:iam].args.[:/etc/db/config\.yaml]
            value: /etc/dbvault/config.yaml
    spmServer:
      kubeSpec:
        deployment:
          podAnnotations:
            vault.hashicorp.com/agent-inject: 'true'
            vault.hashicorp.com/agent-init-first: 'true'
            vault.hashicorp.com/agent-inject-secret-config.yaml: 'database/creds/pg-role'
            vault.hashicorp.com/agent-inject-template-config.yaml: |
              {{- with secret "database/creds/pg-role" -}}
              data:
                username: {{ .Data.username }}
                password: {{ .Data.password }}
              {{- end -}}              
            vault.hashicorp.com/role: 'pg'
            vault.hashicorp.com/secret-volume-path: /etc/dbvault
        job:
          podAnnotations:
            vault.hashicorp.com/agent-inject: 'true'
            vault.hashicorp.com/agent-init-first: 'true'
            vault.hashicorp.com/agent-inject-secret-config.yaml: 'database/creds/pg-role'
            vault.hashicorp.com/agent-pre-populate-only: "true"
            vault.hashicorp.com/agent-inject-template-config.yaml: |
              {{- with secret "database/creds/pg-role" -}}
                data:
                  username: {{ .Data.username }}
                  password: {{ .Data.password }}
              {{- end -}}              
            vault.hashicorp.com/role: 'pg'
            vault.hashicorp.com/secret-volume-path: /etc/dbvault
        overlays:
        - apiVersion: v1
          kind: Deployment
          name: spm
          patches:
          - path: spec.template.spec.containers[name:spm].args.[:/etc/db/config\.yaml]
            value: /etc/dbvault/config.yaml
        - apiVersion: v1
          kind: CronJob
          name: spmsync
          patches:
          - path: spec.jobTemplate.spec.template.spec.containers[name:spmsync].args.[:/etc/db/config\.yaml]
            value: /etc/dbvault/config.yaml

调试

检查 PostgreSQL 中的角色

使用 PostgreSQL 命令行客户端 psql 来检查目标数据库 tsb 中的角色创建：

psql -h postgres -p 5432 -U tsb -d tsb

连接到数据库后，你可以使用 \du 命令列出数据库的当前角色：

\du
 
                                                                                 List of roles
                     Role name                      |                         Attributes                         |                          Member of
----------------------------------------------------+------------------------------------------------------------+-------------------------------------------------------------
 rds_ad                                             | Cannot login                                               | {}
 rds_iam                                            | Cannot login                                               | {}
 rds_password                                       | Cannot login                                               | {}
 rds_replication                                    | Cannot login                                               | {}
 rds_superuser                                      | Cannot login                                               | {pg_monitor,pg_signal_backend,rds_replication,rds_password}
 rdsadmin                                           | Superuser, Create role, Create DB, Replication, Bypass RLS+| {}
                                                    | Password valid until infinity                              |
 rdsrepladmin                                       | No inheritance, Cannot login, Replication                  | {}
 tsb                                                | Create role, Create DB                                    +| {rds_superuser}
                                                    | Password valid until infinity                              |
                                                    |                                                            | {}
 v-kubernet-pg-role-5OUfsUQv3xAASWZkbECV-1589890098 | Password valid until 2020-05-20 12:08:23+00                | {}
 v-kubernet-pg-role-7uiTkWgsxphogXub0qpp-1589887199 | Password valid until 2020-05-20 11:20:04+00                | {}
...

你可以在这里看到角色 tsb，该角色用于在 Vault 中配置数据库，并且还有一些类似 v-kubernet-pg-role-5OUfsUQv3xAASWZkbECV-1589890098 的角色，这些角色对应于由 Vault 注入器 sidecar 动态创建的角色。

你还可以列出授予动态角色的访问权限。以下是一个示例，涉及到角色 v-kubernet-pg-role-5OUfsUQv3xAASWZkbECV-1589890098 的权限示例：

SELECT grantee AS user, CONCAT(table_schema, '.', table_name) AS table,
   CASE
       WHEN COUNT(privilege_type) = 7 THEN 'ALL'
       ELSE ARRAY_TO_STRING(ARRAY_AGG(privilege_type), ', ')
   END AS grants
FROM information_schema.role_table_grants
WHERE grantee='v-kubernet-pg-role-5OUfsUQv3xAASWZkbECV-1589890098'
GROUP BY table_name, table_schema, grantee;
 
                       user                        |         table          | grants
----------------------------------------------------+------------------------+--------
v-kubernet-pg-role-5OUfsUQv3xAASWZkbECV-1589890098 | public.application     | ALL
v-kubernet-pg-role-5OUfsUQv3xAASWZkbECV-1589890098 | public.assignment      | ALL
v-kubernet-pg-role-5OUfsUQv3xAASWZkbECV-1589890098 | public.association     | ALL
...

TSB Helm Chart

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

概述

本文介绍如何使用 Helm Charts 来安装 Tetrate Service Bridge (TSB) 的不同组件。假设你的系统上已经安装了 Helm。

TSB 为其每一个平面都提供了 Chart：

管理平面：安装 TSB 管理平面 Operator（可选择安装 MP CR 和/或密钥）。
控制平面：安装 TSB 控制平面 Operator（可选择安装 MP CR 和/或密钥）。
数据平面：安装 TSB 数据平面 Operator。

每个 Chart 都安装了相应平面的 Operator。管理平面和控制平面都允许创建触发 Operator 的相应资源（使用 spec 属性）以部署所有 TSB 组件和/或必需的密钥（使用 secrets 属性）以使其正常运行。

这种行为让你选择完全配置 TSB 并与 CD 流水线集成的方式。你可以使用 Helm 来：

仅安装 Operator
安装/升级平面资源（管理平面或控制平面 CR）以及 Operator
安装/升级 Operator 和密钥
一次安装/升级它们（Operator、资源、密钥）

关于密钥，要牢记 helm install/upgrade 命令接受可以由不同来源提供的不同文件，使用其中一个源提供规范，另一个源提供密钥。

还有一个额外的配置 (secrets.keep)，用于保留已安装的密钥并避免删除它们。有了这个功能，密钥只需应用一次，以后的升级不会删除它们。

默认情况下，Helm Chart 还会安装 TSB CRD。如果你希望跳过 CRD 安装步骤，可以传递 --skip-crds 标志。

安装过程

先决条件

在开始之前，请确保你已经：

检查了要求
安装了 Helm
安装了 kubectl
同步了 Tetrate Service Bridge 镜像

配置 Helm 存储库

添加存储库：

helm repo add tetrate-tsb-helm 'https://charts.dl.tetrate.io/public/helm/charts/'
helm repo update

列出可用版本：
```
helm search repo tetrate-tsb-helm -l
```

安装

前往管理平面安装来安装 TSB 管理平面组件。

前往控制平面安装以将 TSB 控制平面组件安装到你的应用程序集群中。这将引入你的应用程序集群到 TSB 中。

前往数据平面安装来安装将管理网关生命周期的 TSB 数据平面组件到你的应用程序集群中。

基于版本的控制平面

当你使用基于版本的控制平面时，不再需要 Data Plane Operator 来管理 Istio 网关，你可以跳过数据平面安装。要了解有关基于版本的控制平面的更多信息，请前往 Istio 隔离边界。

TSB 中的 GitOps

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

本文档解释了如何在 TSB 中使用 GitOps 工作流。该文档假设已在管理平面集群和/或应用程序集群中启用了 GitOps。

TSB 中 GitOps 支持的主要思想是允许：

管理员团队可以直接在管理平面集群中创建 TSB 配置资源。
应用程序团队可以直接在应用程序集群中创建 TSB 配置资源。

应用程序团队可以像推送应用程序本身的更改一样推送应用程序配置的更改，并允许将应用程序部署资源和 TSB 配置打包在一起，例如在同一个 Helm 图中。

为了实现这一点，所有 TSB 配置对象都存在于 Kubernetes 自定义资源定义（CRD）中，以便可以轻松应用于集群。如下图所示，一旦资源应用到集群中，它们将被自动协调并转发到管理平面。

TSB Kubernetes 自定义资源

用于 TSB 配置的 Kubernetes 自定义资源与任何其他 Kubernetes 资源一样。以下示例显示了一个 Workspace 定义：

apiVersion: tsb.tetrate.io/v2
kind: Workspace
metadata:
  name: bookinfo
  annotations:
    tsb.tetrate.io/organization: tetrate
    tsb.tetrate.io/tenant: engineering
spec:
  namespaceSelector:
    names:
      - "*/bookinfo"

它们与你可以使用 tctl 应用的资源非常相似，不同之处在于：

spec 的内容在 YAML API 参考中定义。规格与你在 tctl 中使用的规格相同。
元数据部分不具有 TSB 属性，如 organization、tenant 等。相反，必须使用以下适当的注释提供层次结构信息：
- tsb.tetrate.io/organization
- tsb.tetrate.io/tenant
- tsb.tetrate.io/workspace
- tsb.tetrate.io/trafficGroup
- tsb.tetrate.io/securityGroup
- tsb.tetrate.io/gatewayGroup
- tsb.tetrate.io/istioInternalGroup
- tsb.tetrate.io/application
除以下内容之外，apiVersion 和 kind 属性对于所有资源都是相同的：
- API 组 api.tsb.tetrate.io/v2 改为 tsb.tetrate.io/v2。

请参阅 TSB Kubernetes API 以下载 TSB Kubernetes CRD。

使用 Istio 直连模式资源

在使用 GitOps 与 Istio 直连模式资源时，需要为资源添加一个附加标签：

labels:
    istio.io/rev: "tsb"

例如，在 Gateway 组中的 Gateway 对象如下所示：

apiVersion: networking.istio.io/v1beta1
kind: Gateway
metadata:
  name: bookinfo-gateway
  namespace: bookinfo
  labels:
    istio.io/rev: tsb
  annotations:
    tsb.tetrate.io/organization: tetrate
    tsb.tetrate.io/tenant: tetrate
    tsb.tetrate.io/workspace: bookinfo
    tsb.tetrate.io/gatewayGroup: bookinfo
spec:
  selector:
    app: tsb-gateway-bookinfo
  servers:
    - hosts:
        - "bookinfo.tetrate.io"
      port:
        number: 80
        name: http
        protocol: HTTP

这是为了防止集群中正在运行的 Istio 立即处理该资源，因为它只应该由 TSB 中继读取，然后推送到管理平面。有一个验证 Webhook 将检查所有需要此标签的资源，如果缺少它，则会拒绝它们。

应用 TSB 自定义资源

TSB 自定义资源可以使用 kubectl 正常应用。例如，要应用上面示例中的工作区，你只需运行：

kubectl apply -f workspace.yaml

kubectl get workspaces -A
NAMESPACE   NAME       PRIVILEGED   TENANT    AGE
bookinfo    bookinfo                engineering   4m20s

如果你想要验证对象是否已在管理平面中正确创建，你也可以使用 tctl 在那里查看对象：

$ tctl get ws bookinfo
NAME        DISPLAY NAME    DESCRIPTION
bookinfo

与持续部署解决方案集成

TSB GitOps 功能允许你轻松将 TSB 配置工作流与 CI/CD 解决方案集成。以下页面提供了一些配置示例，你可以按照这些示例来了解它的工作原理：

配置 Flux CD 以在 TSB 中使用 GitOps

WASM 扩展概述

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

本文将描述什么是 WASM 扩展以及其好处。

什么是 WASM 扩展？

WASM 扩展是WebAssembly的软件插件，可用于扩展 Istio 代理（Envoy）。这些 WASM 扩展在一个沙盒环境中执行，对外部系统的访问受到限制，并且可以使用不同的编程语言及其 SDK 创建。这个沙盒环境提供了隔离，以防止一个插件中的编程错误或崩溃影响其他插件，并提供了安全性，以防止一个插件从系统获取信息。

WASM 扩展的好处是什么？

Envoy 可以使用过滤器进行扩展，有各种内置的过滤器用于不同的协议，可以配置为在网络流量的一部分执行。通过这些过滤器（网络、HTTP）的组合，你可以增强传入请求、转换协议、收集统计信息、修改响应、执行身份验证等等。

为了拥有自定义过滤器，有几种选择：

使用 C++ 编写自己的过滤器并将其与 Envoy 打包。这意味着重新编译 Envoy 并维护不同版本。
使用依赖于 HTTP Lua 过滤器的 Lua 脚本。适用于简单的脚本和更复杂的部署过程。
使用基于 WASM 的扩展允许使用不同的编程语言编写复杂的脚本，并自动化部署过程。

一些 WASM 扩展的好处包括：

使用自定义功能扩展网关
应用有效载荷验证（在 Istio 过滤器上不可能，因为它们只操作元数据）
快速应对 CVE 或 0 天漏洞（例如 Log4Shell）
在 AUTHZ 和 AUTHN 上添加自定义安全验证
改善应用程序的安全性，而不触及其代码库

进一步阅读：

安装 Bookinfo 示例

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

为了演示在 Kubernetes 之外部署的工作负载如何与网格的其余部分集成，我们需要有其他应用程序可以与之通信。

在本指南中，你需要部署 Istio Bookinfo 示例到你的 Kubernetes 集群中。

部署 Bookinfo 示例

创建命名空间 bookinfo，并添加正确的标签：

kubectl create namespace bookinfo
kubectl label namespace bookinfo istio-injection=enabled

部署 bookinfo 应用程序：

cat <<EOF | kubectl apply -n bookinfo -f -
apiVersion: security.istio.io/v1beta1
kind: PeerAuthentication
metadata:
  name: default
spec:
  mtls:
    mode: STRICT
EOF

kubectl apply -n bookinfo -f https://raw.githubusercontent.com/istio/istio/master/samples/bookinfo/platform/kube/bookinfo.yaml

kubectl wait --for=condition=Available -n bookinfo deployments --all

为了从本地环境向 bookinfo 产品页面发送请求，你需要设置端口转发。

在单独的终端会话中运行以下命令：

kubectl port-forward -n bookinfo service/productpage 9080

产品页面将在 http://localhost:9080 上可访问。要在可视上验证产品页面，请在浏览器中打开 http://localhost:9080/productpage。如果多次刷新页面，你应该在页面上看到 3 次中有 2 次出现评分星级。

或者，要从命令行验证，请运行：

for i in `seq 1 9`; do
  curl -fsS "http://localhost:9080/productpage?u=normal" | grep "glyphicon-star" | wc -l | awk '{print $1" stars on the page"}'
done

3 次中有 2 次应该会得到消息 10 stars on the page：

10 stars on the page
0 stars on the page
10 stars on the page

缩减 `ratings` 应用程序

在本指南中，你将通过 VM 通过工作负载载入部署 ratings 应用程序。为了做到这一点，我们必须首先“禁用”与 bookinfo 示例一起部署的默认 ratings 应用程序。

运行以下命令并将 ratings 应用程序的副本数减少到 0：

kubectl scale deployment ratings-v1 -n bookinfo --replicas=0

kubectl wait --for=condition=Available -n bookinfo deployment/ratings-v1

要验证 ratings 应用程序已经被缩减，并且不再显示在产品页面上，请按照上一节中的说明访问产品页面。三次中的两次应该会看到消息 Ratings service is currently unavailable。

非修订版到修订版的升级

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

在继续之前，请确保你熟悉 Istio 隔离边界功能。

升级前

从非修订版升级到版本控制平面设置涉及启用 Istio 隔离边界功能。启用后，可以在隔离边界内配置版本，控制平面必须升级到该版本。按照隔离边界安装中提到的步骤部署具有启用隔离边界功能的控制平面。

启用 Istio 隔离边界功能后，你需要在添加隔离边界到 ControlPlane CR 之前，将 TSB 数据平面 Operator 的规模缩小。这是为了避免 TSB 数据平面 Operator 和 TSB 控制平面 Operator 在协调相同的 TSB Ingress/Egress/Tier1Gateway 资源时发生竞争条件。

kubectl scale --replicas=0 deployment tsb-operator-data-plane -n istio-gateway

出于同样的原因，我们还必须将 istio-operator 在 istio-gateway 命名空间中的规模缩小。

kubectl scale --replicas=0 deployment istio-operator -n istio-gateway

随着这一步，还删除了由 tsb-operator-data-plane 创建和管理的 webhooks。

kubectl delete validatingwebhookconfiguration tsb-operator-data-plane-egress tsb-operator-data-plane-ingress tsb-operator-data-plane-tier1; \
kubectl delete mutatingwebhookconfiguration tsb-operator-data-plane-egress tsb-operator-data-plane-ingress tsb-operator-data-plane-tier1;

控制平面升级策略

TSB 仅支持从非修订版到版本的控制平面升级的金丝雀升级。这意味着在任何给定时间点，将部署两个 Istio 控制平面 - 非修订版和版本控制平面。

控制平面

在你的 ControlPlane CR 中配置一个隔离边界。如果使用 Helm，你可以在 Helm 值文件中添加隔离边界配置。

spec:
  hub: <registry-location>
  telemetryStore:
    elastic:
      host: <tsb-address>
      port: <tsb-port>
      version: <elastic-version>
      selfSigned: <is-elastic-use-self-signed-certificate>
  managementPlane:
    host: <tsb-address>
    port: <tsb-port>
    clusterName: <cluster-name-in-tsb>
    selfSigned: <is-mp-use-self-signed-certificate>
  components:
    xcp:
      isolationBoundaries:
      - name: global
        revisions:
        - name: revisioned
      centralAuthMode: 'JWT'

global 隔离边界

尽管我们可以在启用隔离边界支持后部署多个版本控制平面，使用任何 “name” 的边界，但建议创建一个名为 “global” 的隔离边界，以便现有的 Workspace 可以被视为 “global” 隔离边界的一部分。已经在集群中部署的现有工作区将不会绑定到特定的隔离边界，因此 “global” 命名的隔离边界为所有这些未指定其隔离边界的工作区提供了一个后备。

在 ControlPlane CR 中配置隔离边界将在 istio-system 命名空间中设置版本化的控制平面，如下所示

kubectl get deployment -n istio-system | grep istio-operator

# 输出
istio-operator                1/1     1            1            15h
istio-operator-revisioned     1/1     1            1            2m

kubectl get deployment -n istio-system | grep istiod

# 输出
istiod                 1/1     1            1            15h
istiod-revisioned      1/1     1            1            2m

请注意，仍然部署了一个非修订版的控制平面，负责管理现有的 sidecar 和网关。

网关升级

要升级网关，请在 Ingress/Egress/Tier1Gateway 资源中添加 spec.revision。这将使现有的网关 pod 被调整为连接到版本化的 Istio 控制平面。TSB 默认配置了 Gateway 安装资源，使用 RollingUpdate 策略，确保零停机时间。

你还可以通过对网关 CR 进行打补丁来添加 spec.revision。

kubectl patch ingressgateway.install <name> -n <namespace> --type=json --patch '[{"op": "replace","path": "/spec/revision","value": "revisioned"}]'; \

应用升级

要升级 sidecar，请移除工作负载命名空间标签中的 istio-injection=enabled，并将 istio.io/rev 标签应用于 Istio 版本的工作负载命名空间。

kubectl label namespace workload-ns istio-injection- istio.io/rev=revisioned

然后重新启动应用工作负载。首选滚动更新以避免流量中断。

kubectl rollout restart deployment -n workload-ns

VM 工作负载升级

要升级 VM 工作负载，请

使用版本化链接从你的入驻平面下载最新的 Istio sidecar，然后在 VM 上重新安装 Istio sidecar。

使用 revision 值更新 onboarding-agent 配置，然后重新启动 onboarding-agent。Istio sidecar 将连接到版本化的 Istio 控制平面。

升级后清理

一旦所有 sidecar 都已移动到版本化代理，所有应用网关都已具备版本化网关，并确保升级正常运行，我们可以继续清理现在已经过时的旧非修订版资源。

请记住，我们已经将 TSB 数据平面 Operator 和非修订版 istio-operator 从 istio-gateway 命名空间的规模缩小。现在，可以安全地删除 istio-gateway 命名空间，因为不再需要它。

kubectl delete ns istio-gateway

使用 kubectl 删除位于命名空间 istio-system 中的名为 tsb-istiocontrolplane 的 IstioOperator 资源。

kubectl delete iop tsb-istiocontrolplane -n istio-system

确保 istio-system 命名空间中的 istiod 部署由 istio-operator 部署删除。然后删除 Istio operator 部署和 Kubernetes RBAC（clusterrole 和 clusterrolebinding）。

kubectl delete clusterrole,clusterrolebinding istio-operator
kubectl delete deployment,sa istio-operator -n istio-system

从版本化回滚到非修订版

在升级后清理之前

将 istio-gateway 命名空间中的 tsb 数据平面 Operator 的规模增加。

kubectl scale --replicas=1 deployment tsb-operator-data-plane -n istio-gateway

随着此操作，删除由 tsb-operator-control-plane 创建和管理的 webhooks。

kubectl delete validatingwebhookconfiguration tsb-operator-control-plane-egress tsb-operator-control-plane-ingress tsb-operator-control-plane-tier1; \
kubectl delete mutatingwebhookconfiguration tsb-operator-control-plane-egress tsb-operator-control-plane-ingress tsb-operator-control-plane-tier1;

要回滚网关，从 TSB 网关安装资源的 Ingress/Egress/Tier1Gateway 中移除 spec.revision。

对于网关部署，最好配置滚动更新以避免流量中断。这可以在 ingress/Egress/Tier1Gateway 资源中配置。这将导致网关 pod 启动并连接到仍在运行的较旧的非修订版 Istio 控制平面。
通过将工作负载命名空间标签中的 istio.io/rev 值更改为 default 来回滚 sidecars。
```
kubectl label namespace workload-ns istio.io/rev=default
```
然后重新启动应用工作负载。
```
kubectl rollout restart deployment -n workload-ns
```
一旦所有数据平面组件都回滚到非修订版的控制平面，我们可以继续从 ControlPlane CR 中删除隔离边界。这将删除在 istio-system 命名空间中部署的版本化控制平面组件。

在升级后清理之后

网关回滚

在进行升级后的清理之后，将网关从版本化回滚到非修订版控制平面不能保证零停机时间。

首先，我们需要恢复非修订版的控制平面。要获取较旧的非修订版控制平面，请使用禁用了 ISTIO_ISOLATION_BOUNDARIES 的 TSB 集群 Operator 重新安装。
```
tctl install manifest cluster-operators --registry $HUB > clusteroperators.yaml
kubectl apply -f clusteroperators.yaml
```
再次部署 Operator 将在 istio-gateway 命名空间中带回 TSB 数据平面 Operator。然后，非修订版的 TSB 控制平面 Operator 将协调更新的 ControlPlane 资源以重新部署非修订版的 Istio 控制平面。由于已删除隔离边界支持，这还将清理所有版本化的控制平面组件。
编辑现有的 ControlPlane CR，以删除 spec.components.xcp.isolationBoundaries。
要回滚网关，请从 TSB 网关安装资源的 Ingress/Egress/Tier1Gateway 中移除 spec.revision。对于网关部署，最好配置滚动更新以避免流量中断。这可以在 ingress/Egress/Tier1Gateway 资源中配置。这将导致网关 pod 启动并连接到仍在运行的较旧的非修订版 Istio 控制平面。
通过将工作负载命名空间标签中的 istio.io/rev 值更改为 default 来回滚 sidecars。
```
kubectl label namespace workload-ns istio.io/rev=default
```
然后重新启动应用工作负载。
```
kubectl rollout restart deployment -n workload-ns
```

服务网格简介

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

Service Mesh 架构已得到广泛采用，Tetrate 的团队由一些最早开发支持该架构的技术的工程师组成。在本节中，我们将介绍该架构、其术语、功能、特性，并重点介绍 Istio，这是为 Tetrate Service Bridge 提供支持的领先网格实现。

什么是服务网格？

服务网格是通过代理位于应用程序组件和网络之间的基础设施层。虽然这些组件通常是微服务，但任何工作负载（从无服务器容器到虚拟机或裸机上的传统 n 层应用程序）都可以参与网格。代理不是通过网络在组件之间进行直接通信，而是拦截并管理该通信。

数据平面

这些代理被称为“sidecar 代理”，因为它们与每个应用程序实例一起部署，构成了服务网格的数据平面。它们在运行时处理应用程序流量。Tetrate Service Bridge 采用 Envoy 作为数据平面实现。Envoy 提供了大量的安全、流量策略和遥测功能，包括：

服务发现
弹性机制（重试、熔断、异常值检测）
客户端负载均衡
细粒度的 L7 流量控制
根据请求实施安全策略
基于 L7 元数据的身份验证、速率限制、策略
具有强 L7 身份的工作负载身份
服务间授权
使用 WASM 扩展的可扩展性
指标、日志和跟踪

通过将这些功能从应用程序转移到边车代理，可以引入控制平面来动态配置数据平面，从而提供一系列好处。

控制平面

控制平面负责数据平面代理的运行时配置。它将控制平面的声明性配置转换为 Envoy 的具体运行时配置。控制平面协调多个 Envoy 代理，创建一个有凝聚力的网格。

通过每个应用程序实例的边车代理和动态控制平面，服务网格提供了集中控制和分布式执行。这种级别的控制无法通过框架和库实现，但具有以下优点：

集中可见性和控制
整个环境的一致性
通过基于代码的配置进行有效的策略更改
将功能生命周期与应用程序生命周期分开

Tetrate Service Bridge 利用 Istio 作为其控制平面在运行时配置 Envoy 代理。

服务网格的起源

2010 年代初，服务网格架构在多家公司同时出现，以解决采用面向服务架构的挑战。谷歌的旅程导致了原型服务网格的创建，该网格解决了共同命运中断、成本归因和跨领域功能实现等问题。

在内部体验到服务网格的好处后，Istio 诞生了，就是为了将这些功能带给世界。Tetrate 的成立是为了满足在现代化和云采用方面面临类似挑战的企业的需求。

API 网关和服务网格

服务网格架构起源于分布式 API 网关，解决跨领域问题。随着微服务架构的盛行，内部流量大大超过外部流量。这种转变以及向零信任安全的转变，推动网格处理跨环境的流量。

因此，API 网关的功能正在成为应用程序流量平台不可或缺的一部分，在平台中随处可用。传统上被视为“边缘”设备的其他功能也正在合并到应用程序流量平台中。

Istio：领先的网格实现

服务网格充当基于微服务的应用程序的安全内核，因此网格实现的选择对于应用程序和信息安全至关重要。Istio 是使用最广泛、支持最广泛的服务网格，可作为微服务安全标准的参考实现。它符合 NIST 的指导方针，并拥有活跃的错误赏金、安全审计和 CVE 补丁。

Istio 与 Kubernetes 生态系统一起发展，提供无缝集成和标准化。Tetrate 的团队由早期 Istio 贡献者组成，选择 Istio 作为为 Tetrate Service Bridge 提供支持的网格。

继续阅读，了解 TSB 如何利用 Istio 将你的基础设施统一为一个有凝聚力的网格。

概览

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

当你在 Kubernetes 上部署工作负载时，以下操作会在背后自动进行：

Istio Sidecar 会部署在你的工作负载旁边。
该 Sidecar 会配置工作负载的位置和其他所需元数据。

然而，当你将工作负载部署在独立的虚拟机之外时，你必须自己处理这些事情。

工作负载载入功能为你解决了这个问题。使用此功能，你只需执行以下步骤，即可将部署在虚拟机上的工作负载引入到网格中：

在目标虚拟机上安装 Istio Sidecar（通过 DEB/RPM 软件包）。
在目标虚拟机上安装 Workload Onboarding Agent（同样通过 DEB/RPM 软件包）。
提供一个最小的、声明性的配置，描述在哪里引入工作负载，例如：

apiVersion: config.agent.onboarding.tetrate.io/v1alpha1
kind: OnboardingConfiguration
onboardingEndpoint:                            # 连接至
  host: onboarding-endpoint.your-company.corp
workloadGroup:                                 # 加入至
  namespace: bookinfo
  name: ratings

组件和工作流程

工作负载载入包括以下组件：

组件	描述
Workload Onboarding Operator	安装到你的 Kubernetes 集群中作为 TSB 控制平面的一部分
Workload Onboarding Agent	需要安装到你的虚拟机工作负载旁边的组件
Workload Onboarding Endpoint	Workload Onboarding Agent 将连接注册工作负载并获取 Istio Sidecar 的引导配置的组件

下图概述了完整的载入流程：

Workload Onboarding Agent 根据用户提供的声明性配置执行载入流程。

apiVersion: config.agent.onboarding.tetrate.io/v1alpha1
kind: OnboardingConfiguration
onboardingEndpoint:                           # (1)
  host: onboarding-endpoint.your-company.corp
workloadGroup:                                # (2)
  namespace: bookinfo
  name: ratings

根据上述配置，以下操作将发生：

Workload Onboarding Agent 将连接到 Workload Onboarding Endpoint 在 https://onboarding-endpoint.your-company.corp:15443 (1)
Workload Onboarding Endpoint 将使用 VM 的云特定凭据对连接的 Agent 进行身份验证
Workload Onboarding Endpoint 将决定是否允许具有此标识（即 VM 的标识）的工作负载加入特定的 WorkloadGroup（2）
Workload Onboarding Endpoint 将在 Istio 控制平面上注册一个新的 WorkloadEntry 以表示工作负载
Workload Onboarding Endpoint 将生成启动 Istio Proxy 所需的引导配置，根据相应的 WorkloadGroup 资源 (2)
Workload Onboarding Agent 将保存返回的引导配置到磁盘，并启动 Istio Sidecar
Istio Sidecar 将连接到 Istio 控制平面并接收其运行时配置

更改管理员密码

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

本文描述如何更改 TSB 管理员的密码。

TSB 管理员在每个 TSB 实例中都是本地配置的，不属于企业身份提供者（IdP）。这允许超级用户在连接到身份提供者出现问题以进行故障排除和平台修复时能够登录 TSB。

更新密钥

管理员凭据存储在管理平面命名空间中的 admin-credentials Kubernetes 密钥中（默认为 tsb）。它以 SHA-256 哈希的形式安全存储，因此无法被反向解析，可以通过直接更新带有所需密码的密钥来修改。

以下示例显示了如何生成一个稍后可以应用的更新密钥：

new_password="Tetrate1"
new_password_shasum=$(echo -n $new_password | shasum -a 256 | awk '{print $1}')
kubectl -n tsb create secret generic admin-credentials --from-literal=admin=$new_password_shasum --dry-run=client -o yaml

这将输出包含更新密码的密钥的 YAML，并可以使用 kubectl 正常应用。

一旦密钥已更新，需要重新启动 iam 部署的 pods 以加载更改：

kubectl -n tsb rollout restart deployment/iam

管理平面

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

本页深入介绍了 TSB Operator 如何配置管理平面组件，并概述了 TSB Operator 管理的各种组件。

TSB Operator 配置为监督管理平面组件的生命周期，主动监视部署的同一命名空间内的 ManagementPlane 自定义资源 (CR)。默认情况下，管理平面驻留在 tsb 命名空间中。你可以参阅管理平面安装 API 参考文档，了解有关自定义资源 API 的全面详细信息。

组件

以下是你可以使用管理平面 Operator 配置和管理的各种类型的自定义组件：

组件	Service	Deployment	Cronjobs
apiServer	tsb	tsb	teamsync
iamServer	iam	iam
webUI	web	web
frontEnvoy	envoy	envoy
oap	oap	oap
collector	otel-collector	otel-collector
xcpOperator	xcp-operator-central	xcp-operator-central
xcpCentral	xcp-central	central
mpc	mpc	mpc

Operator 配置并安装以下组件：

apiServer：TSB API 服务器，负责：
- 管理用户创建的服务网格配置
- 将服务网格配置推送到控制平面集群
- 管理从控制平面集群推送的集群信息
- 加强用户操作授权
- 存储操作审计日志
frontEnvoy：充当管理平面的入口网关。
iamServer：管理用户和 TSB 代理令牌身份验证。
webUI：TSB UI 服务器。
oap：为 TSB UI 提供 GraphQL 查询并聚合跨集群指标。
收集器：一个开放遥测收集器，从管理和控制平面组件收集指标并通过 Prometheus 指标端点公开它们。
xcpOperator：控制平面 Operator，管理管理平面所需的控制平面组件。
xcpCentral：控制平面的核心组件，管理平面使用它来向每个集群分发配置并接收有关每个集群状态的信息。
mpc：apiServer 和 xcpCentral 之间的配置转换组件。

演示安装

在演示安装过程中，TSB Operator 还设置 PostgreSQL 和 Elasticsearch 组件。但是，这些仅用于演示目的，Tetrate 不支持用于生产环境或深入的系统评估。

恢复失败的管理平面组件

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

如果 Tetrate 管理平面失败，您需要恢复管理平面以恢复正常操作状态。本指南提供了一个流程概述，您应该在进行此过程时与 Tetrate 技术支持协商。

为了应对管理组件的意外故障，我们建议考虑以下建议：

要么在可靠的冗余集群中维护 Postgres 数据库，要么（在 TSE 的情况下）利用定期的 Postgres 备份。
保留 iam-signing-key 的备份。
如果保留指标很重要，请在可靠的冗余集群中维护 ElasticSearch 数据库，或定期备份，以便在必要时进行恢复。

概述

如果管理平面失败或托管管理平面的集群停止运行，您需要恢复管理平面以恢复正常运行状态。恢复是使用 helm 基础安装完成的。本方案将演示如何在新的管理集群上从失败的管理集群中恢复配置的任务。

先决条件

本指南做出以下假设：

PostgreSQL 数据库（配置）可用。要么数据库位于失败的集群之外，要么可以从备份中恢复（仅适用于 TSE）。
ElasticSearch 数据库（指标）可用。要么数据库位于失败的集群之外，要么可以从备份中恢复，或者可以使用全新的（空的）ElasticSearch 数据库，并容忍指标丢失。
新管理平面集群的所有证书都使用与之前失败的集群相同的根证书颁发机构。
您可以更新用于发现管理平面的任何 DNS 记录。
您有 iam-signing-key 的备份。

流程

请与Tetrate 技术支持合作，按照以下步骤操作：

部署新集群

部署新集群，将管理平面恢复到其中。

安装依赖项

在集群中安装所需的依赖项。这些依赖项可能包括：

Cert-Manager（如果您没有使用捆绑的 cert-manager 实例）及相关发行人/证书。确保使用相同的根 CA。
保存凭据/证书的任何密钥。
来自失败管理平面集群的 iam-signing-key - 可选

使用 kubectl apply 安装 iam-signing-key 密钥。如果无法执行此操作，您需要稍后在此过程中重新配置每个控制平面以使用全新的密钥。

准备配置

使用与失败集群相同的 mp-values.yaml，更新任何必要的字段，如 hub 或 registry，或者如果需要的话，更新任何其他环境相关字段。

如果使用外部 IP 端点，则无需更新 Elastic/Postgres 配置，但可能需要调整防火墙规则。

安装管理平面

使用 mp-values.yaml 执行管理平面的 helm 安装，并使用以下命令监视进度：

kubectl get pod -n tsb
kubectl logs -f -n tse -l name=tsb-operator

对于 Tetrate Service Express（TSE），组件安装在 tse 命名空间中（而不是 tsb）。

获取管理平面地址

安装完成后，请获取 front envoy 的公共 IP 地址，例如：

kubectl get svc -n tsb envoy

使用 Envoy IP 地址登录 UI：

验证您的 Tetrate 配置是否在 Postgres 数据库中得以保留。
如果可用，检查 Elastic 历史数据。

更新 DNS

使用在步骤 5 中获取的新 IP 地址更新用于定位管理平面的 DNS A 记录。远程控制平面集群将使用此 DNS 记录与管理平面进行通信。

传播可能需要一些时间。一旦更改传播完成，请验证您是否可以使用 FQDN 访问管理平面 UI。

验证控制平面操作

在管理平面 UI 中，验证工作负载集群控制平面是否连接并与新的管理平面同步。

刷新控制平面令牌

iam-signing-key 用于生成、验证和旋转令牌，这些令牌提供给控制平面集群，以与管理平面进行通信。

如果无法恢复和恢复原始的 iam-signing-key，则需要在每个控制平面上手动刷新令牌：

登录每个控制平面集群。

删除旧令牌以旋转令牌：

kubectl delete secret otel-token oap-token ngac-token xcp-edge-central-auth-token -n istio-system

验证控制平面现在是否连接到并与新的管理平面同步。

成功恢复新管理平面后，您将完全恢复故障，您的工作负载集群将由新的管理平面实例控制。

故障排除

管理平面和控制平面安装由 Operator 管理。如果进行配置更改，可以监视 Operator 日志以查看进度并识别任何错误。

控制平面无法同步

检查 ControlPlane Envoy 的日志，

查找与连接到管理平面或与令牌验证相关的错误：

kubectl logs deploy/edge -n istio-system -f

按照上述描述的方法删除控制平面上的现有令牌，并验证这些令牌是否在控制平面上重新生成。

kubectl get secrets otel-token oap-token ngac-token xcp-edge-central-auth-token -n istio-system

如果令牌未重新生成：

检查控制平面实例与新的管理平面实例之间的防火墙规则，并确保允许连接。
确保管理平面使用相同的根 CA。

无法访问外部组件，如 postgres

验证到 postgres 或任何其他外部组件的防火墙规则。
验证通过 helm 或在 mp-values.yaml 中传递的凭据。

基本故障排除

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

本文档介绍了在 TSB 中进行基本故障排除的一些可能方法，以便查找特定路由的错误配置问题或 50x 错误的常见原因。

系统架构

在本文档中，采用了以下具有 Tier1-Tier2 设置的系统架构：

有两个不同的集群，training-mp 包含管理平面和配置为 tier1 的控制平面，training-cp 配置为 tier2，包含 bookinfo 和 httpbin 应用程序。

Tier1 网关故障排除

当检测到 50x 错误时，重要的是要理解错误消息，因为它会指向不同的信息源。

例如，假设你使用 curl 发出了一个 HTTP 请求到由 TSB 控制的服务之一，并且观察到类似以下的错误：

Failed to connect to <hostname> port <port>: Connection refused

这通常意味着没有配置监听器。这又意味着我们要么：

缺少网关对象
访问了错误的端口
网关没有正确配置，或者
Tier1 网关的 Pod 没有运行。

要检查监听器是否存在，你可以使用 istioctl：

$ istioctl pc listener <ingressgateway>.<namespace>

如果没有监听器，或者你想检查当前配置，你需要审查你的网关配置。要获取网关对象，使用 kubectl：

kubectl get gateway

如果网关不存在，你需要排查为什么 XCP 没有创建配置。在这种情况下，请定位管理平面命名空间中的 mpc Pod，并查找可能指向错误配置的 Webhook 错误。

如果网关和虚拟服务已创建，但仍然在 HTTP 请求中获得 50x 错误，例如以下错误：

HTTP/2 503

在这种情况下，请查看 ingressgateway 的日志。由于在这种情况下系统配置为 tier1-tier2 设置，因此首先应该检查 tier1gateway。

查找相应 Pod 的日志。根据问题的性质，你可能需要启用跟踪日志以进行进一步的调查。

如果你找到以下类似的条目，这意味着无法找到到达 tier2 网关的路由。

HTTP/2" 503 NR

如果是这种情况，请尝试检查以下内容：

确保已应用 `nodeSelector` 注释

如果在 XCP-edge 服务中使用 NodePort，请记住你必须在 tier1 和 tier2 中都添加以下注释：

traffic.istio.io/nodeSelector: {"value":"value"}'

检查 `tier1gateway` 配置

可以通过将流量路由到特定的集群名称或使用标签来配置 tier1gateway。确保集群或标签名称在 tier1gateway 配置的 spec.externalServers.name[x].clusters 字段中是正确的。

你可以使用以下命令获取 tier1gateway 对象：

$ tctl get t1 -w <workspace> -l <gatewaygroup> <name> -o yaml
 
  …
  externalServers:
  - clusters:
    - name: training-cp
    hostname: bookinfo
    …
  - clusters:
    - labels:
        tier: tier2
    hostname: httpbin
    …

并将其与 cluster 对象进行比较：

$ tctl get cluster <name> -o yaml

…
metadata:
  labels:
    tier: tier2
  name: training-cp
…

检查网络之间的通信权限

如果在集群对象中定义了一个 network，并且参与的集群并不都共享相同的 network，请检查是否存在一个允许在不同网络之间进行通信的组织设置。

$ tctl get os

修复此问题后，你应该会在命名空间 xcp-multicluster 中看到创建的服务。该服务条目是为多集群目的而创建的，还会在应用程序命名空间中创建目标规则以设置 mTLS。

如果此时你仍然注意到从 tier1gateway 获取到 503 错误，请检查错误代码以更好地了解可能导致错误的原因。

在此时使用 istioctl 命令也非常有用，因为很可能在 tier1 - tier2 情况下，你会遇到下游的某些问题。

首先，请检查你的 tier1gateway 的配置是否已同步，检查状态中是否存在 SYNC：

$ istioctl ps

验证你要访问的路由是否存在：

$ istioctl pc route <ingressgateway>.<namespace>

如果路由不存在，那么 tier1gateway 对象中可能存在配置错误。如果存在，请检查服务的 cluster：

$ istioctl pc cluster <ingressgateway>.<namespace>

你应该能够在上述命令的输出中看到子集和目标规则。检查目标规则的配置是否正确。

最后，请检查 endpoints。检查配置以查看下游是否正常：

$ istioctl pc endpoint <ingressgateway>.<namespace>

如果所有上述都正确，那么很可能你需要查看 tier2gateway。

在 tier1gateway 的日志中检查是否存在类似以下的错误：

HTTP/2" 503 LR,URX

这很可能意味着从 tier1gateway 到 tier2gateway 的连接超时。尝试使用 netcat 查看是否可以访问 tier2gateway。如果无法成功连接到 tier2gateway，可能存在配置错误，或者中间可能有阻止通信的防火墙。

你可能还可以在 ingressgateway 的日志中找到一些有用的信息。如果你在日志中找到类似以下的错误消息，这意味着 istio-system 命名空间中的 cacert 密钥并未由两个集群中的相同根（或中间）CA 签名。

$ HTTP/2" 503 UF,URX "-" "TLS error: 268435581:SSL routines:OPENSSL_internal:CERTIFICATE_VERIFY_FAILED"

如果你对证书进行了更改，你将需要重新启动所有 sidecar 和网关，或者等待 30 分钟，直到组件从 istiod 获取新证书。这些更新之间的间隔可以配置，但默认值为 30 分钟。

Tier2Gateway 故障排除

如果调试 tier1gateway 不足以解决问题，你将不得不执行与你在 tier2gateway 上执行的大部分类似的操作，并了解你的问题是否源自配置错误或配置传播问题（即 XCP）。

检查是否已在 tier2 命名空间中创建了网关，可以使用 kubectl get gateway 进行检查。如果网关不存在，请在 XCP 方面检查。你可以从管理平面命名空间中的 mpc Pod 中查看是否存在任何 Webhook 问题。

如果网关已创建，请验证监听器是否正确创建。

$ istioctl pc listener <ingressgateway>.<namespace>

在 ingressgateway 资源中还必须包含端口 15443 的监听器，因为从 tier1 到 tier2 的流量将需要使用此端口。还重要的是检查端口 15443 是否在监听器列表的第一个条目中指定，因为一些云供应商会将第一个端口用于负载均衡器的健康检查。

如果在检查了监听器是否正确创建后，问题仍然存在，你需要检查 tier2gateway 的日志。如果在这些日志中看到了 50x 错误，则很可能是应用程序本身存在问题，或者从 istiod 到 tier2gateway 的配置传播存在问题。

如果需要进一步的故障排除，那么你将需要启用跟踪日志以找出根本原因：

kubectl exec <pod> -c istio-proxy -- pilot-agent request POST ‘logging?level=trace'

你还可以检查是否从 istiod 接收到配置：

$ istioctl ps

如果配置未正确同步，请检查 istiod 与 `tier2gateway

` 之间是否有可能阻止通信的任何网络条件。

还要验证 istiod 命名空间中的 istiod Pod 是否正常运行。你可能存在资源问题，可能会阻止配置的发送。

如果要验证特定主机名的 tier2gateway 中的所有配置，可以获取配置转储：

kubectl exec <pod> -c istio-proxy -- pilot-agent request GET config_dump > config_dump.json

XCP 故障排除

如果注意到 XCP 没有创建你期望的配置，请检查管理平面命名空间中 mpc Pod 的日志。

在这些日志中，你可能会发现验证错误，指示了从 TSB 转换到 XCP API 的配置存在问题。例如，你可能会看到类似以下的条目：

kubectl logs -n tsb <mpc>

2022-03-02T13:58:26.153872Z     error   mpc/config      failed to convert TSB config into its XCP equivalent: no gateway object found for reference "httpbin/httpbin-gw" in "organizations/<org>/tenants/<tenant>/workspaces/<ws>/gatewaygroups/<gg>/virtualservices/<vs>"

如果在 mpc 中没有 Webhook 错误，然后检查集群应用程序命名空间中 edge Pod 的日志。

如果一切正常，你应该能够在 istio-system 命名空间中看到应用于所有配置的日志：

kubectl logs -n istio-system <edge>

2022-03-09T11:17:25.492365Z     debug   configapply     ===BEGIN: Apply request for <n> objects in istio-system namespace

如果你要查找的对象在此列表中不存在，那么可能是 XCP edge 或 XCP central 中的问题。

要启用 XCP edge 的调试日志，你可以对部署进行如下修改（这将重新启动 Pod）：

kubectl edit deployment edge -n istio-system

具体取决于你要排查的问题，你可能必须更详细地配置记录器。例如，如果你想为每个记录器配置不同的记录级别，你可以使用以下命令：

- --log_output_level
default:info,transform:info,discovery-server:info,configapply:debug,translator:debug,model:debug,istiod-discovery:error,cluster-gen:error,stream:debug

或者，你可以一次性为所有记录器设置日志级别：

- --log_output_level
- default:debug

如果要永久更改所有未来 XCP edge 组件的日志记录配置，你可以为控制平面运算符创建一个覆盖：

          overlays:
          - apiVersion: install.xcp.tetrate.io/v1alpha1
            kind: EdgeXcp
            name: edge-xcp
            patches:
            - path: spec.logLevels
              value: default:info,transform:info,discovery-server:info,configapply:debug,translator:debug,model:debug,istiod-discovery:error,cluster-gen:error,stream:debug

有了调试模式下的 XCP edge，你应该能够看到错误并确定根本原因是否在集群中。如果不在集群中，你将不得不在管理平面命名空间中执行相同的操作以解决 XCP cetnral 的问题。

集群准备

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

平台所有者（“平台”）将通过以下步骤准备一个集群：

部署 TSE/TSB

首先部署 TSE 或 TSB，并启动预期的工作负载集群。
启用严格（零信任）安全

配置平台以遵循 ‘require-mTLS’ 和 ‘deny-all’ 的零信任安全策略。
创建 Kubernetes 命名空间

在每个将由应用所有者用于托管服务和应用程序的集群中创建并标记命名空间。
创建 Tetrate 工作区

创建将用于管理命名空间内服务行为的 Tetrate 工作区和相关配置。
部署入口网关

如有需要，在将托管应该提供给外部访问的服务的工作区中部署入口网关。
启用 GitOps 集成

启用 GitOps 集成，以便应用所有者用户可以在不需要 Tetrate 特权访问的情况下与平台交互。
启用其他集成

启用其他集成，以便应用所有者用户可以在不需要 Tetrate 特权访问的情况下与平台交互。

平台：部署 TSE/TSB

按照产品说明部署 TSE 或 TSB 管理平面，然后启动预期的工作负载集群。

请确保安装所需的附加组件并满足必要的先决条件。

平台：启用严格安全

你应该使用 TSE/TSB 配置平台以零信任方式运行。具体来说：

组件与应用所有者服务之间的所有通信都使用 mTLS 进行安全保护。这意味着外部的第三方，例如集群中的其他服务或具有数据路径访问权限的服务，不能读取事务、修改事务或冒充客户或服务。
默认情况下拒绝所有通信。平台所有者必须明确打开所需的通信路径。这意味着只允许明确允许的通信。

严格安全

TSE

导航到设置 > 基本设置。确保 Enforce mTLS 和 Deny-All 都已启用：

你也可以使用 Tetrate API 配置严格安全，方法是遵循 Tetrate Service Bridge 的说明。

在 Tetrate 产品中，默认设置与顶级组织关联，顶级组织在 TSB 中是可定义的，而在 TSE 中设置为值 tse。

你将在名为 default 的 OrganizationSetting 中的 OrganizationSetting.spec.defaultSecuritySetting 部分中找到安全设置：

tctl get os -o yaml

可以在租户或工作区的基础上进一步覆盖这些设置（请注意，TSE 有一个名为 tse 的单一租户，而 TSB 支持多个用户定义的租户）。

要默认要求使用 mTLS，请将 authenticationSettings.trafficMode 设置为 REQUIRED
要默认声明拒绝所有通信，请将 authorization.rules.denyAll 设置为 true
要防止子资源覆盖这些设置，请将 propagationStrategy 设置为 STRICTER（此步骤是非必需的）

可以在 TSB API 参考中找到这些设置的描述。

稍后，你将有选择地覆盖这些设置以允许允许的流量。

平台：创建 Kubernetes 命名空间

Kubernetes 的核心隔离单元是命名空间。许多部署使用非常细粒度的命名空间以强制执行高级别的控制并为每个服务提供重复配置的自由。

一旦将工作负载集群接入到 TSE/TSB 中，然后可以创建每个应用所有者团队将需要的命名空间，并为 Istio 注入进行标记。这就是命名空间中的资源将由 TSE/TSB 管理所需的全部内容：

kubectl create namespace bookinfo
kubectl label namespace bookinfo istio-injection=enabled

平台：创建 Tetrate 工作区

在实践中，细粒度的命名空间并不准确地模拟许多企业遵循的应用程序和团队结构。应用程序由多个命名空间组成，通常跨越多个不同的集群、区域、地区甚至云。

出于这个原因，Tetrate 引入了一个称为 工作区 的更高级别的结构。工作区是 Tetrate 产品中的主要隔离单元，它只是一个或多个集群中的一组命名空间。

工作区提供了一个便捷的更高级别抽象，与组织的应用程序保持一致，这些应用程序通常跨越多个命名空间和/或集群。

TSB 租户

Tetrate Service Express（TSE）提供一个单一的组织（用于全局设置）和多个工作区（用于个别设置）。TSE 旨在由单个团队使用。

Tetrate Service Bridge 添加了一个中间层的租户概念，允许在顶级组织内拥有多个独立的团队。租户可以在团队层面上应用额外的隔离，并可以覆盖全局设置。

在本文档中，我们假设组织内只有一个团队，因此所有设置将应用于工作区级别。示例将使用名为 tse 的组织和名为 tse 的租户；当使用 TSB 时，你应该将这些更改为反映你选择的层次结构。

为每个应用程序创建 Tetrate 工作区，覆盖分配给该应用程序的命名空间：

通过工作区的 namespaceSelector 定义命名空间列表。条目可以限制在单个集群中 cluster-1/bookinfo，也可以跨足所有集群 */bookinfo
注意我们如何使用 WorkspaceSetting 覆盖了每个工作区的 defaultSecuritySetting。

cat <<EOF > bookinfo-ws.yaml
apiversion: api.tsb.tetrate.io/v2
kind: Workspace
metadata:
  organization: tse
  tenant: tse
  name: bookinfo-ws
spec:
  namespaceSelector:
    names:
      - "*/bookinfo"
---
apiVersion: api.tsb.tetrate.io/v2
kind: WorkspaceSetting
metadata:
  organization: tse
  tenant: tse
  workspace: bookinfo-ws
  name: bookinfo-ws-settings
spec:
  defaultSecuritySetting:
    authenticationSettings:
      trafficMode: REQUIRED
    authorization:
      mode: WORKSPACE
EOF

tctl apply -f bookinfo-ws.yaml

在打开一个工作区（authorization.mode: WORKSPACE）时，你在零信任环境中创建了一个“泡泡”。该工作区内的所有服务可以相互通信，但必须使用 mTLS。

平台：部署入口网关

通常，你会希望安排外部流量到达工作区内的特定服务。为此，你首先应在每个集群中的每个工作区部署一个入口网关。应用程序所有者随后可以定义通过此入口网关公开其服务的网关规则。

创建 Tetrate 网关组

首先，创建一个 Tetrate 网关组，其范围限定在将托管入口网关的每个工作区和集群内。例如，如果 Bookinfo 工作区跨足了 cluster-1 和 cluster-2，你可以为此工作区创建两个网关组，每个集群一个：

cat <<EOF > bookinfo-gwgroup-cluster-1.yaml
apiVersion: gateway.tsb.tetrate.io/v2
kind: Group
metadata:
  name: bookinfo-gwgroup-cluster-1
  organization: tse
  tenant: tse
  workspace: bookinfo-ws
spec:
  namespaceSelector:
    names:
      - "cluster-1/bookinfo"
EOF

tctl apply -f bookinfo-gw-group-1.yaml

部署入口网关

接下来，在要接收外部流量的每个工作区和集群中部署一个入口网关：

cat <<EOF > bookinfo-ingress-gw.yaml
apiVersion: install.tetrate.io/v1alpha1
kind: IngressGateway
metadata:
  name: bookinfo-ingress-gw
  namespace: bookinfo
spec:
  kubeSpec:
    service:
      type: LoadBalancer
EOF

kubectl apply -f bookinfo-ingress-gw.yaml

这一步将在相应的命名空间中创建一个 envoy 代理 pod，它将作为入口网关运行（kubectl get pod -n bookinfo -l app=bookinfo-ingress-gw）。请注意，你使用 IngressGateway 在特定集群中创建资源，因此使用 kubectl 部署资源。

稍后，应用程序所有者将想要创建 Gateway 资源以公开其选择的服务。他们需要知道：

Tetrate 工作区的名称，例如 bookinfo-ws
每个集群上 Tetrate 网关组的名称，例如 bookinfo-gwgroup-cluster-1
每个集群上入口网关的名称，例如 bookinfo-ingress-gw。可以在所有集群上使用相同的名称

入口网关非常轻量级，并且为了安全和容错目的，为每个工作区运行一个单独的入口网关提供了隔离。对于非常大型的部署，你可能希望在多个工作区之间共享入口网关。

平台：启用 GitOps 集成

提供 Tetrate 管理的平台配置有两种方式：

使用 tctl 提供平台范围的配置，调用用户需要对 Tetrate API 服务器进行身份验证
使用 kubectl 提供每个集群的配置，调用用户需要对 Kubernetes API 服务器进行身份验证

对于某些用例，用户（平台所有者或应用程序所有者）需要提供平台范围和每个集群的配置。

Tetrate 的 GitOps 集成允许用户使用 Kubernetes API 提供平台范围的配置。GitOps 应该在一个或多个集群上启用；该过程会安装 Tetrate 平台范围配置的 CRD，任何资源都会自动从集群推送到 Tetrate API 服务器：

Tetrate Service Express： 在 Tetrate Service Express 上默认启用 GitOps 集成。有关集成的概述，请参阅 TSE 中的 GitOps 指南。
Tetrate Service Bridge： 你需要在 Tetrate Service Bridge 上明确启用 GitOps。有关详细信息，请参阅 TSB 文档中的配置 GitOps。

总的来说，GitOps 不仅适用于 GitOps 的用例。即使在组织采用 GitOps 姿态来管理配置之前，它也是有用的；GitOps 也可以用于允许选定的 K8s 用户管理 Tetrate 配置。这意味着用户不必拥有 Tetrate 用户/角色，他们可以使用他们已经习惯的 K8s 工具。

平台：启用额外的集成

你可能希望为你的平台启用其他集成。例如，在使用 AWS 时：

安装 AWS 负载均衡控制器以实现更好的负载均衡器集成
启用 AWS Route 53 控制器以管理由应用程序所有者公开的服务的 DNS 记录条目

快速开始简介

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

欢迎使用 TSB 快速入门指南！本指南旨在引导你完成在 TSB 上加入和配置应用程序的过程。通过遵循本快速入门，你将了解如何针对各种基本场景部署应用程序并配置 TSB 及其组件。

在本快速入门指南中，你将探索以下场景：

部署 Istio bookinfo 示例应用程序
创建租户并连接集群
创建工作区
建立对工作区的 tctl 访问权限
创建配置组
配置权限
设置入口网关
检查服务拓扑和指标
使用 TSB 进行流量转移
在 TSB 内启用安全设置
创建应用程序并使用 OpenAPI 规范配置 API

在开始使用快速入门指南之前，请确保你：

熟悉 TSB 概念
安装 TSB 演示环境

本指南中的每个示例将演示如何使用 tctl 命令行工具和 TSB UI 进行更改。

在这些示例中，你将使用超级管理员权限，授予你访问所有 TSB 功能的权限。但是，请记住，对于生产用途，并非每个人都可以被授予管理员权限。出于安全考虑，不建议为每个人提供管理员访问权限。

配置本地 WorkloadGroup 和 Sidecar

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

你将在本地虚拟机上部署 ratings 应用程序并将其加入服务网格。

创建工作负载组

执行以下命令以创建一个 WorkloadGroup：

cat <<EOF | kubectl apply -f -
apiVersion: networking.istio.io/v1alpha3
kind: WorkloadGroup
metadata:
  name: ratings
  namespace: bookinfo
  labels:
    app: ratings
spec:
  template:
    labels:
      app: ratings
      class: vm
    serviceAccount: bookinfo-ratings
EOF

字段 spec.template.network 被省略，以指示 Istio 控制平面虚拟机在本地具有直接连接到 Kubernetes Pod 的能力。

字段 spec.template.serviceAccount 声明工作负载具有 Kubernetes 集群内服务账号 bookinfo-ratings 的身份。此服务账号是在之前的 Istio bookinfo 示例部署期间创建的（../../aws-ec2/bookinfo）。

创建 Sidecar 配置

执行以下命令以创建新的 Sidecar 配置：

cat <<EOF | kubectl apply -f -
apiVersion: networking.istio.io/v1beta1
kind: Sidecar
metadata:
  name: bookinfo-ratings-no-iptables
  namespace: bookinfo
spec:
  workloadSelector:                  # (1)
    labels:
      app: ratings
      class: vm
  ingress:
  - defaultEndpoint: 127.0.0.1:9080  # (2)
    port:
      name: http
      number: 9080                   # (3)
      protocol: HTTP
  egress:
  - bind: 127.0.0.2                  # (4)
    port:
      number: 9080                   # (5)
    hosts:
    - ./*                            # (6)
EOF

以上 Sidecar 配置仅适用于具有标签 app=ratings 和 class=vm（1）的工作负载。你创建的 WorkloadGroup 具有这些标签。

Istio 代理将配置为侦听 <host IP>:9080（3），并将传入请求转发到侦听 127.0.0.1:9080（2）的应用程序。

最后，代理将配置为侦听 127.0.0.2:9080（4）（5），以将传出请求代理到其他服务的应用程序（6），这些服务使用端口 9080（5）。

允许工作负载通过 JWT 令牌进行身份验证

在本指南中，你将使用 Sample JWT Credential Plugin 来为你的本地工作负载提供 [JWT 令牌] 凭据。

在此部分中，你将配置 Workload Onboarding Plane 来信任由 Sample JWT Credential Plugin 颁发的 JWT 令牌。

执行以下命令将 Sample JWT Credential Plugin 下载到本地：

curl -fL "https://dl.cloudsmith.io/public/tetrate/onboarding-examples/raw/files/onboarding-agent-sample-jwt-credential-plugin_0.0.1_$(uname -s)_$(uname -m).tar.gz" \
  | tar -xz onboarding-agent-sample-jwt-credential-plugin

执行以下命令生成供 Sample JWT Credential Plugin 使用的唯一签名密钥：

./onboarding-agent-sample-jwt-credential-plugin generate key \
  -o ./sample-jwt-issuer

上述命令将生成两个文件：

./sample-jwt-issuer.jwk - 签名密钥（秘密部分） - 用于配置本地虚拟机上的 Sample JWT Credential Plugin
./sample-jwt-issuer.jwks - JWKS 文档（公共部分） - 用于配置 Workload Onboarding Plane

执行以下命令将配置 Workload Onboarding Plane 以信任由上述生成的密钥签名的 [JWT 令牌]：

cat << EOF > controlplane.patch.yaml
spec:
  meshExpansion:
    onboarding:
      workloads:
        authentication:
          jwt:
            issuers:
            - issuer: https://sample-jwt-issuer.example
              jwks: |
$(cat sample-jwt-issuer.jwks | awk '{print "                "$0}')
              shortName: my-corp
              tokenFields:
                attributes:
                  jsonPath: .custom_attributes
EOF

kubectl patch controlplane controlplane -n istio-system --type merge --patch-file controlplane.patch.yaml

注意：为了使上述命令正常工作，你需要使用 kubectl 的版本 v1.20+。

允许工作负载加入工作负载组

你需要创建一个 OnboardingPolicy 资源来明确授权在 Kubernetes 之外部署的工作负载加入网格。

执行以下命令：

cat << EOF | kubectl apply -f -
apiVersion: authorization.onboarding.tetrate.io/v1alpha1
kind: OnboardingPolicy
metadata:
  name: allow-onpremise-vms
  namespace: bookinfo                                # (1)
spec:
  allow:
  - workloads:
    - jwt:
        issuer: "https://sample-jwt-issuer.example"  # (2)
    onboardTo:
    - workloadGroupSelector: {}                      # (3)
EOF

以上策略适用于通过由 ID 为 https://sample-jwt-issuer.example 的发行者颁发的 [JWT 令牌]（2）进行身份验证的任何 本地 工作负载，并允许它们加入 bookinfo 命名空间（1）中的任何 WorkloadGroup（3）。

配置 AWS ECS 工作负载的 WorkloadGroup 和 Sidecar

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

你将部署 ratings 应用程序作为 AWS ECS 任务，并将其加入服务网格。

创建 WorkloadGroup

执行以下命令创建一个 WorkloadGroup：

cat <<EOF | kubectl apply -f -
apiVersion: networking.istio.io/v1alpha3
kind: WorkloadGroup
metadata:
  name: ratings
  namespace: bookinfo
  labels:
    app: ratings
spec:
  template:
    labels:
      app: ratings
      class: ecs
      cloud: aws
    serviceAccount: bookinfo-ratings
EOF

字段 spec.template.serviceAccount 声明了工作负载将具有 Kubernetes 集群内的服务账号 bookinfo-ratings 的身份。服务账号 bookinfo-ratings 是在之前部署 Istio bookinfo 示例时创建的。

创建 Sidecar 配置

执行以下命令创建一个新的 Sidecar 配置：

cat <<EOF | kubectl apply -f -
apiVersion: networking.istio.io/v1beta1
kind: Sidecar
metadata:
  name: bookinfo-ratings-no-iptables
  namespace: bookinfo
spec:
  workloadSelector:                  # (1)
    labels:
      app: ratings
      class: ecs
  ingress:
  - defaultEndpoint: 127.0.0.1:9080  # (2)
    port:
      name: http
      number: 9080                   # (3)
      protocol: HTTP
  egress:
  - bind: 127.0.0.2                  # (4)
    port:
      number: 9080                   # (5)
    hosts:
    - ./*                            # (6)
EOF

上述 Sidecar 配置仅适用于具有标签 app=ratings 和 class=ecs（1）的工作负载。你已经创建的 WorkloadGroup 具有这些标签。

Istio 代理将配置为侦听 <主机 IP>:9080（3），并将传入请求转发到侦听 127.0.0.1:9080（2）的应用程序。

最后，代理将配置为侦听 127.0.0.2:9080（4）（5），以将应用程序的传出请求代理到其他服务（6），这些服务使用端口 9080（5）。

允许工作负载加入 `WorkloadGroup`

你需要创建一个 OnboardingPolicy 资源，以明确授权在 Kubernetes 外部部署的工作负载加入网格。

首先，获取你的 AWS 帐户 ID。如果不知道你的 AWS 帐户 ID，请参阅 AWS 帐户文档以获取有关如何查找你的 ID 的更多详细信息。

如果已经设置了你的 aws CLI，可以执行以下命令：

AWS_ACCOUNT_ID=$(aws sts get-caller-identity --query Account --output text)

然后，通过执行以下命令，创建一个 OnboardingPolicy，以允许你 AWS 帐户 ID 拥有的任何 AWS ECS 任务加入 bookinfo 命名空间中的任何 WorkloadGroup。将 <AWS_ACCOUNT_ID> 替换为适当的值。

cat <<EOF | kubectl apply -f -
apiVersion: authorization.onboarding.tetrate.io/v1alpha1
kind: OnboardingPolicy
metadata:
  name: allow-ecs
  namespace: bookinfo            # (1)
spec:
  allow:
  - workloads:
    - aws:
        accounts:
        - "<AWS_ACCOUNT_ID>"     # (2)
        ecs: {}                  # (3)
    onboardTo:
    - workloadGroupSelector: {}  # (4)
EOF

上述策略适用于由 (2) 中指定的帐户拥有的任何 AWS ECS 任务 (3)，并允许它们加入 bookinfo 命名空间 (1) 中的任何 WorkloadGroup (4)。

启用内部速率限制服务器

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

TSB 带有每个控制平面集群的速率限制服务器组件。默认情况下，此功能已禁用。

此部分仅讨论内部模式的安装过程，不涉及外部服务器的安装。

配置

可以通过在 ControlPlane Operator API 或 Helm 值中明确指定 rateLimitServer 组件的配置并将其应用于相关的控制平面集群来启用速率限制服务器。rateLimitServer 需要一个 Redis 后端来跟踪速率限制属性计数，并且其详细信息需要包含在配置中。

你的 Control Plane Operator 配置可能如下所示：

spec:
  ...
  components:
    rateLimitServer:
      domain: <domain>
      backend:
        redis:
          uri: <redis-uri>

注意在 components 对象中引入了 rateLimitServer。

domain 的值用于对速率限制的存储元数据进行分组。对所有 Control Planes 指定相同的 domain 将有效允许你配置跨所有集群的全局速率限制。如果使用不同的值为 domain，那么速率限制效果将仅局限于查看相同 domain 的那些集群。这假定 Control Planes 指定相同的 Redis 服务器。

我们建议你仅在同一地理区域内的集群中指定相同的域，例如 us-east。

redis-uri 的值是要使用的 Redis 实例的服务器名称和端口。你需要确保从控制平面集群能够访问此 URI。

Redis 认证

如果你的 Redis 数据库需要密码，你可以自己创建密钥：

kubectl -n istio-system create secret generic \
  redis-credentials \
  --from-literal=REDIS_AUTH=<password>

如果运行的 TSB 版本 >= 1.4.0，你可以使用 tctl install manifest control-plane-secrets 命令中的 --redis-password 参数来指定密码以生成适当的密钥。

TLS

如果你的 Redis 数据库支持传输加密（TLS），则需要通过在 redis-credentials 密钥中将 REDIS_TLS 键设置为 true 来启用 Ratelimit Redis 客户端中的 TLS。示例命令如下：

kubectl -n istio-system create secret generic \
  redis-credentials \
  --from-literal=REDIS_AUTH=<password>
  --from-literal=REDIS_TLS=true

如果运行的 TSB 版本 >= 1.5.0，你可以使用 tctl install manifest control-plane-secrets 命令中的 --redis-tls 参数来指定它以生成适当的密钥。你还可以使用 --redis-tls-ca-cert 参数指定自定义 CA 证书以验证 TLS 连接，以及使用 --redis-tls-client-key 和 --redis-tls-client-cert 参数指定 Redis 客户端密钥和证书（如果启用了客户端证书身份验证），这将在 tctl install manifest control-plane-secrets 命令中生成适当的 redis-credentials 密钥。

部署服务器

创建一个使用上述示例的清单。确保在以前的示例中省略的控制平面中包含所有必要的字段。

如果要更新现有的控制平面，你可以使用 kubectl get controlplane -n istio-system -o yaml 来获取当前的值。

将清单保存到文件中，例如 control-plane-with-rate-limiting.yaml，然后使用 kubectl 应用它：

kubectl apply -f control-plane-with-rate-limiting.yaml

要检查速率限制服务器是否在集群中正常运行，请执行以下命令：

kubectl get pods -n istio-system | grep ratelimit
ratelimit-server-864654b5b5-d77bq                       1/1     Running   2          2d1h

使用外部授权进行服务间的授权

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

Tetrate Service Bridge (TSB) 提供了授权功能，用于授权来自另一个服务的每个 HTTP 请求（“服务到服务"请求）。

TSB 支持本地授权，使用 JWT 声明，以及外部授权，后者使用在外部运行的服务来确定是否应允许或拒绝请求。外部授权可以用于网关和工作负载（通过它们的 Sidecar）。

如果你有一个独立的内部系统，或者希望与第三方授权解决方案（如 Open Policy Agent (OPA) 或 PlainID）集成，你可以决定使用外部授权系统。

本文描述了如何使用 OPA 作为示例配置服务到服务的授权。OPA 是一个开源的通用策略引擎，提供高级声明性语言，让你可以将策略规定为代码。

OPA 支持

Tetrate 不提供对 OPA 的支持。如果你需要针对你的用例支持，请查找其他支持。

在开始之前，请确保你已经完成以下步骤：

熟悉 TSB 概念
安装 TSB 环境。你可以使用 TSB 演示进行快速安装
完成了 TSB 使用快速入门。本文假设你已经创建了一个租户，并熟悉工作空间和配置组。还需要将 tctl 配置到你的 TSB 环境。

概述

下图显示了在使用外部授权系统授权服务间请求时的请求和响应流程。

期望的结果是能够从"Sleep 工作负载"向”httpbin with OPA 工作负载"发送请求，并通过 OPA 执行适当的授权检查。如果从"Sleep 工作负载"发出的请求被视为未经授权，则应返回403 Forbidden。

请注意，尽管在此示例中，你将 OPA 部署为 Pod 内的 Sidecar，但也可以将 OPA 部署为单独的 Pod。如果将 OPA 部署为单独的 Pod，你将需要自行调查在稍后指定外部系统的 URL 时使用的值。

设置服务

设置 `httpbin` 服务

首先设置"服务器端"，即图表中的"httpbin with OPA 工作负载"组件。

OPA 策略

在启动服务之前，你需要创建包含 OPA 策略的 Kubernetes Secret。

以下是你将用于授权请求的 OPA 策略示例。当以下条件满足时，它将允许请求：

存在 JWT 令牌
JWT 令牌未过期
你要访问的 URL 路径在 JWT 令牌中指定

创建一个名为 s2s-policy.rego 的文件，其内容如下：

然后将策略存储在 Kubernetes 中作为 Secret。

kubectl create namespace httpbin
kubectl create secret generic opa-policy -n httpbin --from-file s2s-policy.rego

创建带有 OPA 和 Envoy Sidecar 的 httpbin 部署

一旦你有了策略，就可以部署引用该策略的 httpbin 服务。创建一个名为 s2s-httpbin-with-opa.yaml 的文件，其内容如下：

然后使用 kubectl 应用它：

kubectl label namespace httpbin istio-injection=enabled --overwrite=true
kubectl apply -n httpbin -f s2s-httpbin-with-opa.yaml

设置 `sleep` 服务

由于你将配置服务到服务授权，因此需要一个服务作为httpbin服务的客户端。

在本示例中，你将部署一个什么都不做的服务，该服务映射到上图中的"sleep 工作负载"。稍后你将使用 kubectl exec 发出 HTTP 请求到 httpbin 服务。

创建一个名为 s2s-sleep.yaml 的文件，其内容如下：

使用 kubectl 部署此 sleep 服务：

kubectl create namespace sleep
kubectl label namespace httpbin istio-injection=enabled --overwrite=true
kubectl apply -n sleep -f s2s-sleep.yaml

测试

禁用外部授权进行测试

到目前为止，你已经部署了服务，但尚未启用外部授权。因此，来自

sleep服务到httpbin服务的请求不会检查授权。

这可以通过检查是否从sleep服务发送的 HTTP 请求导致200 OK 来看到。

要从 sleep 服务发送请求，请在sleep服务中确定要发送请求的 Pod：

export SLEEP_POD=$(kubectl get pod -n sleep -l app=sleep -o jsonpath={.items..metadata.name})

然后从此 Pod 发送请求到httpbin服务，应该可以在 http://httpbin-with-opa.httpbin:8000 处到达：

kubectl exec ${SLEEP_POD} -n sleep -c sleep  -- curl http://httpbin-with-opa.httpbin:8000/headers -s -o /dev/null -w "%{http_code}\n"

禁用外部授权时，上述命令应显示200。

启用外部授权进行测试

要查看外部授权的工作原理，你需要创建一个工作空间和安全组。

创建工作空间

创建一个名为 s2s-workspace.yaml 的文件，其内容如下。

请注意，在以下示例中，我们假设你已经使用 TSB 演示安装创建了名为demo的集群，并在其中部署了你的httpbin服务。如果你使用其他集群，请相应更改示例中的集群名称。

然后使用 tctl 应用它：

tctl apply -f s2s-workspace.yaml

创建 SecuritySettings

一旦有了工作空间，你需要为该工作空间创建 SecuritySettings 以启用外部授权。

创建一个名为 s2s-security-settings.yaml 的文件，其内容如下。

请注意，uri 指向本地地址 (grpc://127.0.0.1:9191)，因为在此示例中，OPA 服务部署在同一 Pod 中作为 Sidecar。如果你将 OPA 部署在单独的 Pod 中，你需要相应地更改 uri 的值。

然后使用 tctl 应用它：

tctl apply -f s2s-security-settings.yaml

测试授权

再次向 httpbin 服务发送请求。

使用已应用的 SecuritySettings，来自sleep服务到httpbin服务的普通请求应该失败，并显示403 Forbidden。

kubectl exec ${SLEEP_POD} -n sleep -c sleep  -- curl http://httpbin-with-opa.httpbin:8000/headers -s -o /dev/null -w "%{http_code}\n"

上述命令应显示403。

为了授权请求，你需要在请求中添加 JWT。对于此示例，我们希望附加到请求的原始 JWT 如下所示：

{
  "path": "L2hlYWRlcnM=",
  "nbf": 1500000000,
  "exp": 1900000000
}

路径声明的值为 L2hlYWRlcnM=，这是字符串 /headers 的 Base64 编码形式。

JWT 需要通过 Authorization 标头传递，这需要整个 JWT 作为 Base64 编码，如下所示。将其保存到环境变量中：

export JWT_TOKEN="eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJwYXRoIjoiTDJobFlXUmxjbk09IiwibmJmIjoxNTAwMDAwMDAwLCJleHAiOjE5MDAwMDAwMDB9.9yl8LcZdq-5UpNLm0Hn0nnoBHXXAnK4e8RSl9vn6l98"

最后，使用上述 JWT 令牌向 httpbin 服务发送请求，确保请求指向与 JWT 中的声明匹配的路径 /headers。这次你应该收到 200 OK。

kubectl exec ${SLEEP_POD} -n sleep -c sleep  -- curl http://httpbin-with-opa.httpbin:8000/headers -H "Authorization: Bearer $JWT_TOKEN" -s -o /dev/null -w "%{http_code}\n"

要检查其他路径的请求是否未经授权，请尝试发送以下请求，该请求指向路径 /get。以下命令应显示 403 Forbidden。

kubectl exec ${SLEEP_POD} -n sleep -c sleep  -- curl http://httpbin-with-opa.httpbin:8000/get -H "Authorization: Bearer $JWT_TOKEN" -s -o /dev/null -w "%{http_code}\n"

统一网关

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

本文介绍了 Tetrate Service Bridge（TSB）生态系统中统一网关的概念，解释了其重要性，并提供了详细的使用场景。

简介

统一网关是在 TSB 1.7.0 中引入的关键功能，它将Tier1Gateway和IngressGateway的功能合并到一个称为Gateway的公共资源中。这种统一简化了网关管理过程，并提供了更一致的体验。

从 TSB 1.7.0 开始，Tier1Gateway 和 IngressGateway 资源将被弃用，我们强烈建议使用 Gateway 资源满足你的所有网关需求。前 Tier1 Gateway 现在将被统称为Edge Gateway。

统一网关选项卡无缝集成到 TSB UI 中，使得任何网关的配置都变得容易，不管它是作为 Tier 1 还是 Tier 2 网关工作。

为什么需要统一网关？

在我们的旅程早期，我们认识到我们的客户对集群特定（Tier 2）和跨云供应商（Tier1）网关有不同的需求。因此，我们开发了不同的网关解决方案来满足这些不同的需求。然而，随着我们的 Gateway API 的发展和客户需求变得更加复杂，我们不断增强 Tier1 网关的能力的需求变得明显。

这种发展带来了挑战——持续的工程努力、客户教育何时选择 Tier1 或 Tier2 以及维护并行代码库。我们已经着手开展一项开创性的工作：统一网关，以简化这些复杂性并提供更一致的体验。

统一网关的优势

统一网关不仅是 Tier 1 和 Tier 2 网关的融合，它是网关管理的范式转变。以下是你需要了解这个变革性解决方案的内容：

全面的功能

统一网关结合了 TSB 版本 1.6.X 中 Tier 1 和 Tier 2 网关的强大功能，确保你获得最佳的两个世界。无论是处理重试、故障转移还是任何其他高级功能，统一网关都可以为你提供支持，无论它是作为 Tier 1 还是 Tier 2 网关配置的。

无缝过渡

对于我们现有的客户，我们了解连续性的重要性。不用担心，你的 Tier 1 和 Tier 2 网关将继续像往常一样使用 1.6.X 版本提供的功能。但我们不会止步于此。我们正在引入一个无缝的过渡过程，将你现有的网关过渡到统一网关模型，增强 Tier 1 功能，如重试等等。

统一网关的新 API

拥抱创新并不意味着忽略过去。在为新机遇引入新的统一网关 API 的同时，我们致力于支持后续三个 TSB 版本的先前 API。这确保你可以按照自己的节奏切换，而不会受到干扰。

授权直连模式

统一网关不仅仅是网关，而是赋能。新老客户都可以通过直连模式发挥网关 API 的全部功能，从而对其网格基础设施获得无与伦比的控制和自定义。

与 Open API 策略相符

我们相信开放标准的力量。统一网关与我们的开放 API 策略完美契合，使你可以使用标准化的 Open API 规范配置统一网关。这种方法促进了一致性，并简化了与现有工具链的集成。

使用案例

让我们深入了解统一网关的使用场景。

准备集群

下图显示了我们在本文档中使用的部署架构。我们在 GKE 中创建了 3 个集群，在其中一个集群中部署了 TSB，将另外三个集群加载到了 TSB 中，并在基础设施下的集群中部署了 bookinfo 应用程序。

下表描述了这些集群的角色和应用程序：

集群	gke-jimmy-us-central1-1	gke-jimmy-us-west1-1	gke-jimmy-us-west1-2	gke-jimmy-us-west2-3
Region	`us-central1`	`us-west1`	`us-west1`	`us-west2`
TSB 角色	Management Plane	Control Plane	Control Plane	Control Plane
Application	-	`bookinfo-frontend`	`bookinfo-backend`	`httpbin`
Services	-	`productpage`	`productpage`, `ratings`, `reviews`, `details`	`httpbin`
Network	`tier1`	`cp-cluster-1`	`cp-cluster-2`	`cp-cluster-3`

本节介绍了统一网关的使用场景。

在这种情况下，我们将使用 Gateway 资源来公开bookinfo.tetrate.io和httpbin.tetrate.io。我们将利用基于 Gateway 的集群路由功能，根据 Gateway 上的路径前缀将 bookinfo 前端服务路由到 cp-cluster-1，将其他后端服务路由到 cp-cluster-2。使用 Gateway，用户可以公开多个具有 clusterDestination 的主机，只要主机：端口组合是唯一的即可。

部署拓扑和流量路由

我们设置了以下部署拓扑：

Tier 1 集群：该集群用作外部流量的入口点，并将其路由到相应的后端集群。
后端集群：有三个后端集群，每个集群托管不同的服务：
1. cp-cluster-1托管“Bookinfo”应用程序的前端服务。
2. cp-cluster-2托管“Bookinfo”应用程序的后端服务。
3. cp-cluster-3托管名为httpbin的 HTTP 服务。

配置

1. Tier 1 集群网关（边缘网关）：

在 tier1 集群中，我们部署了一个名为 edge-gateway 的网关。该网关接收传入的流量，并根据主机和路径前缀将其路由到适当的后端集群。

以下是路由请求到“Bookinfo”前端和后端服务的配置摘录：

apiVersion: gateway.tsb.tetrate.io/v2
 kind: Gateway
 metadata:
   name: edge-gateway
   namespace: tier1
   annotations:
     tsb.tetrate.io/organization: tetrate
     tsb.tetrate.io/tenant: tier1
     tsb.tetrate.io/workspace: tier1
     tsb.tetrate.io/gatewayGroup: edge-gateway-group
 spec:
   workloadSelector:
     namespace: tier1
     labels:
       app: edge-gateway
   http:
   - name: bookinfo
     hostname: bookinfo.tetrate.io
     port: 80
     routing:
       rules:
         - match:
             - uri:
                 prefix: "/productpage"
               headers:
                 X-CLUSTER-SELECTOR:
                   exact: gke-jimmy-us-west1-1
           route:
             clusterDestination:
               clusters:
                 - name: gke-jimmy-us-west1-1
                   weight: 100
         - match:
             - uri:
                 prefix: "/productpage"
               headers:
                 X-CLUSTER-SELECTOR:
                   exact: gke-jimmy-us-west1-2
           route:
             clusterDestination:
               clusters:
                 - name: gke-jimmy-us-west1-2
                   weight: 100
         - match:
             - uri:
                 prefix: "/productpage"
           route:
             clusterDestination:
               clusters:
                 - name: gke-jimmy-us-west1-1
                   weight: 100
         - match:
             - uri:
                 prefix: "/api/v1/products"
           route:
             clusterDestination:
               clusters:
                 - name: gke-jimmy-us-west1-2
                   weight: 100
   - name: httpbin
     hostname: httpbin.tetrate.io
     port: 80
     routing:
       rules:
         - route:
             clusterDestination:
               clusters:
                 - name: gke-jimmy-us-west2-3
                   weight: 100

这些规则确保带有不同路径前缀的对 bookinfo.tetrate.io 的请求被路由到适当的后端集群。同样，请求到 httpbin.tetrate.io 的流量被重定向到 cp-cluster-3。

2. 后端集群中的入口网关

在每个后端集群（cp-cluster-1、cp-cluster-2 和 cp-cluster-3）中，我们部署了入口网关，以接收来自 tier1 集群的流量，并将其路由到相应的服务。

以下是 cp-cluster-1 中 Ingress Gateway 的示例配置：

apiVersion: gateway.tsb.tetrate.io/v2
kind: Gateway
metadata:
  name: bookinfo-ingress-gateway
spec:
  # ... (metadata and selectors)
  http:
    - hostname: bookinfo.tetrate.io
      name: bookinfo-tetrate
      port: 80
      routing:
        rules:
          - route:
              serviceDestination:
                host: bookinfo-frontend/productpage.bookinfo-frontend.svc.cluster.local

这个配置可以确保在 cp-cluster-1 中收到的 bookinfo.tetrate.io 的 Ingress Gateway 的流量被路由到前端服务。

验证

我们可以使用像 curl 这样的工具请求公开的服务以验证设置。例如，要测试 /productpage：

export GATEWAY_IP=$(kubectl -n tier1 get service edge-gateway -o jsonpath='{.status.loadBalancer.ingress[0].ip}')

curl -Ss "<http://bookinfo.tetrate.io/productpage>" --resolve "bookinfo.tetrate.io:80:$GATEWAY_IP" -v

同样，你可以根据定义的路由规则测试其他路由和服务。

场景 2：主机路由与网关标头重写

此场景展示了统一网关的权限重写或标头重写功能。我们在 tier1 集群中部署边缘网关，以在不同集群之间路由流量，并使用 IngressGateways 为每个控制平面集群接收流量。

部署拓扑和流量路由

我们已经设置了以下部署拓扑：

Tier 1 Cluster： 该集群作为外部流量的入口点，并将其路由到相应的后端集群。
后端集群：

有三个后端集群，每个集群托管不同的服务：
1. cp-cluster-1 托管"Bookinfo"应用程序的前端服务。
2. cp-cluster-2 托管"Bookinfo"应用程序的后端服务。

配置

1. Tier 1 Cluster Gateway (tier1-gateway)

在 Tier 1 集群中，我们部署名为 tier1-gateway 的网关。此网关接收传入流量并根据主机和路径前缀将其路由到适当的后端集群。此外，它会为特定路由执行主机标头重写。

以下是用于使用标头重写路由到"Bookinfo"前端和后端服务的配置片段：

apiVersion: gateway.tsb.tetrate.io/v2
kind: Gateway
metadata:
  name: tier1-gateway
  namespace: tier1
spec:
  # ... (metadata and selectors)
  http:
  - name: bookinfo
    hostname: bookinfo.tetrate.io
    port: 80
    routing:
      rules:
        - match:
            - uri:
                prefix: "/productpage"
          modify:
            rewrite:
              authority: 'internal-bookinfo-frontend.tetrate.io'
          route:
            clusterDestination:
              clusters:
                - name: gke-jimmy-us-west1-1
                  weight: 100
        - match:
            - uri:
                prefix: "/api/v1/products"
          modify:
            rewrite:
              authority: 'internal-bookinfo-backend.tetrate.io'
          route:
            clusterDestination:
              clusters:
                - name: gke-jimmy-us-west1-2
                  weight: 100

这些规则确保将对具有不同路径前缀的 bookinfo.tetrate.io 的请求路由到适当的后端集群。此外，对于这些路由，主机标头将被重写。

2. 后端集群中的 Ingress Gateways

在每个后端集群 (cp-cluster-1 和 cp-cluster-2) 中，我们部署 Ingress Gateways 以从 tier1 集群接收流量并将其路由到相应的服务。这些 Ingress Gateways 监听重写后的主机标头。

以下是 cp-cluster-1 中 Ingress Gateway 配置的示例：

apiVersion: gateway.tsb.tetrate.io/v2
kind: Gateway
metadata:
  name: bookinfo-ingress-gateway
  annotations:
    tsb.tetrate.io/organization: tetrate
    tsb.tetrate.io/tenant: payment
    tsb.tetrate.io/workspace: bookinfo-frontend-ws
spec:
  displayName: Bookinfo Ingress
  workloadSelector:
    namespace: bookinfo-frontend
    labels:
      app: bookinfo-gateway
  http:
    - hostname: internal-bookinfo-frontend.tetrate.io
      name: bookinfo-tetrate
      port: 80
      routing:
        rules:
          - route:
              serviceDestination:
                host: bookinfo-frontend/productpage.bookinfo-frontend.svc.cluster.local

此配置可确保 cp-cluster-1 中的 Ingress Gateway 收到具有重写后的主机标头的流量时，将其路由到前端服务。

验证

我们可以使用 curl 等工具请求已公开的服务以验证设置。例如，要测试 /productpage:

export GATEWAY_IP=$(kubectl -n tier1 get service tier1-gateway -o jsonpath='{.status.loadBalancer.ingress[0].ip}')

curl -Ss "<http://bookinfo.tetrate.io/productpage>" --resolve "bookinfo.tetrate.io:80:$GATEWAY_IP" -v

类似地，你可以根据定义的路由规则测试其他路由和服务。

场景 3：使用 TSB 应用和 OpenAPI 规范创建 UnifiedGateway

此场景演示了如何使用 OpenAPI 规范和 Tetrate Service Bridge (TSB) 为 Tier 1 和 Tier 2 用例创建 Unified Gateways。此方法允许你使用 OpenAPI 规范定义应用程序的流量路由。

部署拓扑和流量路由

我们的目标是使用 OpenAPI 规范为流量路由配置一个统一网关。以下图说明了部署拓扑和路由设置：

配置步骤

Tier 1 集群配置

在 tier1 集群中，我们使用 OpenAPI 规范配置 Application 和 API 资源。这些配置使用 x-tsb-clusters 注释进行基于集群的路由以公开 bookinfo.tetrate.io。
```
x-tsb-clusters:
  clusters:
    - name: gke-jimmy-us-west1-2
      weight: 100
```
此配置将流量路由到在 x-tsb-clusters 注释中指定的多个 Tier 2 集群。
Tier 2 集群配置

在 Tier 2 集群 (cp-cluster-2 在此场景中)，我们使用基于服务的路由配置 Application 和 API 资源以公开 bookinfo.tetrate.io。此配置使用 x-tsb-service 注释来路由到 productpage.bookinfo-backend 服务。
```
x-tsb-service: productpage.bookinfo-backend
```

验证

要验证路由设置，你可以使用 curl 等工具向公开服务发出请求。例如，要测试 /api/v1/products/* 路由：

# Export the Load Balancer IP of the tier1-gateway
export GATEWAY_IP=$(kubectl -n tier1 get service tier1-gateway -o jsonpath='{.status.loadBalancer.ingress[0].ip}')

# Send a request to the API
curl -Ss "<http://bookinfo.tetrate.io/api/v1/products/1/reviews>" --resolve "bookinfo.tetrate.io:80:$GATEWAY_IP" -v

场景 4：实现 HTTP 到 HTTPS 重定向

此场景演示了如何配置 Gateway 资源以实现 HTTP 到 HTTPS 重定向。这对于通过 HTTPS 安全地公开服务并支持使用普通 HTTP 的传统应用程序非常有用。

部署拓扑

我们的目标是在端口 80 上使用明文 (HTTP) 公开 bookinfo.tetrate.io，并在端口 443 (HTTPS) 上配置 HTTP 到 HTTPS 重定向，以确保安全通信。以下图说明了部署拓扑和路由设置：

配置步骤

Tier 1 集群配置

在 tier1 集群中，我们创建一个名为 tier1-gateway 的 Gateway 资源。此网关负责 HTTP 到 HTTPS 重定向。我们指定两个 HTTP 监听器：

bookinfo-plaintext：该监听器在端口 80 上侦听并处理 bookinfo.tetrate.io 的请求。它使用 301 重定向代码将请求重定向到端口 443 (HTTPS)。

bookinfo：该监听器在端口 443 (HTTPS) 上侦听以进行安全通信。它使用 TLS，使用名为 bookinfo-certs 的 secret。

apiVersion: gateway.tsb.tetrate.io/v2
kind: Gateway
metadata:
  name: tier1-gateway
  namespace: tier1
  annotations:
    tsb.tetrate.io/organization: tetrate
    tsb.tetrate.io/tenant: tier1
    tsb.tetrate.io/workspace: tier1
    tsb.tetrate.io/gatewayGroup: tier1-gateway-group
spec:
  workloadSelector:
    namespace: tier1
    labels:
      app: tier1-gateway
  http:
  - name: bookinfo-plaintext
    port: 80
    hostname: bookinfo.tetrate.io
    routing:
      rules:
        - redirect:
            authority: bookinfo.tetrate.io
            port: 443
            redirectCode: 301
            scheme: https
  - name: bookinfo
    hostname: bookinfo.tetrate.io
    port: 443
    tls:
      mode: SIMPLE
      secretName: bookinfo-certs
    routing:
      rules:
        - match:
            - uri:
                prefix: "/productpage"
          route:
            clusterDestination:
              clusters:
                - name: gke-jimmy-us-west1-2
                  weight: 100

Tier 2 集群配置

在 Tier 2 集群 (cp-cluster-2 在此场景中)，我们配置了 eastWestOnly: true 的 IngressGateway。此设置仅公开 mTLS 15443 多集群端口。我们还使用名为 bookinfo-ingress-gateway 的 Gateway 资源来路由请求。

apiVersion: install.tetrate.io/v1alpha1
kind: IngressGateway
metadata:
  name: bookinfo-gateway
spec:
  eastWestOnly: true
  kubeSpec:
    service:
      type: LoadBalancer
apiVersion: gateway.tsb.tetrate.io/v2
kind: Gateway
metadata:
  name: bookinfo-ingress-gateway
  annotations:
    tsb.tetrate.io/organization: tetrate
    tsb.tetrate.io/tenant: payment
    tsb.tetrate.io/workspace: bookinfo-backend-ws
    tsb.tetrate.io/gatewayGroup: bookinfo-gg
spec:
  displayName: Bookinfo Ingress
  workloadSelector:
    namespace: bookinfo-backend
    labels:
      app: bookinfo-gateway
  http:
    - hostname: bookinfo.tetrate.io
      name: bookinfo-tetrate
      routing:
        rules:
          - route:
              serviceDestination:
                host: bookinfo-backend/productpage.bookinfo-backend.svc.cluster.local

验证

要验证 HTTP 到 HTTPS 重定向，请执行以下操作：

要在浏览器中查看重定向，你需要更新你的 /etc/hosts 文件，以使 bookinfo.tetrate.io 解析为你的 Edge Gateway IP：

export GATEWAY_IP=$(kubectl -n tier1 get service tier1-gateway -o jsonpath='{.status.loadBalancer.ingress[0].ip}')
echo "$GATEWAY_IP bookinfo.tetrate.io" | sudo tee -a /etc/hosts

在浏览器中访问 http://bookinfo.tetrate.io/productpage。你应该会自动重定向到 https://bookinfo.tetrate.io/productpage，以确保安全通信。

场景 5：配置外部服务

在此场景中，我们使用统一网关为转发外部服务流量配置专用出口网关。我们在 httpbin 命名空间中部署 IngressGateway (在两个集群中都部署) 并设置 ServiceEntry 以定义外部服务。

部署拓扑

此部署涉及创建一个新的 httpbin 命名空间和两个集群 (cp-cluster-1 和 cp-cluster-2) 中的 IngressGateway。为了使这些集群能够访问外部服务 httpbin.org，我们在两个集群中添加了一个 ServiceEntry，并将网关配置为覆盖请求的权限。

配置步骤

创建 ServiceEntry 和 IstioInternalGroup

使用 ServiceEntry 定义一个外部服务，并将其与 IstioInternalGroup 相关联。此配置使集群能够访问 httpbin.org。我们在两个集群中创建这些资源。

apiVersion: v1
kind: List
items:
  - apiVersion: tsb.tetrate.io/v2
    kind: Workspace
    metadata:
      name: httpbin-ws
      annotations:
        tsb.tetrate.io/organization: tetrate
        tsb.tetrate.io/tenant: payment
    spec:
      namespaceSelector:
        names:
          - "gke-jimmy-us-west1-1/httpbin"
          - "gke-jimmy-us-west1-2/httpbin"
      displayName: httpbin-ws
  - apiVersion: istiointernal.tsb.tetrate.io/v2
    kind: Group
    metadata:
      name: httpbin-internal-gp
      annotations:
        tsb.tetrate.io/organization: tetrate
        tsb.tetrate.io/tenant: payment
        tsb.tetrate.io/workspace: httpbin-ws
    spec:
      namespaceSelector:
        names:
          - "gke-jimmy-us-west1-1/httpbin"
          - "gke-jimmy-us-west1-2/httpbin"
  - apiVersion: networking.istio.io/v1beta1
    kind: ServiceEntry
    metadata:
      name: httpbin-external-svc
      annotations:
        tsb.tetrate.io/organization: tetrate
        tsb.tetrate.io/tenant: payment
        tsb.tetrate.io/workspace: httpbin-ws
        tsb.tetrate.io/istioInternalGroup: httpbin-internal-gp
      labels:
        istio.io/rev: tsb
    spec:
      hosts:
        - httpbin.org
      exportTo:
        - "."
      location: MESH_EXTERNAL
      ports:
        - number: 443
          name: https
          protocol: HTTPS
      resolution: DNS

应用 Gateway 配置

配置 Gateway 资源以将请求从 httpbin.tetrate.io 重写为 httpbin.org。我们在 cp-cluster-1 和 cp-cluster-2 两个集群中设置了这个配置。

- apiVersion: gateway.tsb.tetrate.io/v2
  kind: Gateway
  metadata:
    name: httpbin-ingress-gateway
    annotations:
      tsb.tetrate.io/organization: tetrate
      tsb.tetrate.io/tenant: payment
      tsb.tetrate.io/workspace: httpbin-ws
      tsb.tetrate.io/gatewayGroup: httpbin-gg
  spec:
    displayName: Httpbin Ingress
    workloadSelector:
      namespace: httpbin
      labels:
        app: httpbin-gateway
    http:
      - hostname: httpbin.tetrate.io
        name: httpbin-tetrate
        port: 80
        routing:
          rules:
            - modify:
                rewrite:
                  authority: httpbin.org
              route:
                serviceDestination:
                  host: httpbin/httpbin.org
                  tls:
                    mode: SIMPLE
                    files:
                      caCertificates: "/etc/ssl/certs/ca-certificates.crt"

验证

要验证此配置，你可以按照以下步骤操作：

要获取两个集群中 IngressGateway 的 IP 地址，请在每个集群中运行以下命令：

export GATEWAY_IP=$(kubectl -n httpbin get service httpbin-gateway -o jsonpath='{.status.loadBalancer.ingress[0].ip}')

使用两个网关通过代理访问 httpbin.org，执行以下命令：

curl -v '<http://httpbin.tetrate.io/get>' --resolve "httpbin.tetrate.io:80:$G

先决条件和下载

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

本页面提供了开始使用 Tetrate Service Bridge（TSB）安装所需的先决条件和下载说明的全面概述。

要有效地管理 TSB 服务网格，需要对 Kubernetes 和 Docker 仓库操作有深入的了解。我们建议咨询它们各自的支持文档以获取额外的指导。

先决条件

你可以安装用于生产的 TSB，也可以安装用于演示配置文件以快速了解 TSB。请查看以下表格中的每个要求：

项目	生产 TSB	演示/快速入门 TSB
Kubernetes 集群： EKS 1.21 - 1.24 GKE 1.21 - 1.24 AKS 1.21 - 1.24（包括 Azure Stack HCI） OpenShift 4.7 - 4.11 Docker UCP 3.2.5 或更高版本	✓	✓
Docker UCP 3.2.5 或更高版本	✓	✓
私有 Docker 注册表（HTTPS）	✓	✓
Tetrate 存储库帐户和 API 密钥（如果你尚未拥有此内容，请联系 Tetrate）	✓	✓
Docker 引擎 18.03.01 或更高版本，具有对私有 Docker 注册表的推送访问权限	✓	✓
PostgreSQL 11.1 或更高版本	✓	打包（v14.4）
Elasticsearch 6.x 或 7.x	✓	打包（v7.8.1）
Redis 6.2 或更高版本	✓	打包（v7.0.5）
LDAP 服务器或 OIDC 提供程序	✓	打包（OpenLDAP v2.6）
Cert-manager： cert-manager v1.7.2 或更高版本	✓	打包（cert-manager v1.10.0）

cert-manager 用法

cert-manager 用于为 TSB webhook、TSB 内部通信和 Istio 控制平面与外部 CA 集成等颁发和管理证书。

cert-manager 版本

cert-manager 1.4.0 是使用 TSB 1.5 所需的最低版本。它具有特性标志，用于签署 K8S CSR 请求，支持 Kubernetes 1.16-1.21。前往cert-manager 受支持的版本以获取有关受支持的 Kubernetes 和 OpenShift 版本的更多信息。

生产安装注意事项

你的 Kubernetes 集群的大小取决于平台部署要求。基本的 TSB 安装不会消耗太多额外的资源。存储的大小非常取决于应用程序集群的大小、工作负载的数量（及其请求率）以及可观测性配置（采样率、数据保留期等）。有关更多信息，请参见我们的容量规划指南。

当运行自托管时，你的组织可能会对上述环境和应用程序施加额外的（安全）限制、可用性和灾难恢复要求。有关如何调整 TSB 安装和配置的详细信息，请参阅 Operator 参考指南以及我们的文档中的操作任务部分，在其中可以找到有关配置选项、常见部署方案和解决方案的描述。

身份标识提供者

TSB 需要标识提供程序（IdP）作为用户来源。此标识提供程序用于用户身份验证以及定期将现有用户和组的信息同步到平台中。TSB 可以与 LDAP 或任何符合 OIDC 的标识提供程序集成。

要使用 LDAP，你必须弄清楚如何查询 LDAP，以便 TSB 可以将其用于身份验证和用户和组的同步。有关 LDAP 配置的更多详细信息，请参见 LDAP 作为标识提供程序。

要使用 OIDC，请在你的 IdP 中创建 OIDC 客户端。启用授权代码流以使用 UI 登录，并启用设备授权以使用设备代码使用 tctl 登录。有关更多信息和示例，请参见如何设置 Azure AD 作为 TSB 标识提供程序。

OIDC IdP 同步

TSB 支持 Azure AD 用于同步用户和组。如果你使用其他 IdP，则必须创建同步作业，将从你的 IdP 获取用户和团队并使用同步 API 将它们同步到 TSB 中。有关更多详细信息，请参见用户同步。

数据和遥测存储

TSB 需要外部数据和遥测存储。TSB 使用 PostgreSQL 作为数据存储和 Elasticsearch 作为遥测存储。

Demo 存储

演示安装将部署 PostgreSQL、Elasticsearch 和 LDAP 服务器作为标识提供程序，其中填充了模拟用户和团队。演示存储不适用于生产使用。请确保为你的生产环境提供适当的 PostgreSQL、Elasticsearch 和标识提供程序。

证书提供者

TSB 1.5 需要证书提供者来支持内部 TSB 组件的证书颁发，例如 Webhook 证书和其他用途。此证书提供者必须在管理平面集群和所有控制平面集群中都可用。

TSB 支持cert-manager作为其中一个受支持的提供者。它可以为你管理cert-manager安装的生命周期。要在集群中配置cert-manager的安装，请将以下部分作为ManagementPlane或ControlPlane CR 的一部分添加：

   components:
     internalCertProvider:
       certManager:
         managed: INTERNAL

你还可以使用任何支持kube-CSR API 的证书提供者。要使用自定义提供者，请参阅以下部分 Internal Cert Provider

现有的 cert-manager 安装

如果你已经使用 cert-manager 作为集群的一部分，则可以将ManagementPlane或ControlPlane CR 中的managed字段设置为EXTERNAL，使 TSB 利用现有的 cert-manager 安装。如果将managed字段设置为INTERNAL，则 TSB Operator 会在找到已安装的 cert-manager 时失败，以确保它不覆盖现有的 cert-manager 安装。

cert-manager Kube-CSR

TSB 使用 kubernetes CSR 资源为各种 Webhook 颁发证书。如果你的配置使用外部 cert-manager 安装，请确保 cert-manager 可以签署 Kubernetes CSR 请求。例如，在 cert-manager 1.7.2 中，通过设置此特性标志 ExperimentalCertificateSigningRequestControllers=true启用此功能。对于使用内部托管的 cert-manager 的 TSB 管理安装，此配置已作为安装的一部分设置。

下载 tctl

设置 TSB 的初始步骤是安装我们的 TSB CLI 工具，称为tctl。使用tctl，你可以执行 TSB 安装（或升级），使用 YAML 对象与 TSB API 进行交互，并将 TSB 无缝集成到 GitOps 工作流程中。

请按照 CLI 参考页面中概述的说明下载和安装tctl。

同步 Tetrate Service Bridge 镜像

安装了tctl之后，你可以检索必要的容器镜像并将它们上传到你的私有 Docker 注册表。tctl工具通过image-sync命令简化了此过程，该命令下载与当前tctl版本对应的镜像版本，并将其推送到你的 Docker 注册表。使用你的 Tetrate 存储库帐户凭据和指定你的私有 Docker 注册表的registry参数使用username和apikey参数。

tctl install image-sync --username <user-name> \    --apikey <api-key> --registry <registry-location>

在初始执行期间，你需要接受最终用户许可协议（EULA）。如果你在没有交互式终端访问权限的环境中运行 TSB 安装，例如 CI / CD 流程，请将--accept-eula标志附加到上述命令中。

在 Kind 集群中加载演示镜像

对于本地kind集群中的demo配置文件安装，请使用以下命令直接将镜像加载到 kind 节点中：

#使用我们的“用户名”和“apikey”登录到Docker注册表
docker login containers.dl.tetrate.io

#拉取所有docker镜像
for i in `tctl install image-sync --just-print --raw` ; do docker pull $i ; done

#将镜像加载到kind节点中
for i in `tctl install image-sync --just-print --raw` ; do kind load docker-image $i ; done

安装

集群配置文件

在操作多集群 TSB 环境时，与多个 Kubernetes 集群的交互变得普遍。虽然文档没有明确引用kubectl配置上下文和tctl config 配置文件，但这些选择是特定于环境的。确保选择了正确的kubectl上下文和tctl配置文件作为默认值，或在使用这些工具执行命令时使用显式参数。

要使用 Helm Chart 继续进行安装，请参阅 Helm 安装指南。

要使用tctl进行安装，请继续查看 tctl 安装指南。

有关演示安装过程的详细说明，请转到演示安装指南。

演示安装

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

本指南将引导你完成 TSB 演示配置文件的安装，该配置文件旨在快速概述 TSB 的功能。演示配置文件包括 PostgreSQL、Elasticsearch 和 LDAP，所有这些都在 Kubernetes 集群上进行编排。为了确保无缝体验，你的集群应包含 3-6 个节点，每个节点至少配备 4 个 vCPU 和 16 GB 内存。集群还必须建立默认存储类，并能够为 Elasticsearch 和 PostgreSQL 创建最小容量为 100 GB 的持久卷声明。

在继续之前，请参阅 TSB 支持政策来验证与你的 Kubernetes 版本的兼容性。

先决条件

要安装演示配置文件，请确保你已完成以下步骤：

1. 获取 `tctl` 并同步镜像

首先按照下载部分中概述的步骤下载 tctl 。此外，按照同步容器镜像中所述同步所需的容器镜像。

2. 设置 Kubernetes 集群

准备一个要安装演示配置文件的 Kubernetes 集群。创建集群的具体步骤取决于你的环境。有关创建 Kubernetes 集群的具体说明，请参阅你的环境手册。

使用 kind

如果你使用 kind 集群进行安装，请按照以下步骤操作：

创建类型集群后，安装 MetalLB 以使 TSB 能够使用 LoadBalancer 类型的服务。
配置 L2 网络，指定 kind Docker 网络 IP 范围内的 IP 地址范围。

安装

请按照以下步骤安装演示配置文件：

1.执行 `tctl install demo`

确保你的 Kubernetes 上下文设置为目标集群。使用 tctl install demo 命令，该命令利用 kubectl 配置中的 current-context 。在继续之前，请确认引用了正确的 Kubernetes 集群。

运行安装命令，如下所示。你可以使用 --admin-password 选项（自版本 1.4.0 起可用）提供管理员密码。或者，将为你生成一个密码。

tctl install demo \
  --registry <registry-location> \
  --admin-password <password>

安装注意事项

在某些资源受限或负载较重的环境中，安装时间可能比预期长，并且 tctl 工具可能会退出。 tctl install demo 命令是幂等的，允许你重新运行它，直到安装完成。

成功安装后，你的 Kubernetes 集群将托管管理和控制平面，并将创建一个名为 tetrate 的组织。

访问网络用户界面

要访问 TSB Web UI，请执行以下步骤：

从演示安装命令的输出中获取 URL 和凭据。查找类似于以下内容的输出：

Controlplane installed successfully!
Management Plane UI accessible at: https://31.224.214.68:8443
Admin credentials: username: admin, password: yGWx1s!Y@&-KBe0V

使用提供的 URL 和管理凭据登录 Web UI。

提示

即使你跳过快速入门，也请考虑创建租户，因为遵循本网站上的示例可能需要它。

进一步配置

有关演示安装的其他自定义（例如载入集群），请参阅载入集群指南。

演示环境

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

创建一个简单的示例，包括两个工作负载集群和一个边缘网关集群。

在这个示例中，我们将配置三个 Kubernetes 集群：

集群 cluster-1 和 cluster-2 将作为工作负载集群，每个集群都有一个 bookinfo 应用程序实例和一个 Ingress Gateway 用于公开应用程序
集群 cluster-edge 将托管前端边缘（“Tier-1”）网关，该网关将接收流量并分发到工作负载集群中的 Ingress Gateway

开始之前

在配置中有一些移动部分，因此在继续之前，识别并命名每个部分会很有帮助：

	cluster-1	cluster-2	cluster-edge
AWS 区域：	eu-west-1	eu-west-2	eu-west-1
命名空间：	bookinfo	bookinfo	edge
工作区：	bookinfo-ws	bookinfo-ws	edge-ws
网络：	app-network	app-network	edge-network
网关组：	bookinfo-gwgroup-1	bookinfo-gwgroup-2	edge-gwgroup
Ingress 网关：	ingressgw-1	ingressgw-2	edgegw
网关资源：	bookinfo-ingress-1	bookinfo-ingress-2	bookinfo-edge
Kubectl 上下文别名：	`k1`	`k2`	`k3`

确保 cluster-1 和 cluster-edge 位于同一个区域，而 cluster-2 位于另一个区域；在测试集群故障转移时，这将会很有用。

在这个示例中，我们将使用组织 tse 和租户 tse。如果你使用 Tetrate Service Bridge (TSB)，请修改 Tetrate 配置以匹配你的组织层次结构。

管理多个集群

在处理多个 Kubernetes 集群时，为每个集群的 kubectl 命令创建一个别名可能很有用。例如，对于 AWS 上下文，你可以执行以下操作：

alias k1='kubectl --context arn:aws:eks:eu-west-1:901234567890:cluster/my-cluster-1'

在应用 Tetrate 配置时，不需要执行此操作，Tetrate 配置可以使用 tctl 应用，或者与支持 GitOps 集成的任何 Kubernetes 集群。

先决条件

我们将假设以下初始配置：

集群 cluster-1、cluster-2 和 cluster-edge 已经加入 Tetrate 平台，无论是 TSE 还是 TSB
在每个集群上部署了任何必要的集成（例如 AWS 负载均衡控制器）
如果使用 Tetrate Service Express，已在 cluster-edge 上部署了 Route 53 控制器

步骤：

创建 Tetrate 配置：创建 Tetrate 工作区、网络和网关组
在 cluster-1 中部署 bookinfo：在第一个集群中部署 bookinfo。部署一个 Ingress Gateway 和一个 Gateway 资源。
在 cluster-2 中部署 bookinfo：重复，在第二个集群中部署 bookinfo。部署一个 Ingress Gateway 和一个 Gateway 资源。
配置 Edge Gateway：在 Edge 集群中部署 Edge Gateway 和一个 Gateway 资源。如有必要，配置 DNS 并测试结果。

创建演示环境

创建 Tetrate 配置

我们将：

为两个工作负载集群创建一个工作区，每个集群都有一个网关组
为边缘集群创建一个工作区和网关组
配置 cluster-edge 为 Tier-1 集群
定义 Tetrate 网络和可达性配置

我们如何做...

创建工作负载集群的配置

创建一个横跨两个工作负载集群的工作区 bookinfo-ws，以及每个集群的网关组。

cat <<EOF > bookinfo-ws.yaml
apiversion: api.tsb.tetrate.io/v2
kind: Workspace
metadata:
  organization: tse
  tenant: tse
  name: bookinfo-ws
spec:
  displayName: Bookinfo
  description: Test Bookinfo application
  namespaceSelector:
    names:
      - "cluster-1/bookinfo"
      - "cluster-2/bookinfo"
EOF

tctl apply -f bookinfo-ws.yaml


cat <<EOF > bookinfo-gwgroup-1.yaml
apiVersion: gateway.tsb.tetrate.io/v2
kind: Group
metadata:
  organization: tse
  tenant: tse
  workspace: bookinfo-ws
  name: bookinfo-gwgroup-1
spec:
  namespaceSelector:
    names:
      - "cluster-1/bookinfo"
EOF

tctl apply -f bookinfo-gwgroup-1.yaml


cat <<EOF > bookinfo-gwgroup-2.yaml
apiVersion: gateway.tsb.tetrate.io/v2
kind: Group
metadata:
  organization: tse
  tenant: tse
  workspace: bookinfo-ws
  name: bookinfo-gwgroup-2
spec:
  namespaceSelector:
    names:
      - "cluster-2/bookinfo"
EOF

tctl apply -f bookinfo-gwgroup-2.yaml

创建边缘集群的配置

创建一个工作区 edge-ws 和一个边缘集群的网关组：

cat <<EOF > edge-ws.yaml
apiversion: api.tsb.tetrate.io/v2
kind: Workspace
metadata:
  organization: tse
  tenant: tse
  name: edge-ws
spec:
  namespaceSelector:
    names:
      - "cluster-edge/edge"
EOF

tctl apply -f edge-ws.yaml


cat <<EOF > edge-gwgroup.yaml
apiVersion: gateway.tsb.tetrate.io/v2
kind: Group
metadata:
  tenant: tse
  organization: tse
  workspace: edge-ws
  name: edge-gwgroup
spec:
  namespaceSelector:
    names:
      - 'cluster-edge/edge'
EOF

tctl apply -f edge-gwgroup.yaml

配置边缘集群为 Tier-1 集群

设置 Edge 集群的 “Is Tier 1” 标志。

通常，使用 Tetrate UI 更容易配置集群设置：

导航到 Clusters。编辑 cluster-edge 并将 ‘Tier 1 Cluster?’ 字段设置为 Yes。保存更改：

更新 cluster-edge 的 Cluster 配置，添加键 spec: tier1Cluster: 如下所示：

apiVersion: api.tsb.tetrate.io/v2
kind: Cluster
metadata:
  name: cluster-edge
  organization: tse
spec:
# highlight-next-line
  tier1Cluster: true

配置网络和可达性设置

Tetrate 平台使用网络设置来分组一组集群并定义访问控制列表。如果一个集群没有分配到网络，那么任何其他集群都可以访问该集群。在大规模操作时，网络设置提供了一种高级方式来标识一组集群并定义允许的流量。

我们将：

将 cluster-edge 分配给网络 Edge-Network
将 cluster-1 和 cluster-2 分配给网络 App-Network
定义可达性设置，以便 Edge-Network 可以向 App-Network 发送流量

通常，使用 Tetrate UI 配置网络设置更容易：

分配网络

导航到 Clusters。编辑 cluster-edge 并将 Network 字段设置为值 Edge-Network。保存更改：

对于集群 cluster-1 和 cluster-2，重复此步骤，将它们分配到网络 App-Network。

定义可达性

导航到 Settings 和 Network Reachability。指定 Edge-Network 允许连接（发送流量到）App-Network：

保存更改。

分配网络

更新每个 Cluster 配置，添加键 spec: network: 如下所示：

apiVersion: api.tsb.tetrate.io/v2
kind: Cluster
metadata:
  name: cluster-edge
  organization: tse
spec:
# highlight-next-line
  network: edge-network

定义可达性

更新 OrganizationSettings 配置，添加如下的 networkReachability 部分：

apiVersion: api.tsb.tetrate.io/v2
kind: OrganizationSetting
metadata:
  name: default
  organization: tse
spec:
  defaultSecuritySetting:
    authenticationSettings:
      trafficMode: REQUIRED
    authorization:
      mode: RULES
      rules: {}
  fqn: organizations/tse/settings/default
# highlight-start
  networkSettings:
    networkReachability:
      Edge-Network: App-Network
# highlight-end

OrganizationSettings 资源是一个内部对象；你可以使用 tctl get organizationsettings -o yaml 获取它。在提交更新之前，删除任何 resourceVersion 或 etag 值。

检查你的更改

完成更改后，UI 中的集群页面应如下所示：

请注意每个集群的 Network 和 Is Tier1 列以及其值。

此外，你将为每个集群创建了工作区和网关组，并定义了可达性设置，以使 Edge-Network 可以访问 App-Network。

在 cluster-1 中部署 Bookinfo

我们将：

创建 bookinfo 命名空间并部署 BookInfo 应用程序
在集群中部署一个 Ingress Gateway
发布一个 Gateway 资源以暴露 productpage.bookinfo 服务
验证服务是否正常运行

请记住设置 kubectl 上下文或使用你的上下文别名来指向 cluster-1。

操作步骤...

创建 bookinfo 命名空间并部署 Bookinfo 应用程序：

kubectl create namespace bookinfo
kubectl label namespace bookinfo istio-injection=enabled
kubectl apply -n bookinfo -f https://raw.githubusercontent.com/istio/istio/master/samples/bookinfo/platform/kube/bookinfo.yaml

sleep 10

kubectl exec "$(kubectl get pod -n bookinfo -l app=ratings -o jsonpath='{.items[0].metadata.name}')" \
   -n bookinfo -c ratings -- curl -s productpage:9080/productpage

注意：最后一个 shell 命令验证 BookInfo 应用程序是否正确部署和运行。

在集群中部署 Ingress Gateway

我们将在集群的 bookinfo 命名空间中部署一个 Ingress Gateway ingressgw-1：

cat <<EOF > ingressgw-1.yaml
apiVersion: install.tetrate.io/v1alpha1
kind: IngressGateway
metadata:
  name: ingressgw-1
  namespace: bookinfo
spec:
  kubeSpec:
    service:
      type: LoadBalancer
EOF

kubectl apply -f ingressgw-1.yaml

发布一个 Gateway 资源以暴露 productpage.bookinfo

我们将在集群中的 Gateway 组中发布一个 Gateway 资源，引用我们刚刚部署的 Ingress Gateway。

使用 tctl 或 kubectl（如果在该集群上启用了 GitOps）：

cat <<EOF > bookinfo-ingress-1.yaml
apiVersion: gateway.tsb.tetrate.io/v2
kind: Gateway
metadata:
  organization: tse
  tenant: tse
  workspace: bookinfo-ws
  group: bookinfo-gwgroup-1
  name: bookinfo-ingress-1
spec:
  workloadSelector:
    namespace: bookinfo
    labels:
      app: ingressgw-1
  http:
  - name: bookinfo
    port: 80
    hostname: bookinfo.tse.tetratelabs.io
    routing:
      rules:
      - route:
          serviceDestination:
            host: bookinfo/productpage.bookinfo.svc.cluster.local
            port: 9080
EOF


tctl apply -f bookinfo-ingress-1.yaml

cat <<EOF > bookinfo-ingress-1.yaml
apiVersion: gateway.tsb.tetrate.io/v2
kind: Gateway
metadata:
  name: bookinfo-ingress-1
  annotations:
    tsb.tetrate.io/organization: tse
    tsb.tetrate.io/tenant: tse
    tsb.tetrate.io/workspace: bookinfo-ws
    tsb.tetrate.io/gatewayGroup: bookinfo-gwgroup-1
spec:
  workloadSelector:
    namespace: bookinfo
    labels:
      app: ingressgw-1
  http:
    - name: bookinfo
      port: 80
      hostname: bookinfo.tse.tetratelabs.io
      routing:
        rules:
          - route:
              serviceDestination:
                host: bookinfo/productpage.bookinfo.svc.cluster.local
                port: 9080
EOF

kubectl apply -f bookinfo-ingress-1.yaml

验证服务是否正常运行

通过 Ingress Gateway 发送 HTTP 请求来检查 cluster-1 上的服务是否正常运行到 productpage 服务：

export GATEWAY_IP=$(kubectl -n bookinfo get service ingressgw-1 -o jsonpath="{.status.loadBalancer.ingress[0]['hostname','ip']}")
echo $GATEWAY_IP

curl -s --connect-to bookinfo.tse.tetratelabs.io:80:$GATEWAY_IP \
    "http://bookinfo.tse.tetratelabs.io/productpage"

注意：Ingress Gateway 可能需要一个云负载均衡器，并且你可能需要等待几分钟以完成云负载均衡器的配置。

在 cluster-2 中部署 Bookinfo

我们将重复上述步骤来针对 cluster-2 进行操作，确保参考了 cluster-2 的 GatewayGroup、IngressGateway 和 Gateway 资源。

请记住设置 kubectl 上下文或使用你的上下文别名来指向 cluster-2。

操作步骤...

创建 bookinfo 命名空间并部署 Bookinfo 应用程序：

kubectl create namespace bookinfo
kubectl label namespace bookinfo istio-injection=enabled
kubectl apply -n bookinfo -f https://raw.githubusercontent.com/istio/istio/master/samples/bookinfo/platform/kube/bookinfo.yaml
sleep 10
kubectl exec "$(kubectl get pod -n bookinfo -l app=ratings -o jsonpath='{.items[0].metadata.name}')" \
   -n bookinfo -c ratings -- curl -s productpage:9080/productpage

在集群中部署 Ingress Gateway

cat <<EOF > ingressgw-2.yaml
apiVersion: install.tetrate.io/v1alpha1
kind: IngressGateway
metadata:
  name: ingressgw-2
  namespace: bookinfo
spec:
  kubeSpec:
    service:
      type: LoadBalancer
EOF

kubectl apply -f ingressgw-2.yaml

发布一个 Gateway 资源以暴露 productpage.bookinfo

cat <<EOF > bookinfo-ingress-2.yaml
apiVersion: gateway.tsb.tetrate.io/v2
kind: Gateway
metadata:
  organization: tse
  tenant: tse
  workspace: bookinfo-ws
  group: bookinfo-gwgroup-2
  name: bookinfo-ingress-2
spec:
  workloadSelector:
    namespace: bookinfo
    labels:
      app: ingressgw-2
  http:
  - name: bookinfo
    port: 80
    hostname: bookinfo.tse.tetratelabs.io
    routing:
      rules:
      - route:
          serviceDestination:
            host: bookinfo/productpage.bookinfo.svc.cluster.local
            port: 9080
EOF


tctl apply -f bookinfo-ingress-2.yaml

cat <<EOF > bookinfo-ingress-2.yaml
apiVersion: gateway.tsb.tetrate.io/v2
kind: Gateway
metadata:
  name: bookinfo-ingress-2
  annotations:
    tsb.tetrate.io/organization: tse
    tsb.tetrate.io/tenant: tse
    tsb.tetrate.io/workspace: bookinfo-ws
    tsb.tetrate.io/gatewayGroup: bookinfo-gwgroup-2
spec:
  workloadSelector:
    namespace: bookinfo
    labels:
      app: ingressgw-2
  http:
    - name: bookinfo
      port: 80
      hostname: bookinfo.tse.tetratelabs.io
      routing:
        rules:
          - route:
              serviceDestination:
                host: bookinfo/productpage.bookinfo.svc.cluster.local
                port: 9080
EOF

kubectl apply -f bookinfo-ingress-2.yaml

验证服务是否正常运行

对 cluster-2 进行如下测试：

export GATEWAY_IP=$(kubectl -n bookinfo get service ingressgw-2 -o jsonpath="{.status.loadBalancer.ingress[0]['hostname','ip']}")
echo $GATEWAY_IP

curl -s --connect-to bookinfo.tse.tetratelabs.io:80:$GATEWAY_IP \
    "http://bookinfo.tse.tetratelabs.io/productpage"

配置 Edge Gateway

我们将：

创建 edge 命名空间
在集群中部署一个 Edge Gateway
发布一个 Gateway 资源来均衡流量跨工作负载集群
验证服务是否正常运行

如果你正在使用 TSE 的 Route 53 Controller 来自动管理 DNS，请记住首先在此集群上启用它。任何公共 DNS 应指向此集群上的 Edge Gateway。

请记住设置 kubectl 上下文或使用你的上下文别名来指向 cluster-edge。

操作步骤...

创建 edge 命名空间

kubectl create namespace edge
kubectl label namespace edge istio-injection=enabled

在集群中部署 Edge Gateway

cat <<EOF > edgegw.yaml
apiVersion: install.tetrate.io/v1alpha1
kind: Tier1Gateway
metadata:
  name: edgegw
  namespace: edge
spec:
  kubeSpec:
    service:
      type: LoadBalancer
EOF

kubectl apply -f edgegw.yaml

发布一个 Gateway 资源来均衡流量跨工作负载集群

cat <<EOF > bookinfo-edge.yaml
apiVersion: gateway.tsb.tetrate.io/v2
kind: Gateway
metadata:
  organization: tse 
  tenant: tse
  workspace: edge-ws
  group: edge-gwgroup
  name: bookinfo-edge
spec:
  workloadSelector:
    namespace: edge
    labels:
      app

: edgegw
  http:
    - name: bookinfo
      port: 80
      hostname: bookinfo.tse.tetratelabs.io
      routing:
        rules:
          - route:
              clusterDestination: {}
EOF

tctl apply -f bookinfo-edge.yaml

cat <<EOF > bookinfo-edge..yaml
apiVersion: gateway.tsb.tetrate.io/v2
kind: Gateway
metadata:
  name: bookinfo-edge
  annotations:
    tsb.tetrate.io/organization: tse
    tsb.tetrate.io/tenant: tse
    tsb.tetrate.io/workspace: edge-ws
    tsb.tetrate.io/gatewayGroup: edge-gwgroup
spec:
  workloadSelector:
    namespace: edge
    labels:
      app: edgegw
  http:
    - name: bookinfo
      port: 80
      hostname: bookinfo.tse.tetratelabs.io
      routing:
        rules:
          - route:
              clusterDestination: {}
EOF

kubectl apply -f bookinfo-edge.yaml

验证服务是否正常运行

我们将发送测试流量到 cluster-edge 上的 Edge Gateway：

export GATEWAY_IP=$(kubectl -n edge get service edgegw -o jsonpath="{.status.loadBalancer.ingress[0]['hostname','ip']}")
echo $GATEWAY_IP

curl -s --connect-to bookinfo.tse.tetratelabs.io:80:$GATEWAY_IP \
    "http://bookinfo.tse.tetratelabs.io/productpage"

如果你已经配置了 DNS 以指向 Edge Gateway（例如，使用 TSE 的 Route 53 Controller），你可以直接测试服务：

curl http://bookinfo.tse.tetratelabs.io/productpage

请记住你可能需要等待几分钟，直到云负载均衡器完成配置。

下一步

你现在可以尝试工作负载集群故障转移行为。

遥测架构

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

注意

本页面详细介绍了如何收集 Tetrate Service Bridge 运营所需的遥测数据，而不是由 Tetrate Service Bridge 管理的应用程序。

Tetrate Service Bridge 使用 Open Telemetry Collector 来简化指标收集。标准部署包括管理平面中的一个 Collector，以及每个已接入的控制平面旁边都有一个 Collector。使用 Collector 使 Tetrate Service Bridge 能够通过只需 Operator 抓取一个组件而不是所有组件，从而简化每个集群的遥测数据收集。

管理平面

在管理平面中有一个名为 collector 的组件。它是一个聚合器，通过 Prometheus 公开了一个用于抓取所有管理平面组件的端点。

要查看此端点的输出，可以使用以下方式查询：

kubectl port-forward -n <managementplane-namespace> svc/otel-collector 9090:9090 &
curl localhost:9090/metrics

示例输出：

...
# 来自管理平面中 API 服务器的指标。
persistence_transaction_duration_count{component="tsb",plane="management"} 4605

控制平面

在每个控制平面中，还有一个 collector，它公开了其控制平面中组件的指标端点。你可以以与管理平面 Collector 相同的方式使用 Prometheus 抓取此 Collector。

Open Telemetry Collector

尽管 Open Telemetry 收集器可以将指标转发到其他收集器，但 TSB 不依赖于生产安装中转发的指标。相反，我们建议在每个可用的 Collector 上本地抓取指标。

要查看此端点的输出，请使用以下命令：

kubectl port-forward -n <controlplane-namespace> svc/otel-collector 9090:9090 &
curl localhost:9090/metrics

在 AWS 安装 TSB

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

本文档描述了如何在 AWS 单一 VPC 中安装 TSB。

在开始之前，请确保你已经：

熟悉 TSB 概念
安装 tctl 并同步你的 tctl 镜像
安装 EKS CLI
安装 AWS CLI

使用单一 VPC 安装 TSB

在这种情况下，你将需要在你的 AWS 帐户中运行 3 个 EKS 集群，以及运行 Elasticsearch 和 Postgres。

请按照相应的 AWS 指南进行更详细的设置：

首先，使用以下命令模板创建管理平面集群。由于命令中没有明确定义 VPC，将为你创建一个新的 VPC。

$ eksctl create cluster \
  --name <NAME> \
  --version <VERSION> \
  --region <REGION> \
  --nodegroup-name <POOLNAME> \
  --nodes <NUM> \
  --node-type <TYPE> \
  --managed

一旦管理平面集群、节点和 VPC 准备就绪，请记录下子 VPC 名称，并继续进行 Tier 1 和控制平面集群的设置。

对于 Tier 1 和控制平面集群，你需要在前面的命令模板之上指定 VPC 网络信息。使用以下命令模板创建两个集群，一个用于 Tier 1，另一个用于控制平面。

$ eksctl create cluster \
  --name <NAME> \
  --version <VERSION>\
  --region <REGION> \
  --nodegroup-name <POOLNAME> \
  --nodes <NUM> \
  --node-type <TYPE> \
  --managed \
  --vpc-private-subnets <VPCNAMES> \
  --vpc-public-subnets <VPCNAMES>

一旦 EKS 集群准备就绪，请确保根据提供的链接设置 OpenSearch 和 PostgreSQL。

部署管理平面

指向为管理平面安装创建的集群，并按照管理平面安装中的说明操作。

但是，请确保在创建管理平面密钥时指定 Elasticsearch 和 PostgreSQL 的额外信息：

$ tctl install manifest management-plane-secrets  \
  --elastic-username <USER> \
  --elastic-password <PASS> \
  --postgres-username <USER> \
  --postgres-password <PASS> \
  ... other options ...

此外，ManagementPlane 自定义资源应该指向正确的 PostgreSQL 和 OpenSearch 端点：

# <snip>
 dataStore:
   postgres:
     address: <postgres-endpoint>
     name: <database-name>
 telemetryStore:
   elastic:
     host: <elastic-endpoint>
     port: <elastic-port>
     version: <elastic-version>
# <snip>

安装管理平面后，你应该能够使用以下命令获取外部主机名（确保你的 Kubernetes 上下文指向适当的集群）：

$ kubectl get svc -n tsb

从上述命令的输出中，你应该能够找到一个主机名，类似于 ab940458d752c4e0c80830e9eb89a99d-1487971349.<Region>.elb.amazonaws.com。这是在配置 Tier 1 和控制平面配置 YAML 文件时要使用的端点。

部署 Tier 1 和控制平面（Tier2）集群

对于 Tier 1 和 CP 集群，请按照以下说明进行操作：

查看以下链接以获取有关 Tier1 网关和控制平面的更多信息。

设置这些集群后，在 Tier 1 和 Tier 2 中的 Edge XCP 中添加以下注释以启用多集群路由并应用这些设置。

# <snip>
components:
  xcp:
    kubeSpec:
      overlays:
      - apiVersion: install.xcp.tetrate.io/v1alpha1
        kind: EdgeXcp
        name: edge-xcp
        patches:
        - path: spec.components.edgeServer.kubeSpec.overlays
          value:
          - apiVersion: v1
            kind: Service
            name: xcp-edge
            patches:
            - path: spec.type
              value: NodePort
            - path: metadata.annotations
              value:
                traffic.istio.io/nodeSelector: '{"beta.kubernetes.io/arch":"amd64"}'

集群设置完成后，你可以按照部署 bookinfo 应用程序的说明继续进行演示工作负载。

使用多个 VPC 安装 TSB

对于此安装，你应该已经在

单个 VPC 中运行了 TSB。

此情景中的基础架构与使用单个 VPC 的情况类似，但托管控制平面（Tier2）的集群位于与管理平面和 Tier 1 网关的集群不同的 VPC 中。这些 VPC 需要配置以能够相互通信。请阅读 AWS 中有关 VPC 对等连接的指南以及 CLI 参考中的相关部分，以获取更多详细信息。

首先创建一个集群和控制平面的新 VPC。你可以使用与为单个 VPC 案例创建第一个 EKS 集群时相同的命令模板。

$ eksctl create cluster \
  --name <NAME> \
  --version <VERSION> \
  --region <REGION> \
  --nodegroup-name <POOLNAME> \
  --nodes <NUM \
  --node-type <TYPE> \
  --managed

配置 VPC

你需要检索 VPC 信息以继续配置。使用以下命令获取必要信息：

$ aws ec2 --output text \
          --query 'Vpcs[*].{VpcId:VpcId,Name:Tags[?Key==`Name`].Value|[0],CidrBlock:CidrBlock}' describe-vpcs

找到将要参与的每个 VPC 的 ID，并使用 aws ec2 create-vpc-peering-connection 命令创建 VPC 对等连接，以允许这些 VPC 互相通信：

$ aws ec2 create-vpc-peering-connection \
          --vpc-id <VPC-ID1> \
          --peer-vpc-id <VPC-ID2>

请注意从上述命令的输出中获取 VpcPeeringConnectionId 字段的值。你将需要此值来接受对等连接请求。

使用此 ID，使用 aws ec2 accept-vpc-peering-connection 命令接受对等连接：

$ aws ec2 accept-vpc-peering-connection --vpc-peering-connection-id <PEERID>

当上述命令成功执行时，这些 VPC 应该能够相互通信。

配置控制平面集群

为了连接到控制平面集群，你需要更新你的 kubeconfig。使用适当的值运行以下命令：

$ aws eks --region <REGION> update-kubeconfig --name <NAME>

启动控制平面。一般的设置与 Onboarding Clusters 指南中的相同。

你的控制平面的集群定义应如下所示。注意 spec 组件中的额外字段。

apiVersion: api.tsb.tetrate.io/v2
kind: Cluster
metadata:
  name: cp-remote
  organization: tetrate
spec:
  displayName: "Control Plane Remote"
  network: tier2

当你准备好安装控制平面自定义资源时，从指南中修改定义，并使用以下 YAML 作为指南设置适当的值：

apiVersion: install.tetrate.io/v1alpha1
kind: ControlPlane
metadata:
  name: controlplane
  namespace: istio-system
spec:
  hub: <repository>
dataStore:
  postgres:
    address: <postgres-endpoint>
    name: <database-name>
  telemetryStore:
    elastic:
      host: <elastic-endpoint>
      port: <elastic-port>
      version: <elastic-version>
  managementPlane:
    host: <management-plane-endpoint>
    port: 8443
    clusterName: <management-plane-cluster>
  components:
    internalCertProvider:
      certManager:
        managed: INTERNAL
    xcp:
      kubeSpec:
        overlays:
        - apiVersion: install.xcp.tetrate.io/v1alpha1
          kind: EdgeXcp
          name: edge-xcp
          patches:
          - path: spec.components.edgeServer.kubeSpec.overlays
            value:
            - apiVersion: v1
              kind: Service
              name: xcp-edge
              patches:
              - path: spec.type
                value: NodePort
              - path: metadata.annotations
                value:
                  traffic.istio.io/nodeSelector: '{"beta.kubernetes.io/arch":"amd64"}'

如果一切配置正确，你应该能够在新集群上部署工作负载。

在 Kubernetes 和虚拟机之间切分流量

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

本文将教你如何设置在虚拟机和 Kubernetes 集群上运行的服务之间的流量路由。

在本指南中，你将：

在集群中安装 Istio 演示bookinfo应用程序
在虚拟机上安装bookinfo应用程序的ratings服务
将流量在虚拟机和集群中的ratings应用程序之间进行 80/20 的分流

在开始之前，请确保你已经：

首先，从在你的集群中安装 bookinfo 开始。

kubectl create ns bookinfo
kubectl apply -f \
    https://raw.githubusercontent.com/istio/istio/master/samples/bookinfo/platform/kube/bookinfo.yaml \
    -n bookinfo

遵循VM 载入文档。在载入过程中，将 Istio 演示的ratings应用程序作为你的工作负载运行。

sudo docker run -d \
    --name ratings \
    -p 127.0.0.1:9080:9080 \
    docker.io/istio/examples-bookinfo-ratings-v1.1:1.16.2

为ratings创建一个工作负载入口，

apiVersion: networking.istio.io/v1beta1
kind: WorkloadEntry
metadata:
 name: ratings-vm
 namespace: bookinfo
 annotations:
   sidecar-bootstrap.istio.io/ssh-host: <ssh-host>
   sidecar-bootstrap.istio.io/ssh-user: istio-proxy
   sidecar-bootstrap.istio.io/proxy-config-dir: /etc/istio-proxy
   sidecar-bootstrap.istio.io/proxy-image-hub: docker.io/tetrate
   sidecar-bootstrap.istio.io/proxy-instance-ip: <proxy-instance-ip>
spec:
 address: <address>
 labels:
   class: vm
   app: ratings   # 用于通过 TSB 进行可观测性的必需标签
   version: v3    # 用于通过 TSB 进行可观测性的必需标签
 serviceAccount: bookinfo-ratings
 network: <vm-network-name>

并应用一个 Sidecar。

apiVersion: networking.istio.io/v1beta1
kind: Sidecar
metadata:
  name: bookinfo-ratings-no-iptables
  namespace: bookinfo
spec:
  egress:
  - bind: 127.0.0.2
    hosts:
    - ./*
  ingress:
  - defaultEndpoint: 127.0.0.1:9080
    port:
      name: http
      number: 9080
      protocol: HTTP
  workloadSelector:
    labels:
      app: ratings
      class: vm

一旦你载入了虚拟机，你的 Mesh 将在集群中的ratings应用程序和虚拟机之间分发流量，因为ratings服务选择任何带有app: ratings标签的工作负载，而我们的集群Deployment和WorkloadEntry都有这个标签。你可以通过日志或 UI 拓扑仪表板来验证流量正流经这两个应用程序。

现在，让我们微调流量，使 80% 的流量流向集群中的应用程序，而 20% 流向虚拟机。使用包含以下配置的文件运行tctl apply -f（根据你的安装填写<tenant>和<cluster>）。

注意

你可能已经设置了一个工作空间（例如用于入口流量）。如果是这样，你可以省略此工作空间并相应地调整其余配置。

apiVersion: api.tsb.tetrate.io/v2
kind: Workspace
metadata:
  name: bookinfo-ws
  tenant: <tenant>
spec:
  namespaceSelector:
    names:
    - <cluster>/bookinfo
---
apiVersion: traffic.tsb.tetrate.io/v2
kind: Group
metadata:
  name: bookinfo-tg
  workspace: bookinfo-ws
  tenant: <tenant>
spec:
  namespaceSelector:
    names:
      - "<cluster>/bookinfo"
  configMode: BRIDGED
---
apiVersion: traffic.tsb.tetrate.io/v2
kind: ServiceRoute
metadata:
  name: ratings
  group: bookinfo-tg
  workspace: bookinfo-ws
  tenant: <tenant>
spec:
  service: bookinfo/ratings
  subsets:
  - name: v1
    labels:
      version: v1
    weight: 80
  - name: v3
    labels:
      version: v3
    weight: 20

在发送一些流量通过应用程序后，我们可以再次查看服务仪表板或日志，以查看流量在v1和v3之间以 80/20 的比例分配。

在应用集群中启用 Tier1 网关

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

Tier1 网关用于使用 Istio mTLS 在其他集群中跨一个或多个入口网关（或 Tier2 网关）分发流量。在 1.6 版本之前，Tier1 网关需要一个专用集群，并且不能与其他网关（例如入口网关）或应用工作负载一起使用。

从 TSB 1.6 版本开始，你无需为运行 Tier1 网关而提供一个专用的集群。你可以在任何应用程序集群中部署 Tier1 网关。目前此功能默认处于禁用状态；在将来的版本中将默认启用。

在应用集群中启用 Tier1 网关

为了在应用集群中部署 Tier1 网关，你首先需要编辑 ControlPlane CR 或 Helm 值中的 xcp 组件，并添加一个名为 DISABLE_TIER1_TIER2_SEPARATION 的环境变量，其值为 true。

spec:
  components:
    xcp:
      ...
      kubeSpec:
        overlays:
          - apiVersion: install.xcp.tetrate.io/v1alpha1
            kind: EdgeXcp
            name: edge-xcp
            patches:
              ...
              - path: spec.components.edgeServer.kubeSpec.deployment.env[-1]
                value:
                  name: DISABLE_TIER1_TIER2_SEPARATION
                  value: "true"
  ...

有关如何部署和配置 Tier1 网关的示例，请参阅使用 Tier-1 网关进行多集群流量转移。

证书类型

Jimmy Song — Wed, 09 Aug 2023 12:00:00 +0800

注意

自 1.7 版本以来，TSB 支持用于 TSB 管理平面 TLS 证书、内部证书和中间 Istio CA 证书的自动证书管理。详细信息请参阅自动证书管理。

有 4 种 TSB 运算符需要了解的证书类型：

TSB 内部证书：用于 TSB 内部组件相互信任的证书。
应用 TLS 证书：提供给应用程序用户的证书，用于 Web 浏览器或工具。
中间 Istio CA 证书：用于签发 Istio 工作负载叶子证书的中间 CA 证书。
工作负载叶子证书：针对每个代理和网关签发的证书。

下面的图片显示了这些证书及其与 TSB 组件和你的应用程序的关系。

TSB 内部证书

TSB 的全局控制平面 (XCP) 从管理平面分发配置到控制平面集群。XCP 由 XCP central 和 XCP edge 组成。XCP central 部署在管理平面，TSB 服务器通过名为 MPC 的组件与其交互。TSB 内部证书（图片中突出显示为绿色）用于保护 XCP central、XCP edge、MPC 组件之间的通信。TSB 使用带 TLS 的 JWT 来确保通信的安全性。在部署 TSB 之前，你需要准备这些证书。

应用 TLS 证书

应用 TLS 证书（图片中突出显示为紫色）由客户端应用程序使用，以便信任访问应用程序。

你的应用程序提供的每个公开可访问的 HTTPS 服务都应具有作为 Kubernetes 机密挂载的 TLS 证书。在发布应用程序时，必须提供应用程序的 TLS 证书。虽然在技术上不是一个 “应用程序”，但你还需要设置命令行工具的 TLS 证书，以便它们可以访问 TSB 管理平面，以及你可以通过 Web 浏览器访问 TSB UI。TSB TLS 证书必须在部署 TSB 之前可用。

中间 Istio CA 证书

中间 Istio CA 证书（图片中突出显示为青色）在每个控制平面上以 cacerts 机密的形式挂载，以便可以签发 Istio 工作负载叶子证书。默认情况下，istiod 充当叶子证书发行者，使用中间 CA 证书来签署叶子证书。

证书应由企业 Root CA 签署（或可验证），以用于服务内部通信。集群特定的中间 CA 应在 TSB 控制平面部署期间可用。

有关在多集群设置中设置中间 Istio CA 的演示示例，请参阅 Istio 文档。

对于生产环境，强烈建议使用生产就绪的 PKI 基础结构，例如以下内容，并遵循行业最佳实践：

使用 AWS Private CA 作为企业 CA 创建中间 CA（不是自动化过程）。
将现有 CA 集成到 Kubernetes CSR API 中（例如 AWS 证书管理器、HashiCorp Vault）。

通常，企业安全团队负责这些类型的证书。

工作负载叶子证书

工作负载叶子证书（图片中突出显示为黄色）会分发给每个代理和网关（或每个工作负载）。这些证书是短期证书（默认情况下为 24 小时，可以通过在 ControlPlane CR 中设置 defaultWorkloadCertTTL 来更改）。

重要的是要了解，这些证书会自动轮换，不受 TSB 管理。Istiod 负责使用企业中间证书签发和轮换证书。

工具

Jimmy Song — Fri, 30 Jun 2023 16:00:00 +0800

生产

Argo CD 支持多种不同的 Kubernetes 清单定义方式：

Kustomize应用程序
Helm Chart
YAML/JSON/Jsonnet 清单的目录，包括Jsonnet。
任何配置为配置管理插件的自定义配置管理工具

开发

Argo CD 还支持直接上传本地清单。由于这是 GitOps 范式的反模式，因此只能出于开发目的而这样做。override需要具有权限的用户（通常是管理员）才能在本地上传清单。支持上述所有不同的 Kubernetes 部署工具。上传本地应用程序：

$ argocd app sync APPNAME --local /path/to/dir/

架构概述

Jimmy Song — Fri, 30 Jun 2023 16:00:00 +0800

Argo CD 架构

组件

API 服务器

API 服务器是一个 gRPC/REST 服务器，用于公开 Web UI、CLI 和 CI/CD 系统使用的 API。它具有以下职责：

应用程序管理和状态报告
调用应用程序操作（例如同步、回滚、用户定义的操作）
存储为 K8s 机密的存储库和集群凭据管理
身份验证和身份验证委派到外部身份提供者
RBAC 执行
Git webhook 事件的侦听器/转发器

存储库服务器

存储库服务器是一个内部服务，它维护 Git 存储库的本地缓存，其中包含应用程序清单。它负责在提供以下输入时生成并返回 Kubernetes 清单：

存储库 URL
修订版（提交、标记、分支）
应用程序路径
模板特定设置：参数、helm values.yaml

应用程序控制器

应用程序控制器是一个 Kubernetes 控制器，它不断监视运行中的应用程序，并将当前的实时状态与期望的目标状态（如 repo 中指定的）进行比较。它检测 OutOfSync 应用程序状态，并可选择采取纠正措施。它负责调用任何用户定义的生命周期事件钩子（PreSync、Sync、PostSync）

Argo CD 简介

Jimmy Song — Fri, 30 Jun 2023 16:00:00 +0800

什么是 Argo CD？

Argo CD 是一个基于声明式 GitOps 的 Kubernetes 应用程序交付工具。

Argo CD UI

为什么选择 Argo CD？

应用程序定义、配置和环境应该是声明式的，并进行版本控制。应用程序部署和生命周期管理应该是自动化的、可审计的和易于理解的。

入门指南

快速入门

kubectl create namespace argocd
kubectl apply -n argocd -f https://raw.githubusercontent.com/argoproj/argo-cd/stable/manifests/install.yaml

请参阅我们的入门指南。我们还为其他功能提供了面向用户的文档。如果你想升级 ArgoCD，请参阅升级指南。我们还为有兴趣构建第三方集成的开发人员提供面向开发者的文档。

工作原理

Argo CD 遵循使用 Git 存储库作为定义期望应用程序状态的真实来源的 GitOps 模式。Kubernetes 清单可以通过以下几种方式指定：

kustomize 应用程序
helm chart
jsonnet 文件
YAML/json 清单的普通目录
配置为配置管理插件的任何自定义配置管理工具

Argo CD 自动部署指定目标环境中所需的应用程序状态。应用程序部署可以跟踪分支、标签的更新或固定到 Git 提交的特定版本的清单。请参见跟踪策略以了解有关可用跟踪策略的更多详细信息。

针对 Sig Apps 社区会议展示的快速 10 分钟的 Argo CD 概述，请查看演示：

架构

ArgoCD 架构

Argo CD 实现为 Kubernetes 控制器，它持续监视正在运行的应用程序，并将当前的实时状态与所需的目标状态（如 Git 存储库中指定的状态）进行比较。实时状态偏离目标状态的已部署应用程序被视为“OutofSync”。Argo CD 报告并可视化差异，同时提供自动或手动同步实时状态到所需目标状态的设施。对 Git 存储库中所需的目标状态所做的任何修改都可以自动应用并反映在指定的目标环境中。

有关详细信息，请参见架构概述。

功能

自动将应用程序部署到指定的目标环境
支持多个配置管理/模板工具（Kustomize、Helm、Jsonnet、plain-YAML）
能够管理和部署到多个集群
SSO 集成（OIDC、OAuth2、LDAP、SAML 2.0、GitHub、GitLab、Microsoft、LinkedIn）
授权的多租户和 RBAC 策略
回滚/在任何提交到 Git 存储库中的应用程序配置中进行回滚
应用程序资源的健康状态分析
自动配置漂移检测和可视化
应用程序同步到其所需状态的自动或手动同步
Web UI 提供应用程序活动的实时视图
用于自动化和 CI 集成的 CLI
Webhook 集成（GitHub、BitBucket、GitLab）
访问令牌用于自动化
为覆盖 Git 中的 Helm 参数而提供的参数重写
用于支持复杂应用程序升级（例如蓝/绿和金丝雀升级）的 PreSync、Sync、PostSync 钩子
应用程序事件和 API 调用的审计跟踪
Prometheus 指标

开发状态

Argo CD 正在由社区积极开发。我们的发布可以在这里找到。

采用情况

正式采用 Argo CD 的组织可以在这里找到。

Jimmy Song – Jimmy Song

服务网格简介

Envoy 在服务网格中的应用

Lua

配置示例

解释

工作流程

注意事项

Kubernetes Ingress 支持

准备条件

Ingress 路径类型和优先级

支持的 Ingress 注解

主机网络模式

Cilium Ingress 和 Gateway API 与其他 Ingress 控制器的不同

Cilium 的 Ingress 配置和 CiliumNetworkPolicy

源 IP 可见性

Loadbalancer 或 NodePort 服务的 externalTrafficPolicy

TLS 透传和源 IP 可见性

集群简介

Cluster 的定义与功能

主要属性

配置示例

动态能力

高级特性

过滤器简介

过滤器的类型

过滤器的工作流程

网络过滤器 (Network Filters)

HTTP 过滤器 (HTTP Filters)

Listener 过滤器 (Listener Filters)

如何配置 Envoy 过滤器？

HTTP 连接管理器（HCM）简介

主要功能

配置示例

HTTP 协议支持

HTTP 头部清理

路由表配置

内部重定向

监听器简介

Listener 的功能

主要特性

配置示例

动态监听功能

路由简介

路由配置的作用

主要特性

配置示例

高级路由功能

Web 应用防火墙（WAF）

什么是 WAF？

WAF 的基本概念

OWASP CRS (OWASP Core Rule Set)

ModSecurity

SecLang

WAF (Web Application Firewall)

Coraza

类比：机场安全检查系统

WAF 的使用案例

SQL 注入

XSS 攻击

WAF 的工作原理

基于 Envoy 集成的 WAF

实施建议

Coraza

主要特性

集成

使用

如何在 Envoy 中集成 Coraza

如何在 Istio 中集成 Coraza

参考

Envoy 架构简介

部署架构

核心组件

Listener（监听器）

Filter Chains（过滤器链）

监听器过滤器 (Listener Filters)

网络过滤器 (Network Filters)

UDP 监听器过滤器 (UDP Listener Filters)

UDP 会话过滤器 (UDP Session Filters)

HTTP 过滤器 (HTTP Filters)

Cilium 的 Ingress 配置和 `CiliumNetworkPolicy`

Loadbalancer 或 NodePort 服务的 `externalTrafficPolicy`