第 6 章:AI 网关
AI 网关作为新一代 API 网关,承载多模型流量调度、智能路由与治理等关键能力,是企业构建高效、安全 AI 应用基础设施的核心组件。
网关的演进历程
网关一词相信大家都不陌生,还记得最早的网关是什么样子吗?没错,就是一个简单的反向代理。那时候它的工作很单纯:把客户端的请求转发到后端服务器,再把响应返回给客户端。这就像一个单纯的话筒,听到什么说什么。
随着互联网的普及与企业网络的扩展,网关的作用也愈发重要,它不仅承担着数据传输的桥梁,还逐渐加入了安全、负载均衡、流量控制、服务治理等多种功能。同时从网关的演进形态也能一窥软件架构的发展史,所谓业务驱动技术迭代发展,技术反哺业务快速增长,珠联璧合。
读到这里你可能会有这样的疑问:既然都是网关为什么会有这么多的形态或者叫法呢?背后的原因简单总结是因为不同的应用场景会有不同的功能诉求,不同的功能特性需要有相应的特征描述词方便大家记忆与区分,例如,大家提到微服务网关就会很自然的联想到微服务,进而联想到微服务的服务注册、发现与治理。
在了解了软件架构演进过程中的各网关形态后,我们不禁要自问一下:是什么在推动软件架构的演进呢?相信读者心中已经有了答案:业务规模。业务从互联网、移动互联网以及即将到来的万物互联,其规模仍然在高速增长,也就意味着软件架构的复杂度也会越来越高,网关的特性也会越来越多、越来越复杂、越来越智能。
接下来,我们从流量网关开始,逐一介绍不同形态网关的核心能力。
下图展示了网关演进的典型形态:

流量网关
流量网关作为网络架构中的关键组件,主要负责管理和优化数据流量,以提升业务的可伸缩性和高可用性。Nginx 作为流量网关的代表性软件,以其高效的性能和灵活的配置广受欢迎。
流量网关的核心目的是解决多业务节点间的流量负载均衡问题,通过将客户请求分配到不同的服务器上,从而均匀分摊负载,避免单点故障,确保服务的稳定性和连续性。流量网关在单体架构与垂直架构中被广泛应用。
ESB 网关
企业服务总线(ESB)是一个集中式的业务网关,旨在标准化和简化不同系统和服务之间的通信与消息传送。作为核心通信基础设施,ESB 网关可以减少系统间的耦合性,提高互操作性和灵活性,确保数据和服务的无缝整合。
遵循服务导向型架构(SOA)原则,ESB 通过集中管理消息路由、转换和安全,实现服务的快速部署和高效运作。它支持不同协议和数据格式,提升了系统的扩展性和可维护性。ESB 是 SOA 架构中的核心网络组件。
微服务网关
微服务网关是微服务架构中的关键核心组件,负责集中管理微服务的路由规则,增强系统安全性,简化访问流程,从而提高整个系统的可靠性。
微服务网关可以实现负载均衡、限流、熔断、降级、身份验证等功能,通过统一入口管理和优化各微服务间的交互。此举不仅简化了客户端与微服务的通信复杂性,还为系统安全提供了额外的保护。
Spring Cloud Gateway 是一个广泛应用的微服务网关,它基于 Spring 生态系统,易于与 Spring Boot 项目集成,因其灵活、高效和可扩展性受到了开发者的青睐。
云原生网关
云原生网关是伴随 Kubernetes 的广泛应用而诞生的一种创新网关。Kubernetes 集群内外网络天然隔离的特性要求通过网关来将外部请求转发给集群内部服务。
Kubernetes 采用 Ingress/Gateway API 来统一网关的配置方式,同时提供弹性扩缩容来帮助用户解决应用容量调度问题。基于此,用户对网关产生了新的诉求:既能有流量网关的特性处理海量请求,又具备微服务网关的服务发现与治理能力,同时要求弹性扩缩容,开发者可专注于业务逻辑,无需担心底层架构的容量、维护和管理。
AI 网关
与前述网关类型不同,AI 网关主要处理以 SSE/WebSocket 为主的 AI 流量。这些协议虽然也是长连接,但相比传统 request-response 模式,Server 可以主动发送数据给 Client,WebSocket 更是一种全双工协议,常用于实时通讯场景。
这种长连接对应用带来的一个巨大影响是,原本无状态的应用会变成有状态应用,应用层的配置变更不能中断长连接的传输。下图展示了 AI 流量的主要特点:

在 AI 场景中,不仅流量有新的特点,而且对于网关也产生了新的诉求,最典型的是多模型代理诉求,背后的原因有以下 4 点:
- 企业需同时处理文本、图像、音频、3D 等多模态数据,不同团队对不同类型模型有不同需求。
- 企业业务覆盖多个垂直领域,需针对不同行业特性调用专用模型。
- 复杂任务协同场景,单一任务需要多个模型分工协作,以提升效果。
- 安全与效率双重要求场景,如医疗机构需区分敏感与非敏感数据的模型调用。
除了多模型代理以外,还有智能路由、模型增强、安全防护、流式传输、无损变更等诉求。当前对网关有更细粒度的分法,如 ModelGateway、AIGateway,但本质都属于 AI 网关范畴。
下图展示了 AI 网关的典型应用场景:

这些 AI 网关的诉求均来源于真实的实践场景。例如 Higress 已在阿里云内部大规模生产落地,支持核心业务如下图所示:

Higress 网关不仅在阿里云内部大规模生产落地,有对应的云产品 API 网关,也对外开源。更多内容可访问 Higress 官网 。
Higress 的愿景是成为全球领先的 AI 网关,目前已启动开源出海项目,欢迎感兴趣的小伙伴参与共建。
API 网关
从流量网关到 AI 网关,都是 API 网关在不同软件架构下的形态。
在流量网关中,路由本身是一种 API,只是没有定义规范的请求和响应标准,通常被称为 HTTP API。REST API 采用 OpenAPI 格式规范请求和响应,在微服务架构下应用广泛。gRPC 和 Dubbo 是高性能远程调用框架,适用于服务间高频调用和高性能场景。
WebSocket 是 HTML5 标准中的全双工通信协议,适用于即时通讯、游戏等实时场景。可以说,支持 API 访问的都是 API 网关,API 网关贯穿软件架构演进的各个阶段。
因此,唯一不变的是变化。现代复杂商业环境下,企业业务形态与规模不断变化和扩大,对信息系统和软件架构提出更高要求。网关作为互联网流量入口,其形态也在持续演进。在 AI 应用爆发的当下,AI 网关正扮演着 AI 应用基础设施的角色。
AI 网关的定义、特点与应用场景
AI 网关是提供多模型流量调度、MCP 和 Agent 管理、智能路由和 AI 治理的下一代网关。
本质上,它是一种针对 AI 应用场景进行专门优化和能力扩展的 API 网关。AI 网关不仅完整继承了 API 网关的通用能力,如安全认证、路由转发、流量控制等,也演进出了大模型 Fallback、大模型负载均衡、Token 级别的精细化流量管控、语义化缓存、内容安全、联网搜索、MCP 协议转化和管理、工具精选和搜索效果优化等面向 AI 场景的能力。
AI 应用的流量特征
理解 AI 网关,需先了解 AI 应用的流量特征。AI 应用的流量与传统 Web 应用截然不同,主要体现在以下四个方面:
- 高延时:模型推理计算量大,响应时间远高于普通应用,易受慢速连接攻击影响。
- 大带宽与流式传输:AI 生成内容常采用流式(Streaming)方式逐步推送,对网关流式处理能力和内存控制要求高。
- 长连接:为支持多轮对话,广泛采用 SSE 或 WebSocket 等长连接协议,传统网关配置变更易中断长连接,影响体验。
- API 驱动:AI 原生应用由大量轻量化 Agent 组成,API 数量和调用量激增,对全生命周期管理能力提出新要求。
AI 网关的应用场景
根据业务需求和部署位置,AI 网关常见于以下四种典型场景:
模型服务提供商(MaaS)的接入层
作为模型推理集群的流量入口,保障性能、稳定与安全,智能分发请求,防止恶意流量,提供差异化服务质量保障。AI 应用的开发网关
为开发者集成多家模型 API,屏蔽协议差异,统一接口,支持主用模型 Fallback,提升应用稳定性和韧性,并统一安全合规过滤。企业内部的中央 AI 网关
作为企业内部系统访问内外部 AI 服务的统一入口,实现成本审计、数据安全与合规、资源复用与效率提升。MCP 工具生态的统一入口
作为 MCP 工具统一收口和安全堡垒,集中安全管控,统一认证鉴权、速率限制和审计日志,简化生态治理。构建企业 AI 能力货币化的统一开放平台
作为 Agent 货币化的载体,统一开放平台支撑企业 AI 能力变现,推动 Agent 经济发展。
下图展示了 Agent 货币化的前景:

图片来源: Sequoia Capital - AI Ascent 2025
AI 网关的核心能力和最佳实践
当前,大语言模型(LLM)正经历百花齐放时代。行业呈现多样性格局,模型能力分化与专精,Agent 设计理念也随之演变。
先进 Agent 会根据任务类型智能调度多个模型。例如,报告生成任务可拆解为数据检索、逻辑分析、文稿润色等多模型协作。
核心能力
AI 网关作为入口中间件,在 Single、SubAgent、MultiAgent 场景下,发挥着关键基础设施作用:

- 多模型代理:统一入口接收请求,负载均衡到后端模型,实现多模型动态路由,提升可用性。
- 多模型回退/容灾:对接多个模型,主模型异常时自动切换,保障服务连续性和高可用性。
- 消费者认证:支持多用户/应用身份认证,便于计费、权限管理和个性化服务。
- 内容安全防护:统一内容安全防护层,前置内容审查,过滤有害信息,确保合规。
- Token 限流:按 Token 控制调用频率和总量,防止滥用,保障稳定性和成本可控。
- 语义缓存:接入 Redis 实现内容缓存,提高效率、降低成本、保持一致性。
- 可观测性:提供详细日志、性能指标和链路追踪,便于定位问题和优化策略。
- MCP 代理:支持 MCPServer 代理、安全认证、协议转换等治理能力。
- 工具的动态组装与智能路由:通过 Query 改写、Rerank 模型压缩工具集,提升效率和准确性。
综上,AI 网关已成为企业构建 AI 应用的最佳实践载体。
最佳实践
AI 网关经过技术演进,能力丰富,面向 LLM、Agent、MCP 和 AI 开放平台四大类。以下总结 8 类常见实践:
- 多模型代理
- 消费者认证
- 内容安全防护
- Token 限流
- 语义缓存
- 多模型容灾
- 多模型可观测
- AI 开放平台
每类实践均结合实际业务需求,充分发挥 AI 网关能力。
总结
AI 网关作为新一代 API 网关,承载多模型流量调度、智能路由、内容安全、Token 限流、语义缓存等核心能力,已成为企业构建高效、安全 AI 应用基础设施的关键。通过持续技术演进和最佳实践沉淀,AI 网关不仅支撑了多模型、Agent、MCP 等多样化场景,也为企业 AI 能力的货币化和生态建设提供了坚实基础。未来,AI 网关将在智能应用、Agent 经济和开放平台等领域持续发挥重要作用,助力企业实现智能化转型与创新。
参考文献
- Higress 官网 - higress.ai
- HiMarket 开源地址 - github.com
- Sequoia Capital - sequolatap.com
- 阿里云内容安全文档 - aliyun.com
- Higress 社区文档 - github.com