站在巨人的肩膀上：致敬支撑现代 AI 的传统基础设施

“如果我看得更远，那是因为我站在巨人的肩膀上。” —— 艾萨克·牛顿

在大语言模型、向量数据库和 AI 智能体的热潮中，我们很容易忘记：现代 AI 并非凭空出现。今天的 AI 革命建立在数十年基础设施工作之上——分布式系统、数据管道、搜索引擎和编排平台，这些都是在"AI Native"成为流行语之前就已存在的技术。

这篇文章致敬那些传统开源项目，它们成为了 AI 基础设施的隐形基石。它们本身不是"AI 项目"，但没有它们，我们今天所知的 AI 革命就不会存在。

演进之路：从大数据到 AI

时代	关注点	核心技术	AI 关联
2000 年代	网络搜索与索引	Lucene、Elasticsearch	语义搜索基础
2010 年代	大数据与分布式计算	Hadoop、Spark、Kafka	规模化数据处理
2010 年代	云原生	Docker、Kubernetes	模型部署平台
2010 年代	流处理	Flink、Storm、Pulsar	实时 ML 推理
2020 年代	AI Native	Transformers、向量数据库	建立在上面所有技术之上

表 1: 数据基础设施演进

大数据框架：数据引擎

在我们能够对 PB 级数据训练模型之前，我们需要存储、处理和移动这些数据的方法。

Apache Hadoop (2006)

GitHub: https://github.com/apache/hadoop

Hadoop 通过让分布式计算大众化，证明了普通硬件可以处理网络规模的数据集。其 HDFS 文件系统和 MapReduce 范式成为大数据处理的基石。

对 AI 的意义：

现代机器学习训练数据集存储在与 HDFS 兼容的存储中
基于 Hadoop 构建的数据湖成为训练数据仓库
证明了分布式计算可以水平扩展

Apache Kafka (2011)

GitHub: https://github.com/apache/kafka

Kafka 以其基于日志的架构重新定义了数据流。它成为全球企业实时数据流的神经系统。

对 AI 的意义：

机器学习模型的实时特征管道
AI 智能体系统的事件驱动架构
流式推理管道
模型遥测和监控骨干网

Apache Spark (2014)

GitHub: https://github.com/apache/spark

Spark 将内存计算带入大数据，使迭代算法（如 ML 训练）能够规模化运行。

对 AI 的意义：

MLlib 使数据工程师能够使用机器学习
模型训练的分布式数据处理
Spark ML 成为大数据库机器学习的事实标准
证明了内存计算可以加速机器学习工作负载

搜索引擎：检索基础

在 RAG（检索增强生成）成为流行语之前，搜索引擎已经在解决规模化检索问题。

Elasticsearch (2010)

GitHub: https://github.com/elastic/elasticsearch

Elasticsearch 通过其分布式架构和 RESTful API 使全文搜索易于访问和扩展。它成为搜索的标准。

对 AI 的意义：

开创了分布式倒排索引结构
证明了搜索工作负载可以水平扩展
许多"AI 搜索"系统实际上在底层使用 Elasticsearch
查询 DSL 影响了现代向量数据库查询语言

OpenSearch (2021)

GitHub: https://github.com/opensearch-project/opensearch

当 AWS 分叉 Elasticsearch 时，它确保了搜索基础设施保持真正的开源。OpenSearch 继续着可访问、可扩展搜索的使命。

对 AI 的意义：

保持搜索的开源创新
2023 年添加了向量搜索功能
展示了社区分叉的韧性

数据库：从 SQL 到向量

从关系数据库到向量数据库的演变代表了范式转变——但两者都与 AI 相关。

铺路的传统数据库

Dgraph (2015) - 图数据库，证明专门的数据结构能够实现新的用例
TDengine (2019) - 用于物联网机器学习工作负载的时序数据库
OceanBase (2021) - 证明 ACID 事务可以扩展的分布式数据库

对 AI 的意义：

证明专门的数据库引擎可以超越通用数据库
数据库内部技术（索引、分片、复制）现在应用于向量数据库
多模型数据库（图 + 向量 + 关系）正在成为 AI 应用的标准

云原生：运行时基础

当 Docker 和 Kubernetes 出现时，它们并非为 AI 而构建——但没有它们，AI 无法规模化。

Docker (2013) & Kubernetes (2014)

GitHub: https://github.com/kubernetes/kubernetes

Kubernetes 成为云原生应用程序的操作系统。其声明式 API 和控制器模式使其非常适合 AI 工作负载。

对 AI 的意义：

模型部署平台（KServe、Seldon Core）运行在 K8s 上
GPU 编排（NVIDIA GPU Operator、Volcano、HAMi）扩展了 K8s
Kubeflow 使 K8s 成为机器学习管道的标准
微服务模式支持模块化 AI 智能体架构

服务网格与无服务器

Istio (2016)、Knative (2018) - 服务网格和无服务器平台，证明了：

网络级可观察性适用于 AI 模型调用
零扩展是成本效益推理的必要条件
流量分割实现机器学习模型的 A/B 测试

对 AI 的意义：

AI 网关模式从 API 网关 + 服务网格演变而来
无服务器推理平台使用 Knative 风格的自动扩展
可观察性模式（追踪、指标）现在是机器学习系统的标准

API 网关：从 REST 到 LLM

API 网关并非为 AI 设计，但它们成为 AI 网关模式的基础。

Kong、APISIX、KGateway

这些 API 网关解决了规模化限流、认证和路由问题。当大语言模型出现时，同样的模式适用：

AI 网关演进：

传统 API 网关 (2010 年代)
  ↓
限流 → 令牌桶限流
认证 → API 密钥 + 组织管理
路由 → 模型路由（GPT-4 → Claude → 本地模型）
可观察性 → LLM 特定遥测（令牌使用、成本）
  ↓
AI 网关 (2024)

对 AI 的意义：

证明了集中式 API 管理可以规模化
插件架构支持 LLM 特定功能
流量管理模式适用于提示路由
安全模式（mTLS、JWT）现在保护 AI 端点

工作流编排：管道骨干

数据工程需要管道。机器学习工程需要管道。AI 智能体需要工作流。

Apache Airflow (2015)

GitHub: https://github.com/apache/airflow

Airflow 通过其基于 DAG 的方法使管道编排易于访问。它成为 ETL 和数据工程的标准。

对 AI 的意义：

机器学习管道编排（特征工程、训练、评估）
证明了基于 DAG 的工作流定义可以规模化
提示工程管道使用 Airflow 风格的编排
调度器模式现在应用于 AI 智能体工作流

n8n、Prefect、Flyte

从 Airflow 基础演进而来的现代工作流平台：

n8n (2019) - 具有 AI 功能的可视化工作流自动化
Prefect (2018) - 面向机器学习的 Python 原生工作流编排
Flyte (2019) - 面向机器学习/数据的 Kubernetes 原生工作流编排

对 AI 的意义：

多模态智能体需要工作流编排
RAG 管道本质上是嵌入的 ETL 管道
提示链是基于 DAG 的编排

数据格式：湖屋基础

在我们能够对海量数据集进行训练之前，我们需要支持 ACID 事务和模式演进的格式。

Delta Lake、Apache Iceberg、Apache Hudi

这些表格式为数据湖带来了可靠性：

对 AI 的意义：

训练数据集需要版本控制和可重现性
特征存储使用 Delta/Iceberg 作为存储格式
证明"大数据"可以具有事务语义
模式演进处理机器学习特征漂移

隐形线索：为什么这些项目重要

所有这些项目有什么共同点？

它们首先解决了规模化问题 - AI 训练/推理需要水平扩展
它们证明了分布式系统可行 - 现代 AI 本质上是分布式的
它们创建了生态系统模式 - 插件系统、扩展点、API
它们建立了最佳实践 - 可观察性、安全性、CI/CD
它们培养了开发者习惯 - YAML 配置、声明式 API、CLI 工具

AI Native 连续体

现代"AI Native"基础设施没有取代这些项目——它建立在这些项目之上：

传统项目	AI Native 演进	示例
Hadoop HDFS	分布式模型存储	数据集用 HDFS，检查点用 S3
Kafka	实时特征管道	Kafka → 特征存储 → 模型服务
Spark ML	分布式机器学习训练	MLlib → PyTorch 分布式
Elasticsearch	向量搜索	ES → Weaviate/Qdrant/Milvus
Kubernetes	机器学习编排	K8s → Kubeflow/KServe
Istio	AI 网关服务网格	Istio → 带有 mTLS 的 LLM 网关
Airflow	机器学习管道编排	Airflow → 面向机器学习的 Prefect/Flyte

表 2: 从传统到 AI Native

我们为什么要从 AI 资源列表中移除它们

这篇文章致敬这些项目，但我们也要将它们从我们的 AI 资源列表中移除。原因如下：

它们不是"AI 项目"——它们是基础基础设施。

Hadoop、Kafka、Spark 是数据工程工具，不是机器学习框架
Elasticsearch 是搜索，不是语义搜索
Kubernetes 是通用编排
API 网关服务 REST/GraphQL，不仅仅是 LLM

但它们的存在并不影响其重要性。

通过移除它们，我们要承认：

AI 有自己的生态系统 - Transformers、向量数据库、大模型运维
传统基础设施有自己的领域 - 数据工程、云原生
交叉点是创新发生的地方 - AI 原生数据平台、基于 K8s 的大模型运维

我们站立的巨人

下次当你：

在 Kubernetes 上部署模型
通过 Kafka 流式传输特征
使用向量数据库搜索嵌入
使用 Prefect 编排 RAG 管道

记住：你站在 Hadoop、Kafka、Elasticsearch、Kubernetes 和无数其他项目的肩膀上。它们铺设了我们现在行驶的道路。

未来：建造新的巨人

正如 Hadoop 和 Kafka 使现代 AI 成为可能，今天的 AI 基础设施将成为明天的基础：

向量数据库 可能成为所有搜索的新标准
大语言模型可观察性 可能演变为通用分布式追踪
AI 智能体编排 可能重新发明工作流自动化
GPU 调度 可能影响通用资源管理

循环继续。今天的巨人将成为明天的基础。

结语：感恩与延续

当我们清理 AI 资源列表以专注于 AI 原生项目时，我们不会忘记我们的起源。传统大数据和云原生基础设施使 AI 革命成为可能。

致 Hadoop 贡献者、Kafka 维护者、Kubernetes 贡献者和所有构建基础的人：谢谢。

你们的工作使 ChatGPT、Transformers 以及我们现在称之为"AI"的一切成为可能。

站在你们的肩膀上，我们看得更远。

致谢：这篇文章受到需要重构我们的 AI 资源列表的启发。这里提到的 27 个项目将被移除——不是因为它们不重要，而是因为它们值得有自己的类别：基石。

核心内容

核心内容

技术专栏

技术专栏

更多内容

更多内容

AI

AI

云原生

云原生

更多

更多

精选资源

精选资源

交流与反馈

交流与反馈

更多

更多

快速链接

快速链接

微信公众号

微信公众号

微信联系

微信联系

站在巨人的肩膀上：致敬支撑现代 AI 的传统基础设施

演进之路：从大数据到 AI

大数据框架：数据引擎

Apache Hadoop (2006)

Apache Kafka (2011)

Apache Spark (2014)

搜索引擎：检索基础

Elasticsearch (2010)

OpenSearch (2021)

数据库：从 SQL 到向量

铺路的传统数据库

云原生：运行时基础

Docker (2013) & Kubernetes (2014)

服务网格与无服务器

API 网关：从 REST 到 LLM

Kong、APISIX、KGateway

工作流编排：管道骨干

Apache Airflow (2015)

n8n、Prefect、Flyte

数据格式：湖屋基础

Delta Lake、Apache Iceberg、Apache Hudi

隐形线索：为什么这些项目重要

AI Native 连续体

我们为什么要从 AI 资源列表中移除它们

我们站立的巨人

未来：建造新的巨人

结语：感恩与延续

宋净超（Jimmy Song）

微信分享

容器技术在大数据场景下的应用——YARN on Docker

从空间数据到 AI 开源：技术标准、数据主权与全球化的分野

从云原生到 AI 原生：Kubernetes 如何承载下一代 AI Agent