站在巨人的肩膀上:致敬支撑现代 AI 的传统基础设施

在 ChatGPT 和 TensorFlow 之前,有 Hadoop、Kafka 和 Kubernetes。本文致敬那些成为当今 AI 革命基石的传统开源基础设施。

“如果我看得更远,那是因为我站在巨人的肩膀上。” —— 艾萨克·牛顿

图 1: 站在巨人的肩膀上:致敬支撑现代 AI 的传统基础设施
图 1: 站在巨人的肩膀上:致敬支撑现代 AI 的传统基础设施

在大语言模型、向量数据库和 AI 智能体的热潮中,我们很容易忘记:现代 AI 并非凭空出现。今天的 AI 革命建立在数十年基础设施工作之上——分布式系统、数据管道、搜索引擎和编排平台,这些都是在"AI Native"成为流行语之前就已存在的技术。

这篇文章致敬那些传统开源项目,它们成为了 AI 基础设施的隐形基石。它们本身不是"AI 项目",但没有它们,我们今天所知的 AI 革命就不会存在。

演进之路:从大数据到 AI

时代关注点核心技术AI 关联
2000 年代网络搜索与索引Lucene、Elasticsearch语义搜索基础
2010 年代大数据与分布式计算Hadoop、Spark、Kafka规模化数据处理
2010 年代云原生Docker、Kubernetes模型部署平台
2010 年代流处理Flink、Storm、Pulsar实时 ML 推理
2020 年代AI NativeTransformers、向量数据库建立在上面所有技术之上
表 1: 数据基础设施演进

大数据框架:数据引擎

在我们能够对 PB 级数据训练模型之前,我们需要存储、处理和移动这些数据的方法。

Apache Hadoop (2006)

GitHub: https://github.com/apache/hadoop

Hadoop 通过让分布式计算大众化,证明了普通硬件可以处理网络规模的数据集。其 HDFS 文件系统和 MapReduce 范式成为大数据处理的基石。

对 AI 的意义

  • 现代机器学习训练数据集存储在与 HDFS 兼容的存储中
  • 基于 Hadoop 构建的数据湖成为训练数据仓库
  • 证明了分布式计算可以水平扩展

Apache Kafka (2011)

GitHub: https://github.com/apache/kafka

Kafka 以其基于日志的架构重新定义了数据流。它成为全球企业实时数据流的神经系统。

对 AI 的意义

  • 机器学习模型的实时特征管道
  • AI 智能体系统的事件驱动架构
  • 流式推理管道
  • 模型遥测和监控骨干网

Apache Spark (2014)

GitHub: https://github.com/apache/spark

Spark 将内存计算带入大数据,使迭代算法(如 ML 训练)能够规模化运行。

对 AI 的意义

  • MLlib 使数据工程师能够使用机器学习
  • 模型训练的分布式数据处理
  • Spark ML 成为大数据库机器学习的事实标准
  • 证明了内存计算可以加速机器学习工作负载

搜索引擎:检索基础

在 RAG(检索增强生成)成为流行语之前,搜索引擎已经在解决规模化检索问题。

Elasticsearch (2010)

GitHub: https://github.com/elastic/elasticsearch

Elasticsearch 通过其分布式架构和 RESTful API 使全文搜索易于访问和扩展。它成为搜索的标准。

对 AI 的意义

  • 开创了分布式倒排索引结构
  • 证明了搜索工作负载可以水平扩展
  • 许多"AI 搜索"系统实际上在底层使用 Elasticsearch
  • 查询 DSL 影响了现代向量数据库查询语言

OpenSearch (2021)

GitHub: https://github.com/opensearch-project/opensearch

当 AWS 分叉 Elasticsearch 时,它确保了搜索基础设施保持真正的开源。OpenSearch 继续着可访问、可扩展搜索的使命。

对 AI 的意义

  • 保持搜索的开源创新
  • 2023 年添加了向量搜索功能
  • 展示了社区分叉的韧性

数据库:从 SQL 到向量

从关系数据库到向量数据库的演变代表了范式转变——但两者都与 AI 相关。

铺路的传统数据库

  • Dgraph (2015) - 图数据库,证明专门的数据结构能够实现新的用例
  • TDengine (2019) - 用于物联网机器学习工作负载的时序数据库
  • OceanBase (2021) - 证明 ACID 事务可以扩展的分布式数据库

对 AI 的意义

  • 证明专门的数据库引擎可以超越通用数据库
  • 数据库内部技术(索引、分片、复制)现在应用于向量数据库
  • 多模型数据库(图 + 向量 + 关系)正在成为 AI 应用的标准

云原生:运行时基础

当 Docker 和 Kubernetes 出现时,它们并非为 AI 而构建——但没有它们,AI 无法规模化。

Docker (2013) & Kubernetes (2014)

GitHub: https://github.com/kubernetes/kubernetes

Kubernetes 成为云原生应用程序的操作系统。其声明式 API 和控制器模式使其非常适合 AI 工作负载。

对 AI 的意义

  • 模型部署平台(KServe、Seldon Core)运行在 K8s 上
  • GPU 编排(NVIDIA GPU Operator、Volcano、HAMi)扩展了 K8s
  • Kubeflow 使 K8s 成为机器学习管道的标准
  • 微服务模式支持模块化 AI 智能体架构

服务网格与无服务器

Istio (2016)、Knative (2018) - 服务网格和无服务器平台,证明了:

  • 网络级可观察性适用于 AI 模型调用
  • 零扩展是成本效益推理的必要条件
  • 流量分割实现机器学习模型的 A/B 测试

对 AI 的意义

  • AI 网关模式从 API 网关 + 服务网格演变而来
  • 无服务器推理平台使用 Knative 风格的自动扩展
  • 可观察性模式(追踪、指标)现在是机器学习系统的标准

API 网关:从 REST 到 LLM

API 网关并非为 AI 设计,但它们成为 AI 网关模式的基础。

Kong、APISIX、KGateway

这些 API 网关解决了规模化限流、认证和路由问题。当大语言模型出现时,同样的模式适用:

AI 网关演进

传统 API 网关 (2010 年代)
限流 → 令牌桶限流
认证 → API 密钥 + 组织管理
路由 → 模型路由(GPT-4 → Claude → 本地模型)
可观察性 → LLM 特定遥测(令牌使用、成本)
AI 网关 (2024)

对 AI 的意义

  • 证明了集中式 API 管理可以规模化
  • 插件架构支持 LLM 特定功能
  • 流量管理模式适用于提示路由
  • 安全模式(mTLS、JWT)现在保护 AI 端点

工作流编排:管道骨干

数据工程需要管道。机器学习工程需要管道。AI 智能体需要工作流。

Apache Airflow (2015)

GitHub: https://github.com/apache/airflow

Airflow 通过其基于 DAG 的方法使管道编排易于访问。它成为 ETL 和数据工程的标准。

对 AI 的意义

  • 机器学习管道编排(特征工程、训练、评估)
  • 证明了基于 DAG 的工作流定义可以规模化
  • 提示工程管道使用 Airflow 风格的编排
  • 调度器模式现在应用于 AI 智能体工作流

n8n、Prefect、Flyte

从 Airflow 基础演进而来的现代工作流平台:

  • n8n (2019) - 具有 AI 功能的可视化工作流自动化
  • Prefect (2018) - 面向机器学习的 Python 原生工作流编排
  • Flyte (2019) - 面向机器学习/数据的 Kubernetes 原生工作流编排

对 AI 的意义

  • 多模态智能体需要工作流编排
  • RAG 管道本质上是嵌入的 ETL 管道
  • 提示链是基于 DAG 的编排

数据格式:湖屋基础

在我们能够对海量数据集进行训练之前,我们需要支持 ACID 事务和模式演进的格式。

Delta Lake、Apache Iceberg、Apache Hudi

这些表格式为数据湖带来了可靠性:

对 AI 的意义

  • 训练数据集需要版本控制和可重现性
  • 特征存储使用 Delta/Iceberg 作为存储格式
  • 证明"大数据"可以具有事务语义
  • 模式演进处理机器学习特征漂移

隐形线索:为什么这些项目重要

所有这些项目有什么共同点?

  1. 它们首先解决了规模化问题 - AI 训练/推理需要水平扩展
  2. 它们证明了分布式系统可行 - 现代 AI 本质上是分布式的
  3. 它们创建了生态系统模式 - 插件系统、扩展点、API
  4. 它们建立了最佳实践 - 可观察性、安全性、CI/CD
  5. 它们培养了开发者习惯 - YAML 配置、声明式 API、CLI 工具

AI Native 连续体

现代"AI Native"基础设施没有取代这些项目——它建立在这些项目之上:

传统项目AI Native 演进示例
Hadoop HDFS分布式模型存储数据集用 HDFS,检查点用 S3
Kafka实时特征管道Kafka → 特征存储 → 模型服务
Spark ML分布式机器学习训练MLlib → PyTorch 分布式
Elasticsearch向量搜索ES → Weaviate/Qdrant/Milvus
Kubernetes机器学习编排K8s → Kubeflow/KServe
IstioAI 网关服务网格Istio → 带有 mTLS 的 LLM 网关
Airflow机器学习管道编排Airflow → 面向机器学习的 Prefect/Flyte
表 2: 从传统到 AI Native

我们为什么要从 AI 资源列表中移除它们

这篇文章致敬这些项目,但我们也要将它们从我们的 AI 资源列表中移除。原因如下:

它们不是"AI 项目"——它们是基础基础设施。

  • Hadoop、Kafka、Spark 是数据工程工具,不是机器学习框架
  • Elasticsearch 是搜索,不是语义搜索
  • Kubernetes 是通用编排
  • API 网关服务 REST/GraphQL,不仅仅是 LLM

但它们的存在并不影响其重要性。

通过移除它们,我们要承认:

  1. AI 有自己的生态系统 - Transformers、向量数据库、大模型运维
  2. 传统基础设施有自己的领域 - 数据工程、云原生
  3. 交叉点是创新发生的地方 - AI 原生数据平台、基于 K8s 的大模型运维

我们站立的巨人

下次当你:

  • 在 Kubernetes 上部署模型
  • 通过 Kafka 流式传输特征
  • 使用向量数据库搜索嵌入
  • 使用 Prefect 编排 RAG 管道

记住:你站在 Hadoop、Kafka、Elasticsearch、Kubernetes 和无数其他项目的肩膀上。它们铺设了我们现在行驶的道路。

未来:建造新的巨人

正如 Hadoop 和 Kafka 使现代 AI 成为可能,今天的 AI 基础设施将成为明天的基础:

  • 向量数据库 可能成为所有搜索的新标准
  • 大语言模型可观察性 可能演变为通用分布式追踪
  • AI 智能体编排 可能重新发明工作流自动化
  • GPU 调度 可能影响通用资源管理

循环继续。今天的巨人将成为明天的基础。

结语:感恩与延续

当我们清理 AI 资源列表以专注于 AI 原生项目时,我们不会忘记我们的起源。传统大数据和云原生基础设施使 AI 革命成为可能。

致 Hadoop 贡献者、Kafka 维护者、Kubernetes 贡献者和所有构建基础的人:谢谢。

你们的工作使 ChatGPT、Transformers 以及我们现在称之为"AI"的一切成为可能。

站在你们的肩膀上,我们看得更远。


致谢:这篇文章受到需要重构我们的 AI 资源列表的启发。这里提到的 27 个项目将被移除——不是因为它们不重要,而是因为它们值得有自己的类别:基石

宋净超(Jimmy Song)

宋净超(Jimmy Song)

专注于 AI 原生基础设施与云原生应用架构的研究与开源实践。

文章导航