📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Apache Airflow

用于以代码定义、调度和监控数据与任务工作流的可扩展编排平台。

简介

Apache Airflow 是一个以代码(DAG)定义、调度和监控工作流的平台,擅长将复杂数据管道与任务编排成可维护、可测试且可视化的流程。Airflow 常用于 ETL、数据工程与定时任务调度,强调任务幂等性与可扩展执行。

主要特性

  • 以代码定义的 DAG 支持动态生成与参数化。
  • 丰富的内置与社区提供的 Operators/Providers,便于集成多种系统(数据库、云服务、消息队列等)。
  • 可视化界面展示 DAG、依赖关系和任务执行状态,便于监控与调试。

使用场景

  • 定时 ETL/ELT 数据管道与数据仓库刷新调度。
  • 批处理任务编排、模型训练与上线流水线的定时触发。
  • 结合 Kubernetes 或 Celery 扩展任务执行与弹性伸缩。

技术特点

  • 采用 Python 编写,支持多种执行后端(Local, Celery, Kubernetes 等)。
  • 使用 Jinja 模板支持任务参数化,XCom 用于轻量元数据传递。
  • 社区活跃、发行版本与约束文件保证可重复安装,官方提供 Docker 镜像与 Helm chart 支持生产部署。

评论区

Apache Airflow
资源信息
作者 Apache Software Foundation
添加时间 2025-09-15
标签
开源项目 部署与 API 接入 数据与训练