简介
Apache Airflow 是一个以代码(DAG)定义、调度和监控工作流的平台,擅长将复杂数据管道与任务编排成可维护、可测试且可视化的流程。Airflow 常用于 ETL、数据工程与定时任务调度,强调任务幂等性与可扩展执行。
主要特性
- 以代码定义的 DAG 支持动态生成与参数化。
- 丰富的内置与社区提供的 Operators/Providers,便于集成多种系统(数据库、云服务、消息队列等)。
- 可视化界面展示 DAG、依赖关系和任务执行状态,便于监控与调试。
使用场景
- 定时 ETL/ELT 数据管道与数据仓库刷新调度。
- 批处理任务编排、模型训练与上线流水线的定时触发。
- 结合 Kubernetes 或 Celery 扩展任务执行与弹性伸缩。
技术特点
- 采用 Python 编写,支持多种执行后端(Local, Celery, Kubernetes 等)。
- 使用 Jinja 模板支持任务参数化,XCom 用于轻量元数据传递。
- 社区活跃、发行版本与约束文件保证可重复安装,官方提供 Docker 镜像与 Helm chart 支持生产部署。