简介
Dagster 是一个面向数据资产(assets)的编排平台和开发框架,强调可测试、可观测与模块化的开发流程。它提供一套声明式编程模型,使团队可以专注于数据资产的定义与质量,而由平台负责调度、监控与血缘分析。
主要特性
- 声明式资产与图模型,便于组织与测试数据工程逻辑。
- 内置可观测性、日志与血缘视图,便于运维与审计。
- 丰富的集成生态,支持多种运行后端与工具链。
使用场景
- 数据工程与 ML 工作流编排,适用于大规模数据资产生产环境。
- 将数据资产纳入软件工程生命周期(CI/CD、测试、审计)。
- 统一调度与监控多源数据处理任务。
技术特点
基于 Python 的开发体验,支持插件化运行后端、容器化部署与丰富的第三方集成,适合需要工程化管理与数据治理的团队。
此外,Dagster 强调将数据工程工作視為軟件工程的一等公民,提供測試工具、模擬器與本地開發體驗,使團隊能在本地執行、測試和驗證資產邏輯,然後安全地推送到生產環境。其豐富的整合器使 Dagster 可與多數資料存儲、消息系統和機器學習平台配合,形成端到端的數據平台解決方案。