简介
Kubeflow 是一套基于 Kubernetes 的开源工具集合与参考平台,覆盖模型训练、调度、服务化、实验管理与监控等 AI 生命周期的各个环节,旨在为平台与工程团队提供可组合、可扩展的生产级能力。
主要特性
- 模块化组件(如 Pipelines、Katib、Notebooks、Model Registry)可按需部署。
- 支持多种训练与推理后端、容器化任务与资源隔离。
- 提供可视化仪表盘、实验管理和数据血缘跟踪以便于调试与审计。
- 社区活跃、企业采用广泛,拥有成熟的安装与部署文档。
使用场景
- 在 Kubernetes 集群上构建端到端 ML 平台与托管服务。
- 管理多租户、共享资源与模型生命周期的团队平台化需求。
- 结合 CI/CD 与 GitOps 实现模型的自动化发布与监控。
技术特点
- 以 Kubernetes 为基础,支持 Helm / manifests 的多种部署方式。
- 使用多语言 SDK 与容器化任务实现语言无关的工作流定义与执行。
- 拥有丰富的子项目生态(如 Pipelines、Katib、KServe 等),便于扩展与集成。