HAMi 手册:Kubernetes GPU 资源管理与调度实战
已发行
- 发行日期
- 2026/06/05
- 作者
- Jimmy Song
- 发行方
- jimmysong.io
HAMi 是 CNCF Sandbox 项目,为 Kubernetes 提供 GPU 资源管理与调度能力,让异构 AI 加速器实现精细化的资源切分、共享与隔离。
《HAMi 手册》是一本面向 Kubernetes 用户的 GPU 资源管理与调度实战指南。本书从 AI 基础设施面临的真实挑战出发,带你理解为什么 Kubernetes 需要 GPU 感知的资源管理,以及 HAMi 如何解决这个问题。
为什么需要 GPU 资源管理?
AI 工作负载正在改变基础设施对计算资源的消费方式。Kubernetes 围绕 CPU、内存和 Pod 设计调度,但 AI 基础设施需要调度 GPU 显存、GPU 算力、设备拓扑、利用率和异构加速器。
传统 GPU 调度模式下:
- 利用率低一个推理任务只用 30% GPU,却独占整张卡
- 成本高独占模式导致硬件成本居高不下
- 灵活性差无法根据实际需求动态调整资源分配
- 异构困难 NVIDIA、昇腾、寒武纪等不同设备缺乏统一管理
GPU 利用率低不是监控问题,而是调度问题。 HAMi 将 GPU 感知的资源管理带入 Kubernetes:
- 资源切分与共享按显存、算力或设备数量精细分配 GPU 资源
- 异构统一调度 NVIDIA GPU、华为昇腾 NPU、寒武纪 MLU 等纳入统一调度视图
- 灵活调度策略 binpack、spread、拓扑感知等多种策略
- 生产就绪完整的监控、WebUI、Helm 安装与社区支持
你将学到什么?
- 第一部分:认知与起步*:理解 AI 基础设施的 GPU 管理挑战,认识 HAMi,10 分钟快速上手
- 第二部分:架构与核心:深入理解 HAMi 的组件设计、调度机制和设备抽象层
- 第三部分:部署与实战:掌握部署配置、资源请求、调度策略和异构设备支持
- 第四部分:运维与进阶:生产环境部署、监控可观测性、故障排查和性能调优
适读人群
- 具备 Kubernetes 基础的平台工程师和运维工程师
- 需要在 Kubernetes 上调度 GPU 资源的 AI/ML 工程师
- 构建 AI 基础设施的技术决策者
学习路径
下图展示的是本书的学习路径,建议按照章节顺序阅读,以便系统地理解 HAMi 的设计理念、核心机制和实战应用:
前置知识
在阅读本书之前,建议你具备以下知识:
- Kubernetes:基础了解 Pod、Deployment、Service 等核心概念
- Linux:操作能够使用命令行工具进行基本操作
- 容器技术:理解 Docker/Containerd 的基本原理
- GPU 基础(可选):了解 GPU 的基本概念会更有帮助,但不是必需的
关于本书
本书内容基于 HAMi 项目的最新源码分析和实践经验整理,涵盖从入门到生产环境的完整知识体系。每个章节都包含理论讲解和实战示例。
所有代码示例和配置文件都可以在 HAMi GitHub 仓库 中找到。