从云原生走向 AI 原生:一套面向未来的架构方法论 → 阅读《AI 原生基础设施》

HAMi 手册:Kubernetes GPU 资源管理与调度实战

已发行
发行日期
2026/06/05
作者
Jimmy Song
发行方
jimmysong.io

HAMi 是 CNCF Sandbox 项目,为 Kubernetes 提供 GPU 资源管理与调度能力,让异构 AI 加速器实现精细化的资源切分、共享与隔离。

《HAMi 手册》是一本面向 Kubernetes 用户的 GPU 资源管理与调度实战指南。本书从 AI 基础设施面临的真实挑战出发,带你理解为什么 Kubernetes 需要 GPU 感知的资源管理,以及 HAMi 如何解决这个问题。

为什么需要 GPU 资源管理?

AI 工作负载正在改变基础设施对计算资源的消费方式。Kubernetes 围绕 CPU、内存和 Pod 设计调度,但 AI 基础设施需要调度 GPU 显存、GPU 算力、设备拓扑、利用率和异构加速器。

传统 GPU 调度模式下:

  • 利用率低一个推理任务只用 30% GPU,却独占整张卡
  • 成本高独占模式导致硬件成本居高不下
  • 灵活性差无法根据实际需求动态调整资源分配
  • 异构困难 NVIDIA、昇腾、寒武纪等不同设备缺乏统一管理

GPU 利用率低不是监控问题,而是调度问题。 HAMi 将 GPU 感知的资源管理带入 Kubernetes:

  • 资源切分与共享按显存、算力或设备数量精细分配 GPU 资源
  • 异构统一调度 NVIDIA GPU、华为昇腾 NPU、寒武纪 MLU 等纳入统一调度视图
  • 灵活调度策略 binpack、spread、拓扑感知等多种策略
  • 生产就绪完整的监控、WebUI、Helm 安装与社区支持

你将学到什么?

  • 第一部分:认知与起步*:理解 AI 基础设施的 GPU 管理挑战,认识 HAMi,10 分钟快速上手
  • 第二部分:架构与核心:深入理解 HAMi 的组件设计、调度机制和设备抽象层
  • 第三部分:部署与实战:掌握部署配置、资源请求、调度策略和异构设备支持
  • 第四部分:运维与进阶:生产环境部署、监控可观测性、故障排查和性能调优

适读人群

  • 具备 Kubernetes 基础的平台工程师和运维工程师
  • 需要在 Kubernetes 上调度 GPU 资源的 AI/ML 工程师
  • 构建 AI 基础设施的技术决策者

学习路径

下图展示的是本书的学习路径,建议按照章节顺序阅读,以便系统地理解 HAMi 的设计理念、核心机制和实战应用:

HAMi 手册学习路径
HAMi 手册学习路径

前置知识

在阅读本书之前,建议你具备以下知识:

  • Kubernetes:基础了解 Pod、Deployment、Service 等核心概念
  • Linux:操作能够使用命令行工具进行基本操作
  • 容器技术:理解 Docker/Containerd 的基本原理
  • GPU 基础(可选):了解 GPU 的基本概念会更有帮助,但不是必需的

关于本书

本书内容基于 HAMi 项目的最新源码分析和实践经验整理,涵盖从入门到生产环境的完整知识体系。每个章节都包含理论讲解和实战示例。

所有代码示例和配置文件都可以在 HAMi GitHub 仓库 中找到。

章节目录

第一部分 · 认知与起步

GPU 管理的挑战

已发行

深入分析 AI 工作负载给 Kubernetes 带来的 GPU 管理挑战,理解为什么需要 GPU 感知的资源调度。

HAMi 项目概览

已发行

了解 HAMi 的定位、核心能力、应用场景以及与其他方案的对比,理解为什么它是 Kubernetes GPU 资源管理的最佳选择。

快速开始

已发行

动手实践!通过 Helm 快速部署 HAMi,并运行第一个使用 vGPU 的 AI 应用。

第二部分 · 架构与核心

整体架构

已发行

深入理解 HAMi 的整体架构设计、四大核心组件及其协同机制,掌握 GPU 资源控制平面在 Kubernetes 中的工作方式。

调度器

已发行

深入理解 HAMi Scheduler Extender 的架构设计、Filter/Score/Bind 三段式调度流程、评分策略和配额管理。

设备插件与设备抽象层

已发行

深入理解 HAMi Device Plugin 的生命周期、设备发现与注册、资源分配机制,以及统一设备抽象层的设计。

Webhook 与准入控制

已发行

深入理解 HAMi Mutating Admission Webhook 的工作流程、Pod 注入逻辑、配额检查和 TLS 证书管理。

第三部分 · 部署与实战

部署配置

已发行

掌握 HAMi 的部署方式与配置管理,包括 Helm Chart 安装、全局配置、设备特定配置和部署验证。

资源请求与分配

已发行

学习如何在 Pod 中声明 GPU 资源请求,掌握 HAMi 的资源模型、使用示例和高级配置。

调度策略

已发行

深入学习 HAMi 的两级调度策略,包括 binpack、spread、拓扑感知和动态 MIG 策略的原理、配置和选择指南。

异构设备支持

已发行

了解 HAMi 如何通过统一设备抽象层支持多种异构加速器,包括 NVIDIA、昇腾、寒武纪、海光等厂商设备的配置与使用。

第四部分 · 运维与进阶

监控与可观测性

已发行

掌握 HAMi 的监控体系,包括 Prometheus 指标、Grafana 仪表盘、WebUI、事件增强和日志分析。

生产环境部署

已发行

学习 HAMi 在生产环境的最佳实践,包括高可用架构、安全配置、容量规划和升级策略。

故障排查

已发行

掌握 HAMi 的系统化故障排查方法,包括部署问题、调度失败、资源分配异常和设备问题的诊断与解决。

性能调优

已发行

学习 HAMi 的性能优化方法,包括调度优化、资源配置调优、系统级参数调整和性能基准测试。

附录

常见问题

已发行

HAMi 使用过程中的常见问题和解答,涵盖安装、配置、调度、多厂商和性能等主题。

术语表

已发行

HAMi 和 GPU 资源管理相关的核心术语解释。

创建于 2026/06/05 更新于 2026/06/05 1806 字 阅读约 4 分钟