术语表

Kubernetes 术语

Pod：Kubernetes 最小调度单元，包含一个或多个容器。

Node：Kubernetes 集群中的工作节点，运行 Pod 和工作负载。

Scheduler：Kubernetes 控制平面组件，负责将 Pod 调度到合适的节点。

Device Plugin：Kubernetes 设备插件框架，允许第三方设备厂商向 kubelet 注册设备资源。

Admission Webhook：准入控制 Webhook，在对象持久化前拦截和修改请求。分为 Mutating（修改）和 Validating（校验）两种。

ResourceQuota：命名空间级别的资源配额限制，控制资源使用总量。

ConfigMap：存储非敏感配置数据的 Kubernetes 对象。

Informer：Kubernetes 客户端缓存机制，通过事件驱动保持本地缓存与 API Server 同步。

DaemonSet：确保每个（或特定）节点运行一个 Pod 副本的控制器。

Scheduler Extender：调度器扩展机制，通过 HTTP 接口扩展默认调度器的 Filter/Score/Bind 流程。

RBAC：Role-Based Access Control，基于角色的访问控制。

Affinity / Anti-Affinity：亲和性/反亲和性规则，控制 Pod 调度到哪些节点。

GPU 术语

GPU：Graphics Processing Unit，图形处理单元，广泛用于 AI 计算的并行处理器。

VRAM / 显存：Video Random Access Memory，GPU 专用内存，存储模型权重、激活值等数据。

CUDA：Compute Unified Device Architecture，NVIDIA 的 GPU 并行计算平台和编程模型。

NVML：NVIDIA Management Library，NVIDIA GPU 管理库，提供 GPU 监控和管理 API。

SM (Streaming Multiprocessor)：流多处理器，GPU 的计算核心单元。

MIG (Multi-Instance GPU)：NVIDIA A100/H100 等 GPU 的硬件级分区功能，将一张 GPU 切分为多个独立实例。

NVLink：NVIDIA 的高速 GPU 互联技术，带宽远高于 PCIe。

NVSwitch：NVIDIA 的 GPU 交换芯片，支持多 GPU 全互联。

NUMA (Non-Uniform Memory Access)：非统一内存访问，多处理器系统中内存访问延迟不一致的架构。

PCIe：Peripheral Component Interconnect Express，GPU 与 CPU 通信的标准总线接口。

Persistence Mode：NVIDIA GPU 的持久化模式，保持 GPU 驱动加载状态，减少初始化延迟。

HAMi 术语

HAMi：Heterogeneous AI Computing Virtualization Middleware，异构 AI 计算虚拟化中间件。CNCF Sandbox 项目。

Scheduler Extender（调度器扩展器）：HAMi 的调度组件，通过 HTTP 接口扩展 Kubernetes 调度器，实现 GPU 感知的 Filter/Score/Bind。

Device Plugin（设备插件）：HAMi 的设备管理组件，以 DaemonSet 运行在每个加速器节点上，负责设备发现、注册和资源分配。

Monitor（监控器）：HAMi 的监控组件，采集 GPU 资源使用指标并通过 HTTP 暴露给 Prometheus。

Webhook：HAMi 的准入控制组件，拦截 Pod 创建请求，注入调度器名称和设备相关配置。

注解协议（Annotation Protocol）：HAMi 组件间通过 Pod/Node 注解传递设备分配信息的编码规范。

Filter/Score/Bind：调度三段式流程。Filter 过滤可行节点，Score 评分排序，Bind 绑定 Pod 到最优节点。

DeviceInfo：设备信息数据结构，描述 GPU ID、显存、核心数、NUMA、健康状态等。

DeviceUsage：设备使用量数据结构，描述设备已分配的显存、核心数和关联的 Pod 信息。

Fit：设备匹配算法，判断节点上的设备能否满足 Pod 的资源请求。

节点锁（Node Lock）：基于节点注解的并发控制机制，防止多个调度器同时绑定同一节点。

领导者选举（Leader Election）：多副本调度器通过 Kubernetes Lease 机制选举活跃实例，避免调度冲突。

超卖（Overcommit）：资源超分配策略，允许分配的显存/算力总量超过物理资源。

切分（Split）：将一张物理 GPU 按显存和算力拆分为多份，供多个 Pod 共享使用。

设备术语

NVIDIA GPU：NVIDIA 的图形处理器，如 A100、H100、A10、T4 等。HAMi 支持最完整的设备后端。

Ascend NPU：华为昇腾神经网络处理器，如 910B2、910B3 等。支持 VNPU 软切分。

Cambricon MLU：寒武纪机器学习单元，如 MLU370 等。

Hygon DCU：海光深度计算单元，国产 AI 加速器。

AMD GPU：AMD 的图形处理器，如 Instinct MI250 等。

Moore Threads XPU：摩耳线程的扩展处理器单元。

Enflame GCU：炎魂的通用计算单元。

AWS Neuron：AWS 的专用 AI 推理/训练芯片（Inferentia/Trainium）。

Vast.ai：Vast.ai 平台的 GPU 加速器。

调度策略术语

binpack：密集策略，优先调度到资源利用率最高的节点/GPU，实现装箱效果。

spread：分散策略，优先调度到资源利用率最低的节点/GPU，实现负载均衡。

topology-aware：拓扑感知策略，利用 GPU 互联拓扑（NVLink/NVSwitch）优化设备组合选择。

动态 MIG：根据工作负载需求动态创建/销毁 MIG 实例的策略。

节点级策略（Node Policy）：控制 Pod 在不同节点间分布的策略（binpack/spread）。

GPU 卡级策略（GPU Policy）：控制 Pod 在同一节点的不同 GPU 卡间分布的策略。

CDI (Container Device Interface)：容器设备接口规范，标准化容器运行时的设备注入方式。

监控术语

Prometheus：开源监控系统和时序数据库，HAMi 通过 HTTP 端点暴露指标供其采集。

Grafana：开源可视化平台，用于创建 GPU 资源监控仪表盘。

ServiceMonitor：Prometheus Operator 的自定义资源，定义指标采集目标和间隔。

pprof：Go 语言性能分析工具，用于分析调度器的 CPU 和内存使用。

创建于 2026/06/04 更新于 2026/06/05 2259 字阅读约 5 分钟

技术专栏

技术专栏

更多内容