术语表
Kubernetes 术语
Pod:Kubernetes 最小调度单元,包含一个或多个容器。
Node:Kubernetes 集群中的工作节点,运行 Pod 和工作负载。
Scheduler:Kubernetes 控制平面组件,负责将 Pod 调度到合适的节点。
Device Plugin:Kubernetes 设备插件框架,允许第三方设备厂商向 kubelet 注册设备资源。
Admission Webhook:准入控制 Webhook,在对象持久化前拦截和修改请求。分为 Mutating(修改)和 Validating(校验)两种。
ResourceQuota:命名空间级别的资源配额限制,控制资源使用总量。
ConfigMap:存储非敏感配置数据的 Kubernetes 对象。
Informer:Kubernetes 客户端缓存机制,通过事件驱动保持本地缓存与 API Server 同步。
DaemonSet:确保每个(或特定)节点运行一个 Pod 副本的控制器。
Scheduler Extender:调度器扩展机制,通过 HTTP 接口扩展默认调度器的 Filter/Score/Bind 流程。
RBAC:Role-Based Access Control,基于角色的访问控制。
Affinity / Anti-Affinity:亲和性/反亲和性规则,控制 Pod 调度到哪些节点。
GPU 术语
GPU:Graphics Processing Unit,图形处理单元,广泛用于 AI 计算的并行处理器。
VRAM / 显存:Video Random Access Memory,GPU 专用内存,存储模型权重、激活值等数据。
CUDA:Compute Unified Device Architecture,NVIDIA 的 GPU 并行计算平台和编程模型。
NVML:NVIDIA Management Library,NVIDIA GPU 管理库,提供 GPU 监控和管理 API。
SM (Streaming Multiprocessor):流多处理器,GPU 的计算核心单元。
MIG (Multi-Instance GPU):NVIDIA A100/H100 等 GPU 的硬件级分区功能,将一张 GPU 切分为多个独立实例。
NVLink:NVIDIA 的高速 GPU 互联技术,带宽远高于 PCIe。
NVSwitch:NVIDIA 的 GPU 交换芯片,支持多 GPU 全互联。
NUMA (Non-Uniform Memory Access):非统一内存访问,多处理器系统中内存访问延迟不一致的架构。
PCIe:Peripheral Component Interconnect Express,GPU 与 CPU 通信的标准总线接口。
Persistence Mode:NVIDIA GPU 的持久化模式,保持 GPU 驱动加载状态,减少初始化延迟。
HAMi 术语
HAMi:Heterogeneous AI Computing Virtualization Middleware,异构 AI 计算虚拟化中间件。CNCF Sandbox 项目。
Scheduler Extender(调度器扩展器):HAMi 的调度组件,通过 HTTP 接口扩展 Kubernetes 调度器,实现 GPU 感知的 Filter/Score/Bind。
Device Plugin(设备插件):HAMi 的设备管理组件,以 DaemonSet 运行在每个加速器节点上,负责设备发现、注册和资源分配。
Monitor(监控器):HAMi 的监控组件,采集 GPU 资源使用指标并通过 HTTP 暴露给 Prometheus。
Webhook:HAMi 的准入控制组件,拦截 Pod 创建请求,注入调度器名称和设备相关配置。
注解协议(Annotation Protocol):HAMi 组件间通过 Pod/Node 注解传递设备分配信息的编码规范。
Filter/Score/Bind:调度三段式流程。Filter 过滤可行节点,Score 评分排序,Bind 绑定 Pod 到最优节点。
DeviceInfo:设备信息数据结构,描述 GPU ID、显存、核心数、NUMA、健康状态等。
DeviceUsage:设备使用量数据结构,描述设备已分配的显存、核心数和关联的 Pod 信息。
Fit:设备匹配算法,判断节点上的设备能否满足 Pod 的资源请求。
节点锁(Node Lock):基于节点注解的并发控制机制,防止多个调度器同时绑定同一节点。
领导者选举(Leader Election):多副本调度器通过 Kubernetes Lease 机制选举活跃实例,避免调度冲突。
超卖(Overcommit):资源超分配策略,允许分配的显存/算力总量超过物理资源。
切分(Split):将一张物理 GPU 按显存和算力拆分为多份,供多个 Pod 共享使用。
设备术语
NVIDIA GPU:NVIDIA 的图形处理器,如 A100、H100、A10、T4 等。HAMi 支持最完整的设备后端。
Ascend NPU:华为昇腾神经网络处理器,如 910B2、910B3 等。支持 VNPU 软切分。
Cambricon MLU:寒武纪机器学习单元,如 MLU370 等。
Hygon DCU:海光深度计算单元,国产 AI 加速器。
AMD GPU:AMD 的图形处理器,如 Instinct MI250 等。
Moore Threads XPU:摩耳线程的扩展处理器单元。
Enflame GCU:炎魂的通用计算单元。
AWS Neuron:AWS 的专用 AI 推理/训练芯片(Inferentia/Trainium)。
Vast.ai:Vast.ai 平台的 GPU 加速器。
调度策略术语
binpack:密集策略,优先调度到资源利用率最高的节点/GPU,实现装箱效果。
spread:分散策略,优先调度到资源利用率最低的节点/GPU,实现负载均衡。
topology-aware:拓扑感知策略,利用 GPU 互联拓扑(NVLink/NVSwitch)优化设备组合选择。
动态 MIG:根据工作负载需求动态创建/销毁 MIG 实例的策略。
节点级策略(Node Policy):控制 Pod 在不同节点间分布的策略(binpack/spread)。
GPU 卡级策略(GPU Policy):控制 Pod 在同一节点的不同 GPU 卡间分布的策略。
CDI (Container Device Interface):容器设备接口规范,标准化容器运行时的设备注入方式。
监控术语
Prometheus:开源监控系统和时序数据库,HAMi 通过 HTTP 端点暴露指标供其采集。
Grafana:开源可视化平台,用于创建 GPU 资源监控仪表盘。
ServiceMonitor:Prometheus Operator 的自定义资源,定义指标采集目标和间隔。
pprof:Go 语言性能分析工具,用于分析调度器的 CPU 和内存使用。