AI 原生
AI 原生(AI Native)是指将人工智能技术深度集成到云原生基础设施中,实现 AI 应用的弹性部署、高效推理和智能化管理。Kubernetes 作为云原生编排平台,为 AI 工作负载提供了强大的支持。
本章节将介绍面向 AI 场景的 Kubernetes 基础设施架构,包括 AI Gateway、大模型部署调优、推理优化等关键技术,帮助读者构建高效的 AI 原生平台。
章节目录
介绍 AI 原生的概念、发展历程和在 Kubernetes 中的应用场景。
Kubernetes 中 AI 基础设施的设计原则、硬件加速和网络存储优化。
AI Gateway 的作用、架构和在 Kubernetes 中的实现。
在 Kubernetes 中部署和管理大语言模型的最佳实践和性能调优技巧。
vLLM 推理引擎在 Kubernetes 中的部署、配置和优化指南。
Gateway API Inference Extension
Kubernetes Gateway API Inference Extension 的介绍和使用指南。
Kubernetes 中 AI 工作负载的调度策略和优化技术。
AI 模型推理性能优化的技术和实践。
AI 应用的监控、日志、追踪和性能分析。
AI 原生应用的安全考虑和最佳实践指南。
HAMi(Heterogeneous AI Computing Virtualization Middleware)是一个开源的 Kubernetes 异构算力虚拟化中间件,支持 GPU、NPU、MLU 等多种加速硬件的共享与调度。本文介绍 HAMi 的起源、架构设计、核心功能及典型应用场景。