AI 原生
AI 原生(AI Native)是指将人工智能技术深度集成到云原生基础设施中,实现 AI 应用的弹性部署、高效推理和智能化管理。Kubernetes 作为云原生编排平台,为 AI 工作负载提供了强大的支持。
本章节将介绍面向 AI 场景的 Kubernetes 基础设施架构,包括 AI Gateway、大模型部署调优、推理优化等关键技术,帮助读者构建高效的 AI 原生平台。
章节目录
介绍 AI 原生的概念、发展历程和在 Kubernetes 中的应用场景。
总结 Kubernetes 扩展机制的核心设计理念,梳理从 Cloud-Native 到 AI-Native 的演进路径,展望未来可扩展调度、AI Operator、AI Gateway 与 LLM Workflow Controller 的发展趋势。
Kubernetes AI 基础设施的设计原则、硬件加速、网络与存储优化及运维实践。
AI Gateway 的作用、架构和在 Kubernetes 中的实现。
在 Kubernetes 中部署和管理大语言模型的最佳实践和性能调优技巧。
vLLM 推理引擎在 Kubernetes 中的部署、配置和优化指南。
Kubernetes 中 AI 工作负载的调度策略和优化技术。
AI 模型推理性能优化的技术和实践。
AI 应用的监控、日志、追踪和性能分析。
AI 原生应用的安全考虑和最佳实践指南。
探索 HAMi:Kubernetes 上的异构算力虚拟化中间件,提升 AI 加速器管理与调度效率,助力资源优化与灵活性。
深入理解 Kubernetes 设备插件,掌握异构资源调度的实现细节。