《智能体设计模式》中文版已发布, 点击阅读

AI 基础设施课程

AI 基础设施课程旨在提供大模型训练与推理所需的全栈软硬件基础设施与工程实践。

详细介绍

AI 基础设施课程是一个开源的大模型系统与课程型项目,覆盖从底层算力与芯片资源、集群通信与存储,到容器化、分布式训练与推理的全栈内容。项目围绕工业级大模型训练与推理的工程难点,整理了实战方案、性能优化技巧与教学资料,适合关注大模型系统设计、集群运维与训练加速的工程师与研究者。

主要特性

  • 全栈视角:涵盖计算集群、互联通信、存储、容器与云原生、训练与推理等模块。
  • 教学与工程结合:提供体系化课程大纲、实战案例与代码示例,便于学习与复现。
  • 社区驱动:由多个贡献者持续维护,包含大量实践笔记与实验数据,利于工程落地。

使用场景

  • 企业与研究机构构建大模型训练平台与集群性能调优。
  • 工程团队学习分布式训练、推理加速、通信优化与集群调度策略。
  • 教育与培训场景作为大模型系统与工程实践的教材与案例库。

技术特点

  • 注重分布式并行(数据并行、模型并行、流水线并行)与通信效率优化。
  • 讨论高性能互联、存储策略与检查点机制,兼顾训练与推理的工程折衷。
  • 提供容器化、云原生部署与调度实践,便于在 Kubernetes 等平台交付与扩展。

评论区

AI 基础设施课程
资源信息
🎓 课程 🏋️ 模型训练 🌱 开源