AI/GPU 基础设施
关注 GPU 调度、推理系统、智能体运行时、资源抽象和平台工程,理解 AI 工作负载对基础设施提出的新要求。
让 AI 基础设施变得可理解、可验证、可参与
我关注基础软件在 AI 时代如何形成真正的开发者生态:把 GPU、调度、推理、智能体运行时等复杂系统,转化为清晰的方法论、可实践的路径和可持续协作的社区。
我通常从四层观察 AI 基础设施:上层是应用与智能体,中间是运行时、推理、训练和治理,下层是 GPU 与加速基础设施。每一层都需要清晰的资源边界、工程抽象和开发者参与路径。
我的工作不止是介绍技术,而是围绕基础软件生态的关键环节建立判断、表达和协作能力。
关注 GPU 调度、推理系统、智能体运行时、资源抽象和平台工程,理解 AI 工作负载对基础设施提出的新要求。
从 Kubernetes、服务网格和平台工程出发,观察云原生能力如何延伸到 AI 时代的资源治理、弹性和多租户场景。
关注文档、教程、贡献路径、社区沟通和开发者活动,让复杂基础软件从代码仓库成长为可理解、可参与的生态。
价值主张需要长期验证。我通过写作、图书、资源图谱、开源社区和开发者活动,把抽象判断变成可讨论、可学习、可协作的材料。
云原生与 Kubernetes 阶段:围绕容器编排、平台工程和开发者教育,先后发布《Kubernetes 架构与生态》《Cloud Native Go》《云原生 Java》《云原生模式》《云原生基础架构》等。
服务网格与微服务阶段:聚焦治理、流量体系和工程实践,持续完善《Istio 基础教程》《迁移到云原生应用架构》《Istio 最佳实战》《简明 Envoy 教程》等实践路径。
AI Native Infra 与 AI 阶段:将 AI 工程、GPU 资源治理和开源生态结合起来,推出《RAG 应用开发与实战手册》《智能体设计模式》《智能体构建指南》《Kubernetes 中的 GPU 调度与虚拟化手册》《AI 原生基础设施》《AI 基础设施之道》等。
从真实生产问题出发,把复杂主题拆成资源模型、运行时、平台工程和治理机制。
通过文档、教程、示例和资源图谱,让开发者知道如何开始、如何深入、如何贡献。
通过线上线下活动、技术分享和持续互动,把使用者、贡献者与研发团队连接成反馈闭环。
文章、图书、演讲、开源项目和社区运营互相校验,持续修正观点并沉淀方法。
覆盖云原生、AI 原生基础设施与智能体系统的长期写作与出版项目,沉淀为开发者可学习、可传播、可实践的方法论。
把方法论落到工具与项目:面向开发者持续更新的 AI 开源资源导航。
按分类浏览智能体、AI 编程工具、模型基础设施与工程实践相关的开源资源。
查看 AI 资源列表最近发布的工程实践、开源生态与 AI 基础设施思考,延续前述研究主线。
用 Kubernetes 老兵听得懂的类比,讲透 token、模型、训练、推理、Transformer、Tensor Core、HBM、KV Cache 到底是什么,以及为什么 AI 非跑在 GPU 上不可。
从 GPU 利用率到 Productive GPU-Hours,AI Infra 的效率升级。