光阴似箭,不知不觉我加入「Dynamia 密瓜智能」已经一个月了。这篇文章想分享我这一个月的观察:为什么 AI Native Infra 是一个值得投入的方向,以及如果你也在考虑职业或技术方向,这里有什么可以参考的判断。
引言
结束了近五年的远程工作后,我在上个月正式加入 Dynamia 密瓜智能,担任开源生态 VP。这个决定并不突然,而是我从云原生走向 AI Native Infra 的自然延续。
但这篇文章不只讲我的个人选择,更想回答一个更普遍的问题:在 AI 基础设施创业浪潮中,为什么算力治理是值得投入的方向?
过去十年,我持续在基础设施领域工作:从 Kubernetes 到 Service Mesh,再到今天的 AI Infra。我越来越确信,AI 时代的核心挑战不是"模型能不能跑",而是"算力能不能被高效、稳定、可控地运行"。这个判断,是我这一个月在 Dynamia 观察和思考后,更加坚定的结论。
这篇文章只回答三个问题:什么是 AI Native Infra、为什么 GPU 虚拟化是刚需、为什么我选择 Dynamia 与 HAMi。
什么是 AI Native Infra
AI Native Infrastructure(AI 原生基础设施) 的核心,不是再加一层平台,而是重建治理对象:从“服务和容器”扩展到“模型行为与算力资产”。
我将它概括为三个变化:
- 模型成为执行主体:需要治理的不只是进程,还包括模型行为。
- 算力成为稀缺资产:GPU/显存/带宽需要被精细调度与计量。
- 不确定性成为默认状态:系统要能在波动中保持可观测和可恢复。
所以,AI Native Infra 的本质是:让算力治理从“资源分配动作”升级为“业务可持续能力”。
为什么 GPU 虚拟化是刚需
很多团队在做模型推理优化,但企业在生产环境里更先遇到的是“GPU 用不好”。这正是 GPU 虚拟化的价值所在。
- 结构性闲置:小任务独占大卡,GPU 长期空转。
- 伪隔离风险:原生共享缺硬边界,单任务 OOM 容易连带故障。
- 调度失灵:有人排队等卡,有人占卡不用,短缺与闲置并存。
- 碎片化浪费:有总量、无整卡,无法高效装箱。
- 厂商锁定焦虑:闭源和深度耦合方案让迁移成本失控。
一句话总结:GPU 不仅要能申请,还要能切分、隔离、调度和治理。
HAMi 与 Dynamia 的关系
这是最常被问到的问题,我用最短的话说明:
- HAMi:CNCF 托管的开源项目与社区,聚焦 GPU 虚拟化与异构算力调度。
- Dynamia(密瓜智能):HAMi 的发起与主导公司,基于 HAMi 提供企业级产品与服务。
开源项目不等同于公司产品,但两者协同演进。HAMi 负责形成行业采用与技术信任,Dynamia 负责把能力落到企业生产环境并规模化运行。这种“双轮驱动”是 Dynamia 的独特性。
HAMi 提供了什么能力
HAMi(Heterogeneous AI Computing Virtualization Middleware)在 Kubernetes 上提供三类关键能力:
- 虚拟化与切分:将物理 GPU 按需切分为逻辑资源,提高利用率。
- 调度与拓扑感知:结合拓扑选择更优放置,减少通信瓶颈。
- 隔离与可观测:支持配额、策略与监控,降低生产风险。
目前,HAMi 已吸引来自 16 个国家的 360 余位贡献者,最终用户超过 200 家企业,并持续扩大国际影响力。
趋势对话:AI 基础设施创业浪潮
AI 基础设施正迎来新一轮创业热潮。上个月 vLLM 团队创立的公司完成 1.5 亿美元融资,SGLang 商业化后的 RadixArk 估值达 40 亿美元,Databricks 以 13 亿美元收购 MosaicML——这些都指向一个共识:谁能帮企业更高效、更低成本地运行大模型,谁就掌握下一代 AI 基础设施的钥匙。
在此背景下,Dynamia 与 HAMi 的定位更加清晰。很多团队做"模型性能加速"和"推理优化"(如 vLLM、SGLang),而我们选择做 “资源调度和虚拟化”——让现有加速硬件资源被更好地统筹使用。
两者相辅相成:前者让单个模型跑得更快更省钱,后者确保集群层面的算力分配是高效、公平且可控的。这类似于把 Kubernetes 在 CPU/内存调度上的思路,延伸到 AI 时代的 GPU/异构算力管理。
为什么 AI Native Infra 值得投入
这一个月的观察让我更加确信,算力治理是 AI 基础设施中最被低估、也最具潜力的方向。如果你在考虑职业或技术投入,我的判断是:
第一,这是一个真实且紧迫的痛点
模型训练和推理优化吸引了大量关注,但企业在生产环境首先遇到的是"GPU 用不好"——结构性闲置、调度失灵、碎片化浪费、厂商锁定焦虑。这些问题不解决,再快的模型也无法规模化落地。GPU 虚拟化与异构算力调度,是企业 AI 转型的"基础设施基础设施"(Infra below Infra)。
第二,这是一个清晰的长期赛道
vLLM、SGLang 等推理优化框架层出不穷,它们让单个模型跑得更快;但谁来确保集群层面的算力分配是高效、公平且可控的?这类似于把 Kubernetes 在 CPU/内存调度上的成功,延伸到 AI 时代的 GPU/异构算力管理。这不是一两年就能做完的事,而是未来五到十年的持续建设方向。
第三,这是一个开放且可验证的路径
Dynamia 选择以 HAMi 开源项目为底座,先解决通用能力,再支撑企业级落地。这意味着技术方向在社区是透明的、可验证的,你可以通过参与开源、观察采用、评估生态,来形成自己的判断——而不是依赖闭源方案的黑盒承诺。
第四,这是一个正在打开的窗口期
AI 基础设施正在重构,今天投入建设,价值会在未来几年持续释放。vLLM 团队的公司融资 1.5 亿美元,SGLang 商业化后的 RadixArk 估值 40 亿美元,Databricks 以 13 亿美元收购 MosaicML——这些都在验证同一个趋势:谁能帮企业更高效地运行大模型,谁就掌握下一代 AI 基础设施的钥匙。
我希望把过去在云原生和开源社区的经验,投入到 HAMi 与 Dynamia 的下一阶段:让 GPU 资源从"成本中心"变成"可运营资产"。这不仅是我的职业选择,更是我对下一代基础设施方向的判断和投入。
总结
从云原生到 AI Native Infra,我这一个月的观察让我更加确信:真正决定 AI 应用上限的,是基础设施对算力的治理能力。
HAMi 在解决 GPU 虚拟化与异构算力调度的基础问题,Dynamia 在推动这些能力进入大规模生产环境。如果你也在寻找一个值得长期投入的技术方向,AI Native Infra —— 尤其是算力治理与调度 —— 是一个真实痛点、清晰路径、开放生态且正在打开窗口期的赛道。
加入 Dynamia,不只是职业选择,更是参与下一代基础设施建设的选择。我希望这篇文章的观察和思考,能给你在判断技术方向和职业机会时提供一些参考。
jimmysong 加入聚焦于 GPU 虚拟化与异构算力调度的 HAMi 社区交流讨论。如果你也在关注 HAMi、GPU 虚拟化、AI Native Infra 或 Dynamia,欢迎交流。
