加入 Dynamia 密瓜智能后的第一个月:为什么 AI Native Infra 值得投入

加入 Dynamia 密瓜智能一个月的观察:从云原生到 AI Native Infra,为什么这是值得投入的方向,以及算力治理的关键问题与机会。

光阴似箭,不知不觉我加入「Dynamia 密瓜智能」已经一个月了。这篇文章想分享我这一个月的观察:为什么 AI Native Infra 是一个值得投入的方向,以及如果你也在考虑职业或技术方向,这里有什么可以参考的判断。

引言

结束了近五年的远程工作后,我在上个月正式加入 Dynamia 密瓜智能,担任开源生态 VP。这个决定并不突然,而是我从云原生走向 AI Native Infra 的自然延续。

但这篇文章不只讲我的个人选择,更想回答一个更普遍的问题:在 AI 基础设施创业浪潮中,为什么算力治理是值得投入的方向?

过去十年,我持续在基础设施领域工作:从 Kubernetes 到 Service Mesh,再到今天的 AI Infra。我越来越确信,AI 时代的核心挑战不是"模型能不能跑",而是"算力能不能被高效、稳定、可控地运行"。这个判断,是我这一个月在 Dynamia 观察和思考后,更加坚定的结论。

这篇文章只回答三个问题:什么是 AI Native Infra、为什么 GPU 虚拟化是刚需、为什么我选择 Dynamia 与 HAMi。

什么是 AI Native Infra

AI Native Infrastructure(AI 原生基础设施) 的核心,不是再加一层平台,而是重建治理对象:从“服务和容器”扩展到“模型行为与算力资产”。

我将它概括为三个变化:

  • 模型成为执行主体:需要治理的不只是进程,还包括模型行为。
  • 算力成为稀缺资产:GPU/显存/带宽需要被精细调度与计量。
  • 不确定性成为默认状态:系统要能在波动中保持可观测和可恢复。

所以,AI Native Infra 的本质是:让算力治理从“资源分配动作”升级为“业务可持续能力”。

为什么 GPU 虚拟化是刚需

很多团队在做模型推理优化,但企业在生产环境里更先遇到的是“GPU 用不好”。这正是 GPU 虚拟化的价值所在。

  • 结构性闲置:小任务独占大卡,GPU 长期空转。
  • 伪隔离风险:原生共享缺硬边界,单任务 OOM 容易连带故障。
  • 调度失灵:有人排队等卡,有人占卡不用,短缺与闲置并存。
  • 碎片化浪费:有总量、无整卡,无法高效装箱。
  • 厂商锁定焦虑:闭源和深度耦合方案让迁移成本失控。

一句话总结:GPU 不仅要能申请,还要能切分、隔离、调度和治理。

HAMi 与 Dynamia 的关系

这是最常被问到的问题,我用最短的话说明:

  • HAMi:CNCF 托管的开源项目与社区,聚焦 GPU 虚拟化与异构算力调度。
  • Dynamia(密瓜智能):HAMi 的发起与主导公司,基于 HAMi 提供企业级产品与服务。

开源项目不等同于公司产品,但两者协同演进。HAMi 负责形成行业采用与技术信任,Dynamia 负责把能力落到企业生产环境并规模化运行。这种“双轮驱动”是 Dynamia 的独特性。

HAMi 提供了什么能力

HAMiHeterogeneous AI Computing Virtualization Middleware)在 Kubernetes 上提供三类关键能力:

  • 虚拟化与切分:将物理 GPU 按需切分为逻辑资源,提高利用率。
  • 调度与拓扑感知:结合拓扑选择更优放置,减少通信瓶颈。
  • 隔离与可观测:支持配额、策略与监控,降低生产风险。

目前,HAMi 已吸引来自 16 个国家的 360 余位贡献者,最终用户超过 200 家企业,并持续扩大国际影响力。

趋势对话:AI 基础设施创业浪潮

AI 基础设施正迎来新一轮创业热潮。上个月 vLLM 团队创立的公司完成 1.5 亿美元融资,SGLang 商业化后的 RadixArk 估值达 40 亿美元,Databricks 以 13 亿美元收购 MosaicML——这些都指向一个共识:谁能帮企业更高效、更低成本地运行大模型,谁就掌握下一代 AI 基础设施的钥匙

在此背景下,Dynamia 与 HAMi 的定位更加清晰。很多团队做"模型性能加速"和"推理优化"(如 vLLM、SGLang),而我们选择做 “资源调度和虚拟化”——让现有加速硬件资源被更好地统筹使用。

两者相辅相成:前者让单个模型跑得更快更省钱,后者确保集群层面的算力分配是高效、公平且可控的。这类似于把 Kubernetes 在 CPU/内存调度上的思路,延伸到 AI 时代的 GPU/异构算力管理。

为什么 AI Native Infra 值得投入

这一个月的观察让我更加确信,算力治理是 AI 基础设施中最被低估、也最具潜力的方向。如果你在考虑职业或技术投入,我的判断是:

第一,这是一个真实且紧迫的痛点

模型训练和推理优化吸引了大量关注,但企业在生产环境首先遇到的是"GPU 用不好"——结构性闲置、调度失灵、碎片化浪费、厂商锁定焦虑。这些问题不解决,再快的模型也无法规模化落地。GPU 虚拟化与异构算力调度,是企业 AI 转型的"基础设施基础设施"(Infra below Infra)。

第二,这是一个清晰的长期赛道

vLLM、SGLang 等推理优化框架层出不穷,它们让单个模型跑得更快;但谁来确保集群层面的算力分配是高效、公平且可控的?这类似于把 Kubernetes 在 CPU/内存调度上的成功,延伸到 AI 时代的 GPU/异构算力管理。这不是一两年就能做完的事,而是未来五到十年的持续建设方向。

第三,这是一个开放且可验证的路径

Dynamia 选择以 HAMi 开源项目为底座,先解决通用能力,再支撑企业级落地。这意味着技术方向在社区是透明的、可验证的,你可以通过参与开源、观察采用、评估生态,来形成自己的判断——而不是依赖闭源方案的黑盒承诺。

第四,这是一个正在打开的窗口期

AI 基础设施正在重构,今天投入建设,价值会在未来几年持续释放。vLLM 团队的公司融资 1.5 亿美元,SGLang 商业化后的 RadixArk 估值 40 亿美元,Databricks 以 13 亿美元收购 MosaicML——这些都在验证同一个趋势:谁能帮企业更高效地运行大模型,谁就掌握下一代 AI 基础设施的钥匙

我希望把过去在云原生和开源社区的经验,投入到 HAMi 与 Dynamia 的下一阶段:让 GPU 资源从"成本中心"变成"可运营资产"。这不仅是我的职业选择,更是我对下一代基础设施方向的判断和投入。

总结

从云原生到 AI Native Infra,我这一个月的观察让我更加确信:真正决定 AI 应用上限的,是基础设施对算力的治理能力

HAMi 在解决 GPU 虚拟化与异构算力调度的基础问题,Dynamia 在推动这些能力进入大规模生产环境。如果你也在寻找一个值得长期投入的技术方向,AI Native Infra —— 尤其是算力治理与调度 —— 是一个真实痛点、清晰路径、开放生态且正在打开窗口期的赛道。

加入 Dynamia,不只是职业选择,更是参与下一代基础设施建设的选择。我希望这篇文章的观察和思考,能给你在判断技术方向和职业机会时提供一些参考。

加入 HAMi 社区
添加笔者微信 jimmysong 加入聚焦于 GPU 虚拟化与异构算力调度的 HAMi 社区交流讨论。

如果你也在关注 HAMi、GPU 虚拟化、AI Native Infra 或 Dynamia,欢迎交流。

宋净超(Jimmy Song)

宋净超(Jimmy Song)

专注于 AI 原生基础设施与云原生应用架构的研究与开源实践。

文章导航