加入 Dynamia 密瓜智能后的第一个月：为什么 AI Native Infra 值得投入

光阴似箭，不知不觉我加入「Dynamia 密瓜智能」已经一个月了。这篇文章想分享我这一个月的观察：为什么 AI Native Infra 是一个值得投入的方向，以及如果你也在考虑职业或技术方向，这里有什么可以参考的判断。

引言

结束了近五年的远程工作后，我在上个月正式加入 Dynamia 密瓜智能，担任开源生态 VP。这个决定并不突然，而是我从云原生走向 AI Native Infra 的自然延续。

但这篇文章不只讲我的个人选择，更想回答一个更普遍的问题：在 AI 基础设施创业浪潮中，为什么算力治理是值得投入的方向？

过去十年，我持续在基础设施领域工作：从 Kubernetes 到 Service Mesh，再到今天的 AI Infra。我越来越确信，AI 时代的核心挑战不是"模型能不能跑"，而是"算力能不能被高效、稳定、可控地运行"。这个判断，是我这一个月在 Dynamia 观察和思考后，更加坚定的结论。

这篇文章只回答三个问题：什么是 AI Native Infra、为什么 GPU 虚拟化是刚需、为什么我选择 Dynamia 与 HAMi。

什么是 AI Native Infra

AI Native Infrastructure（AI 原生基础设施）的核心，不是再加一层平台，而是重建治理对象：从“服务和容器”扩展到“模型行为与算力资产”。

我将它概括为三个变化：

模型成为执行主体：需要治理的不只是进程，还包括模型行为。
算力成为稀缺资产：GPU/显存/带宽需要被精细调度与计量。
不确定性成为默认状态：系统要能在波动中保持可观测和可恢复。

所以，AI Native Infra 的本质是：让算力治理从“资源分配动作”升级为“业务可持续能力”。

为什么 GPU 虚拟化是刚需

很多团队在做模型推理优化，但企业在生产环境里更先遇到的是“GPU 用不好”。这正是 GPU 虚拟化的价值所在。

结构性闲置：小任务独占大卡，GPU 长期空转。
伪隔离风险：原生共享缺硬边界，单任务 OOM 容易连带故障。
调度失灵：有人排队等卡，有人占卡不用，短缺与闲置并存。
碎片化浪费：有总量、无整卡，无法高效装箱。
厂商锁定焦虑：闭源和深度耦合方案让迁移成本失控。

一句话总结：GPU 不仅要能申请，还要能切分、隔离、调度和治理。

HAMi 与 Dynamia 的关系

这是最常被问到的问题，我用最短的话说明：

HAMi：CNCF 托管的开源项目与社区，聚焦 GPU 虚拟化与异构算力调度。
Dynamia（密瓜智能）：HAMi 的发起与主导公司，基于 HAMi 提供企业级产品与服务。

开源项目不等同于公司产品，但两者协同演进。HAMi 负责形成行业采用与技术信任，Dynamia 负责把能力落到企业生产环境并规模化运行。这种“双轮驱动”是 Dynamia 的独特性。

HAMi 提供了什么能力

HAMi（Heterogeneous AI Computing Virtualization Middleware）在 Kubernetes 上提供三类关键能力：

虚拟化与切分：将物理 GPU 按需切分为逻辑资源，提高利用率。
调度与拓扑感知：结合拓扑选择更优放置，减少通信瓶颈。
隔离与可观测：支持配额、策略与监控，降低生产风险。

目前，HAMi 已吸引来自 16 个国家的 360 余位贡献者，最终用户超过 200 家企业，并持续扩大国际影响力。

趋势对话：AI 基础设施创业浪潮

AI 基础设施正迎来新一轮创业热潮。上个月 vLLM 团队创立的公司完成 1.5 亿美元融资，SGLang 商业化后的 RadixArk 估值达 40 亿美元，Databricks 以 13 亿美元收购 MosaicML——这些都指向一个共识：谁能帮企业更高效、更低成本地运行大模型，谁就掌握下一代 AI 基础设施的钥匙。

在此背景下，Dynamia 与 HAMi 的定位更加清晰。很多团队做"模型性能加速"和"推理优化"（如 vLLM、SGLang），而我们选择做 “资源调度和虚拟化”——让现有加速硬件资源被更好地统筹使用。

两者相辅相成：前者让单个模型跑得更快更省钱，后者确保集群层面的算力分配是高效、公平且可控的。这类似于把 Kubernetes 在 CPU/内存调度上的思路，延伸到 AI 时代的 GPU/异构算力管理。

为什么 AI Native Infra 值得投入

这一个月的观察让我更加确信，算力治理是 AI 基础设施中最被低估、也最具潜力的方向。如果你在考虑职业或技术投入，我的判断是：

第一，这是一个真实且紧迫的痛点

模型训练和推理优化吸引了大量关注，但企业在生产环境首先遇到的是"GPU 用不好"——结构性闲置、调度失灵、碎片化浪费、厂商锁定焦虑。这些问题不解决，再快的模型也无法规模化落地。GPU 虚拟化与异构算力调度，是企业 AI 转型的"基础设施基础设施"（Infra below Infra）。

第二，这是一个清晰的长期赛道

vLLM、SGLang 等推理优化框架层出不穷，它们让单个模型跑得更快；但谁来确保集群层面的算力分配是高效、公平且可控的？这类似于把 Kubernetes 在 CPU/内存调度上的成功，延伸到 AI 时代的 GPU/异构算力管理。这不是一两年就能做完的事，而是未来五到十年的持续建设方向。

第三，这是一个开放且可验证的路径

Dynamia 选择以 HAMi 开源项目为底座，先解决通用能力，再支撑企业级落地。这意味着技术方向在社区是透明的、可验证的，你可以通过参与开源、观察采用、评估生态，来形成自己的判断——而不是依赖闭源方案的黑盒承诺。

第四，这是一个正在打开的窗口期

AI 基础设施正在重构，今天投入建设，价值会在未来几年持续释放。vLLM 团队的公司融资 1.5 亿美元，SGLang 商业化后的 RadixArk 估值 40 亿美元，Databricks 以 13 亿美元收购 MosaicML——这些都在验证同一个趋势：谁能帮企业更高效地运行大模型，谁就掌握下一代 AI 基础设施的钥匙。

我希望把过去在云原生和开源社区的经验，投入到 HAMi 与 Dynamia 的下一阶段：让 GPU 资源从"成本中心"变成"可运营资产"。这不仅是我的职业选择，更是我对下一代基础设施方向的判断和投入。

总结

从云原生到 AI Native Infra，我这一个月的观察让我更加确信：真正决定 AI 应用上限的，是基础设施对算力的治理能力。

HAMi 在解决 GPU 虚拟化与异构算力调度的基础问题，Dynamia 在推动这些能力进入大规模生产环境。如果你也在寻找一个值得长期投入的技术方向，AI Native Infra —— 尤其是算力治理与调度 —— 是一个真实痛点、清晰路径、开放生态且正在打开窗口期的赛道。

加入 Dynamia，不只是职业选择，更是参与下一代基础设施建设的选择。我希望这篇文章的观察和思考，能给你在判断技术方向和职业机会时提供一些参考。

加入 HAMi 社区

添加笔者微信 jimmysong 加入聚焦于 GPU 虚拟化与异构算力调度的 HAMi 社区交流讨论。

如果你也在关注 HAMi、GPU 虚拟化、AI Native Infra 或 Dynamia，欢迎交流。

核心内容

核心内容

技术专栏

技术专栏

更多内容

更多内容

AI

AI

云原生

云原生

更多

更多

精选资源

精选资源

交流与反馈

交流与反馈

更多

更多

快速链接

快速链接

微信公众号

微信公众号

微信联系

微信联系

加入 Dynamia 密瓜智能后的第一个月：为什么 AI Native Infra 值得投入

引言

什么是 AI Native Infra

为什么 GPU 虚拟化是刚需

HAMi 与 Dynamia 的关系

HAMi 提供了什么能力

趋势对话：AI 基础设施创业浪潮

为什么 AI Native Infra 值得投入

总结

宋净超（Jimmy Song）

微信分享

正式加入 Dynamia 密瓜智能，开启 AI 原生基础设施新征程

2025 年度总结：软件工程的重心随 AI 而转移

从云原生到 AI 原生：Kubernetes 如何承载下一代 AI Agent