Tensor Fusion

一个用于 GPU 虚拟化与池化的开源解决方案，旨在提升集群利用率并优化推理工作负载。

NexusGPU · Since 2024-11-12

正在加载评分...

详细介绍

Tensor Fusion 是一个面向 GPU 集群的虚拟化与池化解决方案，旨在通过细粒度资源分配与共享显存与计算能力，提高 GPU 利用率并降低推理延迟。该项目关注推理密度与多租户场景，提供动态资源调度与自动伸缩机制，方便将长期运行的推理服务和智能体集群部署在同一套物理资源上。

主要特性

动态 GPU 池化：将物理 GPU 划分为可共享的虚拟资源池，按需分配给推理任务。
低延迟推理路径：优化上下文加载与显存复用，减少冷启动与模型切换开销。
自动伸缩与调度：基于负载与优先级进行实时扩缩容与任务调度。
多模型与多租户支持：对并发模型实例和隔离策略有良好支持，适用于 LLM 与智能体工作负载。

使用场景

大规模 LLM 推理平台，提升并发推理吞吐量并降低成本。
多模型服务化环境，支持模型热切换与显存复用。
边缘与云混合部署，为需要长期在线的智能体提供高效的推理运行时。

技术特点

使用内核级和用户态协同的调度策略以最小化上下文切换开销。
支持与 Kubernetes 集群集成，兼容常见的调度器与自动伸缩组件。
采用显存分片与复用技术，提升显存利用率并减少内存碎片。
提供可观测性接口，用于监控 GPU 使用率、内存占用与推理延迟。