NVIDIA 的 Transformer Engine,提供针对 Transformer 的高性能内核与混合精度支持。
Transformer Engine 为 Transformer 模型提供优化内核、FP8/混合精度支持与易用的集成接口,可显著提升训练与推理性能。
评论区
用于大规模训练与推理的参考实现,面向分布式训练与高性能优化。
NVIDIA 的 NeMo 框架,覆盖语音、语音合成、多模态和大语言模型训练与微调。
Triton Inference Server:NVIDIA 高性能推理服务器,支持多种模型格式和多样化部署方式。