PersonaPlex

用于构建低延迟、全双工语音对话系统的个性化角色与声音控制框架。

NVIDIA · Since 2026-01-05

正在加载评分...

详细介绍

PersonaPlex 是由 NVIDIA 提出的一个面向实时语音对话的框架，支持全双工（full-duplex）交互与角色控制，能够通过文本提示定义角色（persona）并通过音频条件控制说话者音色与风格。其设计侧重低延迟与连贯性，适用于需要自然语音响应和持续对话状态的场景。

适用于客服、虚拟主持、角色扮演助手与需要实时语音交互的多模态应用场景；也可作为研究与离线评估的基线，用于对比不同提示与声音条件对对话质量的影响。

基于 Moshi 架构与大模型权重，结合文本到语音（文本转语音，TTS）与音频条件化技术，采用低延迟推理路径与流式处理策略以保证实时性，同时保留可插拔的微调与评估接口以便在特定任务中优化性能。