详细介绍
PersonaPlex 是由 NVIDIA 提出的一个面向实时语音对话的框架,支持全双工(full-duplex)交互与角色控制,能够通过文本提示定义角色(persona)并通过音频条件控制说话者音色与风格。其设计侧重低延迟与连贯性,适用于需要自然语音响应和持续对话状态的场景。
主要特性
- 支持全双工语音流,减少响应延迟并提升交互流畅度。
- 角色与声音控制(persona + voice conditioning),便于构建定制化助手与服务角色。
- 预置多种自然语音 embedding 与声线模板,提升生成语音的自然度与一致性。
使用场景
适用于客服、虚拟主持、角色扮演助手与需要实时语音交互的多模态应用场景;也可作为研究与离线评估的基线,用于对比不同提示与声音条件对对话质量的影响。
技术特点
基于 Moshi 架构与大模型权重,结合文本到语音(文本转语音,TTS)与音频条件化技术,采用低延迟推理路径与流式处理策略以保证实时性,同时保留可插拔的微调与评估接口以便在特定任务中优化性能。