NVIDIA 开源 PersonaPlex-7B:真正支持全双工的实时语音对话模型
NVIDIA 最近开源了一个颇有意思的语音大模型 —— PersonaPlex-7B-V1。如果一定要类比,它更像是“开源版的豆包语音聊天”,但在交互形态上走得更激进:真正的全双工实时语音对话。
所谓全双工,并不是简单的“低延迟语音生成”,而是说和听同时进行。模型在输出语音的同时持续监听用户输入:你随时打断,它会立刻停止并转为理解;双方同时说话,也能正确处理对话流。这种体验更接近真实通话,而不是传统“你说一句、我回一句”的轮询式交互。
在架构上,PersonaPlex 采用了双流配置:监听流和说话流并行运行。模型基于 Moshi 架构做了深度改造,引入 Mimi 神经编解码器,将语音压缩为音频 token。核心是一个 7B 参数的 Transformer,在流式推理过程中同时预测文本 token 和音频 token,再由 Mimi 解码器实时还原为语音输出。整个链路是端到端流式的,这也是低延迟的关键。
模型还支持一个很实用的功能:双重提示条件化(Dual Prompt Conditioning)。
-
给一段声音样本,模型就能模仿该声音风格说话;
-
再配合文本提示定义角色设定,例如客服、助手、陪练等;
声音风格和角色人设可以同时生效,定制空间很大。
从官方公布的数据来看,PersonaPlex 在 FullDuplexBench 基准测试中表现亮眼:
-
平滑轮换成功率 90.8%
-
用户打断处理成功率 95%
-
平均响应延迟约 170ms
-
打断响应延迟约 240ms
NVIDIA 表示,在对话动态、响应延迟和任务一致性等维度上,该模型整体优于现有开源方案,部分指标甚至超过商业系统。
当然,限制也很现实:目前仅支持英语;推荐硬件是 A100 80GB 或 H100,普通开发者本地基本无缘。训练数据主要来自 Fisher English,规模不到 1 万小时,也意味着语言和场景覆盖仍有提升空间。
好消息是,PersonaPlex 使用 NVIDIA Open Model License,允许商用。对做语音交互、实时助手、对话式 AI 的团队来说,这是一个非常值得关注和实验的方向。