NVIDIA 开源 PersonaPlex-7B：真正支持全双工的实时语音对话模型

分类：AI笔记 2026-01-23 04:11 阅读(16)

NVIDIA 最近开源了一个颇有意思的语音大模型 —— PersonaPlex-7B-V1。如果一定要类比，它更像是“开源版的豆包语音聊天”，但在交互形态上走得更激进：真正的全双工实时语音对话。

所谓全双工，并不是简单的“低延迟语音生成”，而是说和听同时进行。模型在输出语音的同时持续监听用户输入：你随时打断，它会立刻停止并转为理解；双方同时说话，也能正确处理对话流。这种体验更接近真实通话，而不是传统“你说一句、我回一句”的轮询式交互。

在架构上，PersonaPlex 采用了双流配置：监听流和说话流并行运行。模型基于 Moshi 架构做了深度改造，引入 Mimi 神经编解码器，将语音压缩为音频 token。核心是一个 7B 参数的 Transformer，在流式推理过程中同时预测文本 token 和音频 token，再由 Mimi 解码器实时还原为语音输出。整个链路是端到端流式的，这也是低延迟的关键。

模型还支持一个很实用的功能：双重提示条件化（Dual Prompt Conditioning）。