首页 AI笔记Polymarket美股研习

NVIDIA 开源 PersonaPlex-7B:真正支持全双工的实时语音对话模型

分类:AI笔记 阅读(16)

NVIDIA 最近开源了一个颇有意思的语音大模型 —— PersonaPlex-7B-V1。如果一定要类比,它更像是“开源版的豆包语音聊天”,但在交互形态上走得更激进:真正的全双工实时语音对话

所谓全双工,并不是简单的“低延迟语音生成”,而是说和听同时进行。模型在输出语音的同时持续监听用户输入:你随时打断,它会立刻停止并转为理解;双方同时说话,也能正确处理对话流。这种体验更接近真实通话,而不是传统“你说一句、我回一句”的轮询式交互。

在架构上,PersonaPlex 采用了双流配置:监听流和说话流并行运行。模型基于 Moshi 架构做了深度改造,引入 Mimi 神经编解码器,将语音压缩为音频 token。核心是一个 7B 参数的 Transformer,在流式推理过程中同时预测文本 token 和音频 token,再由 Mimi 解码器实时还原为语音输出。整个链路是端到端流式的,这也是低延迟的关键。

模型还支持一个很实用的功能:双重提示条件化(Dual Prompt Conditioning)

  • 给一段声音样本,模型就能模仿该声音风格说话;

  • 再配合文本提示定义角色设定,例如客服、助手、陪练等;
    声音风格和角色人设可以同时生效,定制空间很大。

从官方公布的数据来看,PersonaPlex 在 FullDuplexBench 基准测试中表现亮眼:

  • 平滑轮换成功率 90.8%

  • 用户打断处理成功率 95%

  • 平均响应延迟约 170ms

  • 打断响应延迟约 240ms

NVIDIA 表示,在对话动态、响应延迟和任务一致性等维度上,该模型整体优于现有开源方案,部分指标甚至超过商业系统。

当然,限制也很现实:目前仅支持英语;推荐硬件是 A100 80GB 或 H100,普通开发者本地基本无缘。训练数据主要来自 Fisher English,规模不到 1 万小时,也意味着语言和场景覆盖仍有提升空间。

好消息是,PersonaPlex 使用 NVIDIA Open Model License允许商用。对做语音交互、实时助手、对话式 AI 的团队来说,这是一个非常值得关注和实验的方向。

模型地址:https://huggingface.co/nvidia/personaplex-7b-v1

相关推荐

AIBoxBot一站式 Telegram AI 工具箱 AIBox 全集合 - AIBoxBot

AIBoxBot一站式 Telegram AI 工具箱 AIBox 全集合

镜中世界的实体化验证码装置 - AIBoxBot

镜中世界的实体化验证码装置

极致留白的手绘小黑猫构图 - AIBoxBot

极致留白的手绘小黑猫构图