
文章图片

文章图片

文章图片

文章图片
小红书智创音频技术团队近日发布新一代对话合成模型 FireRedTTS-2 。 该模型聚焦现有方案的痛点:灵活性差、发音错误多、说话人切换不稳、韵律不自然等问题 , 通过升级离散语音编码器与文本语音合成模型全面优化合成效果 。 在多项主客观测评中 , FireRedTTS-2 均达到行业领先水平 , 为多说话人对话合成提供了更优解决方案 。
论文标题:FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot 技术报告:https://arxiv.org/pdf/2509.02020 Demo 链接:https://fireredteam.github.io/demos/firered_tts_2/ 代码链接:https://github.com/FireRedTeam/FireRedTTS2
效果 Demo
一开口就像真人 , 播客生成不在话下 。 先来听一段 “Taylor Swift 恋爱消息” 的播报 , 你能分出这是真实录音还是 AI 合成吗?
答案揭晓!上方视频的声音并非真人 , 而是由基于数百万小时语音数据训练的 FireRedTTS-2 合成的播客音频 。 它对重音、情绪、停顿等细节把握到位 , 听感自然流畅 。 相比闭源的豆包 , FireRedTTS-2 的播客生成自然度可与之媲美;更重要的是 , 它还支持豆包不具备的音色克隆能力:只需提供对话中每个发音人的一句语音样本 , 模型即可模仿其音色与说话习惯 , 自动生成后续整段对话 。 在开源对话生成模型中(如 MoonCast、ZipVoice-Dialogue、MOSS-TTSD) , FireRedTTS-2 在多说话人音色切换的稳定性与韵律自然度方面处于行业领先 , 为 AI 播客等对话合成应用提供了工业级解决方案 。
随着多模态大模型的快速发展 , 全行业对数据的需求与日俱增 , 尤其在语音识别与对话交互领域 , 训练需要大规模的多音色、跨语言音频数据 。 FireRedTTS-2 不仅支持随机音色生成 , 还开箱即用地覆盖中文、英语、日语、韩语、法语等多种语言 。 因此 , 它既能满足创新玩法的探索 , 也可作为高效的生产力工具 , 为下游任务生成高质量的对话 / 非对话音频数据 。 下方视频展示了不同随机音色、不同语言的生成效果 。
对话合成背景
近来 , 多说话人对话合成被广泛应用于播客生成等下游应用场景 。 在实现方式上 , 传统方法通常先按说话人将对话切分 , 逐句独立合成后再拼接 。 这样的做法不仅繁琐 , 还容易导致句间韵律断裂 , 尤其在句子衔接处尤为不自然 。
尽管目前出现了一些方法可以建模整段对话 , 但它们往往要求输入完整对话文本 , 并一次性输出包含所有说话人的整段语音 , 难以支持逐句生成 。 这不仅增加了后续编辑与处理的难度 , 也因其不够灵活而不利于在交互式对话场景中应用 。 此外 , 这类方法的合成质量仍不稳定 , 常见问题包括发音错误、句子间说话人身份混淆以及合成的语音韵律不够自然 。
FireRedTTS-2 系统简介
为解决当前对话合成系统存在的灵活性不足、合成质量欠佳等问题 , FireRedTTS-2 升级了 TTS 系统的两大核心模块:
离散语音编码器(Speech tokenizer):12.5Hz 低帧率 , 具有更强语义信息 , 且支持流式解码 文本语音合成模型(Text-to-speech model):支持逐句生成 , 合成稳定且质量高 【SOTA对话生成模型FireRedTTS-2来了,轻松做出AI播客!】
离散语音编码器
离散语音编码器将连续语音信号压缩为离散标签序列 , 便于大语言模型处理 。 FireRedTTS-2 采用的语音编码器以 12.5Hz 的低帧率输出:即 1 秒仅对应 12.5 个标签 。 对于对话建模 , 这缩短了语音序列长度、即提升了速度 , 又缩小了与文本序列的长度差距 , 降低了大语言模型的建模难度 。 为增强语义表达 , 编码器在训练时引入预训练模型提取的语义特征 , 并对离散标签进行语义监督 , 使标签携带更丰富的语义信息 , 帮助模型更容易学会从文本到语音的映射 。 除此之外 , 它还支持流式解码 , 可实时输出音频 , 便于无缝接入各类流式交互应用 。
在训练策略上 , 离散语音编码器先在约 50 万小时的多样化语音数据上训练 , 以提升泛化能力;再在其中约 6 万小时的高质量语音上继续训练 , 优化重建音质 。
文本语音合成模型
为提升对话合成的灵活性 , FireRedTTS-2 采用文本 - 语音混排的格式 , 支持逐句生成 , 便于后续编辑与多场景适配 。 混排格式将对话文本与语音组织为:“[S1
说话人 1 文本 + 语音 [S2
说话人 2 文本 + 语音 [S3
说话人 3 文本 + 语音…” , 其中 [S1
、[S2
、[S3
为说话人标签 , 用于区分不同角色 。
在模型架构上 , 为更充分地利用对话上下文 , FireRedTTS-2 采用 “双 Transformer ” 的设计:
1.5B 参数的 Backbone Transformer 负责建模混排序列中语音的粗粒度信息 0.2B 参数的 Decoder Transformer 补充语音中的声学细节
相比常用的 Delay pattern 方法 , 该架构充分利用了上下文中的文本与语音 , 可以生成更自然、连贯的对话语音;同时支持低首包延迟 , 配合离散语音编码器的流式解码 , 实现更快起播 。
FireRedTTS-2 采用两阶段训练:先在 110 万小时单句语音上预训练 , 夯实合成基?。 辉儆?30 万小时对话语音继续训练 , 覆盖 2–4 人对话场景 。 由此可稳定生成高质量对话语音 , 准确处理说话人切换 , 保持上下文一致与自然韵律 。 面向应用场景 ,FireRedTTS-2 仅需少量数据即可实现微调 , 快速完成音色定制 。
FireRedTTS-2 效果比较
为评估对话合成效果 , FireRedTTS-2 与 MoonCast、ZipVoice-Dialogue、MOSS-TTSD 等其他系统在自建的中英文对话测试集上进行了比较:
客观上 , 比较了对话合成的正确率(CER/WER)、对话间说话人保持能力(SIM)、以及与真实录音之间的差距(MCD) 主观上 , FireRedTTS-2 与其他系统进行了偏好打分(CMOS)
结果显示 , FireRedTTS-2 在主客观指标上均为最优 , 显著降低发音错误 , 避免说话人混淆 , 具有更真实的韵律表现 , 为对话合成提供了更优解 。
同时 , FireRedTTS-2 只需约 50 小时的特定播客说话人录音即可完成音色定制 , 使对话合成的自然度逼近真人 。 在自建中文对话测试集上 , 我们开展了客观(CER)与主观(自然度偏好)评测:微调后 CER 仅为 1.66%;主观听评中 , 28% 的测例被认为比真实播客录音更自然 , 另有 28% 难以区分二者 。 总体来看 , 56% 的测例表明其自然度已达到或超过真实录音 。
总结与展望
FireRedTTS-2 针对当前对话合成的两大痛点:无法逐句生成(灵活性差)与合成质量不稳定(发音错误、说话人切换混乱、韵律不自然) , 升级了两项关键模块 。
离散语音编码器:低帧率、语义信息丰富 , 缩短语音序列、降低长对话建模难度并提升稳定性;支持流式解码 , 适配实时场景 。 文本语音合成模型:采用文本 - 语音混排输入 , 支持逐句生成;双 Transformer 架构充分利用文本与历史语音上下文 , 合成更自然、连贯的对话语音;具备低首包延迟 , 配合编码器的流式解码实现快速起播 。
从结果上看 , FireRedTTS-2 在各项主客观指标上均优于 MoonCast、ZipVoice-Dialogiue、MOSS-TTSD 等系统 , 为对话生成提供了更优的解法 。 未来团队将持续优化 FireRedTTS-2 , 拓展支持的说话人人数与支持的语种 , 并解锁可控音效插入等更多玩法 。
推荐阅读
- 英伟达新GPU,超长上下文/视频生成专用
- 独家|对话网商银行CIO高嵩:AI应用要找高价值场景
- 基于通义万相 美图多款APP上线动漫特效、AI变身等视频生成功能
- 拍照直接生成讲视频,小艺深度解题Agent的可视化解题功能太神了
- 首个接入GPT-5的视频Agent!一句话生成广告大片,分镜配音全包了
- 联想三高管IFA2025深度对话:AI如何重构PC形态与全球化品牌矩阵
- 对话联想德国业务负责人:一年月200亿营收背后的生意经
- 刚刚,阿里首个超万亿参数新王登基!Qwen3-Max屠榜全SOTA
- Denodo声称DeepQuery能超越生成式AI的表面洞察
- 对话钉钉无招:用AI,打碎一个7亿用户的产品
