一、FireRedTTS2介绍
「FireRedTTS-2」是一款面向多说话者对话生成的长篇流式文本转语音(TTS)系统,旨在提供稳定、自然的语音输出,同时实现可靠的说话人切换和语境感知的韵律。该系统在支持多语言、实现超低延迟方面取得了显著突破,使其成为长对话、实时交互场景的理想选择,推动了语音合成技术在复杂对话环境中的应用。
关键亮点:
- 长对话语音生成能力: 「FireRedTTS-2」目前已支持生成长达 3 分钟的四说话者对话,并通过扩展训练语料可轻松扩展至更长、更多说话者的对话场景,满足复杂、长时间交互的需求。
- 广泛的多语言支持: 该系统支持包括英语、中文、日语、韩语、法语、德语和俄语在内的多种语言。同时,它还支持零样本(zero-shot)语音克隆,可应用于跨语言及语码转换(code-switching)场景。
- 超低延迟流式生成: 基于新型 12.5Hz 流式语音分词器和双 Transformer 架构,「FireRedTTS-2」实现了灵活的逐句生成,显著降低了首包延迟。在 L20 GPU 上,其首包延迟可低至 140ms,同时保持高质量音频输出。
- 卓越的稳定性与音质: 在独白和对话测试中,「FireRedTTS-2」均展现出高相似度、低词错误率(WER)/字符错误率(CER)的强大稳定性,确保了生成语音的清晰度和自然度。
- 随机音色生成功能: 提供随机音色生成能力,这对于创建大量多样化的自动语音识别(ASR)或语音交互训练数据,具有极高的实用价值。
FireRedTTS-2 的 ComfyUI 集成,这是一个实时多扬声器 TTS 系统,可实现高质量、情感表达的对话和独白合成。它利用流媒体架构和上下文感知韵律建模,支持自然的说话人回合和稳定的长格式生成,非常适合交互式聊天和播客应用。
二、相关安装
ComfyUI-FireRedTTS:https://github.com/1038lab/ComfyUI-FireRedTTS
cd ComfyUI/custom_nodes
git clone https://github.com/1038lab/ComfyUI-FireRedTTS.git
模型安装:
FireRedTeam/FireRedTTS2:https://huggingface.co/FireRedTeam/FireRedTTS2
模型路径:ComfyUI\models\TTS\FireRedTTS2
三、工作流示例
结语
FireRedTTS-2的推出不仅为 AI 播客和对话合成应用提供了工业级解决方案,还为行业内外的创新探索打开了新的可能性。未来,团队将持续优化该模型,增加支持的说话人数和语言种类,并探索更多的可控音效插入功能,以满足不断增长的市场需求。FireRedTTS-2作为开源语音合成领域的重要进展,为解决多说话人长对话生成的挑战提供了全面而高效的解决方案。通过其创新的离散语音编码器和双Transformer架构,系统在保持高音质的同时实现了超低延迟和高度自然的对话韵律。