ComfyUI-FireRedTTS2:小红书开源AI配音神器,3秒克隆声音

一、FireRedTTS2介绍

「FireRedTTS-2」是一款面向多说话者对话生成的长篇流式文本转语音(TTS)系统,旨在提供稳定、自然的语音输出,同时实现可靠的说话人切换和语境感知的韵律。该系统在支持多语言、实现超低延迟方面取得了显著突破,使其成为长对话、实时交互场景的理想选择,推动了语音合成技术在复杂对话环境中的应用。

关键亮点:

  • 长对话语音生成能力: 「FireRedTTS-2」目前已支持生成长达 3 分钟的四说话者对话,并通过扩展训练语料可轻松扩展至更长、更多说话者的对话场景,满足复杂、长时间交互的需求。
  • 广泛的多语言支持: 该系统支持包括英语、中文、日语、韩语、法语、德语和俄语在内的多种语言。同时,它还支持零样本(zero-shot)语音克隆,可应用于跨语言及语码转换(code-switching)场景。
  • 超低延迟流式生成: 基于新型 12.5Hz 流式语音分词器和双 Transformer 架构,「FireRedTTS-2」实现了灵活的逐句生成,显著降低了首包延迟。在 L20 GPU 上,其首包延迟可低至 140ms,同时保持高质量音频输出。
  • 卓越的稳定性与音质: 在独白和对话测试中,「FireRedTTS-2」均展现出高相似度、低词错误率(WER)/字符错误率(CER)的强大稳定性,确保了生成语音的清晰度和自然度。
  • 随机音色生成功能: 提供随机音色生成能力,这对于创建大量多样化的自动语音识别(ASR)或语音交互训练数据,具有极高的实用价值。

FireRedTTS-2 的 ComfyUI 集成,这是一个实时多扬声器 TTS 系统,可实现高质量、情感表达的对话和独白合成。它利用流媒体架构和上下文感知韵律建模,支持自然的说话人回合和稳定的长格式生成,非常适合交互式聊天和播客应用。

ComfyUI-FireRedTTS2:小红书开源AI配音神器,3秒克隆声音

二、相关安装

ComfyUI-FireRedTTS:https://github.com/1038lab/ComfyUI-FireRedTTS

cd ComfyUI/custom_nodes
git clone https://github.com/1038lab/ComfyUI-FireRedTTS.git

模型安装:

FireRedTeam/FireRedTTS2:https://huggingface.co/FireRedTeam/FireRedTTS2

模型路径:ComfyUI\models\TTS\FireRedTTS2

三、工作流示例

ComfyUI-FireRedTTS2:小红书开源AI配音神器,3秒克隆声音

结语

FireRedTTS-2的推出不仅为 AI 播客和对话合成应用提供了工业级解决方案,还为行业内外的创新探索打开了新的可能性。未来,团队将持续优化该模型,增加支持的说话人数和语言种类,并探索更多的可控音效插入功能,以满足不断增长的市场需求。FireRedTTS-2作为开源语音合成领域的重要进展,为解决多说话人长对话生成的挑战提供了全面而高效的解决方案。通过其创新的离散语音编码器和双Transformer架构,系统在保持高音质的同时实现了超低延迟和高度自然的对话韵律。

下载权限

查看
  • 免费下载
    评论并刷新后下载
    登录后下载
  • 免费下载
    免费下载:
    签到可领取积分

查看演示

  • {{attr.name}}:
您当前的等级为
登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付免费指引:【签到得积分即可下载】 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分免费指引:【签到得积分即可下载】立即支付 支付免费指引:【签到得积分即可下载】立即支付 您当前的用户组不允许下载升级会员
您已获得下载权限 您可以每天下载资源次,今日剩余
温馨提示:本站提供的一切软件、教程和内容信息都来自网络收集整理,仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,版权争议与本站无关。在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给TA打赏
共{{data.count}}人
5人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索