ACE-Step是由中国团队阶跃星辰(StepFun)与ACE Studio联合开发的开源音乐生成基础大模型,旨在为音乐创作者提供高效、灵活且高质量的音乐生成与编辑工具。
该模型采用Apache-2.0许可证发布,可免费商用。
ACE-Step 作为一个强大的音乐生成基座,提供了丰富的扩展能力。通过 LoRA、ControlNet 等微调技术,开发者可以根据实际需求对模型进行定制化训练。 无论是音频编辑、歌声合成、伴奏制作、声音克隆还是风格转换等应用场景,ACE-Step 都能提供稳定可靠的技术支持。 这种灵活的架构设计大大简化了音乐 AI 应用的开发流程,让更多创作者能够快速将 AI 技术应用到音乐创作中。
目前 ACE-Step 已经发布相关的训练代码,包括 LoRA 模型训练等,对应 ControlNet 的训练代码也将在未来陆续发布,你可以访问他们的Github 来了解更多详情。
ACE-Step ComfyUI 文本到音频生成工作流示例
1. 工作流及相关模型下载
点击下面的按钮下载对应的工作流文件,拖入 ComfyUI 中即可加载对应的工作流信息,对应工作流已包含模型下载信息。
下载 Json 格式工作流文件
2. 按步骤完成工作流的运行
- 确保
Load Checkpoints
节点加载了ace_step_v1_3.5b.safetensors
模型 - 在
TextEncodeAceStepAudio
的tags
输入对应的音乐风格等等 - 在
TextEncodeAceStepAudio
的lyrics
中输入对应的歌词,如果你不知道该输入哪些歌词 - 点击
Run
按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)
来执行音频的生成。 - 等待内容生成返回结果后,你可在
Save Audio
节点中查看生成的音频,你可以点击播放试听,对应的音频也会被保存至ComfyUI/output/audio
(由Save Audio
节点决定子目录名称)。
ACE-Step ComfyUI 音频到音频工作流
你可以像图生图工作流一样,输入一段音乐,使用下面的工作流来达到重新对音乐采样生成,同样,你也可以通过控制 Ksampler
的 denoise
来调整和原始音频的区别程度
1. 工作流文件下载
点击下面的按钮下载对应的工作流文件,拖入 ComfyUI 中即可加载对应的工作流信息
下载 Json 格式工作流文件
2. 按步骤完成工作流的运行
- 确保
Load Checkpoints
节点加载了ace_step_v1_3.5b.safetensors
模型 - 在
LoadAudio
节点上传你需要用于音频重新编辑的音乐(可以使用本文文本到音频工作流生成的结果) - 在
TextEncodeAceStepAudio
的tags
输入对应的音乐风格等等 - 在
TextEncodeAceStepAudio
的lyrics
中输入对应的歌词,可以参考文本提示词指南部分(仍在更新中)或 ACE-Step 项目页面中的歌词示例 - 修改
Ksampler
节点的denoise
参数,来调整采样过程中添加的噪声来调整与原始音频的相似程度,(越小与原始音频越相似,如果设置为1.00
则可以近似认为没有音频输入) - 点击
Run
按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)
来执行音频的生成。 - 等待内容生成返回结果后,你可在
Save Audio
节点中查看生成的音频,你可以点击播放试听,对应的音频也会被保存至ComfyUI/output/audio
(由Save Audio
节点决定子目录名称)。
3. 歌词修改编辑示例
[待更新]
ACE-Step 提示词指南
ACE 的提示词目前使用的有两个,一个是 tags
一个是 lyrics
。
tags
: 主要用来描述音乐的风格、场景等, 和我们平常其它生成的 prompt 类似,主要描述音频整体的风格和要求,使用英文逗号分隔lyrics
: 主要用来描述歌词,支持歌词结构标签,如 [verse](主歌)、[chorus](副歌)和 [bridge](过渡段)来区分歌词的不同部分,也可以在纯音乐情况下输入乐器名称
对应的 tags
和 lyrics
在 ACE-Step 模型主页 中可以找到丰富的示例,你可以参考对应示例来尝试对应的提示词,本文档的提示词指南基于项目做了一些整理,以便让你能够快速尝试组合,来达到最想要的效果
tags标签(prompt)
主流音乐风格
使用简短标签组合,来生成特定风格的音乐electronic(电子音乐)
rock(摇滚)
pop(流行)
funk(放克)
soul(灵魂乐)
cyberpunk(赛博朋克)
Acid jazz(酸爵士)
electro(电子)
em(电子音乐)
soft electric drums(软电鼓)
melodic(旋律)
场景类型
结合具体使用场景和氛围,生成符合对应氛围的音乐background music for parties(派对背景音乐)
radio broadcasts(电台广播音乐)
workout playlists(健身播放列表音乐)
乐器元素
saxophone,
azz(萨克斯风、爵士)
piano, violin(钢琴、小提琴)
人声类型
female voice(女声)
male voice(男声)
clean vocals(纯净人声)
专业用于
使用音乐中常用的一些专业的用词,来精准控制音乐效果110 bpm(每分钟节拍数为110)
fast tempo(快节奏)
slow tempo(慢节奏)
loops(循环片段)
fills(填充音)
acoustic guitar(木吉他)
electric bass(电贝斯)
歌词(lyrics)
歌词结构标签
[outro]
[verse]
[chorus]
[bridge]
多语言支持
- ACE-Step V1 是支持多语言的,实际使用的时候 ACE-Step 会获取到对应的不同语言转换后的英文字母,然后进行音乐生成。
- 在 ComfyUI 中我们并没有完全实现全部多语言到英文字母的转换,目前仅实现了日语平假名和片假名字符 所以如果你需要使用多语言来进行相关的音乐生成,你需要首先将对应的语言转换成英文字母,然后在对应
lyrics
开头输入对应语言代码的缩写,比如中文[zh]
韩语[ko]
等
比如:
[zh]ni hao
[ko]an nyeong
目前 ACE-Step 支持了 19 种语言,但下面十种语言的支持会更好一些:
- English
- Chinese: [zh]
- Russian: [ru]
- Spanish: [es]
- Japanese: [ja]
- German: [de]
- French: [fr]
- Portuguese: [pt]
- Italian: [it]
- Korean: [ko]