关于 ComfyUI 中的 ACE-Step 1.5
ACE-Step 1.5 是开源音乐生成模型的重大更新,现已在 ComfyUI 中原生支持。它将商业级质量带到你的本地机器上,采用新颖的混合架构,其中语言模型作为全能规划器,将简单的用户查询转换为完整的歌曲蓝图。 ACE-Step 1.5 模型亮点:- 商业级质量:在音乐连贯性方面达到 4.72 分,超越大多数商业音乐模型
- 极速生成:使用 ComfyUI 在 RTX 5090 上约 1 秒生成完整的 4 分钟歌曲,在 RTX 3090 上不到 10 秒
- 50+ 语言支持:对英语、中文、日语、韩语、西班牙语、德语、法语、葡萄牙语、意大利语和俄语有强大支持
- LoRA 微调:支持在 ComfyUI 中通过 LoRA 训练进行轻量级个性化定制
选项 1:一体化 Checkpoint(推荐)
AIO 版本将所有模型打包成单个 checkpoint 文件,更易于下载和管理。AIO 工作流
AIO 模型下载
AIO 模型存储位置选项 2:分离模型文件
分离版本允许你单独下载各个模型组件。分离模型工作流
分离模型下载
acestep_v1.5_turbo.safetensors
扩散模型。
qwen_0.6b_ace15.safetensors
文本编码器 (0.6B)。
qwen_1.7b_ace15.safetensors
文本编码器 (1.7B)。
ace_1.5_vae.safetensors
VAE 模型。
ACE-Step 1.5 在 ComfyUI 中的主要特性
思维链规划
ACE-Step 1.5 模型通过思维链推理综合元数据、歌词和描述来指导扩散过程,从而产生更连贯的长篇作品。混合 LM + DiT 架构
ACE-Step 1.5 结合了规划歌曲结构的语言模型和处理音频合成的扩散 Transformer (DiT),全部在 ComfyUI 中原生运行。在 ComfyUI 中进行 LoRA 微调
只需几首歌曲,你就可以训练一个捕捉特定风格的 LoRA。因为你在 ComfyUI 中本地运行 ACE-Step 1.5,所以你拥有 LoRA 的所有权,不必担心数据泄露。即将在 ComfyUI 中推出
这些功能在 ACE-Step 1.5 中可用,但尚未在 ComfyUI 中支持:- 翻唱 (Cover):将任何歌曲作为输入,配合新的提示词和歌词,模型将以完全不同的风格重新演绎曲目
- 重绘 (Repaint):选择一个片段,仅重新生成该部分,模型会将其拼接回去,同时保持其他部分不变