跳转到主要内容

关于 ComfyUI 中的 ACE-Step 1.5

ACE-Step 1.5 是开源音乐生成模型的重大更新,现已在 ComfyUI 中原生支持。它将商业级质量带到你的本地机器上,采用新颖的混合架构,其中语言模型作为全能规划器,将简单的用户查询转换为完整的歌曲蓝图。 ACE-Step 1.5 模型亮点:
  • 商业级质量:在音乐连贯性方面达到 4.72 分,超越大多数商业音乐模型
  • 极速生成:使用 ComfyUI 在 RTX 5090 上约 1 秒生成完整的 4 分钟歌曲,在 RTX 3090 上不到 10 秒
  • 50+ 语言支持:对英语、中文、日语、韩语、西班牙语、德语、法语、葡萄牙语、意大利语和俄语有强大支持
  • LoRA 微调:支持在 ComfyUI 中通过 LoRA 训练进行轻量级个性化定制
请确保你的 ComfyUI 已经更新。本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到,可能是 ComfyUI 没有更新。如果加载工作流时有节点缺失,可能原因有:
  1. 你用的不是最新开发版(nightly)。
  2. 你用的是稳定版或桌面版(没有包含最新的更新)。
  3. 启动时有些节点导入失败。

选项 1:一体化 Checkpoint(推荐)

AIO 版本将所有模型打包成单个 checkpoint 文件,更易于下载和管理。

AIO 工作流

AIO 模型下载

AIO 模型存储位置
📂 ComfyUI/
├── 📂 models/
│   └── 📂 checkpoints/
│       └── ace_step_1.5_turbo_aio.safetensors

选项 2:分离模型文件

分离版本允许你单独下载各个模型组件。

分离模型工作流

分离模型下载

分离模型存储位置
📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── acestep_v1.5_turbo.safetensors
│   ├── 📂 text_encoders/
│   │   ├── qwen_0.6b_ace15.safetensors
│   │   └── qwen_1.7b_ace15.safetensors
│   └── 📂 vae/
│       └── ace_1.5_vae.safetensors

ACE-Step 1.5 在 ComfyUI 中的主要特性

思维链规划

ACE-Step 1.5 模型通过思维链推理综合元数据、歌词和描述来指导扩散过程,从而产生更连贯的长篇作品。

混合 LM + DiT 架构

ACE-Step 1.5 结合了规划歌曲结构的语言模型和处理音频合成的扩散 Transformer (DiT),全部在 ComfyUI 中原生运行。

在 ComfyUI 中进行 LoRA 微调

只需几首歌曲,你就可以训练一个捕捉特定风格的 LoRA。因为你在 ComfyUI 中本地运行 ACE-Step 1.5,所以你拥有 LoRA 的所有权,不必担心数据泄露。

即将在 ComfyUI 中推出

这些功能在 ACE-Step 1.5 中可用,但尚未在 ComfyUI 中支持:
  • 翻唱 (Cover):将任何歌曲作为输入,配合新的提示词和歌词,模型将以完全不同的风格重新演绎曲目
  • 重绘 (Repaint):选择一个片段,仅重新生成该部分,模型会将其拼接回去,同时保持其他部分不变

ACE-Step 1.5 ComfyUI 相关资源