跳转到主要内容
Z-Image(造相) 是阿里巴巴通义实验室开发的一个强大且高效的图像生成模型,拥有 6B 参数。它采用 可扩展单流 DiT(S3-DiT)架构,将文本、视觉语义 token 和图像 VAE token 在序列级别进行拼接,作为统一的输入流,最大化参数效率。 Z-Image(Base)是非蒸馏基础模型,专为社区驱动的微调和自定义开发而设计。 模型亮点
  • 照片级真实质量:在保持出色美学质量的同时,提供强大的照片级真实图像生成
  • 精准的双语文本渲染:擅长准确渲染复杂的中英文文本
  • 提示词增强与推理:提示词增强器赋予模型推理能力
  • 微调就绪:适合自定义训练和适配的理想基础模型
相关链接

Z-Image 文生图工作流

请确保你的 ComfyUI 已经更新。本指南里的工作流可以在 ComfyUI 的工作流模板中找到。如果找不到,可能是 ComfyUI 没有更新。如果加载工作流时有节点缺失,可能原因有:
  1. 你用的不是最新开发版(nightly)。
  2. 你用的是稳定版或桌面版(没有包含最新的更新)。
  3. 启动时有些节点导入失败。

Z-Image 模型下载

模型存储位置
📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── qwen_3_4b.safetensors
│   ├── 📂 diffusion_models/
│   │      └── z_image_bf16.safetensors
│   └── 📂 vae/
│          └── ae.safetensors