
大家好,我是 Ai 学习的老章

前文介绍过
vLLM v0.13.0 来了,对 DeepSeek 深度优化全模态大模型部署,vLLM-Omni 来了,100% 开源
本文介绍一个母亲最强大的文生图模型——Z-Image-Turbo 的本地部署
Z-Image Turbo 是阿里云通义-MAI 团队(与阿里云万和 Qwen 团队无关)发布的首款模型,超越了 FLUX.2、HunyuanImage 3.0 (Fal) 和 Qwen-Image。

Z-Image Turbo 是新的开源权重文本生成图像模型第一名
Z-Image Turbo 在阿里云上的价格为每千张图像 5 美元,是目前最便宜的图像模型之一,比 FLUX.2(每千张图像 12 美元)、HiDream-I1-Dev(每千张图像 26 美元)和 Qwen-Image(每千张图像 20 美元)都要便宜。它是一个 6B 参数模型,仅需 16GB 内存即可在消费级硬件上运行。

根据基于 Elo 的人类偏好评估(在阿里巴巴 AI 竞技场上),Z-Image-Turbo 相对于其他领先模型表现出极高的竞争力,同时在开源模型中达到了最先进的结果。
Z-Image 是一个强大的、高效的图像生成模型,具有 6B 参数。目前有三个变体:

🧠 创意图像编辑 : Z-Image-Edit 对双语编辑指令有很强的理解能力,能够实现富有想象力和灵活性的图像变换。

📸 逼真质量: Z-Image-Turbo在保持出色审美质量的同时,提供强大的逼真图像生成

📖 准确的双语文本渲染 : Z-Image-Turbo 在准确渲染复杂中文和英文文本方面表现出色。

💡 提示增强与推理 : 提示增强器赋予模型推理能力,使其能够超越表面描述,挖掘潜在的世界知识。

https://modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo/
下载完整模型库
modelscope download --model Tongyi-MAI/Z-Image-Turbo --local_dir ./dir
安装好环境后,可以使用 vllm-omni 拉起兼容 OpenAI API 协议的 API
vllm serve Qwen/Qwen-Image --omni --port 8091
import requests
import time
import json
from PIL import Image
from io import BytesIO
base_url = 'https://api-inference.modelscope.cn/'
api_key = "<MODELSCOPE_TOKEN>"# ModelScope Token
common_headers = {
"Authorization": f"Bearer {api_key}",
"Content-Type": "application/json",
}
response = requests.post(
f"{base_url}v1/images/generations",
headers={**common_headers, "X-ModelScope-Async-Mode": "true"},
data=json.dumps({
"model": "Tongyi-MAI/Z-Image-Turbo", # ModelScope Model-Id, required
# "loras": "<lora-repo-id>", # optional lora(s)
# """
# LoRA(s) Configuration:
# - for Single LoRA:
# "loras": "<lora-repo-id>"
# - for Multiple LoRAs:
# "loras": {"<lora-repo-id1>": 0.6, "<lora-repo-id2>": 0.4}
# - Upto 6 LoRAs, all weight-coefficients must sum to 1.0
# """
"prompt": "A golden cat"
}, ensure_ascii=False).encode('utf-8')
)
response.raise_for_status()
task_id = response.json()["task_id"]
while True:
result = requests.get(
f"{base_url}v1/tasks/{task_id}",
headers={**common_headers, "X-ModelScope-Task-Type": "image_generation"},
)
result.raise_for_status()
data = result.json()
if data["task_status"] == "SUCCEED":
image = Image.open(BytesIO(requests.get(data["output_images"][0]).content))
image.save("result_image.jpg")
break
elif data["task_status"] == "FAILED":
print("Image Generation Failed.")
break
time.sleep(5)
官方提供的有前端

看上去是基于 Gradio 开发的,完整代码:https://huggingface.co/spaces/Tongyi-MAI/Z-Image-Turbo/tree/main
Clone 下来可以自己部署
社区有开源的基于 Z-Image-Turbo 的前端,比官方版功能更多
项目地址:https://github.com/ratszhu/Z-Image-Turbo-Carto

项目基于阿里通义 Tongyi-MAI/Z-Image-Turbo 模型,针对 Apple Silicon (M1/M2/M3) 和 NVIDIA RTX (Windows) 进行了深度的底层工程优化。它抛弃了传统的 Gradio 界面,采用 FastAPI + Vue 3 的现代化前后端分离架构,提供极速、高清、沉浸式的创作体验。
在项目根目录下打开终端:
# 1. 创建虚拟环境 (推荐)
python -m venv venv
# Mac/Linux 激活:
source venv/bin/activate
# Windows 激活:
.\venv\Scripts\activate
# 2. 安装依赖 (使用清华源加速)
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
请确保项目根目录下存在以下文件(或在 config.py 中修改路径):
./Z-Image-ModelTongyi-MAI/Z-Image-Turbo 完整文件夹。./Technically_Color_Z_Image_Turbo_v1_renderartist_2000.safetensorspython main.py
等待终端显示: 🚀 Z-Image Studio 全栈版已启动! 👉 请访问: http://127.0.0.1:8888