在人工智能领域,OpenAI 一直是技术革新的领头羊。2025 年 4 月 23 日,OpenAI 正式发布了其全新的图像生成模型 ——GPT-image-1,这一创新技术的推出,不仅为图像生成领域带来了前所未有的变革,也为开发者和创意工作者提供了更强大、更灵活的工具。
GPT-image-1 是 OpenAI 推出的原生多模态图像生成模型,基于 GPT-4o 的图像生成能力构建,旨在为开发者提供一个功能强大且灵活的工具,用于生成高质量、多样化的图像。它通过 API 向开发者开放使用,支持多种高级功能定制,如自定义输出图像的质量、尺寸、格式、压缩程度,还能选择是否需要透明背景,满足多样化创意需求。该模型能够生成跨多种风格的图像,并能够根据自定义的指导思想准确地生成图像内容,广泛应用于创意工具、电商、教育、企业软件、游戏等领域。
用户只需输入详细的文本描述,GPT-image-1 就能将其转化为相应的图像。例如,输入 “A futuristic cityscape at sunset with flying cars and neon lights”(日落时分带有飞行汽车和霓虹灯的未来城市景观),模型就能生成一张符合描述的高质量图像。而且,用户还可以设置图片的数量、分辨率、质量、透明度等参数,完全按照自己的心意来定制图片。
GPT-image-1 具备强大的图像编辑功能。用户可以上传一张或多张图片,通过设置参数和提供提示词,将它们组合起来生成一个新的场景。比如,上传一张礼品篮的图片,让 AI 帮你组合生成一个新的礼品篮场景,甚至可以实现类似 Photoshop 的蒙版功能和透明度调整,对图像进行局部编辑。
如果需要一次性生成多张图片,GPT-image-1 也能轻松应对。只需设置一下 n 参数,它就能一次生成多张图片,大大提升了工作效率,节省了时间和精力。
在图像输出方面,GPT-image-1 提供了丰富的自定义选项。尺寸支持多种分辨率,质量有三种渲染质量可选,格式可选择文件输出格式,压缩针对 JPEG 和 WebP 格式可设置 0-100% 级别,背景可选择透明或不透明,满足不同场景下的需求。
该模型覆盖写实、动漫、赛博朋克、油画等多种风格,用户可通过文本提示(如 “蒸汽朋克城市,Picasso 风格”)灵活定制视觉表达。同时,它还融入了广受欢迎的吉卜力模式,为用户呈现了更丰富的艺术表现形式。
结合 GPT-4o 的语义理解能力,GPT-image-1 能生成符合复杂文化与历史背景的图像,如 “17 世纪巴洛克风格的宫廷场景”。这使得生成的图像不仅在视觉上具有吸引力,而且在文化内涵和历史准确性方面也更加丰富和准确。
模型优化了图像中的文字生成,确保字体清晰、排版自然,适合海报与广告素材创作。
openai.api_key = os.getenv("OPENAI_API_KEY")
,将获取到的 API 密钥赋值给 openai.api_key
变量,以便后续调用 API 时进行身份验证。import openai
import base64
# 初始化 OpenAI 客户端
client = openai.OpenAI()
# 调用图像生成 API
result = client.images.generate(
model="gpt-image-1", # 指定模型
prompt="A futuristic cityscape at sunset with flying cars and neon lights", # 文本提示
size="1024x1024", # 图像尺寸
quality="high", # 图像质量
background="transparent" # 背景设置为透明
)
# 获取生成的图像数据
image_base64 = result.data[0].b64_json
image_bytes = base64.b64decode(image_base64)
# 保存图像到本地文件
with open("futuristic_cityscape.png", "wb") as f:
f.write(image_bytes)openai.OpenAI().images.generate
方法调用图像生成 API。在调用时,需要指定模型为 “gpt-image-1”,并提供文本提示(prompt
),还可以根据需要设置图像尺寸(size
)、质量(quality
)、背景(background
)等参数。例如:openai.OpenAI().images.edit
方法调用图像编辑 API。上传需要编辑的图像(image
)和蒙版图像(mask
),并提供编辑提示(prompt
),同样可以设置图像尺寸、质量等参数。例如:import openai
# 初始化 OpenAI 客户端
client = openai.OpenAI()
# 调用图像编辑 API
result = client.images.edit(
model="gpt-image-1", # 指定模型
image=open("input_image.png", "rb"), # 上传需要编辑的图像
mask=open("mask.png", "rb"), # 上传蒙版图像
prompt="Replace the sky with a starry night", # 编辑提示
size="1024x1024", # 图像尺寸
quality="high" # 图像质量
)
# 获取生成的图像数据
image_base64 = result.data[0].b64_json
image_bytes = base64.b64decode(image_base64)
# 保存编辑后的图像到本地文件
with open("edited_image.png", "wb") as f:
f.write(image_bytes)openai.OpenAI().images.edit
方法,上传多张参考图像(image
),并提供相应的生成提示(prompt
),设置图像尺寸、质量等参数。例如:import openai
# 初始化 OpenAI 客户端
client = openai.OpenAI()
# 调用参考图像生成 API
result = client.images.edit(
model="gpt-image-1", # 指定模型
image=[
open("body-lotion.png", "rb"),
open("bath-bomb.png", "rb"),
open("incense-kit.png", "rb"),
open("soap.png", "rb"),
], # 上传参考图像
prompt="Generate a photorealistic image of a gift basket on a white background labeled 'Relax & Unwind' with a ribbon and handwriting-like font, containing all the items in the reference pictures", # 生成提示
size="1024x1024", # 图像尺寸
quality="high" # 图像质量
)
# 获取生成的图像数据
image_base64 = result.data[0].b64_json
image_bytes = base64.b64decode(image_base64)
# 保存生成的图像到本地文件
with open("gift_basket.png", "wb") as f:
f.write(image_bytes)OpenAI 推出的 GPT-image-1 图像生成模型凭借其卓越的性能、强大的功能和广泛的应用场景,为图像生成领域带来了新的变革和机遇。无论是创意设计师、电商商家、教育工作者、营销人员还是游戏开发者和影视制作团队,都能从这一模型中获得巨大的价值和便利,推动各行业在视觉内容创作方面实现更高的效率和更出色的创意表达。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。