耗时100小时掌握ChatGPT图像生成器,这是我学到的一切

ChatGPT图像生成器界面展示AI生成的艺术作品
ChatGPT图像生成器 —— 让你脑海中的画面终于成为现实
我发现的秘密

令人抓狂的AI图像与令人惊叹的杰作之间的区别,不在于天赋或运气 —— 而在于学会说机器能听懂的视觉语言

我还记得一切改变的那一刻。那是周二凌晨2点。我盯着屏幕看了好几个小时,不断尝试一个又一个提示词,看着ChatGPT吐出的图像与我设想的完全不符。手指的解剖结构不可能存在。文字融化成乱码。角色似乎在主动抗拒我的意图。我已经准备放弃AI图像生成了 —— 把它归结为过度的炒作,只对别人有效。

然后我尝试了一些不同的东西。我不再描述我想看到什么,而是描述摄像机能捕捉到什么。我没有要求“美丽的日落”,而是写了“黄金时刻的光线穿过山峰,佳能5D Mark IV拍摄,24-70mm镜头,光圈f/2.8,自然色调”。出现的图像不仅仅是可以接受 —— 它是惊艳的。照片级真实。正是几分钟前只存在于我想象中的东西。

视角的这一转变开启了一切。在接下来的几个月里,我深入研究。我生成了数千张图像。我测试了能找到的每一种技巧。我通读了OpenAI的文档。我在GPT Image 1.5发布当天就进行了实验。现在我要分享我学到的一切 —— 不是你在其他地方能找到的肤浅技巧,而是区分专业人士与业余爱好者的深层知识。这是我希望在开始时就拥有的指南。这就是你如何从受挫的初学者变成自信的创作者。

我的AI图像生成之旅

让我带你回到一切开始的地方。像你们许多人一样,我最初对AI图像生成持怀疑态度。“这只是技术爱好者的玩具,”我想。“真正的创造性工作仍然需要真正的技能。”我大错特错。

我对AI图像的第一个真正需求来自一个实际问题。我正在为一个项目创建内容,需要封面图片 —— 很多图片。我一直在为图库照片付费,把钱花在其他创作者都在使用的通用照片上。这些图片还可以,但缺乏灵魂。它们感觉是借来的,而不是拥有的。

一位朋友提到ChatGPT现在可以生成图像了。“只要描述你想要的,”她说。“就像魔法一样。”所以我试了一下。我的第一个提示词幼稚得令人尴尬:“群山之上的美丽日落。”结果呢?一团模糊的乱码,就像一幅被雨淋过的水彩画。至少可以说,我很失望。

但有些东西一直吸引着我回去。我再次尝试。再一次。每一次失败都教会了我一些关于AI如何理解语言的新东西。我开始注意到模式 —— 某些短语始终能产生更好的结果,结构化的方法能引导模型接近我的愿景,而不是远离它。

💡

突破来自于我意识到:AI图像生成不是描述你脑海中看到的东西 —— 而是描述摄像机在现实中会捕捉到的东西。这单一视角的转变改变了一切。

我不再像梦想家那样思考,而是开始像摄影师一样思考。我不再写“美丽的日落”,而是写关于黄金时刻的光线、具体的相机型号、镜头焦距、光圈设置、胶片类型。AI理解这种语言,因为它是在数百万张带有这种技术元数据的图像上训练出来的。

在接下来的几个月里,我着迷了。我生成了涵盖我能想象到的每种风格和用例的数千张图像。我阅读了OpenAI发布的每一份文档。我加入了推动这些工具极限的创作者社区。当GPT Image 1.5在2026年1月发布时,我已经准备好了。我不仅理解了如何使用它,还理解了它为什么以这种方式工作。

现在我要分享我学到的一切。不是你在一百本其他指南中能找到的肤浅技巧。而是来自广泛实验、系统测试以及与将这些工具推向极限的其他创作者无数次对话的深层知识。这是完整的指南 —— 将带你从困惑的初学者变成自信的创作者。

什么是ChatGPT图像生成器

在深入探讨技巧之前,让我澄清一下我们使用的是什么。ChatGPT图像生成器是OpenAI集成的图像创建和编辑系统,目前由他们的GPT Image 1.5模型提供支持。与Midjourney或Stable Diffusion等独立工具不同,它深度集成到了ChatGPT的对话界面中。

这种集成比你想象的更重要。因为ChatGPT理解上下文,它可以在多次生成中保持一致性,记住你在会话中的偏好,甚至推理你试图创建的内容。告诉它你正在创作一本儿童读物,它会相应地调整风格。提到你需要用于企业演示的图片,它会转向干净、专业的审美。这种上下文意识是独立图像生成器根本无法比拟的。

🎨 文生图 (Text-to-Image)

用自然语言描述任何东西,看着它具象化。从照片级真实的人像到抽象艺术,从产品模型到奇幻风景 —— 只要你能描述,AI就能创造。

✏️ 精准图像编辑

上传现有图片并用文字命令修改它们。改变颜色、交换物体、调整光照、转换季节,或者在保留你想要的元素的同时完全重新构想场景。

🔄 风格迁移

提取一张图片的视觉语言 —— 它的调色板、纹理、笔触或审美 —— 并将其应用到全新的内容上。非常适合保持品牌一致性或创建连贯的系列。

📝 可靠的文本渲染

终于,AI真的能拼写了。GPT Image 1.5在图像中处理文本的准确性前所未有 —— 非常适合标志、海报、信息图表和文字至关重要的营销材料。

它实际上是如何工作的

当你向ChatGPT的图像生成器发送提示词时,幕后会发生几件事。首先,ChatGPT本身会处理你的请求,可能会根据上下文扩展或澄清你的提示词。它可能会添加你暗示但未说明的细节,或者以图像模型更能理解的方式构建你的请求。

然后请求进入图像生成模型 —— 目前是GPT Image 1.5 —— 它将你的文本描述转化为视觉输出。这个模型是在海量图像及其详细描述的数据集上训练的,学习了语言和视觉元素之间错综复杂的关系。

结果是一个真正理解你在要求什么的系统,而不仅仅是匹配关键词。要求“照片级真实的抓拍瞬间”,你会得到真正感觉未摆拍的东西。要求“透过百叶窗的晨光”,你会得到它产生的特定条纹图案。

🎯

GPT Image 1.5在Artificial Analysis Image Arena的文生图生成和图像编辑方面均获得了第一名,指令依从率达到90% —— 比最接近的竞争对手高出13个百分点。这不是营销辞令;这反映了能力的真正飞跃。

GPT Image 1.5 的革命

当OpenAI在2026年1月发布GPT Image 1.5时,他们不仅仅是迭代了之前的模型 —— 他们重建了基础。我曾广泛使用早期版本,所以我立即注意到了差异。这不仅仅是增量改进;这是一次范式转变。

让我具体谈谈发生了什么变化,因为理解这些改进将帮助你有效地利用它们。

三个重要的突破

1
真正一致的精准编辑

以前的模型有一种令人沮丧的漂移倾向。你要求改变一件事,其他三件事会意外地发生变化。修复光线,角色的脸突然看起来不一样了。GPT Image 1.5真正理解“只改变这个元素” —— 它可以修改特定部分,同时保留光线、构图、面部特征,甚至微妙的纹理。这使得迭代优化真正实用。

2
改变工作流的速度

生成速度比以前的版本提高了400%。过去需要30秒,现在只需7-8秒。但更重要的是,你可以在当前任务仍在处理时排队新的生成。这将创作过程从“提交并等待”转变为“探索和迭代”。心理差异是巨大的 —— 更快的反馈循环意味着更多的实验。

3
真正有效的文本

AI图像中的文本渲染历来是一场灾难 —— 拼写错误、重复、字母融化成抽象形状。GPT Image 1.5在保持适当的排版、布局和可读性的同时处理密集的、小字体的文本。这开启了信息图表、营销材料、UI模型以及任何文字出现在图像中的用例。我有生以来第一次可以生成演示幻灯片、带标题的社交媒体图片和我真正会使用的产品标签。

理解质量设置

GPT Image 1.5提供不同的质量层级,了解何时使用哪种层级将为你节省时间并改善结果。这不仅仅关于输出质量 —— 更是关于为任务匹配合适的工具。

⚡ 低质量模式 (Low Quality)

不要被名字误导 —— 这里的“低质量”意味着“快速高效”。对于大多数用例,结果仍然非常好。将此用于:

  • 初步概念探索和头脑风暴
  • 完善想法时的快速迭代
  • 没有精细细节的简单构图
  • 速度至关重要的大批量生成
  • 在致力于最终版本之前的草稿

✨ 高质量模式 (High Quality)

当每个像素都很重要,且你需要出版级的结果时。保留用于:

  • 用于交付的最终生产图像
  • 密集的文本和排版工作
  • 带有微小细节的复杂信息图表
  • 纹理至关重要的照片级人像
  • 任何你需要最大保真度的图像

隐藏的输入保真度设置

这是大多数指南不会告诉你的:在编辑图像时,有一个名为 input_fidelity 的参数会极大地影响结果。当你需要保留面部特征、在编辑中保持身份一致或进行重大场景更改时,将其设置为“high”(高)。模型会更加努力地保持原始图像的关键特征。

高保真度 API 示例
result = client.images.edit(
    model="gpt-image-1.5",
    input_fidelity="high",  # 身份保留的秘诀
    quality="high",
    image=[open("portrait.png", "rb")],
    prompt="Change the background to a sunset beach while preserving the person's exact appearance"
)

这种组合确保在应用你请求的更改时最大程度地保留原始主体。

🔄

GPT Image 1.5最大的转变不是技术上的 —— 而是哲学上的。图像生成从“提示并祈祷”转变为“指令并迭代”。这需要一个完全不同的思维模型来处理视觉创作。

改变一切的提示词框架

在生成了数千张图像后,我开发了一个始终能产生出色结果的框架。忘掉你读过的关于在提示词中添加“杰作 (masterpiece)、ArtStation趋势 (trending on ArtStation)、超细节 (ultra-detailed)、8K分辨率”的一切。这些关键词对需要质量提示的旧模型有用,但GPT Image 1.5响应的是结构和特异性,而不是关键词堆砌。

我称之为结构化提示词架构,我现在写的每一个有效提示词都遵循这种模式。

通用提示词结构
Goal/Output (目标/输出):
- [Type of image: ad, UI mockup, infographic, photo, illustration] (图像类型:广告、UI模型、信息图、照片、插图)
- [Intended use and audience] (预期用途和受众)

Scene (场景):
- [Background/environment description] (背景/环境描述)
- [Main subject with specific details] (主体及具体细节)
- [Action or relationship between elements] (动作或元素间的关系)

Style (风格):
- [Medium: photograph, watercolor, 3D render, vector illustration] (媒介:照片、水彩、3D渲染、矢量插图)
- [Key textures: matte, glossy, grainy, smooth, organic] (关键纹理:哑光、光泽、颗粒感、平滑、有机)
- [Quality descriptors: realistic imperfections, stylized, minimalist] (质量描述:逼真的瑕疵、风格化、极简主义)

Composition/Layout (构图/布局):
- [Camera position: close-up, wide shot, aerial view, eye-level] (相机位置:特写、广角、鸟瞰、平视)
- [Lighting: golden hour, studio strobes, overcast, dramatic shadows] (光照:黄金时刻、摄影棚闪光灯、阴天、戏剧性阴影)
- [Element placement: centered, rule of thirds, negative space, margins] (元素放置:居中、三分法、留白、边距)

Text (if any) (文本,如果有):
- "Exact text in quotes" ("引号中的确切文本")
- [Font style, size, color, position] (字体风格、大小、颜色、位置)
- [Specify: render only once, no duplicates] (指定:仅渲染一次,无重复)

Constraints (约束):
- Change ONLY: [specific element if editing] (仅更改:[特定元素,如果是编辑])
- Preserve exactly: [elements that must stay unchanged] (完全保留:[必须保持不变的元素])
- Negative: no watermark, no extra text, no logos, no [unwanted elements] (负向:无水印、无额外文本、无Logo、无[不需要的元素])

这个框架为模型提供了它需要做出的每一个视觉决策的清晰上下文。

有效提示的七个原则

除了结构之外,这些原则支配着我写的每一个提示词。它们是“基本能用”的图像和“精准命中”你愿景的图像之间的区别。

01

结构胜于关键词

使用一致的顺序:背景 → 主体 → 细节 → 约束。对于复杂的请求,使用带标签的段落或换行。长段落会使模型困惑;有组织的结构引导它走向你的意图。

02

特异性胜于最高级

不要用“高质量”或“超细节”,描述实际的视觉属性。材料、纹理、形状、媒介。“可见的皮肤毛孔和微妙的雀斑”每次都胜过“高度细节化的脸”。

03

明确的构图控制

命名你的取景(特写、广角、鸟瞰)、视角(平视、低角度、荷兰式倾斜)和光照氛围(柔和漫射、黄金时刻、高对比度轮廓光)。不要把这些留给运气。

04

更改 vs 保留契约

对于编辑,明确说明什么应该改变以及什么应该保持不动。使用“change only X”(仅改变X)和“preserve exactly Y”(完全保留Y)。在每次迭代中重复此保留列表以防止漂移。

05

文本需要精确

将所需的文本放在“引号”或全大写中。指定字体风格、大小、颜色和位置。对于困难的单词或品牌名称,逐个字母拼写出来。总是添加“render exactly once, no duplicates”(完全渲染一次,无重复)。

06

多图参考清晰度

当使用多张输入图像时,通过索引和描述引用每一张:“Image 1: the product shot, Image 2: the style reference”(图像1:产品图,图像2:风格参考)。明确说明它们应该如何交互。

07

迭代而非过载

从一个干净的基础提示词开始,然后通过小的、单一更改的后续操作进行完善。“让光线更暖。”“移除背景树木。”小步骤汇聚成精准的结果。

最常见的错误

我看到人们犯的最大的错误:试图在一个巨大的提示词中指定所有内容,希望模型能弄明白。这几乎从不奏效。从一个更简单的提示词开始建立基础,然后通过有针对性的细化进行迭代。你会在更短的时间内获得更好的结果,而且失败的挫败感会少得多。

摄影师思维

我结果中最大的单一改进来自于思维的转变:我不再像艺术家那样描述愿景,而是开始像摄影师一样描述镜头。这不仅仅是一个比喻 —— 这是一个利用模型训练方式的实用技巧。

AI图像模型是从数百万张带有元数据的照片中学习的:相机型号、镜头规格、光圈设置、光照条件。当你使用这种语言时,你激活了模型对真实相机如何捕捉真实场景的深刻理解。

有效的摄影语言

  • 镜头选择: "24mm wide angle"(24mm广角)创造边缘有畸变的广阔场景;"200mm telephoto"(200mm长焦)压缩深度并隔离主体。
  • 光圈感: "f/1.4 bokeh"(f/1.4散景)为人像提供奶油般的背景模糊;"f/16 deep focus"(f/16深景深)保持风景中的一切清晰。
  • 胶片类型: "Kodak Portra 400"用于温暖、讨喜的肤色;"Fuji Velvia"用于有力、饱和的风景;"Ilford HP5"用于高对比度的黑白。
  • 布光设置: "Rembrandt lighting"(伦勃朗光)用于戏剧性人像;"butterfly lighting"(蝴蝶光)用于美妆照;"golden hour backlight"(黄金时刻逆光)用于空灵的发光边缘。
  • 相机运动: "long exposure motion blur"(长曝光动态模糊)用于动态能量;"high-speed freeze frame"(高速定格)用于捕捉动作。

与其说“让它看起来专业”,不如试着说“shot on Hasselblad medium format, studio strobe lighting, seamless gray backdrop, color-calibrated for print reproduction”(哈苏中画幅拍摄,影棚闪光灯照明,无缝灰色背景,为印刷复制进行色彩校准)。与其说“逼真的人像”,不如试着说“candid photograph, 85mm f/1.4 lens, window light from camera left, subtle fill from reflector, visible skin texture with pores, shot on Sony A7R IV”(抓拍照片,85mm f/1.4镜头,相机左侧窗光,反光板微妙补光,可见带毛孔的皮肤纹理,索尼A7R IV拍摄)。

前后对比:摄影师思维
❌ BEFORE (模糊):
"A beautiful portrait of an old fisherman, very detailed, high quality, realistic"
(一个老渔夫的美丽肖像,非常详细,高质量,逼真)

✅ AFTER (摄影师思维):
"Candid documentary photograph of an elderly fisherman on a weathered wooden boat.
Weathered face with visible wrinkles, sun spots, and pores. Deep-set kind eyes.
Gray stubble. Faded traditional anchor tattoo on forearm. Salt-stained navy wool
sweater, worn cap.

Early morning coastal light, soft fog diffusing the sun. Medium close-up at eye
level, 50mm lens, f/2.8, shallow depth of field. Shot like 35mm film with subtle
grain, natural color balance.

Documentary style — honest, unretouched, capturing a real moment. No glamorization."
(饱经风霜的木船上的老渔夫的纪实抓拍。饱经风霜的脸,可见皱纹、晒斑和毛孔。深陷的慈祥眼睛。灰色胡茬。前臂上褪色的传统锚纹身。盐渍的海军蓝羊毛衫,磨损的帽子。
清晨的海岸光线,柔和的雾气漫射着阳光。视线水平的中特写,50mm镜头,f/2.8,浅景深。像35mm胶片一样拍摄,有微妙的颗粒感,自然色彩平衡。
纪实风格 —— 诚实,未修饰,捕捉真实瞬间。没有美化。)

摄影师思维将模糊的愿望转化为模型能够深度解码的精确视觉规格。

📸

当你使用摄影语言描述图像时,你不仅更具体 —— 你还在说一种模型被训练来理解的语言。相机规格、布光设置和胶片类型不是随意的关键词;它们编码了模型可以准确解码的精确视觉信息。

文生图精通

从纯文本描述创建图像是大多数人开始AI图像之旅的地方。这也是业余爱好者和专业结果之间差距最明显的地方。让我带你了解在不同用例中始终产生出色结果的技巧。

感觉自然的逼真图像

照片级真实感的关键是反直觉的:你需要提示瑕疵。完美的皮肤、完美的光线、完美的构图 —— 这些都在尖叫“AI生成的”。现实更混乱,而这种混乱正是让图像感觉真实的原因。

照片级真实人像
Create a photorealistic candid photograph of an elderly sailor standing on a small fishing boat.
(创建一张老水手站在小渔船上的照片级真实抓拍。)

Subject: Weathered face with visible wrinkles, sun spots, and pores. Deep-set kind
eyes with crow's feet. Gray stubble, a few days unshaven. Faded traditional anchor
tattoo on forearm. Salt-stained navy wool sweater, worn and pilled. Creased cap
with faded insignia.
(主体:饱经风霜的脸,可见皱纹、晒斑和毛孔。深陷的慈祥眼睛,有鱼尾纹。灰色胡茬,几天没刮。前臂上褪色的传统锚纹身。盐渍的海军蓝羊毛衫,磨损起球。折痕帽子,褪色徽章。)

Setting: Early morning on the water, soft coastal fog diffusing the light. Aged
wooden boat deck with peeling paint, fishing nets in background, coiled rope.
(环境:清晨的水面,柔和的海岸雾气漫射着光线。陈旧的木船甲板,油漆剥落,背景中有渔网,盘绕的绳索。)

Technical: Shot like 35mm film photography, medium close-up at eye level, 50mm
lens, shallow depth of field with boat blurred behind him. Subtle film grain,
natural color balance without heavy grading.
(技术:像35mm胶片摄影一样拍摄,视线水平的中特写,50mm镜头,浅景深,身后船只模糊。微妙的胶片颗粒,自然色彩平衡,无重度调色。)

The image should feel like a real moment captured by a photojournalist — honest,
unposed, with real skin texture, worn materials, and everyday imperfection. No
glamorization, no heavy retouching, no artificial perfection.
(图像应该感觉像是摄影记者捕捉到的真实瞬间 —— 诚实、未摆拍,有真实的皮肤纹理、磨损的材料和日常的瑕疵。没有美化,没有重度修饰,没有人工完美。)

注意我们要如何明确要求瑕疵 —— 饱经风霜的皮肤、磨损的材料、剥落的油漆。现实是有纹理的。

信息图表和数据可视化

GPT Image 1.5改进的文本渲染使信息图表成为真正实用的用例。我现在创建专业质量的信息图表,并实际用于我的工作中。

信息图生成
Create a detailed infographic explaining how a coffee machine works.
(创建一个详细的信息图,解释咖啡机是如何工作的。)

Structure (结构):
- Title at top: "The Journey of Your Morning Coffee" (顶部标题:"你晨间咖啡的旅程")
- Vertical flow diagram showing: bean hopper → grinder → portafilter →
  grouphead → water heating → extraction → cup
  (垂直流程图显示:豆仓 → 研磨机 → 手柄 → 冲煮头 → 水加热 → 萃取 → 杯子)
- Each step has an icon and 1-2 sentence explanation (每一步都有一个图标和1-2句话的解释)
- Warm color palette (browns, creams, copper accents) (暖色调:棕色、奶油色、铜色点缀)
- Clean, modern design with plenty of white space (干净、现代的设计,大量留白)
- Subtle coffee stain texture in background corners (背景角落有微妙的咖啡渍纹理)

Style (风格): Professional print-quality infographic, vector-style icons, clear
hierarchy, readable at A4 size. (专业印刷质量信息图,矢量风格图标,清晰层级,A4尺寸可读。)

Typography (排版): Clean sans-serif headings, readable body text, clear visual
hierarchy between title, section headers, and explanatory text. (干净的无衬线标题,可读的正文,标题、章节头和解释性文本之间有清晰的视觉层级。)

No watermarks. No stock photo elements. Original illustration only. (无水印。无图库照片元素。仅原创插图。)

对于密集的文本和复杂的布局,始终使用 quality="high" 以确保文本保持清晰可读。

Logo和品牌设计

Logo生成需要优先考虑简洁性和可扩展性。一个好的Logo在任何尺寸下都有效,从微小的网站图标到巨大的广告牌。这是如何提示实际上能作为Logo使用的设计。

Logo 设计
Create an original logo for "Field & Flour" — a local artisan bakery.
(为"Field & Flour" —— 一家当地手工面包店创建一个原创Logo。)

Brand personality: Warm, authentic, handcrafted, timeless. Not trendy or corporate.
(品牌个性:温暖、真实、手工制作、永恒。不追逐潮流或企业化。)

Design requirements (设计要求):
- Clean vector-style shapes with strong silhouette (干净的矢量风格形状,轮廓强)
- Balanced negative space (平衡的负空间)
- Must read clearly from 16px favicon to large signage (从16px网站图标到大型标牌都必须清晰可读)
- Flat design, minimal strokes, no gradients unless essential (扁平化设计,极简线条,除非必要否则无渐变)
- Earth-tone palette: warm wheat gold, deep brown, cream (大地色调:暖麦金、深棕、奶油色)
- Could incorporate subtle wheat or grain element (可以融入微妙的小麦或谷物元素)
- Text must be perfectly legible and properly kerned (文本必须完全清晰且字距适当)

Output: Single centered logo on plain cream background. Generous padding around
the design for flexibility. (输出:纯奶油色背景上的单个居中Logo。设计周围有宽敞的留白以增加灵活性。)

No watermarks, no mockups, no 3D effects, no complex imagery. Simple, functional,
timeless design. (无水印,无样机,无3D效果,无复杂图像。简单、实用、永恒的设计。)

使用 n=4 生成多个变体。Logo设计是主观的 —— 给自己多种选择。

UI和App模型

对于UI设计,描述界面就像它已经存在并正发货给真实用户一样。概念艺术语言产生概念艺术。产品语言产生可用的模型。

移动App UI模型
Create a realistic mobile app UI mockup for a local farmers market app.
(为一个当地农贸市场App创建一个逼真的移动App UI模型。)

Screen content (from top) (屏幕内容(从上到下)):
- Simple header with market name "Riverside Market" and search icon (简单的头部,带有市场名称"Riverside Market"和搜索图标)
- Today's featured vendor carousel with square photos (今日精选商家轮播,带方形照片)
- "Fresh Today" section with produce category chips (Vegetables, Fruits, Dairy, Baked) ("今日新鲜"部分,带农产品类别标签(蔬菜、水果、乳制品、烘焙))
- Vendor list with small photos, names, specialties, and distance (商家列表,带小照片、名称、特色和距离)
- Bottom navigation: Home, Map, Favorites, Cart, Profile (底部导航:首页、地图、收藏、购物车、个人资料)

Design language (设计语言):
- White background, subtle natural green accents (白色背景,微妙的自然绿色点缀)
- Clear typography hierarchy (system fonts feel) (清晰的排版层级(系统字体感觉))
- Generous padding and touch-friendly targets (宽敞的填充和触摸友好的目标)
- Looks like a real shipped product, not a concept (看起来像真正的已发布产品,而不是概念)
- Uses realistic vendor names and produce photos (使用真实的商家名称和农产品照片)

Frame: Place the UI inside an iPhone 15 Pro device frame, slight perspective
tilt, subtle shadow beneath. (框架:将UI放置在iPhone 15 Pro设备框架内,轻微透视倾斜,下方有微妙阴影。)

专注于布局、层级、间距和逼真的界面元素。避免概念性或艺术性的语言。

连环画和顺序艺术

创作多格漫画需要将叙事定义为一系列清晰的视觉节拍,每一格一个。保持描述具体且以动作为中心。

连环画
Create a 4-panel vertical comic strip. Equal panel sizes, clear panel borders.
(创建一个4格垂直连环画。格子大小相等,清晰的边框。)

Panel 1: Pet owner walks out the front door, keys in hand. Through the window
behind them, we see their cat watching — paws pressed against glass, eyes wide
with apparent sadness. The house suddenly feels empty.
(第一格:宠物主人走出前门,手里拿着钥匙。透过身后的窗户,我们看到他们的猫在看 —— 爪子按在玻璃上,眼睛睁得大大的,明显很悲伤。房子突然感觉空荡荡的。)

Panel 2: The door clicks shut. The cat slowly turns away from the window toward
the empty house. Its posture shifts from forlorn to interested. Eyes narrow with
possibility.
(第二格:门关上了。猫慢慢从窗户转向空荡荡的房子。它的姿态从凄凉转变为感兴趣。眼睛眯起来,充满了可能性。)

Panel 3: Total chaos. Cat sprawled across the forbidden couch like royalty.
Knocked over plant on the floor. Papers scattered. Sunbeam spotlighting the
scene of domestic crime.
(第三格:完全混乱。猫像皇室一样躺在禁止入内的沙发上。地板上是被打翻的植物。纸张散落。阳光照亮了家庭犯罪现场。)

Panel 4: Door handle turns. Cat sits perfectly upright by the entrance,
composed and innocent, tail wrapped neatly around paws. Not a hair out of
place. As if nothing happened.
(第四格:门把手转动。猫在入口处坐得笔直,镇定而无辜,尾巴整齐地缠绕在爪子上。一丝不乱。仿佛什么都没发生过。)

Style: Warm illustrated style with expressive characters, clear visual
storytelling that reads without text. Consistent character design across
all panels.
(风格:温暖的插图风格,富有表现力的角色,清晰的视觉叙事,无需文字即可阅读。所有格子中角色设计一致。)

No speech bubbles or text. Let the visuals tell the story. (无气泡或文字。让视觉讲述故事。)

将每一格定义为具有清晰动作的独特视觉节拍。模型处理格子布局和视觉连续性。

儿童读物插图

儿童读物插图需要一种特定的方法:令人难忘的角色设计、温暖易懂的风格,以及与文字覆盖相协调的构图。

儿童读物角色
Create a children's book illustration introducing the main character.
(创建一个介绍主角的儿童读物插图。)

Character: Young forest hero, around 8 years old. (角色:年轻的森林英雄,约8岁。)
- Green hooded tunic (think woodland adventurer, not Robin Hood) (绿色连帽长袍(想想林地冒险家,不是罗宾汉))
- Soft brown boots, well-worn (柔软的棕色靴子,磨损良好)
- Small belt pouch for collecting treasures (用于收集宝藏的小腰包)
- Carries a tiny wooden bow (symbolic, for helping not hurting) (背着一把小木弓(象征性的,用于帮助而非伤害))
- Kind expression, bright curious eyes, brave but gentle demeanor (善良的表情,明亮好奇的眼睛,勇敢但温和的举止)
- Slightly oversized head for picture book proportions (略大的头,符合图画书比例)

Theme: This character protects and rescues small forest animals in trouble.
(主题:这个角色保护和拯救陷入困境的小森林动物。)

Style: Hand-painted watercolor look with soft outlines, warm earthy palette
with forest greens and autumn oranges. Whimsical, friendly, inviting for
young readers ages 4-8.
(风格:手绘水彩外观,柔和轮廓,温暖的大地色调,森林绿和秋季橙。异想天开,友好,吸引4-8岁的年轻读者。)

Composition: Character standing in simple forest glade, dappled sunlight,
leaving room for title text above. Character clearly showcased.
(构图:角色站在简单的林间空地上,斑驳的阳光,上方留有标题文字空间。角色清晰展示。)

Original character design only. No text. No watermarks. No copyrighted
character references. (仅原创角色设计。无文字。无水印。无版权角色参考。)

保存此角色参考图像 —— 你将使用它在后续插图中保持一致性。

利用世界知识

GPT Image 1.5最被低估的能力之一是其内置的世界知识。模型可以从微妙的线索中推断出背景,在没有明确指示的情况下生成符合历史和文化的图像。

世界知识示例
Create a realistic outdoor crowd scene in Bethel, New York on August 16, 1969.
(创建一个1969年8月16日纽约伯特利的逼真户外人群场景。)

Photorealistic, period-accurate clothing, staging, and environment.
(照片级真实,符合时代的服装、布景和环境。)

Documentary photography style, shot on film, natural lighting.
(纪实摄影风格,胶片拍摄,自然光。)

模型知道这是伍德斯托克音乐节,而无需被告知。它仅根据日期和地点就能生成嬉皮士、那个时代的时尚、节日气氛。

这种世界知识延伸到各个时代的建筑、几十年的时尚、文化活动、地理地标、艺术运动,甚至特定的摄影美学。当准确性很重要时,提供时间和地点通常比长篇大论地描述你期望看到的东西能产生更好的结果。

精准编辑的艺术

文生图生成令人印象深刻,但图像编辑才是GPT Image 1.5真正闪耀的地方。能够精确修改现有图像,同时保留其他一切,开启了以前没有专家级Photoshop技能是不可能的专业工作流。

编辑的黄金法则

每一个成功的编辑都遵循相同的模式:明确说明什么改变,明确说明什么保持不变。这听起来显而易见,但所需的特异性水平比大多数人意识到的要高。

始终将编辑提示构建为:“Change ONLY [X]. Preserve EXACTLY: [comprehensive list of everything else].” (仅更改[X]。完全保留:[其他所有内容的综合列表]。)然后在每次后续编辑中重复此保留列表,以防止逐渐偏离原始图像。

虚拟服装试穿

电子商务正被AI试穿功能改变。这是我用于完美保持身份的服装更换的提示词结构。

虚拟试穿
Edit the image to dress this person in the provided clothing items.
(编辑图像,让此人穿上提供的服装项目。)

MUST PRESERVE (do not change in any way) (必须保留(不要以任何方式更改)):
- Face, facial features, expression, skin tone (脸、面部特征、表情、肤色)
- Body shape, proportions, and pose (体型、比例和姿势)
- Hairstyle and hair color (发型和发色)
- Background and environment (背景和环境)
- Camera angle, framing, and composition (相机角度、取景和构图)
- Overall lighting direction and quality (整体光照方向和质量)

CHANGE ONLY (仅更改):
- Replace current clothing with provided garment images (用提供的服装图像替换当前服装)
- Fit garments naturally to body geometry (使服装自然贴合身体几何形状)
- Show realistic fabric draping, folds, and behavior (显示逼真的织物垂坠、褶皱和表现)
- Match lighting and shadows on fabric to original photo (使织物上的光照和阴影与原始照片匹配)

REQUIREMENTS (要求):
- Photorealistic integration — outfit should look worn, not pasted (照片级真实融合 —— 服装应该看起来是穿在身上的,而不是粘贴上去的)
- Maintain color temperature of original image (保持原始图像的色温)
- No accessories, text, logos, or watermarks added (不添加配饰、文字、Logo或水印)
- Identity must remain clearly recognizable (身份必须保持清晰可辨)

对于虚拟试穿,始终使用 input_fidelity="high" 以确保面部相似度得到保持。

风格迁移

风格迁移提取一张图像的视觉语言 —— 它的调色板、纹理、笔触、审美 —— 并将其应用于新内容。这对于保持品牌一致性或创建连贯的系列非常宝贵。

风格迁移
Using the EXACT visual style of the reference image (Image 1), create:
(使用参考图像(图像1)的完全相同的视觉风格,创建:)
A man riding a motorcycle on a winding mountain road.
(一个男人在蜿蜒的山路上骑摩托车。)

STYLE ELEMENTS TO MATCH PRECISELY from reference (从参考中精确匹配的风格元素):
- Color palette and saturation levels (调色板和饱和度水平)
- Line quality and weight (线条质量和粗细)
- Texture treatment and brushwork (纹理处理和笔触)
- Lighting style and direction (光照风格和方向)
- Level of detail vs. abstraction (细节与抽象的程度)
- Overall artistic aesthetic (整体艺术审美)

APPLY TO NEW CONTENT (应用到新内容):
- Single subject (man on motorcycle) (单一主体(骑摩托车的人))
- Clear composition with visual interest (清晰的构图,具有视觉趣味)
- Mountain road environment with curves (带有弯道的山路环境)
- Sense of motion and freedom (运动感和自由感)

The new image should look like it came from the same artist or series as
the reference. Maintain stylistic consistency exactly.
(新图像应该看起来像与参考图像出自同一位艺术家或系列。精确保持风格一致性。)

当你具体说明要保留哪些风格元素以及要更改哪些内容元素时,风格迁移效果最好。

物体替换

在保持照片级真实感的同时交换物体现在已经变得实用。秘诀不仅在于描述要添加什么,还在于描述它应该如何与现有场景融合。

物体替换
In this room photo, replace ONLY the white plastic chairs with
mid-century modern wooden chairs (walnut finish, tapered legs,
woven seat).
(在这个房间照片中,仅将白色塑料椅子替换为世纪中期现代风格的木椅(胡桃木饰面,锥形腿,编织座椅)。)

PRESERVE COMPLETELY (完全保留):
- Camera angle and perspective (相机角度和透视)
- Room lighting direction and quality (房间光照方向和质量)
- All other furniture and objects (所有其他家具和物体)
- Wall colors and decorations (墙壁颜色和装饰)
- Floor material and shadows (地板材质和阴影)
- Overall image quality and color grading (整体图像质量和调色)

INTEGRATION REQUIREMENTS (融合要求):
- Chairs must match room's perspective exactly (椅子必须精确匹配房间的透视)
- Wood grain should catch existing light realistically (木纹应逼真地捕捉现有光线)
- Contact shadows must be natural and match light source (接触阴影必须自然并与光源匹配)
- Scale must be accurate relative to table height (比例必须相对于桌子高度准确)
- New chairs should look like they belong in this room (新椅子应该看起来属于这个房间)

Photorealistic result — should look like the original photograph.
(照片级真实结果 —— 应该看起来像原始照片。)

室内设计可视化是最具商业价值的编辑应用之一。

草图转照片级真实渲染

将粗略草图转化为精美的渲染图对于产品设计、建筑和概念开发非常有用。提示词需要将草图视为要遵循的规范。

草图转渲染
Transform this hand-drawn sketch into a photorealistic image.
(将这张手绘草图转化为照片级真实的图像。)

PRESERVE FROM SKETCH (从草图中保留):
- Exact layout and proportions (精确的布局和比例)
- Perspective and viewing angle (透视和视角)
- Element placement and relationships (元素放置和关系)
- Implied depth and layering (暗示的深度和层次)

ADD FOR REALISM (为真实感添加):
- Appropriate real-world materials and textures (适当的现实世界材料和纹理)
- Consistent natural lighting (interpret from sketch shading) (一致的自然光照(从草图阴影解读))
- Environmental context matching the implied setting (匹配暗示环境的环境背景)
- Surface imperfections and wear appropriate to materials (适合材料的表面瑕疵和磨损)

CONSTRAINTS (约束):
- Do not add new elements not present in sketch (不要添加草图中不存在的新元素)
- Do not add text or watermarks (不要添加文字或水印)
- Treat the sketch as an architectural blueprint to follow exactly (将草图视为要精确遵循的建筑蓝图)
- Fill in realistic details while honoring the original composition (在尊重原始构图的同时填充逼真的细节)

模型解读草图的意图并填充逼真的细节,同时保持原始构图。

光照和天气转换

在保留场景几何结构的同时改变环境条件是我最喜欢的编辑应用之一。非常适合创建季节性变体、一天中的不同时间替代方案或情绪调整。

天气转换
Transform this daytime summer scene into a winter evening with snowfall.
(将这个白天的夏季场景转换为下雪的冬夜。)

CHANGE (更改):
- Time of day: from afternoon to dusk (warm interior lights visible) (时间:从下午到黄昏(可见温暖的室内灯光))
- Season: summer to deep winter (季节:夏季到深冬)
- Weather: clear to active snowfall (天气:晴朗到下雪)
- Ground: grass to fresh snow coverage (地面:草地到新雪覆盖)
- Trees: summer foliage to bare branches with snow (树木:夏季树叶到带雪的枯枝)
- Atmosphere: add visible breath if people present (氛围:如果有人,添加可见的呼吸)
- Surfaces: add frost on windows and metal (表面:在窗户和金属上添加霜)

PRESERVE (保留):
- Camera position and angle exactly (相机位置和角度完全不变)
- All objects and their exact positions (所有物体及其确切位置)
- Architecture and structural elements (建筑和结构元素)
- People and their poses (update clothing appropriately) (人和他们的姿势(适当更新服装))
- Overall composition and framing (整体构图和取景)

Style: Photorealistic, natural atmospheric perspective, visible
snowflakes in air, cozy contrast between warm interior lights and
cold exterior. Should feel photographed, not filtered.
(风格:照片级真实,自然大气透视,空气中可见雪花,温暖室内灯光与寒冷室外之间的舒适对比。应该感觉是拍摄的,而不是滤镜处理的。)

在环境转换中使用 input_fidelity="high" 和 quality="high" 以获得最佳结果。

多图合成

结合来自多个源图像的元素需要关于什么来自哪里以及元素应如何无缝融合的清晰指令。

多图合成
I'm providing 2 images:
(我提供2张图片:)
- Image 1: Beach scene with woman standing on shore at sunset (图片1:日落时分女人站在岸边的海滩场景)
- Image 2: Golden retriever sitting in a studio setting (图片2:坐在摄影棚环境中的金毛寻回犬)

Task: Place the dog from Image 2 into the beach scene from Image 1,
positioned next to the woman, looking up at her.
(任务:将图片2中的狗放入图片1的海滩场景中,位于女人旁边,抬头看着她。)

MATCHING REQUIREMENTS (匹配要求):
- Dog's lighting must match beach sunset (warm golden light from left) (狗的光照必须匹配海滩日落(来自左侧的温暖金光))
- Scale dog appropriately relative to woman's height (相对于女人的身高适当缩放狗)
- Dog should cast shadow consistent with scene's sun angle (狗应该投射与场景太阳角度一致的阴影)
- Sand texture should show around and under dog's paws (狗爪周围和下方应显示沙子纹理)
- Fur should catch the same golden hour highlights as scene (毛发应捕捉与场景相同的黄金时刻高光)

PRESERVE FROM IMAGE 1 (从图片1保留):
- Woman's exact appearance, position, and pose (女人的确切外貌、位置和姿势)
- Beach background completely unchanged (海滩背景完全不变)
- Original photo's color grading and mood (原始照片的调色和情绪)

The composite should look like a single photograph taken on location.
No visible compositing artifacts.
(合成图应该看起来像是在现场拍摄的单张照片。没有可见的合成伪影。)

按编号引用图片,并明确哪些元素转移,哪些保持固定。

图像中的文本翻译

使用GPT Image 1.5的文本能力,为国际市场本地化视觉内容变得大大简化。

图像翻译
Translate all text in this infographic from English to Japanese.
(将此信息图中的所有文本从英语翻译成日语。)

MUST PRESERVE (必须保留):
- Exact layout, spacing, and positioning of all elements (所有元素的精确布局、间距和位置)
- All visual elements, icons, illustrations, and graphics (所有视觉元素、图标、插图和图形)
- Typography hierarchy (headlines vs body text relationships) (排版层级(标题与正文关系))
- Color scheme and overall design aesthetic (配色方案和整体设计审美)
- Font weights and relative sizes (字体粗细和相对大小)

TRANSLATION REQUIREMENTS (翻译要求):
- Accurate Japanese translation with natural phrasing (准确的日语翻译,措辞自然)
- Match visual weight and style to original fonts (匹配原始字体的视觉权重和风格)
- Adjust character spacing for Japanese typographic norms (针对日语排版规范调整字符间距)
- No text truncation or overflow outside original bounds (无文本截断或溢出原始边界)

Do not modify any non-text elements. Only change the language.
(不要修改任何非文本元素。只改变语言。)

此工作流无需从头重建即可处理营销材料、UI截图、包装和信息图表。

专业人士的高级技巧

一旦你掌握了基础知识,这些高级技巧将把你的作品提升到真正的专业水平。这些是我通过广泛实验开发的模式 —— 始终能产生卓越结果的技巧。

跨图像的角色一致性

AI图像生成中最大的挑战之一是保持多个图像中角色的一致性。对于儿童读物、品牌吉祥物或任何需要在不同场景中出现相同角色的项目,这是我经过验证的工作流。

1
创建角色锚点

生成一个详细的参考图像,确立角色的最终外观。包括所有关键细节:服装、比例、表情、调色板。保存这张图片 —— 它成为你的真理之源。

2
记录角色圣经

写一段详细的角色文本描述,你将在所有未来的提示词中引用它。具体到每一个视觉元素。这个文本锚点补充了视觉锚点。

3
使用图生图进行变体

在创建新场景时,始终包含锚点图像作为输入,并明确指示“maintain exact character appearance from reference image”(保持与参考图像完全相同的角色外观)。

4
在会话内迭代

模型在对话会话中保持上下文。在成功的图像基础上构建,而不是为每个场景重新开始。直接引用之前的生成。

角色延续
Continue the children's book story using the character from the reference image.
(使用参考图像中的角色继续儿童读物故事。)

New Scene (新场景):
The same young forest hero is gently helping a frightened squirrel out
of a fallen hollow tree after a winter storm. Snow on the ground, bare
branches above, warm light filtering through clouds.
(同一个年轻的森林英雄在一场冬季风暴后,正温柔地帮助一只受惊的松鼠从倒下的空心树中出来。地面上有雪,头顶是光秃秃的树枝,温暖的光线透过云层过滤下来。)

CHARACTER CONSISTENCY (from reference) (角色一致性(来自参考)):
- Same green hooded tunic, exact shade and style (同样的绿色连帽长袍,确切的色调和款式)
- Same soft brown boots (同样的柔软棕色靴子)
- Same belt pouch (同样的腰包)
- Same facial features, proportions, and color palette (同样的面部特征、比例和调色板)
- Same gentle, heroic personality in expression (表情中同样的温和、英雄个性)
- Same children's book proportions (同样的儿童读物比例)

STYLE CONSISTENCY (from reference) (风格一致性(来自参考)):
- Same watercolor illustration style (同样的水彩插图风格)
- Same soft outlines (同样的柔和轮廓)
- Same warm earthy color treatment (同样的温暖大地色处理)
- Same whimsical, friendly aesthetic (同样的异想天开、友好审美)

New elements: winter forest environment, frightened squirrel, fallen
tree with hollow. (新元素:冬季森林环境,受惊的松鼠,倒下的空心树。)

Do not redesign the character. Do not change the artistic style.
No text. No watermarks.
(不要重新设计角色。不要改变艺术风格。无文字。无水印。)

引用锚点图像并重复关键角色细节,以在整本书中保持一致性。

3D风格化人像技术

根据参考照片创建超风格化的3D人像已成为我的标志性输出之一。关键是对所需审美的极端特异性。

风格化3D人像
Create a hyper-stylized 3D floating head portrait based on this person.
(根据此人创建一个超风格化的3D浮动头像人像。)

STYLE CHARACTERISTICS (风格特征):
- Smooth skin with glossy vinyl-finish surface (光滑皮肤,带有光泽乙烯基表面)
- Strong highlighter on cheekbones and nose tip catching soft light (颧骨和鼻尖上的强高光捕捉柔和光线)
- Holographic, iridescent eyeshadow (purple to teal color shift) (全息、彩虹色眼影(紫色到青色变色))
- Thick hair sculpted in slick, glossy waves like polished acrylic (像抛光亚克力一样雕刻成光滑、光泽波浪的浓密头发)
- Small metallic chrome nose piercing with brushed reflections (带有拉丝反射的小金属铬鼻钉)

EXPRESSION (表情):
Confident, slightly unimpressed look — half-lidded eyes, subtly
arched brow, the sophisticated "too cool" attitude.
(自信,略带不屑的表情 —— 半垂的眼睑,微妙拱起的眉毛,复杂的“太酷了”的态度。)

TECHNICAL SPECIFICATIONS (技术规格):
- Head floats isolated against plain white background (头像孤立漂浮在纯白背景前)
- Slight 15-degree tilt (premium product render feeling) (轻微15度倾斜(高级产品渲染感))
- Bright, diffuse studio lighting with no harsh shadows (明亮、漫射的摄影棚灯光,无刺眼阴影)
- Emphasis on glossy, plastic, subsurface scattering effects (强调光泽、塑料、次表面散射效果)
- Ultra-smooth textures throughout (整体超平滑纹理)
- Close-up portrait angle, straight-on, 85mm lens feel (特写人像角度,正视,85mm镜头感)

The result should look like a high-end 3D character render or
collectible figure — plastic perfection with personality.
(结果应该看起来像高端3D角色渲染或收藏人偶 —— 具有个性的塑料完美感。)

这种程度的审美细节能在不同主体间产生惊人一致的结果。

Q版角色转换

将照片转换为可爱的Q版风格角色对于品牌吉祥物、社交媒体头像和周边商品效果出奇地好。

Q版转换
Transform this person into an adorable chibi-style character.
(将此人转换为可爱的Q版风格角色。)

CHIBI PROPORTIONS (Q版比例):
- Tiny body (about 1 head-height tall) (微小的身体(约1个头高))
- Oversized head (3x body proportions) (超大的头(3倍身体比例))
- Large, sparkling eyes with cute highlights (大而闪亮的眼睛,带有可爱的反光)
- Soft, rounded facial features (柔和、圆润的面部特征)
- Cheerful, expressive pose with personality (愉快、富有表现力的姿势,具有个性)

PRESERVE FROM ORIGINAL (从原始图像保留):
- Recognizable facial features (simplified but identifiable) (可辨认的面部特征(简化但可识别))
- Hairstyle, length, and hair color (发型、长度和发色)
- Distinctive clothing style or accessories (独特的服装风格或配饰)
- Any notable characteristics (glasses, jewelry, etc.) (任何显著特征(眼镜、珠宝等))
- Overall personality and vibe (整体个性和氛围)

STYLE (风格):
- Smooth pastel shading (平滑的柔和阴影)
- Clean lines and simplified details (干净的线条和简化的细节)
- Bright, expressive colors (明亮、富有表现力的颜色)
- Collectible figure aesthetic (收藏人偶审美)

Background: Simple gradient or plain color to showcase character.
(背景:简单的渐变或纯色以展示角色。)

The result should feel like an irresistible chibi mascot that
clearly represents the original person.
(结果应该感觉像是一个无法抗拒的Q版吉祥物,清楚地代表原始人物。)

Q版转换非常适合个人品牌、团队头像和商品设计。

文字完美的营销创意

创建文本准确的营销材料需要严格的排版控制和明确的文本规范。

广告牌模型
Create a realistic highway billboard mockup featuring this product.
(创建一个以该产品为特色的逼真高速公路广告牌模型。)

BILLBOARD CONTENT (广告牌内容):
- Product bottle prominently displayed on left third (产品瓶子醒目地展示在左三分之一处)
- Main headline on right (EXACT TEXT, render verbatim): (右侧主标题(确切文本,逐字渲染):)
  "Fresh & Clean — Every Day"
- Tagline below headline: "Nature's Best Ingredients" (标题下方的标语:"Nature's Best Ingredients")
- Small logo placeholder area in bottom right corner (右下角的小Logo占位区域)

TYPOGRAPHY SPECIFICATIONS (排版规格):
- Headline: Bold sans-serif, white text, high contrast (标题:粗体无衬线,白色文本,高对比度)
- Tagline: Light sans-serif, slightly smaller, same white (标语:细无衬线,稍小,同样的白色)
- Clean kerning, centered alignment within text area (干净的字距,文本区域内居中对齐)
- Text appears EXACTLY ONCE — no duplicates anywhere (文本只出现一次 —— 任何地方都没有重复)

SCENE (场景):
- Billboard on highway overpass or roadside structure (高速公路立交桥或路边结构上的广告牌)
- Sunset lighting creating warm, appealing atmosphere (日落光线营造温暖、吸引人的氛围)
- Photorealistic environment with motion-blurred vehicles below (照片级真实环境,下方有动态模糊的车辆)
- Professional advertising photography feel (专业广告摄影感)

No watermarks. No additional marketing copy. No logos unless
specified. Text must be perfectly legible and correctly spelled.
(无水印。无额外营销文案。除非指定,否则无Logo。文本必须完全清晰且拼写正确。)

对于包含文本的营销材料,始终使用 quality="high"。在最终使用前验证拼写。

产品摄影提取

创建带有孤立主体的干净产品照对于电子商务至关重要。这是有效的提示词。

产品提取
Extract the product from this image for e-commerce use.
(从这张图像中提取产品用于电子商务。)

OUTPUT SPECIFICATIONS (输出规格):
- Transparent background (RGBA PNG format) (透明背景(RGBA PNG格式))
- Crisp silhouette with clean edges (清晰的轮廓,边缘干净)
- No halos or color fringing around product (产品周围无光晕或彩色条纹)
- All product labels and text perfectly preserved (所有产品标签和文本完美保留)
- Exact product geometry and proportions maintained (精确保持产品几何形状和比例)

OPTIONAL ENHANCEMENT (可选增强):
- Add subtle, realistic contact shadow (添加微妙、逼真的接触阴影)
- Shadow should be soft and natural, no hard edges (阴影应柔和自然,无硬边)
- Shadow works with the transparent background (阴影适用于透明背景)

CRITICAL CONSTRAINTS (关键约束):
- Do NOT restyle or recolor the product (不要重新设计或重新着色产品)
- Do NOT modify product appearance in any way (不要以任何方式修改产品外观)
- Only remove background and add optional shadow (仅移除背景并添加可选阴影)
- Preserve every detail of the original product exactly (精确保留原始产品的每一个细节)

注意:当前模型渲染棋盘格图案来表示透明度 —— 可能需要后期处理才能获得真正的Alpha通道。

已知限制

背景移除目前会渲染视觉棋盘格图案来指示透明度,而不是在输出文件中产生真正的RGBA透明度。对于生产使用,你可能需要使用图像编辑软件进行后期处理,将棋盘格转换为实际的透明度。

迭代优化循环

不要试图在一个提示词中实现完美。专业结果来自系统迭代。

优化过程

  • 生成: 创建包含核心元素和整体构图的初始图像
  • 评估: 确定首先要解决的1-2个最重要的问题
  • 完善: 仅修复那些特定问题,明确保留其他一切
  • 锁定: 在尝试下一次迭代之前保存当前状态
  • 重复: 继续直到满意,增量构建

每一个小的、专注的改变都会汇聚成精确的最终结果,而且比试图一次性完成所有事情的挫败感要少得多。

现实世界的专业工作流

理论很有价值,但看到技巧如何组合成完整的工作流才是理解结晶的地方。以下是我在专业实践中最常使用的工作流。

电子商务产品摄影流程

完整产品视觉系统

  1. 产品提取: 从原始产品照片中移除背景,创建干净的孤立镜头
  2. 生活方式背景: 生成环境场景(厨房、办公室、户外)并将产品合成其中
  3. 颜色变体: 通过有针对性的编辑创建产品颜色变体,无需重新拍摄
  4. 营销创意: 生成带有产品集成的广告牌模型、社交媒体图形、横幅广告
  5. 本地化: 翻译营销材料中的文本以适应不同市场,同时保留设计

以前需要摄影棚时间、Photoshop专业知识和多名专家的完整产品摄影流程,现在通过一系列AI提示词即可运行。

内容创作者视觉库

建立一致的品牌资产

  1. 角色开发: 创建带有详细锚点图像的品牌吉祥物或个人头像
  2. 风格指南生成: 制作调色板参考、情绪板和审美示例
  3. 缩略图工厂: 使用已建立的角色和风格生成一致的YouTube/社交媒体缩略图
  4. 背景库: 为各种内容类型创建符合品牌审美的场景背景
  5. 变体扩展: 使用风格迁移在所有新内容中保持视觉一致性

一次性建立你的视觉基础,然后高效迭代。创造出以前需要专门设计团队才能做到的品牌一致性。

快速设计原型

从概念到视觉仅需几分钟

  1. 粗略草图: 手绘基本概念(餐巾纸质量即可 —— 粗略形状和布局)
  2. 初步渲染: 将草图转换为照片级真实或风格化的图像,保留你的构图
  3. 迭代周期: 通过有针对性的编辑进行完善(“更暖的光线”、“不同的材料”、“更多对比度”)
  4. 变体探索: 为客户演示或决策生成多个变体 (n=4)
  5. 最终打磨: 导出选定方向的高质量版本,完善细节

设计师报告称,与传统数字创作流程相比,概念迭代速度显著加快。

儿童读物插图流程

创作一致的插图书

  1. 角色设计: 创建详细的角色参考表,确立最终外观
  2. 风格确立: 生成2-3个样本页面以锁定插图风格,挑选最好的
  3. 逐场景生成: 逐页处理故事,始终引用角色和风格锚点
  4. 一致性审查: 一起查看所有页面,使用编辑修复任何角色漂移或风格不一致
  5. 最终完善: 在保持已建立外观的同时根据需要打磨个别页面

锚点图像方法使整本书中一致的角色插图真正可以实现。

扼杀结果的常见错误

在看着我自己和无数其他人与AI图像生成作斗争后,我发现了区分成功与挫折的模式。以下是我曾经犯过的错误 —— 以及我是如何修正它们的。

❌ 关键词堆砌

错误: 在每个提示词中都添加“highly detailed, 8K, photorealistic, trending on ArtStation, masterpiece”(高度细节,8K,照片级真实,ArtStation趋势,杰作)。

修正: 描述具体的视觉属性。“Visible skin pores, morning window light, 50mm lens depth of field”(可见皮肤毛孔,晨间窗光,50mm镜头景深)比通用质量关键词传达的信息多得多。

❌ 巨型提示词

错误: 试图在一个巨大的提示词中指定每一个可能的细节,希望模型能以某种方式弄明白我的完整愿景。

修正: 从简单开始。先得到一个坚实的基础图像,然后用有针对性的后续提示进行完善。增量构建产生更好的结果。

❌ 模糊的编辑指令

错误: 说“make it better”(让它更好)或“fix the lighting”(修复光线),而不具体说明“更好”意味着什么或光线应该如何改变。

修正: 对更改要具体。“Shift lighting from harsh overhead to soft window light from the left, with warmer color temperature.”(将光线从刺眼的顶光转变为来自左侧的柔和窗光,色温更暖。)

❌ 忘记保留列表

错误: 请求更改而不明确说明什么应保持不变,然后惊讶于其他元素发生漂移。

修正: 每个编辑提示都包含明确的保留要求。在每次迭代中重复它们,因为模型不记得以前的约束。

❌ 上下文健忘症

错误: 为相关图像开始新的对话,丢失了建立起来的所有上下文和一致性。

修正: 为相关工作在会话内构建。直接引用之前的生成。使用像“same style as the previous image”(与上一张图片相同的风格)这样的短语来利用上下文。

❌ 错误的质量设置

错误: 总是使用高质量(对于迭代来说既慢又贵)或总是使用低质量(在关键时刻丢失关键细节)。

修正: 将设置与任务匹配。低质量用于探索和迭代;高质量用于最终输出和任何带有文本的内容。

❌ 与模型对抗

错误: 重复运行完全相同的提示词,期望得到不同的结果,或者强迫模型向它一贯抵制的方向发展。

修正: 如果提示词不起作用,改写而不是重复。不同的词激活模型中的不同模式。有时你的方法需要改变,而不仅仅是模型的输出。

❌ 忽视随机性

错误: 期望从相同的提示词中得到相同的结果,当输出变化时感到沮丧。

修正: 生成多个变体 (n=4) 并挑选最好的。将变异性视为创意的来源,而不是要克服的缺陷。

🎯

大多数人可以做出的单一最具影响力的改变:停止把提示词当作愿望,开始把它们当作规范。像给人类合作者写设计简报一样精确。模型非常能干 —— 但它需要清晰的指导来展示这种能力。

开发者API集成

如果你正通过编程将GPT Image 1.5集成到应用程序中,这里是你需要的技术细节和最佳实践。

基本API设置

Python 设置
import os
import base64
from openai import OpenAI

client = OpenAI()

# Create output directory (创建输出目录)
os.makedirs("output_images", exist_ok=True)

def save_image(result, filename: str) -> None:
    """Save base64 image response to file."""
    image_base64 = result.data[0].b64_json
    with open(f"output_images/{filename}", "wb") as f:
        f.write(base64.b64decode(image_base64))

# Basic text-to-image generation (基本文生图生成)
result = client.images.generate(
    model="gpt-image-1.5",
    prompt="Your detailed prompt here",
    quality="high",  # or "low" for faster iteration (或"low"用于更快迭代)
    n=1  # number of variations (变体数量)
)

save_image(result, "output.png")

多输入图像编辑

多图编辑
result = client.images.edit(
    model="gpt-image-1.5",
    input_fidelity="high",  # Essential for identity preservation (身份保留至关重要)
    quality="high",
    image=[
        open("input_images/source.png", "rb"),
        open("input_images/style_reference.png", "rb"),
    ],
    prompt="""
    Apply the artistic style from Image 2 to the subject in Image 1.
    (将图片2的艺术风格应用到图片1的主体上。)

    PRESERVE: subject's identity, pose, and composition
    (保留:主体的身份、姿势和构图)
    CHANGE: artistic style, color palette, texture treatment
    (改变:艺术风格、调色板、纹理处理)

    Do not add new elements. Maintain subject likeness exactly.
    (不要添加新元素。精确保持主体相似度。)
    """
)

save_image(result, "styled_output.png")

关键API参数

生成参数

model "gpt-image-1.5" —— 具有最佳功能的最新旗舰模型
prompt 你的文本描述 —— 结构比长度更重要
quality "high"用于细节和文本工作,"low"用于速度和迭代
n 生成的变体数量(通常1-4,探索时更高)

编辑参数

image 文件对象或多图像输入的文件对象列表
input_fidelity "high"用于身份保留,对人像工作至关重要

定价考量

API 成本结构

  • 基于Token的定价: 成本随分辨率和质量设置而变化
  • 1MP 高质量: 每1,000张图片约$133
  • 1MP 低质量: 每1,000张图片约$9
  • 成本节约: 图像输入/输出成本比GPT Image 1低20%

对于大批量应用,始终从低质量开始,仅针对最终输出或文本密集型图像升级。

与其他工具的对比

我花了大量时间使用每一个主流AI图像生成工具。以下是我对ChatGPT图像生成器(GPT Image 1.5)与竞争对手相比的诚实评估。

GPT Image 1.5 vs Gemini 3.0 Pro Image

GPT Image 1.5 胜出: 指令依从性 (90% vs 77%)、文本渲染准确性、精准编辑、API集成质量

Gemini 3.0 Pro 胜出: 部分基准测试的整体图像质量、创意解读、复杂的多人物场景

我的看法: GPT Image 1.5适合需要精度和一致性的专业工作;Gemini适合你想要更多解读的创意探索

GPT Image 1.5 vs Midjourney

GPT Image 1.5 胜出: 指令遵循、图像编辑能力、API访问、文本渲染、可预测的结果

Midjourney 胜出: 艺术审美和“惊艳系数”、社区和分享功能、绘画风格

我的看法: GPT Image 1.5适合你需要特定结果的专业/商业工作;Midjourney适合艺术探索和概念艺术

GPT Image 1.5 vs DALL-E 3

GPT Image 1.5 胜出: 编辑能力、速度(快4倍)、迭代间的一致性、指令依从性

DALL-E 3 胜出: 没什么显著的 —— GPT Image 1.5是继任者,在各个维度都有改进

我的看法: 如果你还在用DALL-E 3,立即升级。GPT Image 1.5全面超越。

GPT Image 1.5 vs Stable Diffusion

GPT Image 1.5 胜出: 易用性、无需设置、指令遵循、文本渲染、一致的质量

Stable Diffusion 胜出: 完全定制、本地控制、无限免费生成、微调、专用模型

我的看法: GPT Image 1.5适合速度和易用性;Stable Diffusion适合控制、定制和成本敏感的大批量工作

🏆

在基准测试中,GPT Image 1.5在Artificial Analysis Image Arena的文生图和图像编辑类别中均获得了#1的位置。对于需要可靠、可预测结果和精确控制的生产工作,它是目前最好的选择。

真正的答案?最好的工具取决于你的具体需求。我保留了多个工具的访问权限,因为每个工具都在不同的方面表现出色。但如果为了专业工作我只能拥有一个,我会选择GPT Image 1.5,因为它的可靠性、精确度和编辑能力。

高级用户秘籍

这些技巧让我从“还不错”提升到了“专业质量”的结果。每一个都是通过广泛的实验和有时痛苦的失败学到的。

01

新项目从头开始

在新的对话中开始每个新项目。旧项目的上下文可能会渗入新的生成中并导致意外结果。干净的开始,干净的结果。

02

80/20法则

在第一次生成中争取达到80%的正确率。使用编辑来完成最后的20%。试图在一个提示词中实现完美会导致挫折和浪费时间。

03

具体胜过最高级

“Shot on medium format film with natural grain”(中画幅胶片拍摄,自然颗粒)每次都胜过“ultra-high-quality amazing detailed”(超高质量惊人细节)。具体细节引导模型;最高级只会增加噪音。

04

引用你的文本

总是将所需的文本放在“引号”中,并指定它应该出现“exactly once, no duplicates”(完全一次,无重复)。这可以防止困扰文本渲染的重复和拼写错误。

05

以否定结束

以你不想要的东西结束每个提示词:“No watermarks, no text unless specified, no logos, no excessive saturation, no artificial bokeh.”(无水印,除非指定否则无文字,无Logo,无过度饱和,无人工散景。)预防胜于纠正。

06

保存你的赢家

当你得到一个很好的结果时,保存图像和完整的提示词。建立一个你可以为未来项目调整的经证明有效的提示词个人库。

07

改写,不要重复

如果一个提示词不起作用,不要指望运气好而再次运行它。改写它。不同的词激活模型中的不同模式。改变你的方法。

08

文本总是高质量

每当你的图像包含文本 —— 任何文本 —— 使用高质量模式。低质量文本通常难以辨认,使得速度节省变得毫无价值。

理解随机性 (Stochasticity)

这很关键:AI图像生成本质上是随机的。相同的提示词每次都会产生不同的结果。这不是Bug —— 这是技术的本质。

拥抱变化

与其对抗随机性,不如利用它。生成4个变体并挑选最好的。有时“意想不到”的解读会比你最初想象的更好。我认识的最好的AI艺术家倾向于利用意外之喜,同时保持足够的控制来实现他们的目标。变异性是一个特性,而不是缺陷。

常见问题排查

经过数千次生成,我遇到了能想象到的每一个问题。以下是如何修复让创作者受挫的最常见问题。

问题:文本拼写错误或重复

解决方案

将确切文本放在引号中:"RESTAURANT"而不是restaurant。添加明确指令:"render exactly once, no duplicates"(完全渲染一次,无重复)。对于困难的单词,逐个字母拼写:"R-E-S-T-A-U-R-A-N-T"。对于任何包含文本的图像,始终使用 quality="high"。使用前验证输出。

问题:角色在不同图像中看起来不同

解决方案

首先创建一个详细的角色锚点图像并保存它。将此锚点作为每个后续生成的输入。写一本列出每个视觉细节的角色圣经。明确指示“maintain exact character appearance from reference image”(保持与参考图像完全相同的角色外观)。在API调用中使用 input_fidelity="high"。尽可能在单个会话中工作。

问题:编辑改变了超出要求的内容

解决方案

对保留要更明确。将提示词构建为“Change ONLY: [X]. Preserve EXACTLY: [list everything else in detail].”(仅更改:[X]。完全保留:[详细列出其他所有内容]。)在每个编辑迭代中重复完整的保留列表 —— 模型不记得以前的约束。对重要元素使用 input_fidelity="high"。

问题:图像看起来明显是“AI生成的”

解决方案

添加逼真的瑕疵:“subtle film grain”(微妙胶片颗粒)、“slight lens vignette”(轻微镜头暗角)、“natural skin texture with pores and subtle blemishes”(带有毛孔和微妙瑕疵的自然皮肤纹理)、“dust particles visible in sunbeam”(阳光中可见的尘埃颗粒)、“minor wear on materials”(材料上的轻微磨损)。完美看起来很假。现实是混乱的。描述相机实际捕捉到的东西,而不是理想化的版本。

问题:颜色看起来过饱和或不自然

解决方案

明确指定颜色处理:“natural color grading”(自然调色)、“true-to-life colors”(逼真色彩)、“muted earth tones”(柔和大地色调)、“not oversaturated”(不过饱和)、“color-accurate”(色彩准确)。引用特定胶片类型作为颜色指导:“Kodak Portra color science”(柯达Portra色彩科学)或“documentary color grading”(纪实调色)。添加“realistic color balance, no HDR look”(逼真色彩平衡,无HDR外观)。

问题:背景移除产生光晕或伪影

解决方案

明确请求:“transparent background (RGBA PNG format), crisp silhouette, no halos, no color fringing, clean edges, no artifacts”(透明背景(RGBA PNG格式),清晰轮廓,无光晕,无彩色条纹,干净边缘,无伪影)。注意当前模型渲染棋盘格图案来表示透明度 —— 生产中可能需要后期处理以获得真正的Alpha通道。

问题:构图感觉不平衡或尴尬

解决方案

明确指定构图:“subject positioned using rule of thirds”(主体使用三分法定位)、“centered with symmetrical framing”(居中对称取景)、“generous negative space on left for text overlay”(左侧大量留白用于文字覆盖)、“eye-level camera angle”(平视相机角度)、“subject fills 60% of frame”(主体占据画面的60%)。不要把构图留给运气 —— 准确描述你想要的。

AI图像生成的未来

我们正经历一场革命。两年前还是科幻小说的东西现在成了任何人都可以获取的商品。但我们仍处于这个故事的早期章节。这是我看到的未来。

地平线上有什么

🎬 无缝视频集成

静态图像和视频之间的界限正在迅速模糊。期待在同一界面内从图像生成平滑过渡到动画序列。早期版本已经出现(Sora, Runway),并且正在快速改进。你的图像提示词将只需极少的调整即可变为视频提示词。

🎯 完美的一致性

无需人工努力即可在无限图像中保持角色和风格的一致性。锚点和参考工作流将变为自动。用几个你的角色例子训练模型,它就会永远保持完美的一致性。“漂移”问题将被完全解决。

✏️ 实时协作编辑

交互式编辑,你可以在对话中实时绘画、拖动和操纵元素。想象一下Photoshop,每一笔都会触发AI响应,复杂的编辑通过对话而不是技术工具发生。

🎨 个人风格学习

用少量示例训练模型学习你的审美。你自己的个人AI艺术家,理解你的品味、你的品牌、你的视觉语言 —— 并将其一致地应用到你创作的一切中。

视觉创作的民主化

我们正在目睹的不仅仅是视觉创作的民主化。曾经需要多年训练的技能 —— 产品摄影、平面设计、插图、概念艺术 —— 正在变得任何能描述自己想看什么的人都可以获得。

这并没有消除人类创造力的价值。如果有的话,它提升了它。当执行变得容易时,愿景就是一切。在这个新领域茁壮成长的人不会是那些能画出最逼真手部的人 —— AI现在能处理这个。他们将是那些有值得说的话、值得展示的东西、能打动人心的东西的人。

在从胶片过渡到数码的过程中茁壮成长的摄影师不是那些抵制变革的人。他们是那些在保持艺术愿景的同时拥抱新工具的人。AI图像生成是同一种类型的过渡,只是更具戏剧性和速度更快。

🚀

最好的AI生成图像将永远由既了解技术又了解艺术的人创造。掌握工具,但永远不要忘记工具服务于愿景。技术放大了人类的创造力 —— 它不会取代它。

最后的想法

内容创作者 必备工具

几分钟内完成缩略图、图形和社交内容,而不是几小时

电子商务 游戏规则改变者

前所未有规模的产品摄影、变体和营销

设计师 加速器

以前需要几天的快速概念设计和客户演示

开发者 强大的API

用于构建启用图像的应用程序的强大编程访问

初学者 易于上手

自然语言使入门比传统设计工具更容易

专业人士 生产就绪

足以用于商业工作的质量和一致性

我开始这段旅程时感到沮丧和怀疑。我听说过关于AI图像生成的炒作,但反复撞上营销承诺与实际现实之间的墙。不可能的解剖结构的手指。融化成抽象形状的文字。主动与我的意图作对的构图。我准备把这一切都当作过度炒作的技术而不予理会。

然后我学会了说机器的语言。我停止描述我想看到什么,开始描述摄像机能捕捉到什么。我停止指望运气,开始系统地构建。我停止与模型对抗,开始与它合作。

GPT Image 1.5不仅仅是改进了以前的问题 —— 它从根本上改变了我与视觉创作的关系。我现在从提示词和迭代的角度思考,而不是笔刷和图层。我带着信心处理视觉挑战,相信有一个提示词结构能产生我需要的东西。我今天创作的图像在两年前需要几天才能制作出来。我可以探索的想法只受想象力的限制,而不受技术技能的限制。

学习曲线是真实的。你不会一夜之间掌握它。但本指南中的原则 —— 结构胜于关键词,特异性胜于最高级,迭代胜于完美,摄影师思维 —— 将把数周令人沮丧的实验压缩成专注、高效的学习。

最重要的是,我希望这本指南能给你我在开始时希望拥有的东西:不仅仅是技巧,而是一个思维模型。一种理解这项技术如何解释语言,它响应什么,以及如何流利地讲它的视觉语言。

你脑海中的图像与屏幕上的图像之间的差距从未如此之小。有了正确的方法,这个差距会随着你写的每一个提示词继续缩小。

现在去创造一些美丽的东西吧。

我还记得那个凌晨2点的时刻,当一切都变得清晰 —— 出现的图像不仅仅是可以接受的,而且正是我所设想的。那种感觉现在你也可以拥有。技术已经到来。技巧已经记录在案。剩下的就是你的想象力和你学习新语言的意愿。ChatGPT图像生成器不仅仅是一个工具 —— 它是一个创造性的合作伙伴,以我们才刚刚开始理解的方式放大人类的视觉。欢迎来到视觉创作的未来。你一直在脑海中看到的图像?它们比以往任何时候都更接近现实。

最后更新:2026年1月30日 · 基于广泛实践经验和官方文档的综合指南

讨论

0 条评论

留下评论

成为第一个分享您想法的人!