生图提示词工程 | 从一句话到可控出图

摘要：AI 生图不是“随便写一句话，让模型自由发挥”。真正稳定的图像生成，靠的是提示词工程：明确主体、场景、构图、风格、光线、镜头、材质、颜色、比例、文字和限制条件，再通过参考图、局部编辑和多轮迭代逐步收敛。本文整理 OpenAI、Google、Adobe、Midjourney 等官方资料中的共通方法，给出一套适合中文创作者、设计师和开发者的生图提示词框架，并说明如何在 API 工作流里通过 4sAPI 做模型接入、额度隔离和成本管理。

关键词：生图提示词、大模型API中转站、4sAPI、Prompt Engineering、AI绘图、图像生成、GPT Image、Imagen、Firefly、Midjourney、提示词模板

适合读者：AI 绘图用户、设计师、内容创作者、小红书/公众号运营、独立开发者、AI 应用开发者，以及想把生图能力接入产品或工作流的人。

资料来源：本文参考 OpenAI Prompting Guide、OpenAI Image Generation API、OpenAI GPT Image Generation Models Prompting Guide、Google Gemini Prompt Design Strategies、Adobe Firefly 有效提示词指南、Midjourney Prompt Basics 和 Midjourney Art of Prompting。

1. 开篇：生图失败，很多时候不是模型不行

很多人第一次用 AI 生图，会这样写：

text

帮我生成一张高级感海报。

然后得到一张看起来“差不多但不能用”的图。

问题不一定在模型，而在提示词太空。

“高级感”到底是：

黑金商务风；
日系留白风；
奢侈品广告风；
科技发布会风；
极简杂志封面；
电影海报质感；
还是小红书爆款封面？

模型不会知道你的真实预期。它只能根据输入里的线索去补全。

所以生图提示词工程的核心不是堆形容词，而是把“画面该如何被看见”说清楚。

2. 权威资料里的共识：提示词是迭代过程

OpenAI 的 Prompting 文档强调，提示词既是艺术也是科学，需要实验和调整。Google Gemini 的提示词策略也明确提到，Prompt engineering 是迭代过程，要根据结果不断 refine。

放到生图里，这个原则更明显。

一张图很少一次就完美。更常见的流程是：

text

先生成方向
  -> 看构图和风格
  -> 固定好的部分
  -> 修改不对的细节
  -> 换比例或局部编辑
  -> 输出最终图

所以不要把生图理解成：

text

输入一句话 -> 得到成品

更合理的理解是：

text

写创意 brief -> 让模型出初稿 -> 像设计总监一样逐轮反馈

3. 生图提示词的8个核心要素

综合 OpenAI、Adobe、Midjourney 等官方资料，一个稳定的生图提示词通常包含 8 类信息。

3.1 主体

主体是画面里最重要的东西。

弱提示：

text

一只猫。

强提示：

text

一只银灰色长毛猫，坐在木质书桌边，抬头看向窗外。

主体越具体，模型越不容易乱补。

3.2 场景

场景决定画面空间。

例如：

text

清晨的咖啡馆
雨夜的赛博朋克街道
白色极简摄影棚
拥挤的东京地铁站
中世纪石砌图书馆

同一个主体放到不同场景，结果完全不同。

3.3 风格

风格决定“像什么”。

常见风格词：

text

photorealistic
editorial photography
cinematic
watercolor illustration
3D render
minimalist poster
flat vector illustration
product photography

中文可以写：

text

写实摄影风
电影感
极简海报
水彩插画
3D 产品渲染
杂志封面风

如果目标是商业素材，风格不要太散。一次只选一个主风格。

3.4 构图

构图决定观众先看哪里。

常见构图词：

text

center composition
rule of thirds
close-up
wide shot
top-down view
symmetrical composition
negative space

示例：

text

主体居中，背景留出大量负空间，适合作为公众号封面。

对于海报、小红书封面、广告图，构图比风格更重要。

3.5 镜头和光线

镜头语言会极大影响质感。

示例：

text

85mm portrait lens
soft natural light
backlight
high contrast lighting
shallow depth of field
studio softbox lighting

中文可写：

text

85mm 人像镜头，浅景深，柔和自然光，背景轻微虚化。

这类词对写实图尤其有效。

3.6 材质和细节

材质决定画面是否“有手感”。

示例：

text

磨砂金属
半透明玻璃
粗糙亚麻布
湿润柏油路面
陶瓷釉面
柔软羊毛

如果生成产品图，材质必须写清楚。

3.7 色彩和情绪

色彩决定第一眼感觉。

示例：

text

低饱和蓝灰色调
暖黄色灯光
黑金配色
清爽白绿配色
复古胶片色
高对比霓虹色

情绪可以写：

text

安静
紧张
温暖
孤独
高级
梦幻
克制

但不要只写“高级”。最好说明高级来自哪里：

text

大面积留白，低饱和色彩，精致材质，克制的排版空间。

3.8 输出用途

用途会影响模型对比例和构图的判断。

示例：

text

用于小红书封面，竖版 3:4，上方留标题空间。
用于公众号头图，横版 16:9，右侧留文字空间。
用于电商主图，白底，主体居中，清晰展示产品细节。
用于 App onboarding 插画，扁平矢量风格，背景简洁。

不要让模型猜你的使用场景。

4. 一个通用生图模板

可以直接使用这个结构：

text

生成一张【用途】图片。

主体：【画面主角】
场景：【环境和背景】
动作/状态：【主体在做什么】
风格：【摄影/插画/3D/海报等】
构图：【近景/远景/居中/三分法/留白】
光线：【自然光/逆光/棚拍/电影光】
色彩：【主色调和情绪】
材质细节：【关键材质、纹理、细节】
文字要求：【是否包含文字，包含什么文字】
比例：【1:1 / 3:4 / 16:9 / 9:16】
避免：【不要出现的元素】

示例：

text

生成一张用于小红书封面的竖版图片。

主体：一杯冰美式咖啡和一本打开的笔记本
场景：清晨阳光照进来的木质书桌
动作/状态：咖啡杯上有轻微水珠，笔记本上有手写灵感草稿
风格：写实生活方式摄影，杂志感
构图：俯拍，主体居中，上方留出标题空间
光线：柔和自然光，轻微阴影
色彩：低饱和米白、浅棕、冷咖啡色
材质细节：木纹、纸张纹理、玻璃杯反光清晰
文字要求：不要生成任何文字
比例：3:4
避免：不要人物、不要夸张滤镜、不要杂乱背景

5. 生图和文字提示词的不同

普通文本提示词强调逻辑清晰。

生图提示词强调视觉可执行。

弱提示经常长这样：

text

帮我做一张高级、有质感、适合营销的 AI 海报。

强提示应该长这样：

text

一张横版科技产品发布会海报，深灰背景，中央是一台悬浮的透明玻璃质感 AI 终端，边缘有细微蓝色光线，画面下方留出标题空间。风格为高端 3D 产品渲染，构图对称，冷色调，电影级布光，细节清晰，不要人物，不要多余文字，16:9。

生图提示词要回答的是：

text

看见什么？
在哪里？
怎么构图？
什么风格？
什么光线？
什么颜色？
不要什么？
用在哪里？

6. 修改图片时，别重写整张图

OpenAI 的图像生成能力支持生成和编辑。很多用户编辑失败，是因为每次都重新描述整张图，导致模型把好的部分也改坏。

更好的方式是只说要改什么。

弱提示：

text

把这张图改得更好看。

强提示：

text

保持主体、构图和背景不变，只把咖啡杯换成透明玻璃杯，增加杯壁水珠，整体色调保持清晨自然光。

如果是局部改图，提示词要包含：

text

保留什么
修改什么
不要动什么
新增什么
风格是否保持一致

7. 中文提示词还是英文提示词

现在主流模型对中文理解已经很好，中文提示词完全可用。

但如果你要精细控制摄影、镜头、艺术风格，英文术语有时更稳定，例如：

text

cinematic lighting
shallow depth of field
editorial photography
macro shot
isometric 3D illustration
minimalist poster design

推荐写法是中英混合：

text

一张写实产品摄影图，studio softbox lighting，shallow depth of field，白色极简背景，主体居中。

这样既保留中文描述的语义精度，也利用英文视觉术语的模型熟悉度。

8. 4sAPI图片模型接入教程

如果你只是偶尔在网页上生一张图，直接用对应产品就够了。

但如果你要把生图接入产品、自动化工作流、批量生成封面或素材，就需要 API 层管理。

这时可以用 4sAPI 大模型 API 中转站做统一入口：

给生图任务单独创建 API Key；
把测试环境和生产环境分开；
查看每次生成的调用日志；
按模型和项目拆分额度；
同一套工作流里切换不同图像模型；
避免图片任务把文本任务预算打穿。

8.1 准备API Key和模型ID

先在 4sAPI 后台完成三件事：

text

1. 注册并进入控制台
2. 创建一个图片生成专用 API Key
3. 在模型广场复制图片模型 ID

建议不要把图片生成和文本对话共用一个 Key。

8.2 用接口生成图片

如果使用 OpenAI 兼容图片接口，常见调用方式类似：

bash

curl https://4sapi.com/v1/images/generations \
  -H "Authorization: Bearer sk-xxxxxxxxxxxxxxxx" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "your-image-model-id",
    "prompt": "一张用于小红书封面的竖版图片，清晨阳光照进木质书桌，一杯冰美式咖啡和一本打开的笔记本，写实生活方式摄影，俯拍，上方留标题空间，低饱和米白和浅棕色调，不要生成文字",
    "size": "1024x1536",
    "n": 1
  }'

这里有三个参数最关键：

text

model：4sAPI 模型广场里的图片模型 ID
prompt：你的生图提示词
size：图片尺寸或比例

不同模型支持的尺寸、返回格式和参数可能不同，实际以 4sAPI 后台模型说明为准。

8.3 在代码里接入

Node.js 示例：

const API_KEY = process.env.FOURSAPI_KEY;

async function generateImage(prompt) {
  const res = await fetch("https://4sapi.com/v1/images/generations", {
    method: "POST",
    headers: {
      Authorization: `Bearer ${API_KEY}`,
      "Content-Type": "application/json",
    },
    body: JSON.stringify({
      model: "your-image-model-id",
      prompt,
      size: "1024x1536",
      n: 1,
    }),
  });

  if (!res.ok) {
    throw new Error(`image generation failed: ${res.status} ${await res.text()}`);
  }

  return await res.json();
}

实际落地时，建议把每次生成的这些信息都记录下来：

text

prompt
model
size
seed 或 request id
生成时间
调用费用
返回图片地址或文件路径

这样后面要复现某张图、排查失败或控制成本，会省很多时间。

8.4 工作流建议

产品化生图不要只做一个“生成图片”按钮。

更稳的流程是：

text

输入主题
  -> 生成提示词
  -> 调用 4sAPI 图片模型
  -> 保存图片
  -> 记录 prompt 和模型参数
  -> 人工选择
  -> 二次编辑或重新生成

如果是批量封面、小红书卡片、电商图，建议给每个任务设置最大生成次数和预算上限，避免一次批处理把额度消耗完。

9. 常见错误

9.1 只写抽象形容词

错误：

text

高级、震撼、好看、有质感。

改法：

text

黑金配色，低饱和背景，金属材质，主体居中，电影级侧光，大面积留白。

9.2 一次塞太多风格

错误：

text

赛博朋克、国风、水彩、3D、像素、电影感。

改法：

text

赛博朋克风，霓虹灯光，雨夜街道，写实电影感。

9.3 忘记指定用途和比例

错误：

text

生成一张封面图。

改法：

text

生成一张小红书封面，竖版 3:4，上方留标题区域，主体不要遮挡文字空间。

9.4 让模型生成复杂中文文字

很多图像模型生成中文文字仍然不稳定。

更稳的方式是：

text

不要在图中生成文字，保留标题空间，后期用设计工具加字。

10. 总结：生图提示词本质是视觉Brief

生图提示词不是作文，也不是关键词堆砌。

它更像给摄影师、设计师、插画师的一份视觉 brief。

最稳定的结构是：

text

主体 + 场景 + 动作 + 风格 + 构图 + 光线 + 色彩 + 细节 + 用途 + 限制

再配合参考图、局部编辑和多轮迭代，出图质量会比一句话提示稳定很多。

如果你要把生图用于产品或批量内容生产，建议用 4sAPI 做 API 入口、日志和额度管理。提示词负责质量，4sAPI 负责工作流稳定。

生图提示词工程 | 从一句话到可控出图

1. 开篇：生图失败，很多时候不是模型不行

2. 权威资料里的共识：提示词是迭代过程

3. 生图提示词的8个核心要素

3.1 主体

3.2 场景

3.3 风格

3.4 构图

3.5 镜头和光线

3.6 材质和细节

3.7 色彩和情绪

3.8 输出用途

4. 一个通用生图模板

5. 生图和文字提示词的不同

6. 修改图片时，别重写整张图

7. 中文提示词还是英文提示词

8. 4sAPI图片模型接入教程

8.1 准备API Key和模型ID

8.2 用接口生成图片

8.3 在代码里接入

8.4 工作流建议

9. 常见错误

9.1 只写抽象形容词

9.2 一次塞太多风格

9.3 忘记指定用途和比例

9.4 让模型生成复杂中文文字

10. 总结：生图提示词本质是视觉Brief

推荐阅读

浏览器自动化如何划分读取、草稿与提交权限

如何用 Claude Code 在本地页面验证浏览器连接

用浏览器证据定位前端表单故障的调试流程

文章口播榜单视频 | 4SAPI批量栏目