返回博客

生图提示词工程 | 从一句话到可控出图

人工智能5353
生图提示词工程 | 从一句话到可控出图

摘要:AI 生图不是“随便写一句话,让模型自由发挥”。真正稳定的图像生成,靠的是提示词工程:明确主体、场景、构图、风格、光线、镜头、材质、颜色、比例、文字和限制条件,再通过参考图、局部编辑和多轮迭代逐步收敛。本文整理 OpenAI、Google、Adobe、Midjourney 等官方资料中的共通方法,给出一套适合中文创作者、设计师和开发者的生图提示词框架,并说明如何在 API 工作流里通过 4sAPI 做模型接入、额度隔离和成本管理。

关键词:生图提示词、大模型API中转站、4sAPI、Prompt Engineering、AI绘图、图像生成、GPT Image、Imagen、Firefly、Midjourney、提示词模板

适合读者:AI 绘图用户、设计师、内容创作者、小红书/公众号运营、独立开发者、AI 应用开发者,以及想把生图能力接入产品或工作流的人。

资料来源:本文参考 OpenAI Prompting GuideOpenAI Image Generation APIOpenAI GPT Image Generation Models Prompting GuideGoogle Gemini Prompt Design StrategiesAdobe Firefly 有效提示词指南Midjourney Prompt BasicsMidjourney Art of Prompting

1. 开篇:生图失败,很多时候不是模型不行

很多人第一次用 AI 生图,会这样写:

text
帮我生成一张高级感海报。

然后得到一张看起来“差不多但不能用”的图。

问题不一定在模型,而在提示词太空。

“高级感”到底是:

模型不会知道你的真实预期。它只能根据输入里的线索去补全。

所以生图提示词工程的核心不是堆形容词,而是把“画面该如何被看见”说清楚。

2. 权威资料里的共识:提示词是迭代过程

OpenAI 的 Prompting 文档强调,提示词既是艺术也是科学,需要实验和调整。Google Gemini 的提示词策略也明确提到,Prompt engineering 是迭代过程,要根据结果不断 refine。

放到生图里,这个原则更明显。

一张图很少一次就完美。更常见的流程是:

text
先生成方向
  -> 看构图和风格
  -> 固定好的部分
  -> 修改不对的细节
  -> 换比例或局部编辑
  -> 输出最终图

所以不要把生图理解成:

text
输入一句话 -> 得到成品

更合理的理解是:

text
写创意 brief -> 让模型出初稿 -> 像设计总监一样逐轮反馈

3. 生图提示词的8个核心要素

综合 OpenAI、Adobe、Midjourney 等官方资料,一个稳定的生图提示词通常包含 8 类信息。

3.1 主体

主体是画面里最重要的东西。

弱提示:

text
一只猫。

强提示:

text
一只银灰色长毛猫,坐在木质书桌边,抬头看向窗外。

主体越具体,模型越不容易乱补。

3.2 场景

场景决定画面空间。

例如:

text
清晨的咖啡馆
雨夜的赛博朋克街道
白色极简摄影棚
拥挤的东京地铁站
中世纪石砌图书馆

同一个主体放到不同场景,结果完全不同。

3.3 风格

风格决定“像什么”。

常见风格词:

text
photorealistic
editorial photography
cinematic
watercolor illustration
3D render
minimalist poster
flat vector illustration
product photography

中文可以写:

text
写实摄影风
电影感
极简海报
水彩插画
3D 产品渲染
杂志封面风

如果目标是商业素材,风格不要太散。一次只选一个主风格。

3.4 构图

构图决定观众先看哪里。

常见构图词:

text
center composition
rule of thirds
close-up
wide shot
top-down view
symmetrical composition
negative space

示例:

text
主体居中,背景留出大量负空间,适合作为公众号封面。

对于海报、小红书封面、广告图,构图比风格更重要。

3.5 镜头和光线

镜头语言会极大影响质感。

示例:

text
85mm portrait lens
soft natural light
backlight
high contrast lighting
shallow depth of field
studio softbox lighting

中文可写:

text
85mm 人像镜头,浅景深,柔和自然光,背景轻微虚化。

这类词对写实图尤其有效。

3.6 材质和细节

材质决定画面是否“有手感”。

示例:

text
磨砂金属
半透明玻璃
粗糙亚麻布
湿润柏油路面
陶瓷釉面
柔软羊毛

如果生成产品图,材质必须写清楚。

3.7 色彩和情绪

色彩决定第一眼感觉。

示例:

text
低饱和蓝灰色调
暖黄色灯光
黑金配色
清爽白绿配色
复古胶片色
高对比霓虹色

情绪可以写:

text
安静
紧张
温暖
孤独
高级
梦幻
克制

但不要只写“高级”。最好说明高级来自哪里:

text
大面积留白,低饱和色彩,精致材质,克制的排版空间。

3.8 输出用途

用途会影响模型对比例和构图的判断。

示例:

text
用于小红书封面,竖版 3:4,上方留标题空间。
用于公众号头图,横版 16:9,右侧留文字空间。
用于电商主图,白底,主体居中,清晰展示产品细节。
用于 App onboarding 插画,扁平矢量风格,背景简洁。

不要让模型猜你的使用场景。

4. 一个通用生图模板

可以直接使用这个结构:

text
生成一张【用途】图片。

主体:【画面主角】
场景:【环境和背景】
动作/状态:【主体在做什么】
风格:【摄影/插画/3D/海报等】
构图:【近景/远景/居中/三分法/留白】
光线:【自然光/逆光/棚拍/电影光】
色彩:【主色调和情绪】
材质细节:【关键材质、纹理、细节】
文字要求:【是否包含文字,包含什么文字】
比例:【1:1 / 3:4 / 16:9 / 9:16】
避免:【不要出现的元素】

示例:

text
生成一张用于小红书封面的竖版图片。

主体:一杯冰美式咖啡和一本打开的笔记本
场景:清晨阳光照进来的木质书桌
动作/状态:咖啡杯上有轻微水珠,笔记本上有手写灵感草稿
风格:写实生活方式摄影,杂志感
构图:俯拍,主体居中,上方留出标题空间
光线:柔和自然光,轻微阴影
色彩:低饱和米白、浅棕、冷咖啡色
材质细节:木纹、纸张纹理、玻璃杯反光清晰
文字要求:不要生成任何文字
比例:3:4
避免:不要人物、不要夸张滤镜、不要杂乱背景

5. 生图和文字提示词的不同

普通文本提示词强调逻辑清晰。

生图提示词强调视觉可执行。

弱提示经常长这样:

text
帮我做一张高级、有质感、适合营销的 AI 海报。

强提示应该长这样:

text
一张横版科技产品发布会海报,深灰背景,中央是一台悬浮的透明玻璃质感 AI 终端,边缘有细微蓝色光线,画面下方留出标题空间。风格为高端 3D 产品渲染,构图对称,冷色调,电影级布光,细节清晰,不要人物,不要多余文字,16:9。

生图提示词要回答的是:

text
看见什么?
在哪里?
怎么构图?
什么风格?
什么光线?
什么颜色?
不要什么?
用在哪里?

6. 修改图片时,别重写整张图

OpenAI 的图像生成能力支持生成和编辑。很多用户编辑失败,是因为每次都重新描述整张图,导致模型把好的部分也改坏。

更好的方式是只说要改什么。

弱提示:

text
把这张图改得更好看。

强提示:

text
保持主体、构图和背景不变,只把咖啡杯换成透明玻璃杯,增加杯壁水珠,整体色调保持清晨自然光。

如果是局部改图,提示词要包含:

text
保留什么
修改什么
不要动什么
新增什么
风格是否保持一致

7. 中文提示词还是英文提示词

现在主流模型对中文理解已经很好,中文提示词完全可用。

但如果你要精细控制摄影、镜头、艺术风格,英文术语有时更稳定,例如:

text
cinematic lighting
shallow depth of field
editorial photography
macro shot
isometric 3D illustration
minimalist poster design

推荐写法是中英混合:

text
一张写实产品摄影图,studio softbox lighting,shallow depth of field,白色极简背景,主体居中。

这样既保留中文描述的语义精度,也利用英文视觉术语的模型熟悉度。

8. 4sAPI图片模型接入教程

如果你只是偶尔在网页上生一张图,直接用对应产品就够了。

但如果你要把生图接入产品、自动化工作流、批量生成封面或素材,就需要 API 层管理。

这时可以用 4sAPI 大模型 API 中转站做统一入口:

推荐 Key 命名:

text
image-cover-test
image-cover-prod
xiaohongshu-card-workflow
product-image-batch

8.1 准备API Key和模型ID

先在 4sAPI 后台完成三件事:

text
1. 注册并进入控制台
2. 创建一个图片生成专用 API Key
3. 在模型广场复制图片模型 ID

建议不要把图片生成和文本对话共用一个 Key。

推荐 Key 命名:

text
image-cover-test
image-cover-prod
xiaohongshu-card-workflow
product-image-batch

这样后续看日志、查费用、限额和排障都更清楚。

如果你的工具支持 OpenAI-compatible endpoint,可以按下面方式配置:

env
OPENAI_BASE_URL=https://4sapi.com/v1
OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxx
OPENAI_MODEL=your-image-model-id

实际模型名称以 4sAPI 后台为准。

8.2 用接口生成图片

如果使用 OpenAI 兼容图片接口,常见调用方式类似:

bash
curl https://4sapi.com/v1/images/generations \
  -H "Authorization: Bearer sk-xxxxxxxxxxxxxxxx" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "your-image-model-id",
    "prompt": "一张用于小红书封面的竖版图片,清晨阳光照进木质书桌,一杯冰美式咖啡和一本打开的笔记本,写实生活方式摄影,俯拍,上方留标题空间,低饱和米白和浅棕色调,不要生成文字",
    "size": "1024x1536",
    "n": 1
  }'

这里有三个参数最关键:

text
model:4sAPI 模型广场里的图片模型 ID
prompt:你的生图提示词
size:图片尺寸或比例

不同模型支持的尺寸、返回格式和参数可能不同,实际以 4sAPI 后台模型说明为准。

8.3 在代码里接入

Node.js 示例:

js
const API_KEY = process.env.FOURSAPI_KEY;

async function generateImage(prompt) {
  const res = await fetch("https://4sapi.com/v1/images/generations", {
    method: "POST",
    headers: {
      Authorization: `Bearer ${API_KEY}`,
      "Content-Type": "application/json",
    },
    body: JSON.stringify({
      model: "your-image-model-id",
      prompt,
      size: "1024x1536",
      n: 1,
    }),
  });

  if (!res.ok) {
    throw new Error(`image generation failed: ${res.status} ${await res.text()}`);
  }

  return await res.json();
}

实际落地时,建议把每次生成的这些信息都记录下来:

text
prompt
model
size
seed 或 request id
生成时间
调用费用
返回图片地址或文件路径

这样后面要复现某张图、排查失败或控制成本,会省很多时间。

8.4 工作流建议

产品化生图不要只做一个“生成图片”按钮。

更稳的流程是:

text
输入主题
  -> 生成提示词
  -> 调用 4sAPI 图片模型
  -> 保存图片
  -> 记录 prompt 和模型参数
  -> 人工选择
  -> 二次编辑或重新生成

如果是批量封面、小红书卡片、电商图,建议给每个任务设置最大生成次数和预算上限,避免一次批处理把额度消耗完。

9. 常见错误

9.1 只写抽象形容词

错误:

text
高级、震撼、好看、有质感。

改法:

text
黑金配色,低饱和背景,金属材质,主体居中,电影级侧光,大面积留白。

9.2 一次塞太多风格

错误:

text
赛博朋克、国风、水彩、3D、像素、电影感。

改法:

text
赛博朋克风,霓虹灯光,雨夜街道,写实电影感。

9.3 忘记指定用途和比例

错误:

text
生成一张封面图。

改法:

text
生成一张小红书封面,竖版 3:4,上方留标题区域,主体不要遮挡文字空间。

9.4 让模型生成复杂中文文字

很多图像模型生成中文文字仍然不稳定。

更稳的方式是:

text
不要在图中生成文字,保留标题空间,后期用设计工具加字。

10. 总结:生图提示词本质是视觉Brief

生图提示词不是作文,也不是关键词堆砌。

它更像给摄影师、设计师、插画师的一份视觉 brief。

最稳定的结构是:

text
主体 + 场景 + 动作 + 风格 + 构图 + 光线 + 色彩 + 细节 + 用途 + 限制

再配合参考图、局部编辑和多轮迭代,出图质量会比一句话提示稳定很多。

如果你要把生图用于产品或批量内容生产,建议用 4sAPI 做 API 入口、日志和额度管理。提示词负责质量,4sAPI 负责工作流稳定。

标签:人工智能生图提示词工程4sAPI图片生成

推荐阅读

探索更多前沿洞察与行业干货。