摘要:AI 生图不是“随便写一句话,让模型自由发挥”。真正稳定的图像生成,靠的是提示词工程:明确主体、场景、构图、风格、光线、镜头、材质、颜色、比例、文字和限制条件,再通过参考图、局部编辑和多轮迭代逐步收敛。本文整理 OpenAI、Google、Adobe、Midjourney 等官方资料中的共通方法,给出一套适合中文创作者、设计师和开发者的生图提示词框架,并说明如何在 API 工作流里通过 4sAPI 做模型接入、额度隔离和成本管理。
关键词:生图提示词、大模型API中转站、4sAPI、Prompt Engineering、AI绘图、图像生成、GPT Image、Imagen、Firefly、Midjourney、提示词模板
适合读者:AI 绘图用户、设计师、内容创作者、小红书/公众号运营、独立开发者、AI 应用开发者,以及想把生图能力接入产品或工作流的人。
资料来源:本文参考 OpenAI Prompting Guide、OpenAI Image Generation API、OpenAI GPT Image Generation Models Prompting Guide、Google Gemini Prompt Design Strategies、Adobe Firefly 有效提示词指南、Midjourney Prompt Basics 和 Midjourney Art of Prompting。
1. 开篇:生图失败,很多时候不是模型不行
很多人第一次用 AI 生图,会这样写:
然后得到一张看起来“差不多但不能用”的图。
问题不一定在模型,而在提示词太空。
“高级感”到底是:
- 黑金商务风;
- 日系留白风;
- 奢侈品广告风;
- 科技发布会风;
- 极简杂志封面;
- 电影海报质感;
- 还是小红书爆款封面?
模型不会知道你的真实预期。它只能根据输入里的线索去补全。
所以生图提示词工程的核心不是堆形容词,而是把“画面该如何被看见”说清楚。
2. 权威资料里的共识:提示词是迭代过程
OpenAI 的 Prompting 文档强调,提示词既是艺术也是科学,需要实验和调整。Google Gemini 的提示词策略也明确提到,Prompt engineering 是迭代过程,要根据结果不断 refine。
放到生图里,这个原则更明显。
一张图很少一次就完美。更常见的流程是:
text
先生成方向
-> 看构图和风格
-> 固定好的部分
-> 修改不对的细节
-> 换比例或局部编辑
-> 输出最终图
所以不要把生图理解成:
更合理的理解是:
text
写创意 brief -> 让模型出初稿 -> 像设计总监一样逐轮反馈
3. 生图提示词的8个核心要素
综合 OpenAI、Adobe、Midjourney 等官方资料,一个稳定的生图提示词通常包含 8 类信息。
3.1 主体
主体是画面里最重要的东西。
弱提示:
强提示:
主体越具体,模型越不容易乱补。
3.2 场景
场景决定画面空间。
例如:
text
清晨的咖啡馆
雨夜的赛博朋克街道
白色极简摄影棚
拥挤的东京地铁站
中世纪石砌图书馆
同一个主体放到不同场景,结果完全不同。
3.3 风格
风格决定“像什么”。
常见风格词:
text
photorealistic
editorial photography
cinematic
watercolor illustration
3D render
minimalist poster
flat vector illustration
product photography
中文可以写:
text
写实摄影风
电影感
极简海报
水彩插画
3D 产品渲染
杂志封面风
如果目标是商业素材,风格不要太散。一次只选一个主风格。
3.4 构图
构图决定观众先看哪里。
常见构图词:
text
center composition
rule of thirds
close-up
wide shot
top-down view
symmetrical composition
negative space
示例:
text
主体居中,背景留出大量负空间,适合作为公众号封面。
对于海报、小红书封面、广告图,构图比风格更重要。
3.5 镜头和光线
镜头语言会极大影响质感。
示例:
text
85mm portrait lens
soft natural light
backlight
high contrast lighting
shallow depth of field
studio softbox lighting
中文可写:
text
85mm 人像镜头,浅景深,柔和自然光,背景轻微虚化。
这类词对写实图尤其有效。
3.6 材质和细节
材质决定画面是否“有手感”。
示例:
text
磨砂金属
半透明玻璃
粗糙亚麻布
湿润柏油路面
陶瓷釉面
柔软羊毛
如果生成产品图,材质必须写清楚。
3.7 色彩和情绪
色彩决定第一眼感觉。
示例:
text
低饱和蓝灰色调
暖黄色灯光
黑金配色
清爽白绿配色
复古胶片色
高对比霓虹色
情绪可以写:
但不要只写“高级”。最好说明高级来自哪里:
text
大面积留白,低饱和色彩,精致材质,克制的排版空间。
3.8 输出用途
用途会影响模型对比例和构图的判断。
示例:
text
用于小红书封面,竖版 3:4,上方留标题空间。
用于公众号头图,横版 16:9,右侧留文字空间。
用于电商主图,白底,主体居中,清晰展示产品细节。
用于 App onboarding 插画,扁平矢量风格,背景简洁。
不要让模型猜你的使用场景。
4. 一个通用生图模板
可以直接使用这个结构:
text
生成一张【用途】图片。
主体:【画面主角】
场景:【环境和背景】
动作/状态:【主体在做什么】
风格:【摄影/插画/3D/海报等】
构图:【近景/远景/居中/三分法/留白】
光线:【自然光/逆光/棚拍/电影光】
色彩:【主色调和情绪】
材质细节:【关键材质、纹理、细节】
文字要求:【是否包含文字,包含什么文字】
比例:【1:1 / 3:4 / 16:9 / 9:16】
避免:【不要出现的元素】
示例:
text
生成一张用于小红书封面的竖版图片。
主体:一杯冰美式咖啡和一本打开的笔记本
场景:清晨阳光照进来的木质书桌
动作/状态:咖啡杯上有轻微水珠,笔记本上有手写灵感草稿
风格:写实生活方式摄影,杂志感
构图:俯拍,主体居中,上方留出标题空间
光线:柔和自然光,轻微阴影
色彩:低饱和米白、浅棕、冷咖啡色
材质细节:木纹、纸张纹理、玻璃杯反光清晰
文字要求:不要生成任何文字
比例:3:4
避免:不要人物、不要夸张滤镜、不要杂乱背景
5. 生图和文字提示词的不同
普通文本提示词强调逻辑清晰。
生图提示词强调视觉可执行。
弱提示经常长这样:
强提示应该长这样:
text
一张横版科技产品发布会海报,深灰背景,中央是一台悬浮的透明玻璃质感 AI 终端,边缘有细微蓝色光线,画面下方留出标题空间。风格为高端 3D 产品渲染,构图对称,冷色调,电影级布光,细节清晰,不要人物,不要多余文字,16:9。
生图提示词要回答的是:
text
看见什么?
在哪里?
怎么构图?
什么风格?
什么光线?
什么颜色?
不要什么?
用在哪里?
6. 修改图片时,别重写整张图
OpenAI 的图像生成能力支持生成和编辑。很多用户编辑失败,是因为每次都重新描述整张图,导致模型把好的部分也改坏。
更好的方式是只说要改什么。
弱提示:
强提示:
text
保持主体、构图和背景不变,只把咖啡杯换成透明玻璃杯,增加杯壁水珠,整体色调保持清晨自然光。
如果是局部改图,提示词要包含:
text
保留什么
修改什么
不要动什么
新增什么
风格是否保持一致
7. 中文提示词还是英文提示词
现在主流模型对中文理解已经很好,中文提示词完全可用。
但如果你要精细控制摄影、镜头、艺术风格,英文术语有时更稳定,例如:
text
cinematic lighting
shallow depth of field
editorial photography
macro shot
isometric 3D illustration
minimalist poster design
推荐写法是中英混合:
text
一张写实产品摄影图,studio softbox lighting,shallow depth of field,白色极简背景,主体居中。
这样既保留中文描述的语义精度,也利用英文视觉术语的模型熟悉度。
8. 4sAPI图片模型接入教程
如果你只是偶尔在网页上生一张图,直接用对应产品就够了。
但如果你要把生图接入产品、自动化工作流、批量生成封面或素材,就需要 API 层管理。
这时可以用 4sAPI 大模型 API 中转站做统一入口:
- 给生图任务单独创建 API Key;
- 把测试环境和生产环境分开;
- 查看每次生成的调用日志;
- 按模型和项目拆分额度;
- 同一套工作流里切换不同图像模型;
- 避免图片任务把文本任务预算打穿。
推荐 Key 命名:
text
image-cover-test
image-cover-prod
xiaohongshu-card-workflow
product-image-batch
8.1 准备API Key和模型ID
先在 4sAPI 后台完成三件事:
text
1. 注册并进入控制台
2. 创建一个图片生成专用 API Key
3. 在模型广场复制图片模型 ID
建议不要把图片生成和文本对话共用一个 Key。
推荐 Key 命名:
text
image-cover-test
image-cover-prod
xiaohongshu-card-workflow
product-image-batch
这样后续看日志、查费用、限额和排障都更清楚。
如果你的工具支持 OpenAI-compatible endpoint,可以按下面方式配置:
env
OPENAI_BASE_URL=https://4sapi.com/v1
OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxx
OPENAI_MODEL=your-image-model-id
实际模型名称以 4sAPI 后台为准。
8.2 用接口生成图片
如果使用 OpenAI 兼容图片接口,常见调用方式类似:
bash
curl https://4sapi.com/v1/images/generations \
-H "Authorization: Bearer sk-xxxxxxxxxxxxxxxx" \
-H "Content-Type: application/json" \
-d '{
"model": "your-image-model-id",
"prompt": "一张用于小红书封面的竖版图片,清晨阳光照进木质书桌,一杯冰美式咖啡和一本打开的笔记本,写实生活方式摄影,俯拍,上方留标题空间,低饱和米白和浅棕色调,不要生成文字",
"size": "1024x1536",
"n": 1
}'
这里有三个参数最关键:
text
model:4sAPI 模型广场里的图片模型 ID
prompt:你的生图提示词
size:图片尺寸或比例
不同模型支持的尺寸、返回格式和参数可能不同,实际以 4sAPI 后台模型说明为准。
8.3 在代码里接入
Node.js 示例:
js
const API_KEY = process.env.FOURSAPI_KEY;
async function generateImage(prompt) {
const res = await fetch("https://4sapi.com/v1/images/generations", {
method: "POST",
headers: {
Authorization: `Bearer ${API_KEY}`,
"Content-Type": "application/json",
},
body: JSON.stringify({
model: "your-image-model-id",
prompt,
size: "1024x1536",
n: 1,
}),
});
if (!res.ok) {
throw new Error(`image generation failed: ${res.status} ${await res.text()}`);
}
return await res.json();
}
实际落地时,建议把每次生成的这些信息都记录下来:
text
prompt
model
size
seed 或 request id
生成时间
调用费用
返回图片地址或文件路径
这样后面要复现某张图、排查失败或控制成本,会省很多时间。
8.4 工作流建议
产品化生图不要只做一个“生成图片”按钮。
更稳的流程是:
text
输入主题
-> 生成提示词
-> 调用 4sAPI 图片模型
-> 保存图片
-> 记录 prompt 和模型参数
-> 人工选择
-> 二次编辑或重新生成
如果是批量封面、小红书卡片、电商图,建议给每个任务设置最大生成次数和预算上限,避免一次批处理把额度消耗完。
9. 常见错误
9.1 只写抽象形容词
错误:
改法:
text
黑金配色,低饱和背景,金属材质,主体居中,电影级侧光,大面积留白。
9.2 一次塞太多风格
错误:
改法:
9.3 忘记指定用途和比例
错误:
改法:
text
生成一张小红书封面,竖版 3:4,上方留标题区域,主体不要遮挡文字空间。
9.4 让模型生成复杂中文文字
很多图像模型生成中文文字仍然不稳定。
更稳的方式是:
text
不要在图中生成文字,保留标题空间,后期用设计工具加字。
10. 总结:生图提示词本质是视觉Brief
生图提示词不是作文,也不是关键词堆砌。
它更像给摄影师、设计师、插画师的一份视觉 brief。
最稳定的结构是:
text
主体 + 场景 + 动作 + 风格 + 构图 + 光线 + 色彩 + 细节 + 用途 + 限制
再配合参考图、局部编辑和多轮迭代,出图质量会比一句话提示稳定很多。
如果你要把生图用于产品或批量内容生产,建议用 4sAPI 做 API 入口、日志和额度管理。提示词负责质量,4sAPI 负责工作流稳定。