Sora2长视频成片 | 短镜头拼成广告

title: " Sora2长视频成片 | 短镜头拼成广告" category: 人工智能 tags:

大模型API中转站
Sora2
Image2
AI视频
视频剪辑
4SAPI description: "承接第84期的 Image2 资产和分镜表，讲清楚如何用 4SAPI Sora2 分段生成广告视频，再通过尾帧衔接、转场、音频分层、调色和成本治理，把短片段拼成 100 秒以上的 AI 长视频。"

上一篇我们讲了 AI 长视频的前半段：

text

先别急着生成视频。
先用 Image2 把人物、场景、产品、音色和分镜表做稳。

这一篇进入后半段。

现在你已经有：

人物三视图
人物半身和表情
场景空景
产品正面、侧面、45 度和使用状态
旁白音色设定
15 个镜头的分镜表

接下来要做的是：

text

用 4SAPI Sora2 把每个分镜生成短视频。
再用剪辑、音频和调色把它们拼成完整广告。

这里仍然要记住一句话：

text

长视频不是拉长，是拆短后拼稳。

1. 4SAPI 接入前先准备什么

用 API 做视频前，先准备四件事。

第一，API Key

4SAPI 调用需要在请求头里带 Authorization。

文档里的视频接口示例大致是：

bash

curl --location 'https://4sapi.com/v1/videos' \
  --header 'Authorization: Bearer <你的令牌>' \
  --form 'model="sora-2"' \
  --form 'prompt="画面动起来"' \
  --form 'seconds="4"' \
  --form 'input_reference="file:///path/to/reference.png"' \
  --form 'size="1280x720"'

实际生产里不要把 Key 写进脚本。

放环境变量：

powershell

$env:FOURSAPI_KEY="你的令牌"

或者：

bash

export FOURSAPI_KEY="你的令牌"

第二，确认模型和分组

建议先查可用模型和用户分组。

4SAPI 文档里有：

text

GET https://4sapi.com/api/user/models
GET https://4sapi.com/api/user/groups

用户分组示例里能看到：

json

"sora2": {
  "desc": "sora视频生成",
  "ratio": 1
}

这说明后台分组层面有 Sora 视频生成能力。

具体调用时，视频任务示例使用：

text

model="sora-2"

以你账号后台和最新文档为准。

第三，准备素材目录

建议每个广告项目单独建目录：

text

lipstick-ad/
  00_brief/
    brand.md
    story.md
    script.md
  01_assets/
    characters/
    scenes/
    product/
    logo/
  02_storyboard/
    shot-list.md
    keyframes/
  03_video/
    raw/
    selected/
    tailframes/
  04_audio/
    voiceover/
    dialogue/
    music/
    ambience/
  05_edit/
    project/
    exports/
  06_logs/
    prompts.md
    cost.md
    rejects.md

不要把所有图片和视频都丢在桌面。

AI 视频项目最怕素材混乱。

第四，准备提示词记录表

每次生成都记录：

text

镜头编号
模型
参考图
提示词
负面提示
尺寸
秒数
结果链接
是否可用
问题
重试次数

后面你会感谢这张表。

因为长视频一定会反复试。

不记录，第二天你根本不知道哪条 prompt 出过好结果。

2. 第三步：分镜生视频

分镜生视频不要所有镜头都用一种方式。

按镜头类型选。

这里推荐三种方式：

text

纯提示词
参考图图生视频
尾帧衔接

再加一个进阶：

text

故事板/多关键帧

不同镜头用不同策略。

3. 方式一：纯提示词

适合：

开场
全新场景切入
产品氛围镜头
不需要承接前一段动作的镜头

提示词结构：

text

主体 + 行为 + 景别 + 运镜 + 光线 + 风格约束 + 禁止项

例子：

text

一支玫瑰金高端口红在白色背景中缓慢旋转，产品特写，镜头固定，轻微推近。
光线为柔和棚拍光，底部有轻微反射，画面干净，高端美妆广告风格。
口红外壳保持圆柱形，膏体比例真实，包装不要变形。
禁止出现多支口红，禁止出现手，禁止出现错误文字，禁止出现真实品牌 logo。

这个镜头不需要人物连续性。

纯提示词就能做。

但如果有产品参考图，仍然建议带上。

4. 方式二：参考图图生视频

适合：

人物镜头
产品镜头
场景要一致的镜头
嘴唇、手、口红这种细节镜头

4SAPI Sora2 视频任务示例支持 input_reference。

你可以把 Image2 生成的参考图作为输入，再配提示词生成短视频。

示例逻辑：

bash

curl --location 'https://4sapi.com/v1/videos' \
  --header "Authorization: Bearer $FOURSAPI_KEY" \
  --form 'model="sora-2"' \
  --form 'prompt="同一位20岁女生坐在宿舍桌前，拿起玫瑰金口红，轻轻涂在嘴唇上。镜头为中近景，固定镜头轻微推近，情绪紧张但期待。保持人物长相、服装、宿舍光线和参考图一致。禁止改变口红外形，禁止多手指，禁止跳帧。"' \
  --form 'seconds="6"' \
  --form 'input_reference="file:///path/to/character_20_halfbody.png"' \
  --form 'size="1280x720"'

实际调用时，input_reference 的上传方式以 4SAPI 当前文档为准。

如果文档要求上传文件，就不要硬写本地路径。

如果要求可访问 URL，就先把图片转成可访问资源。

这一点每个渠道可能不一样，别凭感觉写。

5. 方式三：尾帧衔接

适合：

人物动作延续
同一场景连续镜头
情绪递进
从中景切近景

操作流程：

text

生成上一段视频。
导入剪辑软件。
统一导出一次。
截取导出后最后一帧。
把这张尾帧作为下一段参考图。
生成下一段。
拼接时删掉下一段开头 1 到 2 帧。

为什么要“导出一次”？

因为直接截模型原始视频尾帧，可能和剪辑工程里的编码、色彩空间不一致。

用剪辑软件导出后再截尾帧，能减少衔接处色差和跳变。

这一步很烦。

但很值。

长视频的顺滑感，大部分靠这种细节。

6. 方式四：故事板/多关键帧

适合：

多镜头快切
产品多角度展示
嘴唇特写汇聚
情绪 montage
不要求强连续的段落

比如镜头 13：

text

四个年龄段女性的嘴唇特写快速汇聚。
每个镜头只有 1 到 2 秒。
重点是不同唇色、不同年龄质感、同一个品牌情绪。

这类镜头不一定要做动作连续。

可以先用 Image2 出一组关键帧：

text

20 岁嘴唇特写
30 岁嘴唇特写
45 岁嘴唇特写
60 岁嘴唇特写
口红膏体特写
品牌收尾图

再分别做轻动效。

最后靠剪辑快切。

不要强行让一个视频模型一次完成所有复杂变化。

7. Sora2 提示词模板

你可以直接用这个结构：

text

镜头编号：

参考图：
[人物 / 场景 / 产品]

主体：
[谁 / 什么产品]

动作：
[只写一个主要动作]

景别：
[全景 / 中景 / 近景 / 特写]

运镜：
[固定 / 轻微推进 / 拉远 / 跟拍 / 横移]

光线：
[柔和棚拍光 / 冷色洗手间顶光 / 逆光 / 暖色台灯]

情绪：
[紧张 / 克制 / 坚定 / 温柔 / 平静]

时长：
[4-8 秒]

一致性要求：
[保持人物长相、服装、产品外形、场景光线一致]

禁止项：
[不要多手指、不要变脸、不要改变口红颜色、不要新增文字、不要镜头乱转]

关键是：

text

动作越少越好。
禁止项越具体越好。

不要让一个镜头里同时发生：

text

走进房间、坐下、拿起口红、涂口红、看镜子、开口讲话。

模型会崩。

拆开。

8. 本案例几个镜头怎么写

宿舍直播镜头

text

同一位 20 岁女生坐在宿舍桌前，参考图中的发型、服装和脸型保持一致。
她拿起玫瑰金口红，轻轻涂在嘴唇上，然后短暂停顿。
景别：中近景。
运镜：固定镜头，轻微推近。
光线：宿舍台灯和电脑屏幕的柔和混合光。
情绪：紧张、期待、准备开口。
时长：7 秒。
禁止项：不要改变人物长相，不要让口红变成笔，不要多手指，不要出现错误文字，不要镜头快速晃动。

洗手间补妆镜头

text

同一位 30 岁职场女性站在现代写字楼洗手间镜子前，参考图中的米白色西装和短发保持一致。
她轻轻补口红，看向镜子，表情从疲惫变得坚定。
景别：中近景。
运镜：固定镜头，轻微推进。
光线：冷色顶光，镜面反射柔和。
情绪：克制、恢复状态。
时长：7 秒。
禁止项：不要改变服装颜色，不要让镜子里出现第二张不同的脸，不要改变口红外形。

会议室镜头

text

同一位 35 岁女性坐在会议室长桌一侧，桌上有一支玫瑰金口红。
她把口红轻轻放下，抬头看向会议桌对面，准备发言。
景别：中景。
运镜：固定镜头，轻微推近。
光线：冷色会议室灯光，玻璃墙背景。
情绪：克制、坚定、有压迫感。
时长：6 秒。
禁止项：不要新增无关人物，不要让口红变形，不要让手指畸形，不要出现乱码屏幕文字。

走廊逆光镜头

text

同一位 60 岁女性站在安静走廊尽头，窗外逆光照进来，人物轮廓清晰。
她轻轻转头，看向镜头，嘴唇有自然红色口红，表情平静自信。
景别：近景。
运镜：固定镜头，轻微推进。
光线：柔和逆光，边缘光明显。
情绪：平静、成熟、有力量。
时长：5 秒。
禁止项：不要过度磨皮，不要改变年龄特征，不要让嘴唇和牙齿变形。

9. 第四步：剪辑拼接

视频段都生成完，下一步才是剪辑。

不要一边生成一边随手拼。

建议流程：

text

按镜头编号导入素材。
先粗剪。
再检查衔接点。
再做转场。
再加字幕。
再做音频。
最后调色和导出。

剪辑时先不要配音频。

因为画面时长还会变。

如果你先把旁白卡死，后面每剪一刀都会难受。

10. 转场怎么选

常用逻辑：

场景关系	推荐转场
同场景、景别接近	硬切
同人物、动作延续	硬切或尾帧衔接
跨场景	0.3 到 0.5 秒叠化
情绪转折	闪白或闪黑
明显拼不上	补 2 到 3 秒过渡镜头
产品收尾	淡出转淡入

不要迷信特效转场。

很多 AI 视频越花越廉价。

广告片常常是：

text

硬切最干净。
短叠化最稳。
闪白闪黑只在情绪点用。

如果两段明显接不上，不要靠转场硬遮。

补一个过渡镜头。

比如：

text

手合上口红。
灯光从暗到亮。
走廊门缝逆光。
产品在桌面轻微旋转。

这些 2 到 3 秒的镜头，会让长视频顺很多。

11. 本案例转场分布

可以这样处理：

text

01 -> 02：产品特写硬切。
02 -> 03：口红膏体特写叠化到宿舍嘴唇。
03 -> 04：尾帧衔接，删下一段开头 1 到 2 帧。
04 -> 05：闪黑 0.3 秒，切到职场段。
05 -> 06：硬切，保持洗手间同场景。
06 -> 07：叠化 0.4 秒，切会议室。
07 -> 08：硬切。
08 -> 09：闪黑 0.3 秒，切家居段。
09 -> 10：尾帧衔接。
10 -> 11：叠化 0.5 秒，进入走廊逆光。
11 -> 12：硬切近景。
12 -> 13：闪白 0.2 秒，进入嘴唇汇聚。
13 -> 14：硬切产品色号排列。
14 -> 15：淡出转淡入 0.8 秒，品牌收尾。

这只是参考。

最终还是要看画面。

同一个衔接点，最好导出两个版本对比。

12. 拼接检查清单

每个衔接点检查：

text

[ ] 人物脸是否突然变了
[ ] 口红外形是否变了
[ ] 光线色温是否跳变
[ ] 动作是否重复或断掉
[ ] 开头 1 到 2 帧是否卡顿
[ ] 背景物体是否突然消失
[ ] 是否需要补过渡镜头
[ ] 是否需要简单调色匹配

尤其注意：

text

镜子。
手。
嘴唇。
产品 logo。
屏幕文字。

这些地方最容易穿帮。

13. 第五步：音频处理

画面解决完，最后做音频。

音频分三类：

text

旁白
环境音
背景音乐

如果有人物对白，再加一类：

text

人物对白

四类不要混在一起做。

14. 旁白：整段一次生成

旁白不要按镜头拆成一句一句。

拆段生成会导致：

语速不一致
情绪不一致
音色有细微变化
拼接处有接缝

正确做法：

text

先写完整旁白文案。
用同一个音色一次生成。
导入剪辑软件。
按画面逐句切分和对齐。

注意：

text

剪音频对画面。
不要为了旁白硬改画面节奏。

广告画面节奏比旁白更重要。

如果旁白太长，改文案。

不要把画面拖长。

15. 本案例旁白文案示例

可以这样写：

text

有些话，年轻时不敢说。

有些话，工作以后不能乱说。

有些话，等了很多年，才终于说出口。

一支口红，不会替你表达。

但它可以提醒你：

今天，你可以开口。

涂上它。

然后开口。

这段不长。

但留白够。

适合 100 秒左右广告。

如果画面更商业，可以加一句行动号召：

text

找到属于你的那一抹颜色。

但不要太像带货口播。

16. 人物对白怎么处理

如果人物有对白，最好也整段生成。

但要注意：

text

AI 视频口型对嘴目前仍然不稳定。

要求不高，可以接受轻微不贴。

要求高，有两条路：

第一，真人配音。

第二，先自己录一遍原声，把情绪节奏录准，再用变声或 voice conversion 替换音色。

不要让视频模型同时承担：

text

好看画面 + 稳定人物 + 精准口型 + 完整对白 + 广告节奏。

任务太多，它会崩。

17. 环境音怎么做

环境音按场景分开。

不要全片套一段环境音。

本案例可以这样分：

场景	环境音
宿舍	轻微键盘声、房间底噪
洗手间	轻微水声、空间反射
会议室	空调低频、远处纸张声
梳妆台	室内安静底噪、轻微物品声
走廊	远处城市低频、柔和空间声

如果 Sora2 生成的视频自带声音，先听能不能用。

能用就保留低音量。

不能用就静音，后期单独铺环境音。

18. 背景音乐怎么压

混音层级：

text

旁白 > 人物对白 > 环境音 > 背景音乐

背景音乐不要抢。

建议：

text

背景音乐音量不超过旁白的 30%。

品牌广告可以用：

钢琴
轻弦乐
低频氛围
慢速电子铺底

不要用太强节奏的音乐。

否则会把细腻情绪打碎。

19. 第六步：调色和统一质感

AI 视频拼接后，最大的问题是：

text

每段颜色都不太一样。

调色目标不是做炫。

而是统一。

建议先统一三件事：

text

曝光
白平衡
对比度

再做整体风格：

text

轻微暖色
低饱和
柔和高光
肤色自然
产品红色略突出

不要每个场景都调成完全一样。

宿舍可以暖一点。

洗手间可以冷一点。

会议室可以更硬。

梳妆台可以柔。

走廊可以逆光。

但整体品牌质感要统一。

20. 4SAPI 成本治理怎么做

长视频最大的问题不是单次调用。

而是大量试错。

你会生成很多废片。

所以要记录成本。

建议按镜头建表：

text

镜头编号
模型
秒数
尺寸
参考图
生成次数
可用次数
废片原因
最终采用文件
估算成本

4SAPI 的个人接口文档里有日志和统计相关能力，比如查看个人使用日志、令牌每日消耗、令牌模型消耗等。

这些适合用来回答三个问题：

text

哪个镜头烧钱最多？
哪个模型失败率最高？
哪个阶段应该降质量试错？

试错阶段建议：

text

先低秒数。
先低分辨率。
先验证动作。
动作可行后再提高质量。

不要一上来所有镜头都高规格生成。

21. 一个更稳的试错策略

推荐三轮制。

第一轮：动作验证

text

每个镜头 4 秒。
低规格。
只看动作是否成立。

这轮不要纠结画质。

只看：

人是否动对
产品是否变形
镜头是否乱转
情绪是否对

第二轮：关键镜头重做

text

只重做重要镜头。
时长拉到 6 到 8 秒。
换更准确参考图。
补充禁止项。

重点修：

嘴唇特写
产品特写
角色近景
情绪转折镜头

第三轮：最终生成

text

提高尺寸。
统一输出格式。
锁定最终 prompt。
记录最终版本。

不要每个镜头都无限重试。

给自己一个上限：

text

普通镜头最多试 3 次。
关键镜头最多试 6 次。
超过还不行，改分镜。

很多时候不是模型不行。

是镜头设计太难。

22. 常见问题 1：人物总是变脸怎么办？

先检查资产。

人物参考图是否足够？

只有一张正脸，肯定不够。

建议补：

三视图
半身图
表情组
服装细节
同场景中景图

提示词里要写：

text

保持参考图中同一人物的脸型、发型、年龄、服装和配饰，不要改变人物身份。

但也要接受现实：

text

AI 视频里人物完全一致仍然很难。

不要让同一个人物在一个镜头里做太复杂动作。

23. 常见问题 2：口红总变形怎么办？

产品图不够。

补：

正面
侧面
45 度
旋开
使用状态

视频提示词里写：

text

保持口红为玫瑰金圆柱形外壳，膏体为砖红色，比例真实。不要变成笔，不要变成刷子，不要改变颜色。

如果还不稳，产品展示镜头用更保守方式：

text

少动作。
少旋转。
固定机位。
轻微推近。

产品镜头越复杂，越容易坏。

24. 常见问题 3：镜头接不上怎么办？

不要硬接。

三种办法：

text

尾帧衔接。
补过渡镜头。
换转场逻辑。

如果人物动作接不上，可以补：

text

手部特写。
产品特写。
环境空镜。
门缝光线。
镜子反射。

空镜是长视频救命工具。

它能让剪辑有呼吸，也能隐藏生成缺陷。

25. 常见问题 4：字幕和 logo 乱码怎么办？

不要让视频模型生成重要文字。

重要文字后期加。

包括：

品牌名
slogan
价格
活动信息
官网
CTA

Image2 可以生成干净背景或产品收尾图。

但最终文字建议用剪辑软件或设计软件加。

尤其是中文。

不要赌模型。

26. 常见问题 5：Sora2 生成慢怎么办？

视频生成本来就是异步任务。

处理方式：

text

先批量提交低规格任务。
用任务状态接口轮询。
失败任务单独记录。
不要一个镜头等完再做下一个。

但也不要无脑并发。

高并发会带来：

成本失控
失败率上升
日志难追
人工筛选压力变大

建议：

text

每次并发 3 到 5 个镜头。
先筛选，再进入下一轮。

27. 可以直接复制的分镜表模板

markdown

| 镜头 | 场景 | 主体 | 动作 | 景别 | 运镜 | 情绪 | 秒数 | 参考图 | 生成方式 | 备注 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| 01 | 白色棚拍 | 口红 | 缓慢旋转 | 特写 | 固定轻推 | 高级、干净 | 5 | product_45_01.png | 参考图 | 禁止文字 |
| 02 | 宿舍 | 20岁女生 | 涂口红 | 中近景 | 固定轻推 | 紧张、期待 | 7 | char20_half.png | 图生视频 | 注意手指 |

28. 可以直接复制的 Sora2 负面提示

text

禁止改变人物长相。
禁止改变人物年龄。
禁止改变服装和配饰。
禁止改变口红外形和颜色。
禁止多手指、断手、畸形手。
禁止嘴唇和牙齿变形。
禁止出现乱码文字。
禁止新增真实品牌 logo。
禁止镜头快速晃动。
禁止突然切换场景。
禁止过度磨皮。
禁止画面风格从写实变成插画。

不要把负面提示写得像垃圾桶。

每个镜头只放相关的禁止项。

比如产品镜头重点禁止产品变形。

人物镜头重点禁止变脸和手指问题。

29. 一条完整工作流回顾

最后把流程串起来：

text

1. 写广告 brief
2. 确定叙事结构
3. 用 Image2 生成人物资产
4. 用 Image2 生成场景资产
5. 用 Image2 生成产品资产
6. 确定旁白音色
7. 拆 10 到 20 个镜头
8. 每个镜头写清景别、动作、运镜、情绪、时长、说话情况
9. 用 Sora2 分段生成视频
10. 需要连续的镜头用尾帧衔接
11. 剪辑软件粗剪
12. 检查每个衔接点
13. 补过渡镜头
14. 整段生成旁白
15. 分场景铺环境音
16. 加背景音乐
17. 调色统一质感
18. 加字幕、品牌名和 CTA
19. 导出测试版
20. 记录成本和失败镜头

这就是 AI 长视频的真实生产方式。

没有一键生成。

但流程可控。

30. 合规和版权提醒

做品牌广告尤其要注意：

text

不要未经授权使用真实品牌 logo。
不要生成真实名人代言。
不要冒充真人拍摄。
不要用 AI 生成内容误导消费者。
不要夸大产品效果。
不要生成涉及身体焦虑、年龄歧视、性别歧视的表达。

美妆类广告还要注意：

色号效果不能过度虚假
妆效不能承诺绝对结果
不要暗示产品能改变医学意义上的皮肤问题
前后对比要谨慎
投放前要人工审查文案和画面

AI 可以帮你生成素材。

但商业发布责任仍然在人。

31. 最后总结

用 Image2 + 4SAPI Sora2 做长视频，核心不是“让模型一次生成更长”。

核心是：

text

先把长视频拆成短镜头。
先把资产做统一。
再用 Sora2 分段生成。
靠尾帧、转场、音频和调色把它们连起来。

如果你只记住一件事：

text

长视频不是拉长，是拆短。

个人创作者可以先用这套方法做 30 秒到 60 秒短片。

团队可以把它升级成标准产线：

text

资产库
分镜表
Prompt 记录
视频任务队列
成本统计
人工审核
剪辑模板

4SAPI 适合放在模型调用层：

text

gpt-image-2 负责图片资产。
sora-2 负责视频片段。
日志和统计负责成本治理。

当这套流程跑通后，你做的不再是一段段随机生成的视频。

而是一条可复用的 AI 广告生产线。

资料来源与延伸阅读

4SAPI 文档：图片生成（gpt-image-2） https://4sapi.apifox.cn/447631659e0
4SAPI 文档：图像编辑（gpt-image-2） https://4sapi.apifox.cn/448573555e0
4SAPI 文档：创建视频任务（Sora） https://4sapi.apifox.cn/420227569e0
4SAPI 文档：获取视频任务状态 https://4sapi.apifox.cn/420227570e0
4SAPI 文档：获取用户分组 https://4sapi.apifox.cn/431006249e0
4SAPI 官网：https://4sapi.com/

1. 4SAPI 接入前先准备什么

第一，API Key

第二，确认模型和分组

第三，准备素材目录

第四，准备提示词记录表

2. 第三步：分镜生视频

3. 方式一：纯提示词

4. 方式二：参考图图生视频

5. 方式三：尾帧衔接

6. 方式四：故事板/多关键帧

7. Sora2 提示词模板

8. 本案例几个镜头怎么写

宿舍直播镜头

洗手间补妆镜头

会议室镜头

走廊逆光镜头

9. 第四步：剪辑拼接

10. 转场怎么选

11. 本案例转场分布

12. 拼接检查清单

13. 第五步：音频处理

14. 旁白：整段一次生成

15. 本案例旁白文案示例

16. 人物对白怎么处理

17. 环境音怎么做

18. 背景音乐怎么压

19. 第六步：调色和统一质感

20. 4SAPI 成本治理怎么做

21. 一个更稳的试错策略

第一轮：动作验证

第二轮：关键镜头重做

第三轮：最终生成

22. 常见问题 1：人物总是变脸怎么办？

23. 常见问题 2：口红总变形怎么办？

24. 常见问题 3：镜头接不上怎么办？

25. 常见问题 4：字幕和 logo 乱码怎么办？

26. 常见问题 5：Sora2 生成慢怎么办？

27. 可以直接复制的分镜表模板

28. 可以直接复制的 Sora2 负面提示

29. 一条完整工作流回顾

30. 合规和版权提醒

31. 最后总结

资料来源与延伸阅读

推荐阅读

EverOS永久记忆 | 30分钟让Agent不失忆

reverse-skill安全路由 | Agent少猜命令多干活

Claude Sonnet 5 Agent编码测评 | Claude Code企业工作流

Claude Project工作台 | 不再从零开始