返回博客

Sora2长视频成片 | 短镜头拼成广告

人工智能6142
Sora2长视频成片 | 短镜头拼成广告

title: " Sora2长视频成片 | 短镜头拼成广告" category: 人工智能 tags:


上一篇我们讲了 AI 长视频的前半段:

text
先别急着生成视频。
先用 Image2 把人物、场景、产品、音色和分镜表做稳。

这一篇进入后半段。

现在你已经有:

接下来要做的是:

text
用 4SAPI Sora2 把每个分镜生成短视频。
再用剪辑、音频和调色把它们拼成完整广告。

这里仍然要记住一句话:

text
长视频不是拉长,是拆短后拼稳。

1. 4SAPI 接入前先准备什么

用 API 做视频前,先准备四件事。

第一,API Key

4SAPI 调用需要在请求头里带 Authorization。

文档里的视频接口示例大致是:

bash
curl --location 'https://4sapi.com/v1/videos' \
  --header 'Authorization: Bearer <你的令牌>' \
  --form 'model="sora-2"' \
  --form 'prompt="画面动起来"' \
  --form 'seconds="4"' \
  --form 'input_reference="file:///path/to/reference.png"' \
  --form 'size="1280x720"'

实际生产里不要把 Key 写进脚本。

放环境变量:

powershell
$env:FOURSAPI_KEY="你的令牌"

或者:

bash
export FOURSAPI_KEY="你的令牌"

第二,确认模型和分组

建议先查可用模型和用户分组。

4SAPI 文档里有:

text
GET https://4sapi.com/api/user/models
GET https://4sapi.com/api/user/groups

用户分组示例里能看到:

json
"sora2": {
  "desc": "sora视频生成",
  "ratio": 1
}

这说明后台分组层面有 Sora 视频生成能力。

具体调用时,视频任务示例使用:

text
model="sora-2"

以你账号后台和最新文档为准。

第三,准备素材目录

建议每个广告项目单独建目录:

text
lipstick-ad/
  00_brief/
    brand.md
    story.md
    script.md
  01_assets/
    characters/
    scenes/
    product/
    logo/
  02_storyboard/
    shot-list.md
    keyframes/
  03_video/
    raw/
    selected/
    tailframes/
  04_audio/
    voiceover/
    dialogue/
    music/
    ambience/
  05_edit/
    project/
    exports/
  06_logs/
    prompts.md
    cost.md
    rejects.md

不要把所有图片和视频都丢在桌面。

AI 视频项目最怕素材混乱。

第四,准备提示词记录表

每次生成都记录:

text
镜头编号
模型
参考图
提示词
负面提示
尺寸
秒数
结果链接
是否可用
问题
重试次数

后面你会感谢这张表。

因为长视频一定会反复试。

不记录,第二天你根本不知道哪条 prompt 出过好结果。

2. 第三步:分镜生视频

分镜生视频不要所有镜头都用一种方式。

按镜头类型选。

这里推荐三种方式:

text
纯提示词
参考图图生视频
尾帧衔接

再加一个进阶:

text
故事板/多关键帧

不同镜头用不同策略。

3. 方式一:纯提示词

适合:

提示词结构:

text
主体 + 行为 + 景别 + 运镜 + 光线 + 风格约束 + 禁止项

例子:

text
一支玫瑰金高端口红在白色背景中缓慢旋转,产品特写,镜头固定,轻微推近。
光线为柔和棚拍光,底部有轻微反射,画面干净,高端美妆广告风格。
口红外壳保持圆柱形,膏体比例真实,包装不要变形。
禁止出现多支口红,禁止出现手,禁止出现错误文字,禁止出现真实品牌 logo。

这个镜头不需要人物连续性。

纯提示词就能做。

但如果有产品参考图,仍然建议带上。

4. 方式二:参考图图生视频

适合:

4SAPI Sora2 视频任务示例支持 input_reference

你可以把 Image2 生成的参考图作为输入,再配提示词生成短视频。

示例逻辑:

bash
curl --location 'https://4sapi.com/v1/videos' \
  --header "Authorization: Bearer $FOURSAPI_KEY" \
  --form 'model="sora-2"' \
  --form 'prompt="同一位20岁女生坐在宿舍桌前,拿起玫瑰金口红,轻轻涂在嘴唇上。镜头为中近景,固定镜头轻微推近,情绪紧张但期待。保持人物长相、服装、宿舍光线和参考图一致。禁止改变口红外形,禁止多手指,禁止跳帧。"' \
  --form 'seconds="6"' \
  --form 'input_reference="file:///path/to/character_20_halfbody.png"' \
  --form 'size="1280x720"'

实际调用时,input_reference 的上传方式以 4SAPI 当前文档为准。

如果文档要求上传文件,就不要硬写本地路径。

如果要求可访问 URL,就先把图片转成可访问资源。

这一点每个渠道可能不一样,别凭感觉写。

5. 方式三:尾帧衔接

适合:

操作流程:

text
生成上一段视频。
导入剪辑软件。
统一导出一次。
截取导出后最后一帧。
把这张尾帧作为下一段参考图。
生成下一段。
拼接时删掉下一段开头 1 到 2 帧。

为什么要“导出一次”?

因为直接截模型原始视频尾帧,可能和剪辑工程里的编码、色彩空间不一致。

用剪辑软件导出后再截尾帧,能减少衔接处色差和跳变。

这一步很烦。

但很值。

长视频的顺滑感,大部分靠这种细节。

6. 方式四:故事板/多关键帧

适合:

比如镜头 13:

text
四个年龄段女性的嘴唇特写快速汇聚。
每个镜头只有 1 到 2 秒。
重点是不同唇色、不同年龄质感、同一个品牌情绪。

这类镜头不一定要做动作连续。

可以先用 Image2 出一组关键帧:

text
20 岁嘴唇特写
30 岁嘴唇特写
45 岁嘴唇特写
60 岁嘴唇特写
口红膏体特写
品牌收尾图

再分别做轻动效。

最后靠剪辑快切。

不要强行让一个视频模型一次完成所有复杂变化。

7. Sora2 提示词模板

你可以直接用这个结构:

text
镜头编号:

参考图:
[人物 / 场景 / 产品]

主体:
[谁 / 什么产品]

动作:
[只写一个主要动作]

景别:
[全景 / 中景 / 近景 / 特写]

运镜:
[固定 / 轻微推进 / 拉远 / 跟拍 / 横移]

光线:
[柔和棚拍光 / 冷色洗手间顶光 / 逆光 / 暖色台灯]

情绪:
[紧张 / 克制 / 坚定 / 温柔 / 平静]

时长:
[4-8 秒]

一致性要求:
[保持人物长相、服装、产品外形、场景光线一致]

禁止项:
[不要多手指、不要变脸、不要改变口红颜色、不要新增文字、不要镜头乱转]

关键是:

text
动作越少越好。
禁止项越具体越好。

不要让一个镜头里同时发生:

text
走进房间、坐下、拿起口红、涂口红、看镜子、开口讲话。

模型会崩。

拆开。

8. 本案例几个镜头怎么写

宿舍直播镜头

text
同一位 20 岁女生坐在宿舍桌前,参考图中的发型、服装和脸型保持一致。
她拿起玫瑰金口红,轻轻涂在嘴唇上,然后短暂停顿。
景别:中近景。
运镜:固定镜头,轻微推近。
光线:宿舍台灯和电脑屏幕的柔和混合光。
情绪:紧张、期待、准备开口。
时长:7 秒。
禁止项:不要改变人物长相,不要让口红变成笔,不要多手指,不要出现错误文字,不要镜头快速晃动。

洗手间补妆镜头

text
同一位 30 岁职场女性站在现代写字楼洗手间镜子前,参考图中的米白色西装和短发保持一致。
她轻轻补口红,看向镜子,表情从疲惫变得坚定。
景别:中近景。
运镜:固定镜头,轻微推进。
光线:冷色顶光,镜面反射柔和。
情绪:克制、恢复状态。
时长:7 秒。
禁止项:不要改变服装颜色,不要让镜子里出现第二张不同的脸,不要改变口红外形。

会议室镜头

text
同一位 35 岁女性坐在会议室长桌一侧,桌上有一支玫瑰金口红。
她把口红轻轻放下,抬头看向会议桌对面,准备发言。
景别:中景。
运镜:固定镜头,轻微推近。
光线:冷色会议室灯光,玻璃墙背景。
情绪:克制、坚定、有压迫感。
时长:6 秒。
禁止项:不要新增无关人物,不要让口红变形,不要让手指畸形,不要出现乱码屏幕文字。

走廊逆光镜头

text
同一位 60 岁女性站在安静走廊尽头,窗外逆光照进来,人物轮廓清晰。
她轻轻转头,看向镜头,嘴唇有自然红色口红,表情平静自信。
景别:近景。
运镜:固定镜头,轻微推进。
光线:柔和逆光,边缘光明显。
情绪:平静、成熟、有力量。
时长:5 秒。
禁止项:不要过度磨皮,不要改变年龄特征,不要让嘴唇和牙齿变形。

9. 第四步:剪辑拼接

视频段都生成完,下一步才是剪辑。

不要一边生成一边随手拼。

建议流程:

text
按镜头编号导入素材。
先粗剪。
再检查衔接点。
再做转场。
再加字幕。
再做音频。
最后调色和导出。

剪辑时先不要配音频。

因为画面时长还会变。

如果你先把旁白卡死,后面每剪一刀都会难受。

10. 转场怎么选

常用逻辑:

场景关系推荐转场
同场景、景别接近硬切
同人物、动作延续硬切或尾帧衔接
跨场景0.3 到 0.5 秒叠化
情绪转折闪白或闪黑
明显拼不上补 2 到 3 秒过渡镜头
产品收尾淡出转淡入

不要迷信特效转场。

很多 AI 视频越花越廉价。

广告片常常是:

text
硬切最干净。
短叠化最稳。
闪白闪黑只在情绪点用。

如果两段明显接不上,不要靠转场硬遮。

补一个过渡镜头。

比如:

text
手合上口红。
灯光从暗到亮。
走廊门缝逆光。
产品在桌面轻微旋转。

这些 2 到 3 秒的镜头,会让长视频顺很多。

11. 本案例转场分布

可以这样处理:

text
01 -> 02:产品特写硬切。
02 -> 03:口红膏体特写叠化到宿舍嘴唇。
03 -> 04:尾帧衔接,删下一段开头 1 到 2 帧。
04 -> 05:闪黑 0.3 秒,切到职场段。
05 -> 06:硬切,保持洗手间同场景。
06 -> 07:叠化 0.4 秒,切会议室。
07 -> 08:硬切。
08 -> 09:闪黑 0.3 秒,切家居段。
09 -> 10:尾帧衔接。
10 -> 11:叠化 0.5 秒,进入走廊逆光。
11 -> 12:硬切近景。
12 -> 13:闪白 0.2 秒,进入嘴唇汇聚。
13 -> 14:硬切产品色号排列。
14 -> 15:淡出转淡入 0.8 秒,品牌收尾。

这只是参考。

最终还是要看画面。

同一个衔接点,最好导出两个版本对比。

12. 拼接检查清单

每个衔接点检查:

text
[ ] 人物脸是否突然变了
[ ] 口红外形是否变了
[ ] 光线色温是否跳变
[ ] 动作是否重复或断掉
[ ] 开头 1 到 2 帧是否卡顿
[ ] 背景物体是否突然消失
[ ] 是否需要补过渡镜头
[ ] 是否需要简单调色匹配

尤其注意:

text
镜子。
手。
嘴唇。
产品 logo。
屏幕文字。

这些地方最容易穿帮。

13. 第五步:音频处理

画面解决完,最后做音频。

音频分三类:

text
旁白
环境音
背景音乐

如果有人物对白,再加一类:

text
人物对白

四类不要混在一起做。

14. 旁白:整段一次生成

旁白不要按镜头拆成一句一句。

拆段生成会导致:

正确做法:

text
先写完整旁白文案。
用同一个音色一次生成。
导入剪辑软件。
按画面逐句切分和对齐。

注意:

text
剪音频对画面。
不要为了旁白硬改画面节奏。

广告画面节奏比旁白更重要。

如果旁白太长,改文案。

不要把画面拖长。

15. 本案例旁白文案示例

可以这样写:

text
有些话,年轻时不敢说。

有些话,工作以后不能乱说。

有些话,等了很多年,才终于说出口。

一支口红,不会替你表达。

但它可以提醒你:

今天,你可以开口。

涂上它。

然后开口。

这段不长。

但留白够。

适合 100 秒左右广告。

如果画面更商业,可以加一句行动号召:

text
找到属于你的那一抹颜色。

但不要太像带货口播。

16. 人物对白怎么处理

如果人物有对白,最好也整段生成。

但要注意:

text
AI 视频口型对嘴目前仍然不稳定。

要求不高,可以接受轻微不贴。

要求高,有两条路:

第一,真人配音。

第二,先自己录一遍原声,把情绪节奏录准,再用变声或 voice conversion 替换音色。

不要让视频模型同时承担:

text
好看画面 + 稳定人物 + 精准口型 + 完整对白 + 广告节奏。

任务太多,它会崩。

17. 环境音怎么做

环境音按场景分开。

不要全片套一段环境音。

本案例可以这样分:

场景环境音
宿舍轻微键盘声、房间底噪
洗手间轻微水声、空间反射
会议室空调低频、远处纸张声
梳妆台室内安静底噪、轻微物品声
走廊远处城市低频、柔和空间声

如果 Sora2 生成的视频自带声音,先听能不能用。

能用就保留低音量。

不能用就静音,后期单独铺环境音。

18. 背景音乐怎么压

混音层级:

text
旁白 > 人物对白 > 环境音 > 背景音乐

背景音乐不要抢。

建议:

text
背景音乐音量不超过旁白的 30%。

品牌广告可以用:

不要用太强节奏的音乐。

否则会把细腻情绪打碎。

19. 第六步:调色和统一质感

AI 视频拼接后,最大的问题是:

text
每段颜色都不太一样。

调色目标不是做炫。

而是统一。

建议先统一三件事:

text
曝光
白平衡
对比度

再做整体风格:

text
轻微暖色
低饱和
柔和高光
肤色自然
产品红色略突出

不要每个场景都调成完全一样。

宿舍可以暖一点。

洗手间可以冷一点。

会议室可以更硬。

梳妆台可以柔。

走廊可以逆光。

但整体品牌质感要统一。

20. 4SAPI 成本治理怎么做

长视频最大的问题不是单次调用。

而是大量试错。

你会生成很多废片。

所以要记录成本。

建议按镜头建表:

text
镜头编号
模型
秒数
尺寸
参考图
生成次数
可用次数
废片原因
最终采用文件
估算成本

4SAPI 的个人接口文档里有日志和统计相关能力,比如查看个人使用日志、令牌每日消耗、令牌模型消耗等。

这些适合用来回答三个问题:

text
哪个镜头烧钱最多?
哪个模型失败率最高?
哪个阶段应该降质量试错?

试错阶段建议:

text
先低秒数。
先低分辨率。
先验证动作。
动作可行后再提高质量。

不要一上来所有镜头都高规格生成。

21. 一个更稳的试错策略

推荐三轮制。

第一轮:动作验证

text
每个镜头 4 秒。
低规格。
只看动作是否成立。

这轮不要纠结画质。

只看:

第二轮:关键镜头重做

text
只重做重要镜头。
时长拉到 6 到 8 秒。
换更准确参考图。
补充禁止项。

重点修:

第三轮:最终生成

text
提高尺寸。
统一输出格式。
锁定最终 prompt。
记录最终版本。

不要每个镜头都无限重试。

给自己一个上限:

text
普通镜头最多试 3 次。
关键镜头最多试 6 次。
超过还不行,改分镜。

很多时候不是模型不行。

是镜头设计太难。

22. 常见问题 1:人物总是变脸怎么办?

先检查资产。

人物参考图是否足够?

只有一张正脸,肯定不够。

建议补:

提示词里要写:

text
保持参考图中同一人物的脸型、发型、年龄、服装和配饰,不要改变人物身份。

但也要接受现实:

text
AI 视频里人物完全一致仍然很难。

不要让同一个人物在一个镜头里做太复杂动作。

23. 常见问题 2:口红总变形怎么办?

产品图不够。

补:

视频提示词里写:

text
保持口红为玫瑰金圆柱形外壳,膏体为砖红色,比例真实。不要变成笔,不要变成刷子,不要改变颜色。

如果还不稳,产品展示镜头用更保守方式:

text
少动作。
少旋转。
固定机位。
轻微推近。

产品镜头越复杂,越容易坏。

24. 常见问题 3:镜头接不上怎么办?

不要硬接。

三种办法:

text
尾帧衔接。
补过渡镜头。
换转场逻辑。

如果人物动作接不上,可以补:

text
手部特写。
产品特写。
环境空镜。
门缝光线。
镜子反射。

空镜是长视频救命工具。

它能让剪辑有呼吸,也能隐藏生成缺陷。

25. 常见问题 4:字幕和 logo 乱码怎么办?

不要让视频模型生成重要文字。

重要文字后期加。

包括:

Image2 可以生成干净背景或产品收尾图。

但最终文字建议用剪辑软件或设计软件加。

尤其是中文。

不要赌模型。

26. 常见问题 5:Sora2 生成慢怎么办?

视频生成本来就是异步任务。

处理方式:

text
先批量提交低规格任务。
用任务状态接口轮询。
失败任务单独记录。
不要一个镜头等完再做下一个。

但也不要无脑并发。

高并发会带来:

建议:

text
每次并发 3 到 5 个镜头。
先筛选,再进入下一轮。

27. 可以直接复制的分镜表模板

markdown
| 镜头 | 场景 | 主体 | 动作 | 景别 | 运镜 | 情绪 | 秒数 | 参考图 | 生成方式 | 备注 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| 01 | 白色棚拍 | 口红 | 缓慢旋转 | 特写 | 固定轻推 | 高级、干净 | 5 | product_45_01.png | 参考图 | 禁止文字 |
| 02 | 宿舍 | 20岁女生 | 涂口红 | 中近景 | 固定轻推 | 紧张、期待 | 7 | char20_half.png | 图生视频 | 注意手指 |

28. 可以直接复制的 Sora2 负面提示

text
禁止改变人物长相。
禁止改变人物年龄。
禁止改变服装和配饰。
禁止改变口红外形和颜色。
禁止多手指、断手、畸形手。
禁止嘴唇和牙齿变形。
禁止出现乱码文字。
禁止新增真实品牌 logo。
禁止镜头快速晃动。
禁止突然切换场景。
禁止过度磨皮。
禁止画面风格从写实变成插画。

不要把负面提示写得像垃圾桶。

每个镜头只放相关的禁止项。

比如产品镜头重点禁止产品变形。

人物镜头重点禁止变脸和手指问题。

29. 一条完整工作流回顾

最后把流程串起来:

text
1. 写广告 brief
2. 确定叙事结构
3. 用 Image2 生成人物资产
4. 用 Image2 生成场景资产
5. 用 Image2 生成产品资产
6. 确定旁白音色
7. 拆 10 到 20 个镜头
8. 每个镜头写清景别、动作、运镜、情绪、时长、说话情况
9. 用 Sora2 分段生成视频
10. 需要连续的镜头用尾帧衔接
11. 剪辑软件粗剪
12. 检查每个衔接点
13. 补过渡镜头
14. 整段生成旁白
15. 分场景铺环境音
16. 加背景音乐
17. 调色统一质感
18. 加字幕、品牌名和 CTA
19. 导出测试版
20. 记录成本和失败镜头

这就是 AI 长视频的真实生产方式。

没有一键生成。

但流程可控。

30. 合规和版权提醒

做品牌广告尤其要注意:

text
不要未经授权使用真实品牌 logo。
不要生成真实名人代言。
不要冒充真人拍摄。
不要用 AI 生成内容误导消费者。
不要夸大产品效果。
不要生成涉及身体焦虑、年龄歧视、性别歧视的表达。

美妆类广告还要注意:

AI 可以帮你生成素材。

但商业发布责任仍然在人。

31. 最后总结

用 Image2 + 4SAPI Sora2 做长视频,核心不是“让模型一次生成更长”。

核心是:

text
先把长视频拆成短镜头。
先把资产做统一。
再用 Sora2 分段生成。
靠尾帧、转场、音频和调色把它们连起来。

如果你只记住一件事:

text
长视频不是拉长,是拆短。

个人创作者可以先用这套方法做 30 秒到 60 秒短片。

团队可以把它升级成标准产线:

text
资产库
分镜表
Prompt 记录
视频任务队列
成本统计
人工审核
剪辑模板

4SAPI 适合放在模型调用层:

text
gpt-image-2 负责图片资产。
sora-2 负责视频片段。
日志和统计负责成本治理。

当这套流程跑通后,你做的不再是一段段随机生成的视频。

而是一条可复用的 AI 广告生产线。

资料来源与延伸阅读

标签:大模型API中转站Sora2Image2AI视频视频剪辑4SAPI

推荐阅读

探索更多前沿洞察与行业干货。