
拍短片、剪 vlog、做广告 TVC,正式开拍前都绕不开「分镜」这一步:把整个片子拆成一格一格的画面,标好镜头、动作、转场和音效,团队照着拍就行。传统做法要么手绘、要么在专业软件里一格格摆,门槛高、迭代慢。
这两年用图像生成模型做内容时,我摸索出一个更省事的思路:把故事概念写成一段结构化提示词,让模型一次生成一整张带网格的分镜图——每一格都有画面、景别和说明文字,拿到就能直接进组沟通。
本文用 GPT-Image-2 演示从「写脚本」到「出分镜」的完整流程,重点是提示词怎么写,全程不需要绘画基础。
核心是把模糊的「我想要个分镜」翻译成模型能执行的结构。直接看模板,把里面的故事概念换成你自己的:
根据下面的故事概念,生成一张 16:9 的分镜图(storyboard),按 3 列 x 3 行共 9 格排列:
故事概念:一个深夜加班的程序员,遇到一只会说话的橘猫,两人一起把 bug 修好。
整体风格:温暖治愈的 3D 动画质感,柔和夜色灯光,参考皮克斯短片。
每一格请清楚标注:
- 镜头景别(全景 / 中景 / 特写)
- 角色动作
- 画面推进 / 转场
- 音效或配乐提示
底部加一条信息栏:角色设定、整体情绪基调、每格时间码(约 1.5 秒)。写分镜提示词,记住这 5 个字段就够了:
这 5 段式结构能成立,关键在于第 3 点——逐格写「镜头 + 动作 + 音效」三件套。模型一旦读到这种分镜语言,就会按分镜逻辑去排版,而不是画成一张普通插画。
分镜图的可读性,一半取决于参数:
16:9;竖屏短视频、小红书选 9:16;2K,每一格里的小字(景别、时间码)才看得清;要打印贴在拍摄现场就选 4K;写提示词时有两个容易踩的坑:
AI 生成需要一点运气:偶尔某一格的文字会有偏差,或者某个镜头不是你想要的。我的迭代策略是:
一个反复验证的小经验:分镜任务越「克制」越稳。一次只改一格、一件事,比一口气提一堆要求的成功率高得多。
生成专业分镜,本质就两步:
把上面那段提示词存成模板,每次只改「故事概念」和「整体风格」两个字段就能复用。不同题材都能套:
提示词工程在图像生成里其实和写代码很像——把需求结构化、约束写清楚、小步迭代,产出就稳定。希望这套五段式模板对你做内容有帮助。
文中演示使用的是 Image-2.net。同类支持中文提示词、可设定比例/清晰度的图像模型,方法论是通用的,换个工具一样适用。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。