用 Start + End Frames 写出更好的 AI 视频生成提示词
这篇新手指南会教你在 DojoClip 的 AI 视频生成中,使用开始帧和结束帧时该如何写出更强的提示词,包括思路、公式、错误示例和可直接测试的 prompt。
很多新手第一次用 开始帧 + 结束帧 做 AI 视频时,写提示词会像在写一整支预告片。
这通常不是最有效的方式。
在 DojoClip AI Video Generation 的 Start + End Frames 模式里,更好的思路是像导演一样,给模型一段短而明确的调度说明:
- 什么要动?
- 镜头怎么动?
- 第一张图和最后一张图之间要发生什么变化?
- 这种变化应该带来什么气氛?
这就是这篇文章的核心。
在 DojoClip 中,Start frame 是必填,End frame 是可选。如果你同时上传两张图,模型会尝试生成从 A 到 B 的过渡运动。如果你只上传开始帧,它会从那一张图往外扩展动作。
所以,提示词的任务不是把图片里已经看得见的内容再说一遍。提示词真正要做的是:描述这两张图之间的运动。
先用最简单的方式理解这个模式
你可以把两张图理解成:
- Start frame = 开场镜头
- End frame = 落点镜头
而把提示词理解成:
- 两者之间发生的动作和镜头变化
很多人会卡在这里。他们上传了开始帧和结束帧,却在 prompt 里重新描述人物、背景、服装、灯光、风格,甚至把整段故事都写进去。
这样通常会太散。
更强的提示词,通常只抓住 5 件事:
- 镜头运动
- 主体动作
- 环境运动
- 情绪 / 影像气质
- 镜头如何落到结束帧
只要把这 5 点写清楚,结果通常就会明显更稳。
一个很重要的原则:写“运动”,不要写“物品清单”
当你已经上传图片时,图片本身已经告诉模型很多信息:
- 谁在画面里
- 场景长什么样
- 大概是什么视觉风格
这意味着,你不需要把可见内容逐项重新报一遍。
弱的例子:
一个黑色长发、穿红色外套的女人站在有雨的夜晚霓虹街道上,地面有蓝色和粉色反光,画面真实、细致、电影感很强。
为什么弱:
- 它主要还是静态描述
- 没有明确说视频里要发生什么
- 没有指出从起点到终点怎么走
更好的写法:
Slow push-in as the subject lifts her gaze and begins walking forward. Rain ripples across the pavement, passing cars cast moving reflections, and the neon glow intensifies slightly as the shot transitions toward a more intimate close-up.
为什么更强:
- 它告诉了镜头怎么动
- 它告诉了人物怎么动
- 它告诉了环境怎么动
- 它给出了明确的过渡方向
这才是 Start + End Frames 模式下 prompt 应该做的事。
一个适合新手的提示词公式
如果你不知道怎么写,可以直接用这个结构:
[camera move] + [subject action] + [environment motion] + [mood/style] + [how the shot arrives at the ending frame]
一个很好用的模板:
Slow [camera move] as [subject action]. [Environment motion] adds life to the scene. The overall feeling is [tone words]. The shot resolves naturally into the ending frame.
这些部分可以这样想:
- 镜头运动: slow dolly in, gentle pan right, low-angle push forward, locked shot
- 主体动作: turns toward camera, takes one step forward, lifts the bottle, opens the letter
- 环境运动: curtains move in the wind, dust floats in sunlight, water ripples, traffic lights flicker
- 情绪词: calm, tense, dreamy, premium, intimate, nostalgic
你不需要把所有细节都写进去。你只需要写对的细节。
怎么选更好的开始帧和结束帧
再好的 prompt,也很难完全救回一组不匹配的输入图。
好的开始帧和结束帧通常有这些共同点:
- 是同一个主体
- 视觉风格一致
- 光线逻辑相近
- 姿态、景别或情绪上有可信的变化
常见的好组合:
- 远景到近景
- 静止姿态到动作姿态
- 平静情绪到更明显的情绪
- 静置物体到使用中的物体
常见的差组合:
- 第一张是一个人,最后一张像另一个人
- 一张是自然日光,另一张突然变成毫无关联的夜店灯光
- 服装、年龄感、画风差得太远
模型可以做“变化”,但它仍然需要一个可信的桥梁。
一个 prompt 最好只讲一个场景
这比很多人想的更重要。
短视频生成通常在每个 prompt 只聚焦 一个瞬间 时效果最好。
弱的例子:
一个侦探先在图书馆发现线索,然后开车穿过城市,最后在仓库与嫌疑人对峙,外面开始下雨。
为什么不理想:
- 场景太多
- 地点和剧情跳跃太快
更好的写法:
Close-up on a detective's gloved hand brushing dust from an old book as the camera slowly pushes in. A hidden symbol is revealed while particles drift in the warm beam of light.
这个就更适合短视频生成。
如果你想做一段完整 sequence,最好拆成 多个 clip,而不是塞进一个 prompt 里。
提示词里最值得写的内容
1. 镜头运动
这通常是最有价值的一部分。
例子:
- slow dolly in
- gentle handheld drift
- smooth pan left
- low-angle push forward
- locked cinematic frame
2. 主体动作
人物、物体、角色到底在做什么?
例子:
- turns slowly toward camera
- lifts the bottle into the light
- takes one step forward
- opens the letter with shaking hands
3. 环境运动
它能让画面活起来,又不需要改变主角。
例子:
- steam rises from the cup
- curtains move in the breeze
- reflections ripple across wet pavement
- petals drift past the lens
4. 情绪 / 气质
它决定这段动作“应该是什么感觉”。
例子:
- tense and suspenseful
- elegant and premium
- quiet and intimate
- dreamy and nostalgic
5. 落点
如果你有结束帧,就最好提示一下镜头如何落到那里。
例子:
- ending in a close-up
- resolving into a centered hero shot
- finishing with the subject facing camera
这些问题最好避免
尽量别这样写:
- 只写静态外观,不写动作
- 一个短视频里想塞三场戏
- 把互相冲突的镜头指令写在一起
- 开始帧和结束帧根本不像同一个世界
- 只写“epic”“cinematic”,却没有任何具体发生的事
弱的例子:
Make it epic and cinematic and emotional and amazing.
更好的写法:
Slow push-in as the subject looks up with restrained emotion. The room remains still except for dust drifting through the window light. The shot ends in a quiet, intimate close-up.
可直接测试的 prompt 示例
示例 1:人物情绪推进
开始帧思路: 黄昏车站上安静站立的女性
结束帧思路: 镜头更近,人物微微转向镜头并抬眼
Prompt:
Slow dolly in as the subject turns her head slightly toward camera and lifts her eyes. Her hair moves gently in the evening wind, distant train lights slide across the background, and the atmosphere feels reflective and cinematic. The shot resolves into a closer, more intimate portrait.
示例 2:产品 hero shot
开始帧思路: 大理石台面上的香水瓶
结束帧思路: 更近、更亮、更精致的产品特写
Prompt:
Elegant slow push-in on the perfume bottle as soft mist curls around the base and highlights glide across the glass. Tiny reflections shimmer on the marble surface, creating a premium editorial mood. The shot lands in a polished hero close-up with the bottle centered and luminous.
示例 3:室内氛围变化
开始帧思路: 清晨光线下安静的客厅
结束帧思路: 阳光铺得更远,窗帘轻微摆动
Prompt:
Locked cinematic frame as morning light slowly stretches across the floor. The curtains move gently in the breeze, dust floats in the sunlight, and the room feels calm, minimal, and lived-in. The shot naturally settles into the brighter ending frame.
最后检查一下
生成前,问自己这几个问题:
- 开始帧和结束帧是不是明显属于同一个世界?
- 我的 prompt 是不是在写“运动”,而不是只写“外观”?
- 我是不是只要求了一个场景?
- 镜头运动是不是足够清楚?
- 结尾落点是不是明确?
做到这些,结果通常就会立刻稳定很多。
好的 Start + End Frames 提示词,并不是把一切都解释清楚,而是把一件事说明白:镜头应该怎样从这里走到那里。
如果你想直接试试,可以用这里的 DojoClip AI Video Generator: 在 DojoClip 中生成视频