用 Reference Images 写出更好的 AI 视频生成提示词
这篇新手指南会教你在 DojoClip 的 AI 视频生成中,使用 Reference Images 时该如何选择图片、避免冲突,并写出更能控制主体、风格和动作的提示词。
如果说 Start + End Frames 模式是在控制“过渡”,那么 Reference Images 模式就是在控制“一致性”。
当你希望模型稳定地保留这些内容时,就应该用 Reference Images:
- 同一个人
- 同一个角色
- 同一个产品
- 同一种视觉风格
- 同一种构图逻辑
在 DojoClip AI Video Generation 中,Reference Images 模式支持上传 1 到 3 张参考图。重点不是往模型里塞一堆灵感,而是先给它一个稳定的视觉锚点,再用 prompt 去定义视频里要发生什么。
最值得记住的一句话是:
Reference Images 负责定义“它是什么”,Prompt 负责定义“它做什么”。
只要抓住这个分工,提示词通常就会明显变强。
Reference Images 最适合做什么
这个模式特别适合以下需求:
- 让同一个人物保持可识别
- 让同一个产品保持准确外观
- 让角色脸、衣服、配色尽量稳定
- 让品牌视觉保持统一
- 让视频始终落在一个明确的视觉世界里
例如:
- 同一个护肤瓶的广告镜头
- 同一个模特造型的时尚短片
- 同一个吉祥物或玩偶的展示片
- 同一品牌气质下的 lifestyle 画面
当“长得像不像原来那个”很重要时,Reference Images 会非常有用。
新手最常犯的错误
很多人上传了参考图以后,提示词还会这样写:
一个长深色头发、穿米色风衣、戴金色耳环的女人,站在暖色灯光的高级酒店走廊里。
它的问题和很多弱 prompt 一样:
- 它主要在重复图片里已经能看见的东西
- 几乎没说清动作
- 也没有说清镜头怎么走
更好的写法:
Elegant slow tracking shot as the subject walks forward with calm confidence and briefly looks toward camera. Soft fabric movement, warm hallway reflections, and subtle depth-of-field create a premium fashion-film mood.
因为参考图已经负责告诉模型:
- 主角是谁
- 主角大概长什么样
所以 prompt 更应该去写:
- 动作
- 镜头运动
- 场景气氛
- 情绪 / 风格
怎么选更好的参考图
参考图的质量,和 prompt 的质量一样重要。
好的参考图通常具备这些特点:
- 清晰、高质量
- 彼此之间不打架
- 围绕同一个主体或产品
- 角度或景别略有变化,但核心一致
- 光线、服装、风格逻辑相近
差的参考图通常是:
- 模糊或低质量
- 主体彼此矛盾
- 混入不同人物、不同产品
- 服装、年龄感、色调、画风差别过大
- 一组图里想教模型太多事情
如果 3 张图本身就在互相冲突,再好的 prompt 也很难完全救回来。
1 到 3 张图该怎么用
模式 1:同一个主体,不同有用角度
当你最看重身份一致性时,这种最适合。
例如:
- 图 1:正面清晰肖像
- 图 2:3/4 角度
- 图 3:能看清服装轮廓的中景或全身
适合:
- 时尚
- 角色
- 人像
- 博主 / 模特
模式 2:同一个产品,多种清晰视角
当你最看重产品设计时,这种很有效。
例如:
- 图 1:正面 hero angle
- 图 2:侧面展示轮廓
- 图 3:标签、材质或细节 close-up
适合:
- 香水
- 护肤品
- 球鞋
- 包装设计
模式 3:主体图 + 风格补充图
这个可以用,但要小心。
如果主体已经很明确,额外的风格图应该是“加强同一个方向”,而不是把模型往别处拉。否则结果容易漂。
一个适合新手的提示词公式
你可以先用这个结构:
[shot type / camera move] + [subject or product action] + [environment motion] + [mood / style] + [ending emphasis]
一个很好用的模板:
Smooth [camera move] as the subject [action]. [Environment motion] adds life to the scene. The overall feeling is [tone words], with a clean, cinematic finish.
在有参考图的情况下,你通常不需要再把这些内容逐项重写:
- 头发颜色
- 服装细节
- 产品准确形状
- 背景里所有可见物件
把精力留给“视频要怎么动”会更有效。
当图片已经说明主体时,文字可以更泛化
这是一个很实用的小技巧。
当你已经提供了参考图,很多时候用这些更泛化的称呼会更好:
- the subject
- the woman
- the man
- the model
- the bottle
- the product
这样能让 prompt 更干净,也能避免对图片里已经包含的信息过度重复。
不要这样写:
那个深色长发、穿米色风衣、戴金色耳环的女人慢慢转身。
可以改成这样:
The subject turns slowly as the fabric and hair move gently in the air.
参考图已经负责“长什么样”,文字就更应该负责“怎么动”。
不要把 Reference Images 当成随机 moodboard
这一点非常重要。
不要把 1 到 3 张参考图当成 Pinterest 收藏板。
如果第一张是:
- 红色跑车
第二张是:
- 水彩风动漫头像
第三张是:
- 高级香水瓶
那你不是在帮助模型,而是在制造冲突。
好的参考图必须指向同一个方向。
你可以先问自己:
- 这几张图是不是在描述同一个主体或同一个视觉世界?
- 如果交给真人美术指导,他会不会觉得它们是一套东西?
- 每一张图是在增加清晰度,还是在增加噪音?
如果答案是否定的,那应该先换图,再改 prompt。
可直接测试的 prompt 示例
示例 1:时尚人像
参考图思路: 同一个模特、同一套衣服、不同角度的 3 张图
Prompt:
Smooth tracking shot as the subject walks toward camera with restrained confidence, then briefly turns her gaze to the side. Soft air movement lifts the hair and coat slightly, while reflected city lights shimmer in the background. The mood feels premium, editorial, and cinematic.
示例 2:产品广告
参考图思路: 同一个护肤瓶的 3 张图,其中一张是材质和标签 close-up
Prompt:
Elegant slow push-in on the product as condensation gathers on the surface and soft light glides across the bottle. Water droplets roll gently, background highlights shimmer, and the shot feels clean, modern, and luxurious with a polished commercial finish.
示例 3:风格化角色
参考图思路: 同一个插画角色的 2 到 3 张图,脸、服装、色彩一致
Prompt:
Slow cinematic push forward as the subject stands still for a beat, then raises their chin and lets a faint smile appear. Wind moves through the hair and clothing, glowing particles drift through the frame, and the atmosphere feels heroic, calm, and slightly magical.
弱 prompt 和强 prompt 的区别
弱的写法:
Make a really beautiful luxury fashion video with a stylish woman and amazing cinematic lighting and expensive vibes.
为什么弱:
- 太抽象
- 没有具体动作
- 没有镜头路线
- 没有场景行为
更好的写法:
Slow side-tracking shot as the subject walks through the hallway and lightly brushes one hand against the wall. The fabric moves softly, warm reflections pulse across the floor, and the mood feels elegant, quiet, and high-end.
到底该用几张参考图?
原则很简单:够用就好。
适合用 1 张 的情况:
- 主体很简单
- 风格已经很明确
- 只需要一个强锚点
适合用 2 张 的情况:
- 你需要第二个角度
- 你既想保留身份,也想补充姿态信息
适合用 3 张 的情况:
- 产品或角色确实需要多个视角来稳定细节
- 每一张图都在增加清晰度
不要只是因为“最多可以传 3 张”就一定传满。
最后检查一下
生成前,先问自己:
- 我的参考图是不是都在描述同一个主体或产品?
- 它们清晰吗?风格一致吗?
- 我的 prompt 是不是在写动作,而不是重复外观?
- 镜头运动是不是足够明确?
- 我是不是只要求了一个场景、一个情绪拍点?
做到这些,结果通常会立刻改善。
真正好的 Reference Images 提示词,往往不是最长的,而是分工最清楚的:图像负责身份,文字负责动作。
如果你想直接试试,可以用这里的 DojoClip AI Video Generator: 在 DojoClip 中生成视频