Reference ImagesでAI動画のプロンプトをうまく書く方法

DojoClipのAI動画生成でReference Imagesを使うときに、画像の選び方、 プロンプトの組み立て方、矛盾を避けるコツ、すぐ試せる実例を初心者向けに解説します。

Pansa Legrandhow to use

Start + End Frames が「変化の演出」を指示するモードだとしたら、Reference Images は「一貫性の維持」を指示するモードです。

Reference Images を使うのは、モデルに次のようなものを安定して保ってほしいときです。

  • 同じ人物
  • 同じキャラクター
  • 同じ商品
  • 同じビジュアルスタイル
  • 同じ構図の考え方

DojoClip AI Video GenerationReference Images モードでは、1〜3枚の参考画像 を使えます。目的は、ランダムなインスピレーションを大量に与えることではありません。目的は、視覚的なアンカーを固定し、その上でプロンプトで「何をさせるか」を指示することです。

いちばん覚えやすいルールはこれです。

Reference Images が「何であるか」を決め、プロンプトが「何をするか」を決める。

この考え方で書くと、かなり安定します。


Reference Images が向いているケース

このモードは、次のような場面で特に強いです。

  • 同じ人物を同じ人らしく見せたい
  • 商品の形やディテールを保ちたい
  • キャラクターの顔や服を崩したくない
  • ブランドの見た目をそろえたい
  • ある特定のビジュアル世界に寄せたい

たとえば:

  • 同じ香水ボトルで複数の広告カットを作りたい
  • 同じモデルの雰囲気を保ったファッション動画がほしい
  • マスコットやフィギュアを一貫して見せたい
  • ブランド世界観に沿った短尺映像を作りたい

見た目の一貫性が重要なら、Reference Images はかなり有効です。


初心者がやりがちな失敗

参考画像を入れたあと、こういうプロンプトを書いてしまうことがあります。

長いダークヘアでクリーム色のトレンチコートとゴールドのイヤリングをつけた女性が、暖かい光の高級ホテルの廊下に立っている。

これが弱い理由:

  • 画像がすでに見せている情報を繰り返している
  • 動きがほとんど書かれていない
  • カメラの指示がない

良い例:

Elegant slow tracking shot as the subject walks forward with calm confidence and briefly looks toward camera. Soft fabric movement, warm hallway reflections, and subtle depth-of-field create a premium fashion-film mood.

参考画像がすでに教えているのは:

  • 誰が主役か
  • どう見えるか

だからプロンプトでは主に次を担当させます。

  • 動作
  • カメラ
  • シーンの空気
  • トーン

参考画像の選び方

文章と同じくらい、画像セットの質が大事です。

良い参考画像セットに多い特徴:

  • 高解像度で鮮明
  • お互いに矛盾していない
  • 同じ人物 / 商品 / キャラクターを見せている
  • 少し違う角度や距離がある
  • 光やスタイルの考え方が近い

弱いセットに多い特徴:

  • 画質が低い
  • 顔や商品が一致しない
  • 服や色味や年齢感が大きくズレる
  • 画風がバラバラ
  • 1セットで教えたいことが多すぎる

3枚の画像が互いに争っていると、プロンプトでは解決しきれません。


1〜3枚の使い方の考え方

パターン1: 同じ人物を違う角度で見せる

人物の一貫性を優先したいときに向いています。

例:

  • 画像1: 正面寄りのクリーンな顔写真
  • 画像2: 3/4角度
  • 画像3: 服のシルエットがわかる中距離ショット

パターン2: 同じ商品を複数の見え方で見せる

商品の形や素材感が重要なときに向いています。

例:

  • 画像1: 正面のヒーローアングル
  • 画像2: 横から見た形
  • 画像3: ラベルや素材の寄り

パターン3: 主役画像 + 補助的なスタイル画像

これは慎重に使うべきです。

スタイル画像が主役画像と相性が悪いと、結果がぶれます。補助画像は「別方向に引っぱるもの」ではなく、「同じ方向を補強するもの」である方が良いです。


Reference Images 用の基本フォーマット

迷ったらこの型です。

[shot type / camera move] + [subject or product action] + [environment motion] + [mood / style] + [ending emphasis]

テンプレート:

Smooth [camera move] as the subject [action]. [Environment motion] adds life to the scene. The overall feeling is [tone words], with a clean, cinematic finish.

参考画像があるときは、次のようなことを毎回書き直す必要はあまりありません。

  • 髪色
  • 服の細部
  • 商品の正確な形
  • 背景の見えている物すべて

その代わりに、どう動くか を書きます。


被写体の呼び方はシンプルでいい

Reference Images を入れているなら、人物や商品を細かく再定義しない方がきれいです。

たとえば、こうした言い方で十分です。

  • the subject
  • the woman
  • the man
  • the model
  • the bottle
  • the product

悪い例:

クリーム色のトレンチコートを着たダークヘアの女性がゆっくり振り向く。

より良い例:

The subject turns slowly as the fabric and hair move gently in the air.

画像が見せているものは、画像に任せた方が強いです。


Reference Images をムードボード代わりにしない

これはとても重要です。

1枚目が:

  • 赤いスポーツカー

2枚目が:

  • 水彩風のアニメ顔

3枚目が:

  • 高級香水ボトル

この状態では、モデルを助けていません。むしろ混乱させています。

Reference Images は、同じ方向を指している必要があります。

確認したいこと:

  • これらの画像は同じ主役や同じ世界観を説明しているか
  • 人間のアートディレクターが見ても同じ企画に見えるか
  • 各画像が「情報追加」になっていて、「ノイズ追加」になっていないか

もし答えが No なら、まず画像セットを変えるべきです。


そのまま試せるプロンプト例

例1: ファッションポートレート

参考画像の想定: 同じモデル、同じ衣装を違う角度から撮った3枚

Prompt:

Smooth tracking shot as the subject walks toward camera with restrained confidence, then briefly turns her gaze to the side. Soft air movement lifts the hair and coat slightly, while reflected city lights shimmer in the background. The mood feels premium, editorial, and cinematic.

例2: 商品広告

参考画像の想定: 同じスキンケアボトルを見せる3枚。1枚はラベルや質感の寄り

Prompt:

Elegant slow push-in on the product as condensation gathers on the surface and soft light glides across the bottle. Water droplets roll gently, background highlights shimmer, and the shot feels clean, modern, and luxurious with a polished commercial finish.

例3: スタイライズドキャラクター

参考画像の想定: 同じイラストキャラクターを見せる2〜3枚。服、顔、色が一貫している

Prompt:

Slow cinematic push forward as the subject stands still for a beat, then raises their chin and lets a faint smile appear. Wind moves through the hair and clothing, glowing particles drift through the frame, and the atmosphere feels heroic, calm, and slightly magical.

悪いプロンプトと良いプロンプト

悪い例:

Make a really beautiful luxury fashion video with a stylish woman and amazing cinematic lighting and expensive vibes.

弱い理由:

  • 抽象的すぎる
  • 動きがほとんどない
  • カメラの意図がない
  • シーンの振る舞いが見えない

良い例:

Slow side-tracking shot as the subject walks through the hallway and lightly brushes one hand against the wall. The fabric moves softly, warm reflections pulse across the floor, and the mood feels elegant, quiet, and high-end.

何枚使うべきか

必要最小限が基本です。

1枚 が向いている場合:

  • 主役がシンプル
  • スタイルが明確
  • 強いアンカーが1つあれば足りる

2枚 が向いている場合:

  • もう1つ角度がほしい
  • 顔の一貫性とポーズ情報を足したい

3枚 が向いている場合:

  • 商品やキャラクターに複数視点の情報が必要
  • 各画像がはっきり役に立っている

3枚使えるからといって、必ず3枚にする必要はありません。


最終チェックリスト

生成前に確認したいこと:

  • 参考画像は同じ人物 / 商品 / 世界観を指しているか
  • 画質は十分か
  • プロンプトは見た目ではなく動きに集中しているか
  • カメラ移動は明確か
  • 1シーン、1感情のビートに絞れているか

これだけで、結果はかなり改善します。

良い Reference Images プロンプトは、長さではなく役割分担が大事です。画像がアイデンティティを持ち、言葉が動きを指示する。この分離ができると強いです。

試したい場合は、こちらの DojoClip AI Video Generator からどうぞ: DojoClipで動画を生成する