Bessere Prompts für KI-Videogenerierung mit Referenzbildern schreiben

So schreibst du stärkere Prompts in DojoClip, wenn du 1 bis 3 Referenzbilder nutzt - von Bildauswahl bis Bewegungsbeschreibung.

Pansa Legrand12. März 2026how to use

Wenn der Modus mit Start- und Endframes vor allem eine Uebergangsbewegung steuert, dann geht es im Modus mit Referenzbildern um etwas anderes: Konsistenz.

Du nutzt Referenzbilder, wenn das Modell visuell an etwas festhalten soll:

eine Person
eine Figur
ein Produkt
eine Bildwelt
einen bestimmten Stil

In DojoClip kannst du dafuer ein bis drei Referenzbilder hochladen. Der entscheidende Punkt ist nicht, moeglichst viele Inspirationen zu stapeln. Der Punkt ist, dem Modell einen stabilen visuellen Anker zu geben.

Die einfachste Regel dazu lautet:

Referenzbilder sagen, was etwas ist. Der Prompt sagt, was damit passiert.

Wofuer Referenzbilder besonders gut sind

Referenzbilder sind stark, wenn du willst, dass etwas wiedererkennbar bleibt:

dieselbe Person in mehreren Shots
ein konkretes Produkt mit exakter Form
ein Character-Design
eine Kampagnenoptik
ein bestimmter Editorial- oder Werbestil

Wenn Konsistenz wichtig ist, ist dieser Modus oft staerker als reines Textprompting.

So waehlst du gute Referenzbilder aus

1. Nimm nur Bilder mit einer klaren Aufgabe

Jedes Referenzbild sollte einen Grund haben. Zum Beispiel:

Bild 1 definiert die Person
Bild 2 zeigt das Outfit
Bild 3 liefert Stil oder Produktdetail

Wenn du zufaellige Moodboard-Bilder mischst, verwirrst du das Modell eher, als dass du es fuehrst.

2. Vermeide Widersprueche

Schwache Sets enthalten oft Konflikte:

unterschiedliche Kleidung
wechselnde Perspektiven
andere Lichtstimmungen
verschiedene Produktformen

Das fuehrt haeufig zu instabilen Resultaten.

3. Bevorzuge saubere, gut lesbare Motive

Unscharfe oder ueberladene Referenzen geben dem Modell weniger brauchbare Orientierung. Je klarer Subjekt und Form, desto besser.

Was in den Prompt gehoert - und was nicht

Viele Nutzer beschreiben im Prompt noch einmal jedes Detail, das bereits deutlich in den Referenzbildern zu sehen ist. Das ist meistens nicht der beste Einsatz des Textes.

Der Prompt sollte vor allem erklaeren:

welche Aktion stattfindet
wie sich die Kamera bewegt
wie sich Licht oder Umgebung veraendern
welche Stimmung die Bewegung haben soll

Nicht noetig ist oft, das Motiv von vorn bis hinten erneut aufzuzählen, wenn die Bilder es schon klar liefern.

Eine einfache Prompt-Formel

Ein brauchbares Grundgeruest ist:

Subjekt + Aktion + Kamerabewegung + Umgebung + Stil/Mood + Grenzen

Beispiele:

"The bottle rotates slowly on a glossy black surface while the camera pushes in, luxury studio lighting, minimal, premium."
"The woman turns toward the window and smiles slightly, handheld camera drift, soft morning light, intimate and cinematic."
"The toy robot walks forward through drifting smoke, low angle camera, neon sci-fi mood, no extra characters."

Auch wenn du auf Deutsch denkst, hilft es oft, den Prompt knapp und konkret zu halten.

Drei haeufige Fehler

Fehler 1: Zu viele Ziele auf einmal

Wenn du gleichzeitig Charakter, Produkt, Hintergrund, Story, Effekte und Kamerawelten wechselst, wird das Ergebnis schnell unruhig.

Fehler 2: Bilder sagen A, Prompt sagt B

Zeigt das Referenzbild ein ruhiges Studiofoto, der Prompt fordert aber eine chaotische Action-Szene mit starkem Umwelteinfluss? Dann arbeitet das Modell gegen sich selbst.

Fehler 3: Der Prompt bleibt zu allgemein

"Make it cinematic" ist kein schlechter Zusatz, aber keine eigentliche Regieanweisung. Besser ist:

welche Bewegung
welches Tempo
welche Lichtstimmung
welche Grenze

Eine kurze Checkliste vor dem Rendern

Hat jedes Referenzbild eine klare Funktion?
Passen die Bilder visuell zusammen?
Beschreibt der Prompt Bewegung statt bloss das Aussehen?
Gibt es Widersprueche zwischen Bild und Text?
Ist klar, was nicht passieren soll?

Fazit

Referenzbilder sind kein Zusatz fuer "mehr Kreativitaet", sondern ein Werkzeug fuer mehr Kontrolle.

Wenn du saubere Bilder waehlst und den Prompt auf Handlung, Kamera und Stimmung fokussierst, werden die Ergebnisse in der Regel deutlich konsistenter.

KI-Video mit Referenzbildern in DojoClip ausprobieren