Bessere Prompts für KI-Videogenerierung mit Referenzbildern schreiben
So schreibst du stärkere Prompts in DojoClip, wenn du 1 bis 3 Referenzbilder nutzt - von Bildauswahl bis Bewegungsbeschreibung.
Wenn der Modus mit Start- und Endframes vor allem eine Uebergangsbewegung steuert, dann geht es im Modus mit Referenzbildern um etwas anderes: Konsistenz.
Du nutzt Referenzbilder, wenn das Modell visuell an etwas festhalten soll:
- eine Person
- eine Figur
- ein Produkt
- eine Bildwelt
- einen bestimmten Stil
In DojoClip kannst du dafuer ein bis drei Referenzbilder hochladen. Der entscheidende Punkt ist nicht, moeglichst viele Inspirationen zu stapeln. Der Punkt ist, dem Modell einen stabilen visuellen Anker zu geben.
Die einfachste Regel dazu lautet:
Referenzbilder sagen, was etwas ist. Der Prompt sagt, was damit passiert.
Wofuer Referenzbilder besonders gut sind
Referenzbilder sind stark, wenn du willst, dass etwas wiedererkennbar bleibt:
- dieselbe Person in mehreren Shots
- ein konkretes Produkt mit exakter Form
- ein Character-Design
- eine Kampagnenoptik
- ein bestimmter Editorial- oder Werbestil
Wenn Konsistenz wichtig ist, ist dieser Modus oft staerker als reines Textprompting.
So waehlst du gute Referenzbilder aus
1. Nimm nur Bilder mit einer klaren Aufgabe
Jedes Referenzbild sollte einen Grund haben. Zum Beispiel:
- Bild 1 definiert die Person
- Bild 2 zeigt das Outfit
- Bild 3 liefert Stil oder Produktdetail
Wenn du zufaellige Moodboard-Bilder mischst, verwirrst du das Modell eher, als dass du es fuehrst.
2. Vermeide Widersprueche
Schwache Sets enthalten oft Konflikte:
- unterschiedliche Kleidung
- wechselnde Perspektiven
- andere Lichtstimmungen
- verschiedene Produktformen
Das fuehrt haeufig zu instabilen Resultaten.
3. Bevorzuge saubere, gut lesbare Motive
Unscharfe oder ueberladene Referenzen geben dem Modell weniger brauchbare Orientierung. Je klarer Subjekt und Form, desto besser.
Was in den Prompt gehoert - und was nicht
Viele Nutzer beschreiben im Prompt noch einmal jedes Detail, das bereits deutlich in den Referenzbildern zu sehen ist. Das ist meistens nicht der beste Einsatz des Textes.
Der Prompt sollte vor allem erklaeren:
- welche Aktion stattfindet
- wie sich die Kamera bewegt
- wie sich Licht oder Umgebung veraendern
- welche Stimmung die Bewegung haben soll
Nicht noetig ist oft, das Motiv von vorn bis hinten erneut aufzuzählen, wenn die Bilder es schon klar liefern.
Eine einfache Prompt-Formel
Ein brauchbares Grundgeruest ist:
Subjekt + Aktion + Kamerabewegung + Umgebung + Stil/Mood + Grenzen
Beispiele:
- "The bottle rotates slowly on a glossy black surface while the camera pushes in, luxury studio lighting, minimal, premium."
- "The woman turns toward the window and smiles slightly, handheld camera drift, soft morning light, intimate and cinematic."
- "The toy robot walks forward through drifting smoke, low angle camera, neon sci-fi mood, no extra characters."
Auch wenn du auf Deutsch denkst, hilft es oft, den Prompt knapp und konkret zu halten.
Drei haeufige Fehler
Fehler 1: Zu viele Ziele auf einmal
Wenn du gleichzeitig Charakter, Produkt, Hintergrund, Story, Effekte und Kamerawelten wechselst, wird das Ergebnis schnell unruhig.
Fehler 2: Bilder sagen A, Prompt sagt B
Zeigt das Referenzbild ein ruhiges Studiofoto, der Prompt fordert aber eine chaotische Action-Szene mit starkem Umwelteinfluss? Dann arbeitet das Modell gegen sich selbst.
Fehler 3: Der Prompt bleibt zu allgemein
"Make it cinematic" ist kein schlechter Zusatz, aber keine eigentliche Regieanweisung. Besser ist:
- welche Bewegung
- welches Tempo
- welche Lichtstimmung
- welche Grenze
Eine kurze Checkliste vor dem Rendern
- Hat jedes Referenzbild eine klare Funktion?
- Passen die Bilder visuell zusammen?
- Beschreibt der Prompt Bewegung statt bloss das Aussehen?
- Gibt es Widersprueche zwischen Bild und Text?
- Ist klar, was nicht passieren soll?
Fazit
Referenzbilder sind kein Zusatz fuer "mehr Kreativitaet", sondern ein Werkzeug fuer mehr Kontrolle.
Wenn du saubere Bilder waehlst und den Prompt auf Handlung, Kamera und Stimmung fokussierst, werden die Ergebnisse in der Regel deutlich konsistenter.