Come scrivere prompt migliori per video AI usando immagini di riferimento

Come creare prompt piu solidi in DojoClip quando usi da 1 a 3 reference images, dalla scelta dei visual alla descrizione del movimento.

Pansa Legrand12 mar 2026how to use

Se la modalita con start frame ed end frame serve soprattutto a controllare una transizione, la modalita con reference images serve prima di tutto a garantire coerenza visiva.

Usi le immagini di riferimento quando vuoi che il modello resti ancorato a qualcosa di preciso:

una persona
un personaggio
un prodotto
un'estetica
uno stile di campagna

In DojoClip puoi caricare da una a tre immagini di riferimento. Il punto non e accumulare ispirazioni. Il punto e dare al modello un ancoraggio visivo stabile.

La regola piu utile da ricordare e questa:

Le reference images dicono cosa e il soggetto. Il prompt dice che cosa succede.

Quando le reference images sono particolarmente utili

Sono molto forti quando vuoi mantenere riconoscibile qualcosa:

la stessa persona in piu shot
un prodotto con forma precisa
un character design coerente
un look editoriale o pubblicitario
una campagna con identita visiva costante

Quando la coerenza conta, questo approccio e spesso piu affidabile del solo prompt testuale.

Come scegliere buone immagini di riferimento

1. Ogni immagine deve avere un compito

Per esempio:

immagine 1 definisce il soggetto
immagine 2 mostra outfit o dettaglio
immagine 3 definisce stile o texture

Se metti insieme immagini da moodboard senza una funzione chiara, il modello riceve segnali confusi.

2. Evita contraddizioni

Set deboli spesso mescolano:

abiti diversi
prospettive che non si parlano
luci contrastanti
prodotti con forma incoerente

Il risultato e spesso instabile.

3. Preferisci immagini pulite e leggibili

Reference poco nitide o sovraccariche aiutano meno. Piu il soggetto e chiaro, migliore sara l'orientamento per il modello.

Cosa dovrebbe fare il prompt, e cosa no

Un errore comune e rispiegare nel prompt ogni dettaglio gia evidente nelle immagini. Quasi sempre e uno spreco.

Il prompt dovrebbe chiarire soprattutto:

quale azione avviene
come si muove la camera
come reagiscono luce e ambiente
quale tono emotivo deve avere il movimento

Se le reference mostrano bene il soggetto, non serve descriverlo di nuovo da zero.

Una formula semplice per partire

Puoi usare questa struttura:

Soggetto + azione + movimento camera + ambiente + stile/mood + limiti

Esempi:

"The bottle rotates slowly on a glossy black surface while the camera pushes in, luxury studio lighting, minimal, premium."
"The woman turns toward the window and smiles slightly, handheld camera drift, soft morning light, intimate and cinematic."
"The toy robot walks forward through drifting smoke, low angle camera, neon sci-fi mood, no extra characters."

Anche se pensi in italiano, di solito conviene restare brevi, chiari e specifici.

Tre errori ricorrenti

Errore 1: troppi obiettivi nello stesso prompt

Se chiedi insieme coerenza del personaggio, storytelling, cambi di ambiente, effetti forti e movimenti complessi, il risultato si disperde.

Errore 2: le immagini dicono A, il prompt dice B

Se la reference mostra un prodotto da studio pulito ma il prompt chiede una scena d'azione caotica, il modello riceve istruzioni in conflitto.

Errore 3: il prompt resta troppo generico

"Make it cinematic" puo aiutare, ma non basta. Meglio indicare:

che movimento vuoi
che ritmo deve avere
che luce immagini
che cosa non deve comparire

Checklist prima del render

ogni immagine ha una funzione chiara?
le immagini sono coerenti tra loro?
il prompt descrive il movimento invece dell'aspetto?
ci sono contraddizioni tra testo e immagini?
e chiaro cosa non deve succedere?

Conclusione

Le reference images non sono un extra per avere "piu creativita". Sono uno strumento per avere piu controllo.

Se scegli immagini pulite e usi il prompt per guidare azione, camera e atmosfera, i risultati diventano quasi sempre molto piu consistenti.

Prova i video AI con immagini di riferimento in DojoClip