Como escrever melhores prompts para geração de vídeo com IA usando imagens de referência

Se o modo Start + End Frames serve para dirigir uma transição, o Reference Images mode serve para dirigir consistência.

Usa imagens de referência quando quer que o modelo se mantenha ancorado a:

uma pessoa
uma personagem
um produto
um estilo visual
uma linguagem de composição

Na geração de vídeo com IA da DojoClip, o Reference Images mode permite carregar 1 a 3 imagens de referência. A ideia não é sobrecarregar o modelo com inspiração aleatória. A ideia é dar-lhe uma âncora visual estável e depois usar o prompt para descrever o que deve acontecer no vídeo.

Esta última parte importa mesmo.

A regra mais fácil de memorizar é esta:

As imagens de referência definem o que é. O prompt define o que faz.

Se mantiver esta regra em mente, os seus prompts melhoram imediatamente.

Para que servem realmente as imagens de referência

As imagens de referência são especialmente úteis quando quer:

que a mesma pessoa continue reconhecível
que um produto mantenha a forma e o design exatos
que uma personagem se mantenha visualmente consistente
que um estilo de campanha atravesse o plano
que o vídeo pareça pertencer a um universo visual específico

Este modo costuma ser mais forte do que um prompt puramente textual quando a consistência importa.

Por exemplo:

um anúncio de beleza com um frasco exato
um vídeo de moda com um look muito específico
uma mascote ou brinquedo que tem de se manter reconhecível
uma cena lifestyle de marca com identidade visual estável

Se a identidade importa, as imagens de referência ajudam muito.

O maior erro de quem está a começar

Muitos iniciantes carregam imagens de referência e depois escrevem um prompt assim:

Uma mulher com cabelo escuro comprido, trench coat creme e brincos dourados num corredor de hotel de luxo com iluminação suave e cinematográfica.

Isto é fraco pela mesma razão que um mau prompt de image-to-video também é fraco:

re-descreve sobretudo o que a imagem já mostra
não descreve claramente o movimento
não orienta a câmara

Melhor:

Tracking shot elegante e lento enquanto a pessoa caminha em frente com confiança calma e olha brevemente para a câmara. O tecido move-se suavemente, os reflexos quentes do corredor respiram ao fundo e o ambiente transmite um tom editorial premium.

As imagens já dizem ao modelo quem é o sujeito e qual é o seu aspeto. O prompt deve concentrar-se em:

ação
movimento de câmara
energia da cena
ambiente

É aí que está o controlo útil.

Como escolher melhores imagens de referência

A qualidade do conjunto de referências pesa tanto como a redação do prompt.

Boas imagens de referência costumam ser:

nítidas e de boa qualidade
visualmente consistentes entre si
focadas no mesmo sujeito ou produto
úteis a partir de ângulos ou enquadramentos ligeiramente diferentes
coerentes em termos de luz e styling

Maus conjuntos de referência costumam ser:

de baixa qualidade
contraditórios
misturar pessoas ou produtos diferentes
mudar radicalmente de guarda-roupa, idade, cores ou estilo artístico
tentar ensinar demasiadas ideias ao mesmo tempo

Se as três imagens entram em conflito entre si, o prompt tem de lutar contra uma confusão desnecessária.

Como é um conjunto forte de 1 a 3 imagens

Na prática, um bom conjunto segue muitas vezes um destes padrões:

Padrão 1: um sujeito, um look, três ângulos úteis

Use este padrão quando a identidade é a prioridade.

Exemplo:

imagem 1: retrato frontal limpo
imagem 2: ângulo de três quartos
imagem 3: plano médio ou corpo inteiro a mostrar a silhueta

Funciona bem para:

moda
personagens
influenciadores
retratos

Padrão 2: um produto, três planos esclarecedores

Use este padrão quando a prioridade é o design do produto.

Exemplo:

imagem 1: ângulo herói frontal
imagem 2: ângulo lateral a mostrar a forma
imagem 3: close-up do material, textura ou rótulo

Funciona bem para:

perfumes
skincare
sapatilhas
packaging

Padrão 3: um sujeito mais uma direção de estilo

Use com cuidado.

Se o sujeito já está estável, a imagem extra deve reforçar o universo visual, não contradizê-lo. Se a imagem de estilo for demasiado diferente, o resultado pode desviar-se.

Fórmula simples para prompts com imagens de referência

Use esta fórmula:

[tipo de plano / movimento de câmara] + [ação do sujeito ou do produto] + [movimento do ambiente] + [humor / estilo] + [ênfase final]

Modelo:

[Movimento de câmara] suave enquanto o sujeito [ação]. O movimento do ambiente acrescenta vida à cena. O ambiente geral é [palavras de tom], com um acabamento cinematográfico limpo.

Como as imagens já carregam a aparência, muitas vezes não precisa de voltar a escrever:

cor exata do cabelo
detalhes exatos da roupa
design exato do produto
todos os objetos do fundo

Em vez disso, concentre-se no que o vídeo deve fazer.

Use palavras gerais quando a imagem já mostra o sujeito

Este é um truque subtil, mas muito útil.

Quando já forneceu imagens de referência, normalmente funciona melhor referir-se à pessoa ou ao objeto de forma ampla, por exemplo:

o sujeito
a mulher
o homem
o modelo
o frasco
o produto

Isto mantém o prompt limpo e evita repetir em excesso detalhes que a imagem já contém.

Em vez disto:

A mulher morena com trench coat creme e brincos dourados vira-se devagar enquanto o cabelo se move.

Experimente isto:

O sujeito vira-se devagar enquanto o cabelo e o tecido se movem suavemente no ar.

Prompts mais limpos costumam ser prompts mais fortes.

Reference Images mode não é um moodboard aleatório

Vale a pena dizer isto com clareza.

Não trate os 1 a 3 slots de imagem como um board do Pinterest.

Se uma imagem for:

um carro desportivo vermelho

e a seguinte for:

um retrato anime em aguarela

e a terceira for:

um frasco de perfume de luxo

não está a ajudar o modelo. Está a criar conflito.

As imagens de referência devem apontar todas na mesma direção.

Pergunte a si mesmo:

Estas imagens descrevem o mesmo sujeito ou o mesmo universo visual?
Um diretor de arte humano veria aqui um conjunto coerente?
Cada imagem acrescenta clareza em vez de confusão?

Se a resposta for não, mude o conjunto antes de mexer no prompt.

Exemplos de prompts que pode testar

Eis alguns exemplos construídos para renderização posterior ou para vídeos de demonstração.

Exemplo 1: retrato de moda

Ideia para o conjunto de referência: três imagens do mesmo modelo, com a mesma roupa, em ângulos diferentes

Prompt:

Tracking shot suave enquanto o sujeito caminha em direção à câmara com confiança contida e depois desvia brevemente o olhar. Um ligeiro movimento no cabelo e no casaco é acompanhado por reflexos de cidade ao fundo. O ambiente é premium, editorial e cinematográfico.

Porque funciona:

as referências tratam da identidade e do guarda-roupa
o prompt trata do movimento e do ambiente
a instrução de câmara é simples e utilizável

Exemplo 2: anúncio de produto

Ideia para o conjunto de referência: três imagens do mesmo frasco de skincare, incluindo um close-up da textura e do rótulo

Prompt:

Push-in lento e elegante sobre o produto enquanto se forma condensação na superfície e a luz desliza pelo frasco. Pequenas gotas escorrem devagar, os brilhos do fundo cintilam e o resultado transmite um tom limpo, moderno e luxuoso, com acabamento publicitário polido.

Porque funciona:

mantém o produto no centro
o movimento é mínimo mas visualmente rico
evita re-descrever o rótulo linha por linha

Exemplo 3: vídeo de personagem estilizada

Ideia para o conjunto de referência: duas ou três imagens da mesma personagem ilustrada, com roupa, rosto e paleta consistentes

Prompt:

Push cinematográfico lento enquanto o sujeito se mantém imóvel por um instante, levanta o queixo e deixa aparecer um sorriso discreto. O vento move o cabelo e a roupa, partículas brilhantes atravessam o enquadramento e a atmosfera parece heróica, calma e ligeiramente mágica.

Porque funciona:

as referências mantêm a identidade da personagem
o prompt cria a performance
a cena fica focada num único momento emocional

Um mau prompt vs. um prompt melhor

Mau:

Faça um vídeo de moda muito bonito e luxuoso com uma mulher estilosa e luz cinematográfica incrível.

Porque é fraco:

é vago
quase não indica movimento
não orienta a câmara
não diz como a cena se comporta

Melhor:

Tracking lateral lento enquanto o sujeito caminha pelo corredor e roça levemente a mão na parede. O tecido move-se com suavidade, reflexos quentes respiram no chão e o ambiente transmite elegância, calma e acabamento de gama alta.

Porque é melhor:

ideia de câmara clara
ação clara
movimento do ambiente claro
tom claro

Quantas imagens de referência deve usar?

Use o menor número possível que ainda ensine ao modelo o que realmente importa.

Use 1 imagem quando:

o sujeito é simples
o estilo é óbvio
só precisa de uma âncora forte

Use 2 imagens quando:

precisa de um segundo ângulo
quer identidade mais clareza de pose

Use 3 imagens quando:

o sujeito ou produto tem detalhes importantes vistos de vários lados
cada imagem acrescenta clareza real

Não use 3 imagens só porque 3 estão disponíveis.

Mais só é melhor quando cada imagem ajuda.

Checklist final para melhores prompts com Reference Images

Antes de gerar, pergunte:

As minhas imagens de referência descrevem todas o mesmo sujeito ou produto?
As imagens têm qualidade e consistência visual?
O meu prompt foca-se em movimento em vez de voltar a descrever aparência?
Defini claramente o movimento de câmara?
Estou a pedir apenas uma cena e um momento emocional?

Isso já basta para melhorar logo os resultados.

Os melhores prompts com imagens de referência normalmente não são os mais longos. São aqueles em que as imagens carregam a identidade e as palavras dirigem claramente a ação.

Se quiser testar estas ideias diretamente, experimente o gerador de vídeo com IA da DojoClip aqui: Gere vídeos com a DojoClip

Como escrever melhores prompts para geração de vídeo com IA usando imagens de referência

Para que servem realmente as imagens de referência

O maior erro de quem está a começar

Como escolher melhores imagens de referência

Como é um conjunto forte de 1 a 3 imagens

Padrão 1: um sujeito, um look, três ângulos úteis

Padrão 2: um produto, três planos esclarecedores

Padrão 3: um sujeito mais uma direção de estilo

Fórmula simples para prompts com imagens de referência

Use palavras gerais quando a imagem já mostra o sujeito

Reference Images mode não é um moodboard aleatório

Exemplos de prompts que pode testar

Exemplo 1: retrato de moda

Exemplo 2: anúncio de produto

Exemplo 3: vídeo de personagem estilizada

Um mau prompt vs. um prompt melhor

Quantas imagens de referência deve usar?

Checklist final para melhores prompts com Reference Images

Leituras relacionadas

Como usar o DojoClip Story Music Video: guia completo do fluxo guiado

Como usar o DojoClip Design Agent: página única, conjunto ou várias páginas

Como escrever letras melhores para geração de música com IA: guia para iniciantes no Lyrics Mode