Como escrever melhores prompts para geração de vídeo com IA usando imagens de referência
Aprenda a escrever prompts mais fortes para a geração de vídeo com IA da DojoClip usando imagens de referência, incluindo como escolher as imagens, evitar contradições e orientar sujeito, estilo e movimento com mais clareza.
Se o modo Start + End Frames serve para dirigir uma transição, o Reference Images mode serve para dirigir consistência.
Usa imagens de referência quando quer que o modelo se mantenha ancorado a:
- uma pessoa
- uma personagem
- um produto
- um estilo visual
- uma linguagem de composição
Na geração de vídeo com IA da DojoClip, o Reference Images mode permite carregar 1 a 3 imagens de referência. A ideia não é sobrecarregar o modelo com inspiração aleatória. A ideia é dar-lhe uma âncora visual estável e depois usar o prompt para descrever o que deve acontecer no vídeo.
Esta última parte importa mesmo.
A regra mais fácil de memorizar é esta:
As imagens de referência definem o que é. O prompt define o que faz.
Se mantiver esta regra em mente, os seus prompts melhoram imediatamente.
Para que servem realmente as imagens de referência
As imagens de referência são especialmente úteis quando quer:
- que a mesma pessoa continue reconhecível
- que um produto mantenha a forma e o design exatos
- que uma personagem se mantenha visualmente consistente
- que um estilo de campanha atravesse o plano
- que o vídeo pareça pertencer a um universo visual específico
Este modo costuma ser mais forte do que um prompt puramente textual quando a consistência importa.
Por exemplo:
- um anúncio de beleza com um frasco exato
- um vídeo de moda com um look muito específico
- uma mascote ou brinquedo que tem de se manter reconhecível
- uma cena lifestyle de marca com identidade visual estável
Se a identidade importa, as imagens de referência ajudam muito.
O maior erro de quem está a começar
Muitos iniciantes carregam imagens de referência e depois escrevem um prompt assim:
Uma mulher com cabelo escuro comprido, trench coat creme e brincos dourados num corredor de hotel de luxo com iluminação suave e cinematográfica.
Isto é fraco pela mesma razão que um mau prompt de image-to-video também é fraco:
- re-descreve sobretudo o que a imagem já mostra
- não descreve claramente o movimento
- não orienta a câmara
Melhor:
Tracking shot elegante e lento enquanto a pessoa caminha em frente com confiança calma e olha brevemente para a câmara. O tecido move-se suavemente, os reflexos quentes do corredor respiram ao fundo e o ambiente transmite um tom editorial premium.
As imagens já dizem ao modelo quem é o sujeito e qual é o seu aspeto. O prompt deve concentrar-se em:
- ação
- movimento de câmara
- energia da cena
- ambiente
É aí que está o controlo útil.
Como escolher melhores imagens de referência
A qualidade do conjunto de referências pesa tanto como a redação do prompt.
Boas imagens de referência costumam ser:
- nítidas e de boa qualidade
- visualmente consistentes entre si
- focadas no mesmo sujeito ou produto
- úteis a partir de ângulos ou enquadramentos ligeiramente diferentes
- coerentes em termos de luz e styling
Maus conjuntos de referência costumam ser:
- de baixa qualidade
- contraditórios
- misturar pessoas ou produtos diferentes
- mudar radicalmente de guarda-roupa, idade, cores ou estilo artístico
- tentar ensinar demasiadas ideias ao mesmo tempo
Se as três imagens entram em conflito entre si, o prompt tem de lutar contra uma confusão desnecessária.
Como é um conjunto forte de 1 a 3 imagens
Na prática, um bom conjunto segue muitas vezes um destes padrões:
Padrão 1: um sujeito, um look, três ângulos úteis
Use este padrão quando a identidade é a prioridade.
Exemplo:
- imagem 1: retrato frontal limpo
- imagem 2: ângulo de três quartos
- imagem 3: plano médio ou corpo inteiro a mostrar a silhueta
Funciona bem para:
- moda
- personagens
- influenciadores
- retratos
Padrão 2: um produto, três planos esclarecedores
Use este padrão quando a prioridade é o design do produto.
Exemplo:
- imagem 1: ângulo herói frontal
- imagem 2: ângulo lateral a mostrar a forma
- imagem 3: close-up do material, textura ou rótulo
Funciona bem para:
- perfumes
- skincare
- sapatilhas
- packaging
Padrão 3: um sujeito mais uma direção de estilo
Use com cuidado.
Se o sujeito já está estável, a imagem extra deve reforçar o universo visual, não contradizê-lo. Se a imagem de estilo for demasiado diferente, o resultado pode desviar-se.
Fórmula simples para prompts com imagens de referência
Use esta fórmula:
[tipo de plano / movimento de câmara] + [ação do sujeito ou do produto] + [movimento do ambiente] + [humor / estilo] + [ênfase final]
Modelo:
[Movimento de câmara] suave enquanto o sujeito [ação]. O movimento do ambiente acrescenta vida à cena. O ambiente geral é [palavras de tom], com um acabamento cinematográfico limpo.
Como as imagens já carregam a aparência, muitas vezes não precisa de voltar a escrever:
- cor exata do cabelo
- detalhes exatos da roupa
- design exato do produto
- todos os objetos do fundo
Em vez disso, concentre-se no que o vídeo deve fazer.
Use palavras gerais quando a imagem já mostra o sujeito
Este é um truque subtil, mas muito útil.
Quando já forneceu imagens de referência, normalmente funciona melhor referir-se à pessoa ou ao objeto de forma ampla, por exemplo:
- o sujeito
- a mulher
- o homem
- o modelo
- o frasco
- o produto
Isto mantém o prompt limpo e evita repetir em excesso detalhes que a imagem já contém.
Em vez disto:
A mulher morena com trench coat creme e brincos dourados vira-se devagar enquanto o cabelo se move.
Experimente isto:
O sujeito vira-se devagar enquanto o cabelo e o tecido se movem suavemente no ar.
Prompts mais limpos costumam ser prompts mais fortes.
Reference Images mode não é um moodboard aleatório
Vale a pena dizer isto com clareza.
Não trate os 1 a 3 slots de imagem como um board do Pinterest.
Se uma imagem for:
- um carro desportivo vermelho
e a seguinte for:
- um retrato anime em aguarela
e a terceira for:
- um frasco de perfume de luxo
não está a ajudar o modelo. Está a criar conflito.
As imagens de referência devem apontar todas na mesma direção.
Pergunte a si mesmo:
- Estas imagens descrevem o mesmo sujeito ou o mesmo universo visual?
- Um diretor de arte humano veria aqui um conjunto coerente?
- Cada imagem acrescenta clareza em vez de confusão?
Se a resposta for não, mude o conjunto antes de mexer no prompt.
Exemplos de prompts que pode testar
Eis alguns exemplos construídos para renderização posterior ou para vídeos de demonstração.
Exemplo 1: retrato de moda
Ideia para o conjunto de referência: três imagens do mesmo modelo, com a mesma roupa, em ângulos diferentes
Prompt:
Tracking shot suave enquanto o sujeito caminha em direção à câmara com confiança contida e depois desvia brevemente o olhar. Um ligeiro movimento no cabelo e no casaco é acompanhado por reflexos de cidade ao fundo. O ambiente é premium, editorial e cinematográfico.
Porque funciona:
- as referências tratam da identidade e do guarda-roupa
- o prompt trata do movimento e do ambiente
- a instrução de câmara é simples e utilizável
Exemplo 2: anúncio de produto
Ideia para o conjunto de referência: três imagens do mesmo frasco de skincare, incluindo um close-up da textura e do rótulo
Prompt:
Push-in lento e elegante sobre o produto enquanto se forma condensação na superfície e a luz desliza pelo frasco. Pequenas gotas escorrem devagar, os brilhos do fundo cintilam e o resultado transmite um tom limpo, moderno e luxuoso, com acabamento publicitário polido.
Porque funciona:
- mantém o produto no centro
- o movimento é mínimo mas visualmente rico
- evita re-descrever o rótulo linha por linha
Exemplo 3: vídeo de personagem estilizada
Ideia para o conjunto de referência: duas ou três imagens da mesma personagem ilustrada, com roupa, rosto e paleta consistentes
Prompt:
Push cinematográfico lento enquanto o sujeito se mantém imóvel por um instante, levanta o queixo e deixa aparecer um sorriso discreto. O vento move o cabelo e a roupa, partículas brilhantes atravessam o enquadramento e a atmosfera parece heróica, calma e ligeiramente mágica.
Porque funciona:
- as referências mantêm a identidade da personagem
- o prompt cria a performance
- a cena fica focada num único momento emocional
Um mau prompt vs. um prompt melhor
Mau:
Faça um vídeo de moda muito bonito e luxuoso com uma mulher estilosa e luz cinematográfica incrível.
Porque é fraco:
- é vago
- quase não indica movimento
- não orienta a câmara
- não diz como a cena se comporta
Melhor:
Tracking lateral lento enquanto o sujeito caminha pelo corredor e roça levemente a mão na parede. O tecido move-se com suavidade, reflexos quentes respiram no chão e o ambiente transmite elegância, calma e acabamento de gama alta.
Porque é melhor:
- ideia de câmara clara
- ação clara
- movimento do ambiente claro
- tom claro
Quantas imagens de referência deve usar?
Use o menor número possível que ainda ensine ao modelo o que realmente importa.
Use 1 imagem quando:
- o sujeito é simples
- o estilo é óbvio
- só precisa de uma âncora forte
Use 2 imagens quando:
- precisa de um segundo ângulo
- quer identidade mais clareza de pose
Use 3 imagens quando:
- o sujeito ou produto tem detalhes importantes vistos de vários lados
- cada imagem acrescenta clareza real
Não use 3 imagens só porque 3 estão disponíveis.
Mais só é melhor quando cada imagem ajuda.
Checklist final para melhores prompts com Reference Images
Antes de gerar, pergunte:
- As minhas imagens de referência descrevem todas o mesmo sujeito ou produto?
- As imagens têm qualidade e consistência visual?
- O meu prompt foca-se em movimento em vez de voltar a descrever aparência?
- Defini claramente o movimento de câmara?
- Estou a pedir apenas uma cena e um momento emocional?
Isso já basta para melhorar logo os resultados.
Os melhores prompts com imagens de referência normalmente não são os mais longos. São aqueles em que as imagens carregam a identidade e as palavras dirigem claramente a ação.
Se quiser testar estas ideias diretamente, experimente o gerador de vídeo com IA da DojoClip aqui: Gere vídeos com a DojoClip