Como escrever melhores prompts para geração de vídeo com IA usando imagens de referência

Aprenda a escrever prompts mais fortes para a geração de vídeo com IA da DojoClip usando imagens de referência, incluindo como escolher as imagens, evitar contradições e orientar sujeito, estilo e movimento com mais clareza.

Pansa Legrandhow to use

Se o modo Start + End Frames serve para dirigir uma transição, o Reference Images mode serve para dirigir consistência.

Usa imagens de referência quando quer que o modelo se mantenha ancorado a:

  • uma pessoa
  • uma personagem
  • um produto
  • um estilo visual
  • uma linguagem de composição

Na geração de vídeo com IA da DojoClip, o Reference Images mode permite carregar 1 a 3 imagens de referência. A ideia não é sobrecarregar o modelo com inspiração aleatória. A ideia é dar-lhe uma âncora visual estável e depois usar o prompt para descrever o que deve acontecer no vídeo.

Esta última parte importa mesmo.

A regra mais fácil de memorizar é esta:

As imagens de referência definem o que é. O prompt define o que faz.

Se mantiver esta regra em mente, os seus prompts melhoram imediatamente.


Para que servem realmente as imagens de referência

As imagens de referência são especialmente úteis quando quer:

  • que a mesma pessoa continue reconhecível
  • que um produto mantenha a forma e o design exatos
  • que uma personagem se mantenha visualmente consistente
  • que um estilo de campanha atravesse o plano
  • que o vídeo pareça pertencer a um universo visual específico

Este modo costuma ser mais forte do que um prompt puramente textual quando a consistência importa.

Por exemplo:

  • um anúncio de beleza com um frasco exato
  • um vídeo de moda com um look muito específico
  • uma mascote ou brinquedo que tem de se manter reconhecível
  • uma cena lifestyle de marca com identidade visual estável

Se a identidade importa, as imagens de referência ajudam muito.


O maior erro de quem está a começar

Muitos iniciantes carregam imagens de referência e depois escrevem um prompt assim:

Uma mulher com cabelo escuro comprido, trench coat creme e brincos dourados num corredor de hotel de luxo com iluminação suave e cinematográfica.

Isto é fraco pela mesma razão que um mau prompt de image-to-video também é fraco:

  • re-descreve sobretudo o que a imagem já mostra
  • não descreve claramente o movimento
  • não orienta a câmara

Melhor:

Tracking shot elegante e lento enquanto a pessoa caminha em frente com confiança calma e olha brevemente para a câmara. O tecido move-se suavemente, os reflexos quentes do corredor respiram ao fundo e o ambiente transmite um tom editorial premium.

As imagens já dizem ao modelo quem é o sujeito e qual é o seu aspeto. O prompt deve concentrar-se em:

  • ação
  • movimento de câmara
  • energia da cena
  • ambiente

É aí que está o controlo útil.


Como escolher melhores imagens de referência

A qualidade do conjunto de referências pesa tanto como a redação do prompt.

Boas imagens de referência costumam ser:

  • nítidas e de boa qualidade
  • visualmente consistentes entre si
  • focadas no mesmo sujeito ou produto
  • úteis a partir de ângulos ou enquadramentos ligeiramente diferentes
  • coerentes em termos de luz e styling

Maus conjuntos de referência costumam ser:

  • de baixa qualidade
  • contraditórios
  • misturar pessoas ou produtos diferentes
  • mudar radicalmente de guarda-roupa, idade, cores ou estilo artístico
  • tentar ensinar demasiadas ideias ao mesmo tempo

Se as três imagens entram em conflito entre si, o prompt tem de lutar contra uma confusão desnecessária.


Como é um conjunto forte de 1 a 3 imagens

Na prática, um bom conjunto segue muitas vezes um destes padrões:

Padrão 1: um sujeito, um look, três ângulos úteis

Use este padrão quando a identidade é a prioridade.

Exemplo:

  • imagem 1: retrato frontal limpo
  • imagem 2: ângulo de três quartos
  • imagem 3: plano médio ou corpo inteiro a mostrar a silhueta

Funciona bem para:

  • moda
  • personagens
  • influenciadores
  • retratos

Padrão 2: um produto, três planos esclarecedores

Use este padrão quando a prioridade é o design do produto.

Exemplo:

  • imagem 1: ângulo herói frontal
  • imagem 2: ângulo lateral a mostrar a forma
  • imagem 3: close-up do material, textura ou rótulo

Funciona bem para:

  • perfumes
  • skincare
  • sapatilhas
  • packaging

Padrão 3: um sujeito mais uma direção de estilo

Use com cuidado.

Se o sujeito já está estável, a imagem extra deve reforçar o universo visual, não contradizê-lo. Se a imagem de estilo for demasiado diferente, o resultado pode desviar-se.


Fórmula simples para prompts com imagens de referência

Use esta fórmula:

[tipo de plano / movimento de câmara] + [ação do sujeito ou do produto] + [movimento do ambiente] + [humor / estilo] + [ênfase final]

Modelo:

[Movimento de câmara] suave enquanto o sujeito [ação]. O movimento do ambiente acrescenta vida à cena. O ambiente geral é [palavras de tom], com um acabamento cinematográfico limpo.

Como as imagens já carregam a aparência, muitas vezes não precisa de voltar a escrever:

  • cor exata do cabelo
  • detalhes exatos da roupa
  • design exato do produto
  • todos os objetos do fundo

Em vez disso, concentre-se no que o vídeo deve fazer.


Use palavras gerais quando a imagem já mostra o sujeito

Este é um truque subtil, mas muito útil.

Quando já forneceu imagens de referência, normalmente funciona melhor referir-se à pessoa ou ao objeto de forma ampla, por exemplo:

  • o sujeito
  • a mulher
  • o homem
  • o modelo
  • o frasco
  • o produto

Isto mantém o prompt limpo e evita repetir em excesso detalhes que a imagem já contém.

Em vez disto:

A mulher morena com trench coat creme e brincos dourados vira-se devagar enquanto o cabelo se move.

Experimente isto:

O sujeito vira-se devagar enquanto o cabelo e o tecido se movem suavemente no ar.

Prompts mais limpos costumam ser prompts mais fortes.


Reference Images mode não é um moodboard aleatório

Vale a pena dizer isto com clareza.

Não trate os 1 a 3 slots de imagem como um board do Pinterest.

Se uma imagem for:

  • um carro desportivo vermelho

e a seguinte for:

  • um retrato anime em aguarela

e a terceira for:

  • um frasco de perfume de luxo

não está a ajudar o modelo. Está a criar conflito.

As imagens de referência devem apontar todas na mesma direção.

Pergunte a si mesmo:

  • Estas imagens descrevem o mesmo sujeito ou o mesmo universo visual?
  • Um diretor de arte humano veria aqui um conjunto coerente?
  • Cada imagem acrescenta clareza em vez de confusão?

Se a resposta for não, mude o conjunto antes de mexer no prompt.


Exemplos de prompts que pode testar

Eis alguns exemplos construídos para renderização posterior ou para vídeos de demonstração.

Exemplo 1: retrato de moda

Ideia para o conjunto de referência: três imagens do mesmo modelo, com a mesma roupa, em ângulos diferentes

Prompt:

Tracking shot suave enquanto o sujeito caminha em direção à câmara com confiança contida e depois desvia brevemente o olhar. Um ligeiro movimento no cabelo e no casaco é acompanhado por reflexos de cidade ao fundo. O ambiente é premium, editorial e cinematográfico.

Porque funciona:

  • as referências tratam da identidade e do guarda-roupa
  • o prompt trata do movimento e do ambiente
  • a instrução de câmara é simples e utilizável

Exemplo 2: anúncio de produto

Ideia para o conjunto de referência: três imagens do mesmo frasco de skincare, incluindo um close-up da textura e do rótulo

Prompt:

Push-in lento e elegante sobre o produto enquanto se forma condensação na superfície e a luz desliza pelo frasco. Pequenas gotas escorrem devagar, os brilhos do fundo cintilam e o resultado transmite um tom limpo, moderno e luxuoso, com acabamento publicitário polido.

Porque funciona:

  • mantém o produto no centro
  • o movimento é mínimo mas visualmente rico
  • evita re-descrever o rótulo linha por linha

Exemplo 3: vídeo de personagem estilizada

Ideia para o conjunto de referência: duas ou três imagens da mesma personagem ilustrada, com roupa, rosto e paleta consistentes

Prompt:

Push cinematográfico lento enquanto o sujeito se mantém imóvel por um instante, levanta o queixo e deixa aparecer um sorriso discreto. O vento move o cabelo e a roupa, partículas brilhantes atravessam o enquadramento e a atmosfera parece heróica, calma e ligeiramente mágica.

Porque funciona:

  • as referências mantêm a identidade da personagem
  • o prompt cria a performance
  • a cena fica focada num único momento emocional

Um mau prompt vs. um prompt melhor

Mau:

Faça um vídeo de moda muito bonito e luxuoso com uma mulher estilosa e luz cinematográfica incrível.

Porque é fraco:

  • é vago
  • quase não indica movimento
  • não orienta a câmara
  • não diz como a cena se comporta

Melhor:

Tracking lateral lento enquanto o sujeito caminha pelo corredor e roça levemente a mão na parede. O tecido move-se com suavidade, reflexos quentes respiram no chão e o ambiente transmite elegância, calma e acabamento de gama alta.

Porque é melhor:

  • ideia de câmara clara
  • ação clara
  • movimento do ambiente claro
  • tom claro

Quantas imagens de referência deve usar?

Use o menor número possível que ainda ensine ao modelo o que realmente importa.

Use 1 imagem quando:

  • o sujeito é simples
  • o estilo é óbvio
  • só precisa de uma âncora forte

Use 2 imagens quando:

  • precisa de um segundo ângulo
  • quer identidade mais clareza de pose

Use 3 imagens quando:

  • o sujeito ou produto tem detalhes importantes vistos de vários lados
  • cada imagem acrescenta clareza real

Não use 3 imagens só porque 3 estão disponíveis.

Mais só é melhor quando cada imagem ajuda.


Checklist final para melhores prompts com Reference Images

Antes de gerar, pergunte:

  • As minhas imagens de referência descrevem todas o mesmo sujeito ou produto?
  • As imagens têm qualidade e consistência visual?
  • O meu prompt foca-se em movimento em vez de voltar a descrever aparência?
  • Defini claramente o movimento de câmara?
  • Estou a pedir apenas uma cena e um momento emocional?

Isso já basta para melhorar logo os resultados.

Os melhores prompts com imagens de referência normalmente não são os mais longos. São aqueles em que as imagens carregam a identidade e as palavras dirigem claramente a ação.

Se quiser testar estas ideias diretamente, experimente o gerador de vídeo com IA da DojoClip aqui: Gere vídeos com a DojoClip