Cómo escribir mejores prompts para generación de video con IA usando Reference Images
Aprende a escribir prompts más sólidos para la generación de video con IA de DojoClip con reference images, incluyendo cómo elegir mejor tus imágenes, evitar contradicciones y guiar con más claridad el sujeto, el estilo y el movimiento.
Si el modo Start + End Frames trata de dirigir una transición, el modo Reference Images trata de dirigir la consistencia.
Usas reference images cuando quieres que el modelo se mantenga fiel a:
- una persona
- un personaje
- un producto
- un estilo visual
- una lógica de composición
En DojoClip AI Video Generation, el modo Reference Images te permite subir de 1 a 3 imágenes de referencia. La idea no es saturar al modelo con inspiración aleatoria. La idea es darle un ancla visual estable y después usar el prompt para describir qué debe pasar en el video.
Esa última parte es clave.
La regla más fácil de recordar es esta:
Las reference images definen lo que es. El prompt define lo que hace.
Si mantienes esa idea en mente, tus prompts mejoran enseguida.
Para qué sirven realmente las reference images
Las reference images son especialmente útiles cuando quieres:
- que la misma persona siga siendo reconocible
- que un producto conserve su diseño exacto
- que un personaje mantenga coherencia visual
- que un estilo de campaña se mantenga estable
- que el video se sienta anclado en un mundo visual concreto
Este modo suele ser más fuerte que un prompt solo de texto cuando la consistencia importa.
Por ejemplo:
- un anuncio de belleza con un frasco exacto
- un clip de moda con un look concreto
- una mascota o juguete que debe seguir siendo reconocible
- una escena lifestyle de marca con identidad visual estable
Si la identidad importa, las imágenes de referencia ayudan muchísimo.
El error más común de los principiantes
Muchos principiantes suben reference images y luego escriben algo así:
Una mujer con pelo oscuro largo y gabardina crema con pendientes dorados en el pasillo de un hotel de lujo con paredes beige e iluminación cálida y cinematográfica.
Eso es débil por la misma razón que otros prompts débiles:
- vuelve a describir lo que la imagen ya muestra
- no explica con claridad el movimiento
- no dirige la cámara
Prompt mejor:
Elegant slow tracking shot as the subject walks forward with calm confidence and briefly looks toward camera. Soft fabric movement, warm hallway reflections, and subtle depth-of-field create a premium fashion-film mood.
Las imágenes ya le dicen al modelo quién es el sujeto y cómo se ve. Tu prompt debería centrarse en:
- acción
- movimiento de cámara
- energía de la escena
- tono
Ahí es donde está el control útil.
Cómo elegir mejor las reference images
La calidad del set de referencia importa tanto como el texto del prompt.
Las buenas reference images suelen ser:
- nítidas y de buena calidad
- coherentes entre sí
- centradas en el mismo sujeto o producto
- útiles desde ángulos o encuadres ligeramente distintos
- alineadas en luz, vestuario o lógica visual
Los sets débiles suelen ser:
- de baja calidad
- contradictorios
- mezclan personas o productos distintos
- cambian demasiado de edad, colores, ropa o estilo artístico
- intentan enseñar demasiadas cosas a la vez
Si las tres imágenes se contradicen, tu prompt tendrá que luchar contra una confusión innecesaria.
Cómo se ve un buen set de 1 a 3 imágenes
En la práctica, un buen set suele seguir uno de estos patrones:
Patrón 1: Un sujeto, un look, tres ángulos útiles
Úsalo cuando la identidad sea la prioridad.
Ejemplo:
- imagen 1: retrato frontal limpio
- imagen 2: ángulo de tres cuartos
- imagen 3: plano medio o entero que muestre mejor la silueta
Esto funciona bien para:
- moda
- personajes
- influencers
- retratos
Patrón 2: Un producto, tres tomas de claridad
Úsalo cuando lo importante sea el diseño del producto.
Ejemplo:
- imagen 1: ángulo frontal hero
- imagen 2: ángulo lateral para mostrar la forma
- imagen 3: close-up del material, textura o etiqueta
Esto funciona bien para:
- perfumes
- skincare
- zapatillas
- packaging
Patrón 3: Un sujeto más una dirección de estilo
Úsalo con cuidado.
Si tu sujeto ya está claro, la imagen extra debe reforzar el mundo visual, no contradecirlo. Si la imagen de estilo es demasiado distinta, el resultado puede desviarse.
Una fórmula simple para escribir prompts con reference images
Usa esta fórmula:
[tipo de plano / movimiento de cámara] + [acción del sujeto o producto] + [movimiento del entorno] + [tono / estilo] + [énfasis del final]
Plantilla reutilizable:
Smooth [camera move] as the subject [action]. [Environment motion] adds life to the scene. The overall feeling is [tone words], with a clean, cinematic finish.
Como las imágenes ya transportan la apariencia, muchas veces no hace falta volver a escribir:
- el color exacto del pelo
- todos los detalles del vestuario
- el diseño exacto del producto
- cada objeto del fondo
En su lugar, céntrate en lo que el video debe hacer.
Cuando la imagen ya muestra el sujeto, usa palabras generales
Este truco es pequeño, pero útil.
Cuando ya has subido reference images, muchas veces funciona mejor hablar del sujeto con términos amplios como:
- the subject
- the woman
- the man
- the model
- the bottle
- the product
Eso mantiene el prompt limpio y evita sobreespecificar detalles que la imagen ya contiene.
En vez de esto:
La mujer morena con gabardina crema y pendientes dorados gira lentamente mientras se mueve el pelo.
Prueba esto:
The subject turns slowly as the fabric and hair move gently in the air.
Los prompts más limpios suelen ser más fuertes.
Reference Images no es un moodboard aleatorio
Esto conviene decirlo muy claro.
No uses los 1 a 3 huecos de imágenes como si fueran un tablero de Pinterest.
Si una imagen es:
- un coche deportivo rojo
y la siguiente es:
- un retrato anime en acuarela
y la tercera es:
- un frasco de perfume de lujo
no estás ayudando al modelo. Estás creando conflicto.
Las reference images deben apuntar en la misma dirección.
Pregúntate:
- ¿Estas imágenes describen el mismo sujeto o el mismo mundo visual?
- ¿Un director de arte humano las vería como un set coherente?
- ¿Cada imagen aporta claridad en lugar de confusión?
Si la respuesta es no, cambia primero las imágenes, no el prompt.
Ejemplos de prompts que puedes probar
Aquí tienes ejemplos pensados para renderizar más tarde y usar como demos.
Ejemplo 1: Retrato de moda
Idea del set de referencia: tres imágenes de la misma modelo con el mismo vestuario desde diferentes ángulos
Prompt:
Smooth tracking shot as the subject walks toward camera with restrained confidence, then briefly turns her gaze to the side. Soft air movement lifts the hair and coat slightly, while reflected city lights shimmer in the background. The mood feels premium, editorial, and cinematic.
Por qué funciona:
- las imágenes se encargan de identidad y vestuario
- el prompt se encarga del movimiento y del tono
- la instrucción de cámara es clara
Ejemplo 2: Comercial de producto
Idea del set de referencia: tres imágenes del mismo frasco de skincare, incluyendo un close-up de textura y etiqueta
Prompt:
Elegant slow push-in on the product as condensation gathers on the surface and soft light glides across the bottle. Water droplets roll gently, background highlights shimmer, and the shot feels clean, modern, and luxurious with a polished commercial finish.
Por qué funciona:
- el producto sigue siendo el protagonista
- el movimiento es mínimo pero visualmente rico
- evita repetir el diseño entero línea por línea
Ejemplo 3: Personaje estilizado
Idea del set de referencia: dos o tres imágenes del mismo personaje ilustrado con ropa, rostro y paleta consistentes
Prompt:
Slow cinematic push forward as the subject stands still for a beat, then raises their chin and lets a faint smile appear. Wind moves through the hair and clothing, glowing particles drift through the frame, and the atmosphere feels heroic, calm, and slightly magical.
Por qué funciona:
- las referencias sostienen la identidad
- el prompt crea la interpretación
- la escena se concentra en un solo beat emocional
Un prompt malo frente a uno mejor
Malo:
Make a really beautiful luxury fashion video with a stylish woman and amazing cinematic lighting and expensive vibes.
Por qué es débil:
- es vago
- casi no dirige el movimiento
- no da una idea de cámara
- no describe el comportamiento de la escena
Mejor:
Slow side-tracking shot as the subject walks through the hallway and lightly brushes one hand against the wall. The fabric moves softly, warm reflections pulse across the floor, and the mood feels elegant, quiet, and high-end.
Por qué es mejor:
- hay una idea de cámara clara
- hay una acción clara
- hay movimiento del entorno
- el tono está bien definido
¿Cuántas reference images conviene usar?
Usa el menor número posible que enseñe con claridad lo importante.
Usa 1 imagen cuando:
- el sujeto es simple
- el estilo ya está claro
- solo necesitas un ancla fuerte
Usa 2 imágenes cuando:
- necesitas un segundo ángulo
- quieres identidad más claridad de pose
Usa 3 imágenes cuando:
- el sujeto o producto tiene detalles importantes desde varios puntos de vista
- cada imagen añade una claridad real
No uses 3 solo porque 3 están disponibles.
Más solo es mejor cuando cada imagen ayuda de verdad.
Checklist final para mejorar prompts con Reference Images
Antes de generar, pregúntate:
- ¿Todas mis imágenes de referencia describen el mismo sujeto o producto?
- ¿Las imágenes son de buena calidad y visualmente coherentes?
- ¿Mi prompt se centra en el movimiento y no en repetir la apariencia?
- ¿He definido claramente el movimiento de cámara?
- ¿Estoy pidiendo una sola escena y un solo beat emocional?
Con eso ya puedes mejorar mucho los resultados.
Los mejores prompts con reference images no suelen ser los más largos. Son los que dejan que las imágenes carguen la identidad y usan las palabras para dirigir la acción con claridad.
Si quieres probarlo directamente, usa DojoClip AI Video Generator aquí: Genera videos con DojoClip