Imagen a vídeo | Grok Automation

Cuándo usar este modo

Imagen a vídeo es la opción adecuada cuando:

Tienes una imagen fija y quieres animarla con un prompt de movimiento («cámara avanzando lentamente, niebla entrando»).
Quieres una transición controlada entre dos imágenes (empezar con un plano general, terminar en un primer plano del mismo sujeto).

Si quieres vídeo generado desde cero sin fotograma de origen, usa Texto a vídeo . Si quieres un compuesto con múltiples personajes/componentes, usa Reference to Video .

Modo de fotograma: la única elección que realmente necesitas hacer

Cuando haces clic en el mosaico de modo Imagen a vídeo, aparece un selector de Modo de fotograma justo debajo del área de texto de prompts. Dos opciones:

Opción	Qué significa	Úsalo cuando
Fotograma inicial	Una imagen por prompt. Esa imagen es el primer fotograma del vídeo; el prompt describe lo que ocurre.	El movimiento es «y luego…» a partir de una sola imagen fija.
Fotograma inicial + final	Dos imágenes por prompt. La primera es el inicio, la segunda es el final. El prompt rellena el medio.	Quieres una transición controlada entre dos estados conocidos.

Screenshot pending Selector de modo de fotograma con las opciones Fotograma inicial y Fotograma inicial + final

Fotograma inicial usa una imagen por prompt. Inicial + final usa dos. El selector decide cómo la cola divide tu biblioteca.

Cómo se divide la biblioteca

Esto es lo que sorprende a la gente en el primer uso, así que vale la pena explicarlo claramente.

En el modo Fotograma inicial, cada prompt consume una imagen de la biblioteca, en orden. Una biblioteca de 6 imágenes con 6 prompts significa prompt 1 ↔ imagen 1, prompt 2 ↔ imagen 2, y así sucesivamente. ¿Una biblioteca de 6 imágenes con 3 prompts? Solo se usan las primeras 3 imágenes.

En el modo Fotograma inicial + final, cada prompt consume dos imágenes. Una biblioteca de 6 imágenes con 3 prompts significa que el prompt 1 recibe las imágenes 1+2, el prompt 2 las imágenes 3+4, el prompt 3 las imágenes 5+6. Una biblioteca de 6 imágenes con 2 prompts usa solo las imágenes 1–4.

Arrastra los mosaicos de la biblioteca para controlar qué imágenes van con qué prompt. El orden en la zona de colocación es el orden de asignación.

Configurar una ejecución

Haz clic en el mosaico Imagen a vídeo.
En la zona de colocación Imagen(es) de referencia, sube tus imágenes fijas.
Elige Modo de fotograma — Fotograma inicial o Fotograma inicial + final.
En Prompts, escribe un prompt por toma (separados por línea en blanco). Para Inicial + final, el prompt debe describir el recorrido entre los dos fotogramas.
En Refinar, configura Duración (6s / 10s), Calidad (480p / 720p) y Proporción. El combo 480p + mejora de Texto a vídeo funciona igual aquí.
Haz clic en Ejecutar →.

Un ejemplo práctico: Inicial + final

Biblioteca, en orden:

01-wideshot.jpg — Un plano general de una plaza vacía al amanecer.
02-closeup.jpg — Un primer plano de una taza de café en una mesa de café en la misma plaza.

Prompts (un solo prompt porque tenemos una transición):

Slow dolly forward from the empty plaza, light gradually warming, ending on the steam rising from the coffee cup. Continuous take, no cuts.

Ejecutar. Un clip de 10 segundos llega a tu carpeta que empieza en el plano general y termina en el primer plano, con el medio rellenado por Grok.

Estado por fila durante la ejecución

La lista de prompts a mitad de la ejecución muestra:

El texto del prompt.
Una fila de pequeñas miniaturas de la(s) imagen(es) que se están usando (1 en modo Fotograma inicial, 2 en Inicial + final).
Estado: en cola → generando · N% → listo / fallido.

Si una fila dice fallido con un error de no image attached, tu biblioteca tiene menos imágenes de las que los prompts necesitan — para Inicial + final eso significa menos de 2 × número de prompts.

Encadenar prompts en Imagen a vídeo

La casilla Encadenar prompts también está disponible aquí. Con el encadenamiento activado, el último fotograma del vídeo de salida se convierte en el fotograma inicial del siguiente prompt, independientemente de lo que haya en la biblioteca. Esta es la forma más limpia de construir una secuencia de 4 tomas a partir de una sola imagen inicial. Consulta Encadenar prompts .