Imagem para Vídeo | Grok Automation

Quando usar este modo

Imagem para Vídeo é a escolha certa quando:

Você tem uma imagem estática e quer animá-la com um prompt de movimento (“câmera avançando suavemente, névoa chegando”).
Você quer uma transição controlada entre duas imagens (começa em um plano aberto, termina em um close do mesmo sujeito).

Se você quer vídeo gerado do zero sem frame de origem, use Texto para Vídeo . Se você quer um composto com múltiplos personagens ou componentes, use Referência para Vídeo .

Modo de frame: a única escolha que você realmente precisa fazer

Quando você clica no tile Imagem para Vídeo, um seletor de Modo de frame aparece logo abaixo da área de texto de prompts. Duas opções:

Opção	O que significa	Use quando
Frame inicial	Uma imagem por prompt. Essa imagem é o primeiro frame do vídeo; o prompt descreve o que acontece.	O movimento é “e então…” a partir de uma única estática.
Frame inicial + final	Duas imagens por prompt. A primeira é o início, a segunda é o fim. O prompt preenche o meio.	Você quer uma transição controlada entre dois estados conhecidos.

Screenshot pending Seletor de modo de frame com opções Frame inicial e Frame inicial + final

Frame inicial usa uma imagem por prompt. Frame inicial + final usa duas. O seletor decide como a fila divide sua biblioteca.

Como a biblioteca é dividida

Isso é o que surpreende as pessoas no primeiro uso, então vale a pena dizer claramente.

No modo Frame inicial, cada prompt consome uma imagem da biblioteca, em ordem. Uma biblioteca de 6 imagens com 6 prompts significa prompt 1 ↔ imagem 1, prompt 2 ↔ imagem 2, e assim por diante. Uma biblioteca de 6 imagens com 3 prompts? Apenas as 3 primeiras imagens são usadas.

No modo Frame inicial + final, cada prompt consome duas imagens. Uma biblioteca de 6 imagens com 3 prompts significa que o prompt 1 recebe as imagens 1+2, o prompt 2 recebe 3+4, o prompt 3 recebe 5+6. Uma biblioteca de 6 imagens com 2 prompts usa apenas as imagens 1–4.

Arraste e reordene os tiles da biblioteca para controlar quais imagens vão com qual prompt. A ordem na área de upload é a ordem de atribuição.

Configure uma execução

Clique no tile Imagem para Vídeo.
Na área de upload Imagem(ns) de referência, faça upload das suas estáticas.
Escolha o Modo de frame — Frame inicial ou Frame inicial + final.
Em Prompts, escreva um prompt por tomada (separado por linha em branco). Para Frame inicial + final, o prompt deve descrever a jornada entre os dois frames.
Em Refinar, defina Duração (6s / 10s), Qualidade (480p / 720p) e Proporção. O combo 480p + ampliação de Texto para Vídeo funciona da mesma forma aqui.
Clique em Executar →.

Um exemplo prático: Frame inicial + final

Biblioteca, em ordem:

01-wideshot.jpg — Um plano aberto de uma praça vazia ao amanhecer.
02-closeup.jpg — Um close de uma xícara de café em uma mesa de café na mesma praça.

Prompts (prompt único porque temos uma transição):

Slow dolly forward from the empty plaza, light gradually warming, ending on the steam rising from the coffee cup. Continuous take, no cuts.

Execute. Um clipe de 10 segundos vai para sua pasta, começando no plano aberto e terminando no close, com o meio preenchido pelo Grok.

Status por linha durante a execução

A lista de prompts no meio da execução mostra:

O texto do prompt.
Uma linha de pequenas miniaturas para as imagens sendo usadas (1 no modo Frame inicial, 2 no Frame inicial + final).
Status: na fila → gerando · N% → concluído / falhou.

Se uma linha diz falhou com um erro nenhuma imagem associada, sua biblioteca tem menos imagens do que os prompts precisam — para Frame inicial + final isso significa menos de 2 × número de prompts.

Encadeamento de prompts no Imagem para Vídeo

A caixa de seleção Encadear prompts também está disponível aqui. Com o encadeamento ativado, o último frame do vídeo de saída se torna o frame inicial para o próximo prompt, independente do que está na biblioteca. Esta é a forma mais limpa de construir uma sequência de 4 tomadas a partir de uma única estática inicial. Veja Encadeamento de prompts .