Amazon Bedrock e Nova Reel lançam solução VRAG para geração automatizada de vídeos com IA

A Amazon Web Services (AWS) apresentou uma inovação significativa para a criação de vídeos assistida por inteligência artificial: a solução Video Retrieval Augmented Generation (VRAG). Desenvolvida para superar as limitações dos modelos tradicionais de geração de vídeo, que dependem exclusivamente do conhecimento pré-treinado, essa tecnologia combina texto estruturado e imagens para produzir vídeos personalizados e de alta qualidade de forma totalmente automatizada.
O que é a solução VRAG?
VRAG é um pipeline multimodal que integra o Amazon Bedrock, o Amazon Nova Reel, o serviço de vetores do Amazon OpenSearch e o armazenamento do Amazon S3 para transformar comandos em linguagem natural e imagens de referência em vídeos realistas. O sistema funciona da seguinte maneira: o usuário informa um objeto de interesse, que é buscado em uma base de dados indexada de imagens; em seguida, define uma ação para a câmera ou cena, como "câmera gira no sentido horário"; e, por fim, a combinação desses elementos gera o vídeo desejado.
Quem pode usar e para quais aplicações?
Essa solução é ideal para profissionais e empresas dos setores de publicidade, produção de mídia, educação e jogos, onde a personalização e o controle do conteúdo audiovisual são essenciais. Exemplos de uso incluem:
- Vídeos educacionais automáticos, gerados a partir de imagens relacionadas ao tema de interesse.
- Anúncios de marketing segmentados, que puxam imagens alinhadas a públicos ou características específicas.
- Conteúdo personalizado para usuários individuais, adaptando o vídeo conforme seus interesses.
Disponibilidade e como acessar
A solução VRAG está disponível para implementação via AWS CloudFormation na região US East (N. Virginia). Para conferir a lista completa de regiões que suportam o Amazon Nova Reel, consulte a documentação oficial da AWS. Para começar, é necessário possuir uma conta AWS ativa e familiaridade com instâncias de notebook do Amazon SageMaker.
O processo de implantação inclui a criação de uma stack CloudFormation, acesso ao SageMaker AI para abrir e executar notebooks JupyterLab que guiam o usuário passo a passo na configuração e uso da solução. São disponibilizados sete notebooks sequenciais com instruções detalhadas para:
- Processamento e ingestão de imagens.
- Geração de vídeos a partir de texto, imagens ou ambos.
- Utilização de técnicas avançadas como in-painting para edição e aprimoramento das imagens antes da geração do vídeo.
Como funciona na prática: exemplos de entrada e saída
Um exemplo prático apresentado no blog da AWS demonstra a criação de um vídeo para uma agência de viagens que deseja promover uma praia. Usando apenas um prompt de texto descrevendo a cena, o vídeo gerado apresenta um movimento de câmera lento do céu azul até um caiaque colorido flutuando na água turquesa. Quando combinado com uma imagem estática específica da agência, o resultado é ainda mais personalizado e fiel à realidade desejada, ilustrando o potencial do VRAG para integrar imagens reais com comandos textuais.
Requisitos técnicos e melhores práticas
Antes de implantar a solução, é necessário:
- Ter uma conta AWS válida e configurada.
- Conhecer o ambiente do Amazon SageMaker para executar notebooks.
Para garantir a qualidade dos vídeos gerados, recomenda-se manter uma base de imagens de alta qualidade e bem indexada, usar legendas ou metadados para contextualizar melhor as imagens e, se necessário, aplicar técnicas adicionais de edição para refinar o produto final. Também é importante observar as diretrizes regulatórias, como as do EU AI Act, para assegurar conformidade.
Como limpar os recursos após o uso
Para evitar cobranças futuras, recomenda-se esvaziar os buckets do Amazon S3 criados durante o processo e excluir a stack CloudFormation provisionada, o que remove todos os recursos associados, incluindo instâncias SageMaker, coleções OpenSearch Serverless e papéis IAM.