Como Bark.com e AWS Desenvolveram Solução Escalável para Geração de Vídeos com IA

Parceria entre Bark.com e AWS para revolucionar a criação de vídeos
A Bark.com, plataforma que conecta milhares de pessoas a serviços profissionais em diversas categorias, enfrentava um desafio comum no marketing digital: a necessidade de criar grandes volumes de conteúdo personalizado para campanhas de mídia social, mantendo alta qualidade e reduzindo o tempo de produção. Tradicionalmente, esse processo manual podia levar semanas para cada campanha, tornando inviável a experimentação rápida em múltiplos segmentos de clientes.
Para superar essa barreira, Bark.com uniu forças com o AWS Generative AI Innovation Center, criando uma solução baseada em inteligência artificial que automatiza e acelera a geração de vídeos personalizados. O resultado foi uma redução drástica no tempo de produção, de semanas para horas, com melhoria nos índices de qualidade do conteúdo.
Arquitetura técnica da solução
A solução desenvolvida integra diversos serviços da AWS para formar uma arquitetura robusta e escalável:
- Camada de dados e armazenamento: Amazon Simple Storage Service (Amazon S3) para guardar dados de treinamento, segmentos de vídeo, imagens de referência e resultados finais. Amazon Elastic Container Registry (Amazon ECR) armazena artefatos dos modelos e containers personalizados.
- Camada de processamento: AWS Lambda com AWS Step Functions para orquestrar o pipeline de geração de vídeo em sete etapas. Amazon Bedrock com o modelo Claude Sonnet 3.7 da Anthropic é responsável pela geração de texto, incluindo segmentação de clientes, criação de roteiros e avaliação de qualidade.
- Camada de computação GPU: Instância SageMaker ml.p4d.24xlarge com múltiplas GPUs para executar o modelo Wan 2.1 Text2Video-14B via paralelismo tensorial, garantindo desempenho e eficiência. Amazon Elastic Container Service (Amazon ECS) em instâncias g5.2xlarge cuida da síntese de voz para narração, escalando automaticamente conforme a demanda.
- Interface do usuário: Frontend React com autenticação via Amazon Cognito, oferecendo um estúdio de vídeo onde a equipe de marketing pode revisar, editar e aprovar conteúdos gerados por comandos em linguagem natural.
Pipeline criativo para ideação e produção
O processo de criação de vídeos personalizados ocorre em três etapas principais:
- Geração de segmentos de clientes: O modelo de linguagem analisa dados de questionários para identificar personas específicas com atributos detalhados, como demografia, motivações e pontos de dor. Exemplos incluem o "Cuidador Familiar Sobrecarregado" e o "Idoso Focado em Independência".
- Criação de briefs criativos: Para cada segmento, são gerados entre 4 e 6 conceitos criativos, variando entre abordagens literais e metafóricas, incentivando diversidade e inovação nos roteiros.
- Refinamento do storyboard: Os briefs são convertidos em storyboards detalhados com especificações audiovisuais completas, incluindo descrições de cena, direção de câmera, texto de narração e temporização. A revisão humana garante alinhamento com a identidade da marca antes da produção.
Garantindo consistência visual e narrativa
Um desafio crucial na geração automática de vídeos é manter a consistência semântica e visual entre as múltiplas cenas de um anúncio. Para isso, a solução adota um framework em duas camadas:
- Consistência semântica: Um modelo de linguagem extrai elementos recorrentes (atores, objetos, cenários) e gera especificações detalhadas para cada um, que são incorporadas nos prompts de geração de vídeo para manter a coerência narrativa.
- Consistência visual: Utiliza-se o Amazon Nova Premier para identificar os melhores quadros de cada cena, seguido pela segmentação dos elementos-chave com o Segment Anything Model. As imagens extraídas são usadas como referências em chamadas subsequentes ao modelo de vídeo, evitando derivações visuais indesejadas.
Pipeline de geração e avaliação de vídeos
A geração do vídeo envolve múltiplas modalidades (texto, imagem, vídeo, áudio e gráficos) coordenadas por um fluxo de trabalho em AWS Step Functions:
- Síntese de vídeo: Cenas que exigem continuidade visual utilizam o modelo Wan 2.1 VACE-14B com imagens de referência, enquanto cenas novas são geradas com Wan 2.1 Text2Video-14B.
- Síntese de fala: O modelo de fala conversacional da Sesame AI Lab é executado em contêineres ECS com GPUs, permitindo clonagem de voz a partir de amostras curtas do narrador da marca.
- Elementos gráficos: Sobreposições de texto e chamadas para ação seguem templates padronizados para manter a identidade visual da marca.
Além disso, um loop de avaliação automatizado usa um modelo de linguagem para julgar cada cena em termos de aderência ao roteiro, qualidade visual e conformidade com a marca. Cenas que não atingem os critérios são automaticamente regeneradas, garantindo alto padrão final.
Resultados concretos e aprendizado prático
Comparado ao acervo de campanhas anteriores da Bark.com, os vídeos gerados por IA apresentaram:
- Melhor coerência narrativa (nota média 6,9 contra 6,4 em escala de 10)
- Maior originalidade e engajamento (6,5 contra 5,2)
- Consistência visual aprimorada (6,9 contra 6,6)
O pipeline produz anúncios de 15 a 30 segundos em cerca de 12 a 15 minutos, incluindo orquestração, verificações de qualidade e regeneração, um ganho significativo frente às semanas do processo manual.
Estudos ablatórios confirmaram a importância da propagação de imagens de referência e da extração de elementos narrativos para manter engajamento e qualidade visual.
Recomendações para quem deseja replicar a solução
- Inclua avaliação humana: Revisões em pontos-chave garantem alinhamento com a identidade da marca.
- Priorize qualidade das imagens de referência: Referências visuais ruins comprometem toda a sequência.
- Use modelos de linguagem para avaliação rápida: Automatiza testes e acelera iterações.
- Planeje para consistência composta: Considere múltiplos elementos visuais coexistindo em uma cena.
- Gerencie recursos AWS cuidadosamente: Apague endpoints, buckets e serviços ao final para evitar custos desnecessários.