Amazon Bedrock lança Model Distillation para otimizar buscas semânticas em vídeo com Amazon Nova

A Amazon Web Services (AWS) anunciou um avanço significativo para quem trabalha com buscas semânticas em vídeos: a técnica de Model Distillation disponível no Amazon Bedrock. Essa novidade permite transferir a inteligência de roteamento de um modelo grande e poderoso, o Amazon Nova Premier, para um modelo muito menor e mais rápido, o Amazon Nova Micro.
O que é Model Distillation e por que ela importa?
Model Distillation é uma técnica de customização de modelos que cria um modelo "aluno" menor, treinado para imitar o comportamento de um modelo "professor" maior e mais complexo. No contexto de buscas semânticas multimodais em vídeos, isso significa manter a qualidade e a nuance da inteligência de roteamento, mas com custos de inferência mais baixos e latência reduzida.
Segundo os dados apresentados, a distilação do modelo permite uma redução de mais de 95% no custo de inferência e uma diminuição de 50% na latência — sem perder a precisão necessária para interpretar consultas complexas que envolvem múltiplos sinais, como visual, áudio, transcrição e metadados.
Quem pode se beneficiar e como acessar a funcionalidade
Empresas que operam buscas semânticas em vídeos multimodais, especialmente aquelas que precisam equilibrar precisão, custo e velocidade, são as principais beneficiadas. A solução é ideal para cenários onde a complexidade do roteamento inclui múltiplos atributos, como ângulo de câmera, sentimento, direitos de licença e taxonomias específicas do domínio.
O processo de distilação está disponível através do Amazon Bedrock, que gerencia toda a infraestrutura e orquestração de treinamento automaticamente, sem necessidade de provisionamento manual ou ajuste complexo de hiperparâmetros.
Como funciona o pipeline de distilação
O fluxo completo pode ser executado em um notebook Jupyter disponibilizado no repositório oficial da AWS no GitHub. As etapas principais são:
- Preparação dos dados de treinamento: geração de 10.000 exemplos sintéticos rotulados com o modelo Nova Premier, distribuídos entre sinais visuais, áudio, transcrição e metadados, e upload para o Amazon S3 no formato Bedrock para distilação.
- Execução do job de distilação: configuração do trabalho com os identificadores do modelo professor (Nova Premier) e aluno (Nova Micro) e submissão pelo Amazon Bedrock.
- Implantação do modelo distilado: uso da inferência sob demanda para acesso flexível e pagamento conforme o uso, sem necessidade de compromisso prévio.
- Avaliação do modelo: comparação da qualidade do roteamento do modelo distilado com o modelo base Nova Micro e com o modelo Claude Haiku, usando métricas personalizadas e avaliação automatizada.
Exemplo de preparação dos dados
Um exemplo de entrada para o treinamento segue o esquema JSONL bedrock-conversation-2024, onde o prompt do usuário é acompanhado pela resposta gerada automaticamente pelo modelo professor:
{
"schemaVersion": "bedrock-conversation-2024",
"system": [{ "text": "Return JSON with visual, audio, transcription, metadata weights (sum=1.0) and reasoning for the given video search query." }],
"messages": [
{ "role": "user", "content": [{ "text": "Olivia talking about growing up in poverty" }] },
{ "role": "assistant", "content": [{ "text": "{\"visual\": 0.2, \"audio\": 0.1, \"transcription\": 0.6, \"metadata\": 0.1, \"reasoning\": \"The query focuses on spoken content ('talking about'), making transcription most important...\"}" }] }
]
}
Treinamento e implantação
O job de distilação é submetido via API do Amazon Bedrock com poucas linhas de código, onde o usuário informa o modelo professor, o aluno, o caminho do dataset no S3 e a role do IAM para permissões. A AWS gerencia o restante do processo automaticamente.
Após o treinamento, o modelo distilado pode ser implantado com duas opções:
- Provisioned Throughput – para cargas previsíveis e alto volume.
- On-Demand Inference – recomendada para quem está começando, com pagamento por uso e sem necessidade de provisionar endpoints.
Custos e performance
Na inferência, o custo do modelo distilado Nova Micro é de US$0,000035 por 1.000 tokens de entrada e US$0,000140 por 1.000 tokens de saída. Em comparação, o custo do modelo Claude Haiku pode chegar a US$0,80 a US$1,00 por 1.000 tokens de entrada e US$4,00 a US$5,00 por 1.000 tokens de saída.
Em termos de latência, o modelo distilado apresenta média de 833ms, enquanto o Claude Haiku chega a 1.741ms, praticamente o dobro.
Resultados da avaliação do modelo distilado
O modelo distilado apresentou alta consistência na geração de respostas no formato JSON esperado, com pesos numéricos que somam 1,0 e justificativas claras para o roteamento. Em comparação, o modelo base Nova Micro gerava respostas inconsistentes e incompletas.
Na avaliação automatizada, o modelo distilado alcançou uma nota 4,0 em uma escala de 5, muito próxima ao modelo Claude Haiku, que obteve 4,5, mas com metade da latência e custo muito inferior.
Como começar a usar
Para experimentar a solução, a AWS disponibilizou:
- Notebook Jupyter com todo o pipeline de distilação: link do notebook
- Scripts para geração sintética de dados: repositório GitHub
- Documentação completa da API Converse: AWS Bedrock Converse API
- Guia para preparar datasets para distilação: preparação de dados
- Instruções para criar conta AWS e acessar Bedrock: registro AWS
Com essa estrutura, equipes de desenvolvimento podem reduzir custos e melhorar a experiência dos usuários finais em sistemas de busca multimodal de vídeos, mantendo alta precisão e baixa latência.