Amazon Bedrock lança Model Distillation para otimizar buscas semânticas em vídeo com Amazon Nova

A Amazon Web Services (AWS) anunciou um avanço significativo para quem trabalha com buscas semânticas em vídeos: a técnica de Model Distillation disponível no Amazon Bedrock. Essa novidade permite transferir a inteligência de roteamento de um modelo grande e poderoso, o Amazon Nova Premier, para um modelo muito menor e mais rápido, o Amazon Nova Micro.

O que é Model Distillation e por que ela importa?

Model Distillation é uma técnica de customização de modelos que cria um modelo "aluno" menor, treinado para imitar o comportamento de um modelo "professor" maior e mais complexo. No contexto de buscas semânticas multimodais em vídeos, isso significa manter a qualidade e a nuance da inteligência de roteamento, mas com custos de inferência mais baixos e latência reduzida.

Segundo os dados apresentados, a distilação do modelo permite uma redução de mais de 95% no custo de inferência e uma diminuição de 50% na latência — sem perder a precisão necessária para interpretar consultas complexas que envolvem múltiplos sinais, como visual, áudio, transcrição e metadados.

Quem pode se beneficiar e como acessar a funcionalidade

Empresas que operam buscas semânticas em vídeos multimodais, especialmente aquelas que precisam equilibrar precisão, custo e velocidade, são as principais beneficiadas. A solução é ideal para cenários onde a complexidade do roteamento inclui múltiplos atributos, como ângulo de câmera, sentimento, direitos de licença e taxonomias específicas do domínio.

O processo de distilação está disponível através do Amazon Bedrock, que gerencia toda a infraestrutura e orquestração de treinamento automaticamente, sem necessidade de provisionamento manual ou ajuste complexo de hiperparâmetros.

Como funciona o pipeline de distilação

O fluxo completo pode ser executado em um notebook Jupyter disponibilizado no repositório oficial da AWS no GitHub. As etapas principais são:

Preparação dos dados de treinamento: geração de 10.000 exemplos sintéticos rotulados com o modelo Nova Premier, distribuídos entre sinais visuais, áudio, transcrição e metadados, e upload para o Amazon S3 no formato Bedrock para distilação.
Execução do job de distilação: configuração do trabalho com os identificadores do modelo professor (Nova Premier) e aluno (Nova Micro) e submissão pelo Amazon Bedrock.
Implantação do modelo distilado: uso da inferência sob demanda para acesso flexível e pagamento conforme o uso, sem necessidade de compromisso prévio.
Avaliação do modelo: comparação da qualidade do roteamento do modelo distilado com o modelo base Nova Micro e com o modelo Claude Haiku, usando métricas personalizadas e avaliação automatizada.

Exemplo de preparação dos dados

Um exemplo de entrada para o treinamento segue o esquema JSONL bedrock-conversation-2024, onde o prompt do usuário é acompanhado pela resposta gerada automaticamente pelo modelo professor:

{
  "schemaVersion": "bedrock-conversation-2024",
  "system": [{ "text": "Return JSON with visual, audio, transcription, metadata weights (sum=1.0) and reasoning for the given video search query." }],
  "messages": [
    { "role": "user", "content": [{ "text": "Olivia talking about growing up in poverty" }] },
    { "role": "assistant", "content": [{ "text": "{\"visual\": 0.2, \"audio\": 0.1, \"transcription\": 0.6, \"metadata\": 0.1, \"reasoning\": \"The query focuses on spoken content ('talking about'), making transcription most important...\"}" }] }
  ]
}

Treinamento e implantação

O job de distilação é submetido via API do Amazon Bedrock com poucas linhas de código, onde o usuário informa o modelo professor, o aluno, o caminho do dataset no S3 e a role do IAM para permissões. A AWS gerencia o restante do processo automaticamente.

Após o treinamento, o modelo distilado pode ser implantado com duas opções:

Provisioned Throughput – para cargas previsíveis e alto volume.
On-Demand Inference – recomendada para quem está começando, com pagamento por uso e sem necessidade de provisionar endpoints.

Custos e performance

Na inferência, o custo do modelo distilado Nova Micro é de US$0,000035 por 1.000 tokens de entrada e US$0,000140 por 1.000 tokens de saída. Em comparação, o custo do modelo Claude Haiku pode chegar a US$0,80 a US$1,00 por 1.000 tokens de entrada e US$4,00 a US$5,00 por 1.000 tokens de saída.

Em termos de latência, o modelo distilado apresenta média de 833ms, enquanto o Claude Haiku chega a 1.741ms, praticamente o dobro.

Resultados da avaliação do modelo distilado

O modelo distilado apresentou alta consistência na geração de respostas no formato JSON esperado, com pesos numéricos que somam 1,0 e justificativas claras para o roteamento. Em comparação, o modelo base Nova Micro gerava respostas inconsistentes e incompletas.

Na avaliação automatizada, o modelo distilado alcançou uma nota 4,0 em uma escala de 5, muito próxima ao modelo Claude Haiku, que obteve 4,5, mas com metade da latência e custo muito inferior.

Como começar a usar

Para experimentar a solução, a AWS disponibilizou:

Notebook Jupyter com todo o pipeline de distilação: link do notebook
Scripts para geração sintética de dados: repositório GitHub
Documentação completa da API Converse: AWS Bedrock Converse API
Guia para preparar datasets para distilação: preparação de dados
Instruções para criar conta AWS e acessar Bedrock: registro AWS

Com essa estrutura, equipes de desenvolvimento podem reduzir custos e melhorar a experiência dos usuários finais em sistemas de busca multimodal de vídeos, mantendo alta precisão e baixa latência.