AWS lança avaliadores multimodais para tarefas de imagem para texto no Strands Evals

Avaliação automatizada para modelos multimodais

A Amazon Web Services (AWS) anunciou quatro novos avaliadores multimodais baseados em grandes modelos de linguagem multimodal (MLLM) para tarefas de geração de texto a partir de imagens, integrados ao kit de desenvolvimento Strands Evals SDK. Essa novidade é fundamental para aplicações que envolvem interpretação visual, como compras visuais, compreensão de documentos e análise de gráficos, onde é imprescindível verificar se a resposta do modelo está realmente fundamentada na imagem original.

O que são os avaliadores multimodais e por que são importantes?

Até hoje, avaliadores baseados apenas em texto não conseguem detectar erros cruciais em tarefas que envolvem imagens, como legendas incorretas, valores extraídos errados de faturas ou resumos de telas que mencionam elementos inexistentes. A AWS destaca que, segundo previsão da Gartner, até 2030, 80% dos softwares corporativos serão multimodais, um salto em relação aos menos de 10% em 2024. Sem avaliação multimodal automatizada, as empresas ficam entre revisões humanas caras e avaliações textuais pouco confiáveis.

Quatro avaliadores para diferentes aspectos da avaliação

Os quatro novos avaliadores são:

Overall Quality (Qualidade Geral): pontuação Likert de 1 a 5 que mede a qualidade global da resposta, incluindo relevância e abrangência.
Correctness (Corretude): avaliação binária que verifica se a resposta está correta e completa em relação à imagem e à consulta.
Faithfulness (Fidelidade): avaliação binária que detecta se a resposta está fundamentada na imagem, evitando alucinações ou informações inventadas.
Instruction Following (Adesão à Instrução): avaliação binária que verifica se a resposta segue as restrições e formato solicitados na consulta.

Cada avaliador pode operar em modo com referência (comparando a resposta com uma resposta-verdade) ou sem referência, sendo este último essencial para cenários com imagens ao vivo sem respostas prévias.

Como funcionam os avaliadores na prática

O fluxo segue a estrutura Case → Experiment → Report do Strands Evals, onde o avaliador recebe a imagem, a consulta, a resposta do modelo e, opcionalmente, a resposta de referência. O modelo multimodal avalia e retorna uma pontuação junto com uma justificativa detalhada, facilitando a identificação de falhas sem necessidade de reexecução.

Exemplo de uso

Um caso prático apresentado é a avaliação da resposta a uma pergunta sobre um gráfico de receita média por região. O agente visual responde qual região tem a maior receita, e os quatro avaliadores fornecem notas e razões, confirmando a precisão e fidelidade da resposta.

Requisitos para usar os avaliadores multimodais

Python 3.10 ou superior instalado.
Pacotes strands-agents-evals e strands-agents instalados via pip.
Conta AWS com acesso ao Amazon Bedrock e permissões para invocar modelos multimodais.
Familiaridade com o fluxo Case → Experiment → Report do Strands Evals.

Modelos recomendados e dicas para melhor avaliação

A AWS recomenda o uso do modelo Anthropic Claude Sonnet 4.6 disponível no Amazon Bedrock como o melhor equilíbrio entre custo, latência e precisão para juízes multimodais. Modelos maiores e com capacidade de raciocínio são mais confiáveis, enquanto modelos menores não são indicados para julgamento.

Entre as práticas para melhor alinhamento com avaliações humanas, destacam-se:

Solicitar que o modelo faça um raciocínio antes de emitir a nota.
Incluir exemplos calibrados para melhorar a consistência.
Utilizar rubricas detalhadas e multidimensionais para separar diferentes tipos de falhas.
Usar respostas de referência para métricas que avaliam conteúdo, mas evitar para métricas estruturais como adesão à instrução.

Disponibilidade e como começar

Os avaliadores multimodais já estão disponíveis no Strands Evals SDK. Para começar a usar, basta instalar o pacote:

pip install strands-agents-evals

Em seguida, é possível consultar a documentação oficial para um guia completo do fluxo Case → Experiment → Report e explorar exemplos práticos no repositório do GitHub da Strands Agents.

Links úteis

Impacto prático para desenvolvedores e empresas

Com esses avaliadores, desenvolvedores e equipes de machine learning podem automatizar a validação de modelos multimodais, reduzindo a dependência de revisões humanas custosas e aumentando a confiabilidade das aplicações visuais. A capacidade de diagnosticar falhas específicas, como alucinações visuais, erros factuais e desrespeito a instruções, permite correções mais rápidas e precisas, acelerando o desenvolvimento de soluções robustas.