Voltar para o blog
Machine Learning

EVA: Novo Framework para Avaliação Completa de Agentes de Voz Conversacionais

23 de março de 2026
23:25
inteligência artificialBenchmarkHugging FaceNLPagentes conversacionaisavaliação de agentes de vozconversational AIframework EVAprocessamento de voz
EVA: Novo Framework para Avaliação Completa de Agentes de Voz Conversacionais

Desafios na Avaliação de Agentes de Voz

Agentes de voz conversacionais precisam equilibrar duas dimensões essenciais para o sucesso: precisão — a capacidade de completar corretamente a tarefa solicitada pelo usuário — e experiência conversacional — a fluidez, naturalidade e concisão na interação falada. Avaliar esses aspectos conjuntamente é complexo, pois um agente pode ser excelente em concluir uma tarefa, mas entregar uma experiência frustrante para o usuário, ou vice-versa.

As abordagens existentes tendem a avaliar essas dimensões de forma isolada, focando apenas em transcrição, qualidade da fala ou dinâmicas conversacionais, sem integrar o desempenho em tarefas reais e a experiência do usuário em um único framework.

O que é o EVA?

O EVA (Evaluation of Voice Agents) é um framework inovador, desenvolvido pela equipe ServiceNow-AI e disponibilizado pela Hugging Face, que propõe uma avaliação end-to-end de agentes de voz, simulando conversas reais multi-turno em áudio. O diferencial do EVA é sua arquitetura bot-a-bot que combina avaliação de precisão (EVA-A) e experiência (EVA-X), permitindo identificar falhas de forma integrada.

O EVA foi lançado com um conjunto inicial de 50 cenários no domínio de companhias aéreas, incluindo rebooking de voos, cancelamentos, vouchers e outros casos que exigem raciocínio temporal, cumprimento de políticas e manipulação de entidades nomeadas.

Arquitetura e Componentes do EVA

  • Simulador de Usuário: Um agente conversacional com personalidade e objetivo específicos que atua como chamador, utilizando síntese de voz (TTS) de alta qualidade para reproduzir desafios reais de entendimento em fala natural e turnos realistas.
  • Agente de Voz: O sistema avaliado, construído com o Pipecat, framework Python open-source para aplicações de voz em tempo real. O EVA suporta arquiteturas em cascata (STT → LLM → TTS) e modelos nativos de áudio (S2S ou S2T → TTS).
  • Executor de Ferramentas: Motor que provê respostas determinísticas e reprodutíveis via funções Python customizadas, consultando e modificando bancos de dados específicos para cada cenário.
  • Validadores: Métricas que garantem a completude e fidelidade da conversa, sem necessidade de anotação humana. Conversas inválidas são automaticamente regeneradas, assegurando qualidade dos dados avaliados.
  • Conjunto de Métricas: Avalia o agente usando gravações, transcrições e logs de chamadas às ferramentas, contemplando precisão e experiência.

Detalhes dos Dados e Cenários

Cada cenário do EVA é estruturado para ser reproduzível, contendo:

  • Objetivo do Usuário: Meta específica e árvore decisória que guia o simulador durante a conversa.
  • Persona do Usuário: Estilo de fala, nível de paciência e traços de personalidade do chamador.
  • Base de Dados do Cenário: Dados que o agente consulta para realizar as tarefas.
  • Estado Esperado: Resultado final esperado após uma conversa bem-sucedida.

Métricas de Avaliação: EVA-A e EVA-X

EVA-A (Precisão)

  • Conclusão da Tarefa (Determinística): Verifica se o agente atingiu o estado esperado no banco de dados.
  • Fidelidade (LLM-as-Juiz): Avalia se as respostas são fundamentadas nas instruções, políticas e entradas do usuário, detectando fabricacões e violações.
  • Fidelidade da Fala (LALM-as-Juiz): Mede se a fala sintetizada corresponde ao texto pretendido, com atenção especial a códigos de confirmação, números de voo e valores monetários.

EVA-X (Experiência)

  • Concisão (LLM-as-Juiz): Analisa se as respostas são breves e focadas, evitando sobrecarga para o ouvinte.
  • Progresso da Conversa (LLM-as-Juiz): Verifica se o agente evita repetições e avança efetivamente rumo à conclusão da tarefa.
  • Turn-taking (LLM-as-Juiz): Avalia o timing das falas, evitando interrupções e silêncios excessivos.

Principais Resultados da Avaliação

Testando 20 sistemas diversos — proprietários e open-source, em cascata e nativos de áudio — o EVA revelou um trade-off consistente entre precisão e experiência. Agentes com alta taxa de conclusão de tarefa tendem a oferecer experiências conversacionais inferiores, enquanto os que proporcionam melhor experiência falham mais na tarefa.

Outros achados incluem:

  • Transcrição incorreta de entidades nomeadas é a principal causa de falhas, podendo levar a erros críticos como falha na autenticação.
  • Fluxos multi-etapas complexos, como remarcação preservando serviços adicionais, são os maiores desafios para os agentes.
  • Consistência ainda é um problema: mesmo agentes que conseguem completar tarefas, não o fazem de forma confiável em múltiplas tentativas.

Limitações Reconhecidas pelo EVA

  • Framework: Dependência de um único provedor comercial para síntese de voz, que pode favorecer certos sistemas de reconhecimento; pipeline bot-a-bot pode não refletir perfeitamente ambientes de produção; acesso a APIs comerciais necessário para reprodução total.
  • Dados: Cenários limitados a 50 casos em inglês e no domínio aéreo; resultados podem não generalizar para outras línguas, sotaques ou domínios.
  • Métricas: Juízes baseados em LLMs podem apresentar vieses e favorecer certos estilos; avaliação binária de conclusão não captura nuances de desempenho gradual.

Próximos Passos e Expansões

O desenvolvimento do EVA prevê:

  • Inclusão de avaliação prosódica (pronúncia, ritmo, expressividade), ainda um desafio técnico.
  • Testes de robustez em ambientes ruidosos, sotaques variados, multilíngue e comportamentos diversos dos usuários.
  • Desenvolvimento de novos conjuntos de dados em domínios variados, com cenários mais complexos e memória conversacional estendida.
  • Ferramenta de análise de erros e resultados para facilitar a exploração dos pontos fortes e fracos dos modelos.
  • Atualização contínua do leaderboard para refletir o avanço dos agentes de voz.

Como Começar a Usar o EVA

O código-fonte, dataset e prompts de avaliação do EVA estão disponíveis no GitHub: https://github.com/ServiceNow/eva. Para mais informações, documentação e acesso à plataforma Hugging Face, visite https://huggingface.co/docs.

Links úteis