EVA: Novo Framework para Avaliação Completa de Agentes de Voz Conversacionais

Desafios na Avaliação de Agentes de Voz
Agentes de voz conversacionais precisam equilibrar duas dimensões essenciais para o sucesso: precisão — a capacidade de completar corretamente a tarefa solicitada pelo usuário — e experiência conversacional — a fluidez, naturalidade e concisão na interação falada. Avaliar esses aspectos conjuntamente é complexo, pois um agente pode ser excelente em concluir uma tarefa, mas entregar uma experiência frustrante para o usuário, ou vice-versa.
As abordagens existentes tendem a avaliar essas dimensões de forma isolada, focando apenas em transcrição, qualidade da fala ou dinâmicas conversacionais, sem integrar o desempenho em tarefas reais e a experiência do usuário em um único framework.
O que é o EVA?
O EVA (Evaluation of Voice Agents) é um framework inovador, desenvolvido pela equipe ServiceNow-AI e disponibilizado pela Hugging Face, que propõe uma avaliação end-to-end de agentes de voz, simulando conversas reais multi-turno em áudio. O diferencial do EVA é sua arquitetura bot-a-bot que combina avaliação de precisão (EVA-A) e experiência (EVA-X), permitindo identificar falhas de forma integrada.
O EVA foi lançado com um conjunto inicial de 50 cenários no domínio de companhias aéreas, incluindo rebooking de voos, cancelamentos, vouchers e outros casos que exigem raciocínio temporal, cumprimento de políticas e manipulação de entidades nomeadas.
Arquitetura e Componentes do EVA
- Simulador de Usuário: Um agente conversacional com personalidade e objetivo específicos que atua como chamador, utilizando síntese de voz (TTS) de alta qualidade para reproduzir desafios reais de entendimento em fala natural e turnos realistas.
- Agente de Voz: O sistema avaliado, construído com o Pipecat, framework Python open-source para aplicações de voz em tempo real. O EVA suporta arquiteturas em cascata (STT → LLM → TTS) e modelos nativos de áudio (S2S ou S2T → TTS).
- Executor de Ferramentas: Motor que provê respostas determinísticas e reprodutíveis via funções Python customizadas, consultando e modificando bancos de dados específicos para cada cenário.
- Validadores: Métricas que garantem a completude e fidelidade da conversa, sem necessidade de anotação humana. Conversas inválidas são automaticamente regeneradas, assegurando qualidade dos dados avaliados.
- Conjunto de Métricas: Avalia o agente usando gravações, transcrições e logs de chamadas às ferramentas, contemplando precisão e experiência.
Detalhes dos Dados e Cenários
Cada cenário do EVA é estruturado para ser reproduzível, contendo:
- Objetivo do Usuário: Meta específica e árvore decisória que guia o simulador durante a conversa.
- Persona do Usuário: Estilo de fala, nível de paciência e traços de personalidade do chamador.
- Base de Dados do Cenário: Dados que o agente consulta para realizar as tarefas.
- Estado Esperado: Resultado final esperado após uma conversa bem-sucedida.
Métricas de Avaliação: EVA-A e EVA-X
EVA-A (Precisão)
- Conclusão da Tarefa (Determinística): Verifica se o agente atingiu o estado esperado no banco de dados.
- Fidelidade (LLM-as-Juiz): Avalia se as respostas são fundamentadas nas instruções, políticas e entradas do usuário, detectando fabricacões e violações.
- Fidelidade da Fala (LALM-as-Juiz): Mede se a fala sintetizada corresponde ao texto pretendido, com atenção especial a códigos de confirmação, números de voo e valores monetários.
EVA-X (Experiência)
- Concisão (LLM-as-Juiz): Analisa se as respostas são breves e focadas, evitando sobrecarga para o ouvinte.
- Progresso da Conversa (LLM-as-Juiz): Verifica se o agente evita repetições e avança efetivamente rumo à conclusão da tarefa.
- Turn-taking (LLM-as-Juiz): Avalia o timing das falas, evitando interrupções e silêncios excessivos.
Principais Resultados da Avaliação
Testando 20 sistemas diversos — proprietários e open-source, em cascata e nativos de áudio — o EVA revelou um trade-off consistente entre precisão e experiência. Agentes com alta taxa de conclusão de tarefa tendem a oferecer experiências conversacionais inferiores, enquanto os que proporcionam melhor experiência falham mais na tarefa.
Outros achados incluem:
- Transcrição incorreta de entidades nomeadas é a principal causa de falhas, podendo levar a erros críticos como falha na autenticação.
- Fluxos multi-etapas complexos, como remarcação preservando serviços adicionais, são os maiores desafios para os agentes.
- Consistência ainda é um problema: mesmo agentes que conseguem completar tarefas, não o fazem de forma confiável em múltiplas tentativas.
Limitações Reconhecidas pelo EVA
- Framework: Dependência de um único provedor comercial para síntese de voz, que pode favorecer certos sistemas de reconhecimento; pipeline bot-a-bot pode não refletir perfeitamente ambientes de produção; acesso a APIs comerciais necessário para reprodução total.
- Dados: Cenários limitados a 50 casos em inglês e no domínio aéreo; resultados podem não generalizar para outras línguas, sotaques ou domínios.
- Métricas: Juízes baseados em LLMs podem apresentar vieses e favorecer certos estilos; avaliação binária de conclusão não captura nuances de desempenho gradual.
Próximos Passos e Expansões
O desenvolvimento do EVA prevê:
- Inclusão de avaliação prosódica (pronúncia, ritmo, expressividade), ainda um desafio técnico.
- Testes de robustez em ambientes ruidosos, sotaques variados, multilíngue e comportamentos diversos dos usuários.
- Desenvolvimento de novos conjuntos de dados em domínios variados, com cenários mais complexos e memória conversacional estendida.
- Ferramenta de análise de erros e resultados para facilitar a exploração dos pontos fortes e fracos dos modelos.
- Atualização contínua do leaderboard para refletir o avanço dos agentes de voz.
Como Começar a Usar o EVA
O código-fonte, dataset e prompts de avaliação do EVA estão disponíveis no GitHub: https://github.com/ServiceNow/eva. Para mais informações, documentação e acesso à plataforma Hugging Face, visite https://huggingface.co/docs.