EVA: Novo Framework para Avaliação Completa de Agentes de Voz Conversacionais

Desafios na Avaliação de Agentes de Voz

Agentes de voz conversacionais precisam equilibrar duas dimensões essenciais para o sucesso: precisão — a capacidade de completar corretamente a tarefa solicitada pelo usuário — e experiência conversacional — a fluidez, naturalidade e concisão na interação falada. Avaliar esses aspectos conjuntamente é complexo, pois um agente pode ser excelente em concluir uma tarefa, mas entregar uma experiência frustrante para o usuário, ou vice-versa.

As abordagens existentes tendem a avaliar essas dimensões de forma isolada, focando apenas em transcrição, qualidade da fala ou dinâmicas conversacionais, sem integrar o desempenho em tarefas reais e a experiência do usuário em um único framework.

O que é o EVA?

O EVA (Evaluation of Voice Agents) é um framework inovador, desenvolvido pela equipe ServiceNow-AI e disponibilizado pela Hugging Face, que propõe uma avaliação end-to-end de agentes de voz, simulando conversas reais multi-turno em áudio. O diferencial do EVA é sua arquitetura bot-a-bot que combina avaliação de precisão (EVA-A) e experiência (EVA-X), permitindo identificar falhas de forma integrada.

O EVA foi lançado com um conjunto inicial de 50 cenários no domínio de companhias aéreas, incluindo rebooking de voos, cancelamentos, vouchers e outros casos que exigem raciocínio temporal, cumprimento de políticas e manipulação de entidades nomeadas.

Arquitetura e Componentes do EVA

Simulador de Usuário: Um agente conversacional com personalidade e objetivo específicos que atua como chamador, utilizando síntese de voz (TTS) de alta qualidade para reproduzir desafios reais de entendimento em fala natural e turnos realistas.
Agente de Voz: O sistema avaliado, construído com o Pipecat, framework Python open-source para aplicações de voz em tempo real. O EVA suporta arquiteturas em cascata (STT → LLM → TTS) e modelos nativos de áudio (S2S ou S2T → TTS).
Executor de Ferramentas: Motor que provê respostas determinísticas e reprodutíveis via funções Python customizadas, consultando e modificando bancos de dados específicos para cada cenário.
Validadores: Métricas que garantem a completude e fidelidade da conversa, sem necessidade de anotação humana. Conversas inválidas são automaticamente regeneradas, assegurando qualidade dos dados avaliados.
Conjunto de Métricas: Avalia o agente usando gravações, transcrições e logs de chamadas às ferramentas, contemplando precisão e experiência.

Detalhes dos Dados e Cenários

Cada cenário do EVA é estruturado para ser reproduzível, contendo:

Objetivo do Usuário: Meta específica e árvore decisória que guia o simulador durante a conversa.
Persona do Usuário: Estilo de fala, nível de paciência e traços de personalidade do chamador.
Base de Dados do Cenário: Dados que o agente consulta para realizar as tarefas.
Estado Esperado: Resultado final esperado após uma conversa bem-sucedida.

Métricas de Avaliação: EVA-A e EVA-X

EVA-A (Precisão)

Conclusão da Tarefa (Determinística): Verifica se o agente atingiu o estado esperado no banco de dados.
Fidelidade (LLM-as-Juiz): Avalia se as respostas são fundamentadas nas instruções, políticas e entradas do usuário, detectando fabricacões e violações.
Fidelidade da Fala (LALM-as-Juiz): Mede se a fala sintetizada corresponde ao texto pretendido, com atenção especial a códigos de confirmação, números de voo e valores monetários.

EVA-X (Experiência)

Concisão (LLM-as-Juiz): Analisa se as respostas são breves e focadas, evitando sobrecarga para o ouvinte.
Progresso da Conversa (LLM-as-Juiz): Verifica se o agente evita repetições e avança efetivamente rumo à conclusão da tarefa.
Turn-taking (LLM-as-Juiz): Avalia o timing das falas, evitando interrupções e silêncios excessivos.

Principais Resultados da Avaliação

Testando 20 sistemas diversos — proprietários e open-source, em cascata e nativos de áudio — o EVA revelou um trade-off consistente entre precisão e experiência. Agentes com alta taxa de conclusão de tarefa tendem a oferecer experiências conversacionais inferiores, enquanto os que proporcionam melhor experiência falham mais na tarefa.

Outros achados incluem:

Transcrição incorreta de entidades nomeadas é a principal causa de falhas, podendo levar a erros críticos como falha na autenticação.
Fluxos multi-etapas complexos, como remarcação preservando serviços adicionais, são os maiores desafios para os agentes.
Consistência ainda é um problema: mesmo agentes que conseguem completar tarefas, não o fazem de forma confiável em múltiplas tentativas.

Limitações Reconhecidas pelo EVA

Framework: Dependência de um único provedor comercial para síntese de voz, que pode favorecer certos sistemas de reconhecimento; pipeline bot-a-bot pode não refletir perfeitamente ambientes de produção; acesso a APIs comerciais necessário para reprodução total.
Dados: Cenários limitados a 50 casos em inglês e no domínio aéreo; resultados podem não generalizar para outras línguas, sotaques ou domínios.
Métricas: Juízes baseados em LLMs podem apresentar vieses e favorecer certos estilos; avaliação binária de conclusão não captura nuances de desempenho gradual.

Próximos Passos e Expansões

O desenvolvimento do EVA prevê:

Inclusão de avaliação prosódica (pronúncia, ritmo, expressividade), ainda um desafio técnico.
Testes de robustez em ambientes ruidosos, sotaques variados, multilíngue e comportamentos diversos dos usuários.
Desenvolvimento de novos conjuntos de dados em domínios variados, com cenários mais complexos e memória conversacional estendida.
Ferramenta de análise de erros e resultados para facilitar a exploração dos pontos fortes e fracos dos modelos.
Atualização contínua do leaderboard para refletir o avanço dos agentes de voz.

Como Começar a Usar o EVA

O código-fonte, dataset e prompts de avaliação do EVA estão disponíveis no GitHub: https://github.com/ServiceNow/eva. Para mais informações, documentação e acesso à plataforma Hugging Face, visite https://huggingface.co/docs.