Desafios e Métricas para Avaliação de Desempenho de LLMs: Insights de Legare Kerrison e Cedric Clyburn

Contexto e importância da avaliação de LLMs
O avanço das Large Language Models (LLMs) tem impulsionado a adoção de aplicações de inteligência artificial em diversos setores. Contudo, medir efetivamente o desempenho dessas aplicações é essencial para garantir sua viabilidade e aceitação em ambientes corporativos. Legare Kerrison e Cedric Clyburn, da equipe Red Hat, apresentaram na Arc of AI 2026 Conference métodos práticos para avaliação e otimização da inferência de LLMs, destacando desafios, métricas e estratégias para equilibrar qualidade, latência e custo.
O problema: limitações dos benchmarks tradicionais e o triângulo da otimização
Embora existam leaderboards e benchmarks que avaliam LLMs por meio de tarefas como programação, matemática e escrita criativa, esses testes costumam ser genéricos e não refletem problemas específicos das empresas. Isso gera uma lacuna entre o desempenho medido e a aplicação real.
Kerrison e Clyburn destacam o chamado "triângulo da compensação" para modelos em produção, que envolve três fatores:
- Qualidade (precisão)
- Responsividade (latência)
- Custo
O desafio está em otimizar dois desses aspectos sem impactar negativamente o terceiro. Por exemplo, alta precisão e baixa latência tendem a aumentar os custos, enquanto foco em baixo custo e baixa latência pode prejudicar a qualidade do modelo.
Métricas essenciais para avaliação de desempenho
Para orientar decisões, os especialistas enfatizam o uso de métricas claras e alinhadas aos objetivos do sistema:
- Requests Per Second (RPS): taxa de requisições de inferência processadas por segundo, indicando capacidade e escalabilidade.
- Time to First Token (TTFT): tempo entre o envio da requisição e o recebimento do primeiro token gerado, refletindo a latência percebida pelo usuário.
- Inter-Token Latency (ITL): intervalo entre tokens subsequentes, avaliando a fluidez da geração de texto e eficiência do decodificador.
Por exemplo, para chatbots de comércio eletrônico, um TTFT ≤ 200ms e ITL ≤ 50ms no percentil 99 (P99) são indicados para garantir respostas rápidas e conversacionais. Já aplicações baseadas em Retrieval Augmented Generation (RAG) priorizam precisão e completude, aceitando latências um pouco maiores, como TTFT ≤ 300ms e ITL ≤ 100ms.
Avaliação prática: workloads, hardware e técnicas de otimização
A avaliação deve considerar os padrões de uso e infraestrutura disponíveis. A inferência em LLMs ocorre em duas fases:
- Prefill: etapa computacionalmente intensiva para o primeiro token.
- Decode: fase de decodificação, limitada por memória, para tokens subsequentes.
Técnicas como geração estruturada, decodificação especulativa, cache de prefixos e cache de sessão podem acelerar o serviço de modelos.
Além disso, rodar LLMs localmente pode ser vantajoso para casos específicos, evitando latência e custos da nuvem.
Benchmarking com GuideLLM e outras ferramentas open source
Para avaliações mais realistas, Kerrison e Clyburn recomendam o uso de ferramentas como GuideLLM, parte do projeto vLLM, que simula tráfego real e mede throughput e latência conforme objetivos de SLO.
O processo do GuideLLM inclui:
- Seleção e customização do modelo
- Escolha do dataset (real ou sintético)
- Configuração da carga de trabalho
- Execução dos testes de benchmark
Os resultados permitem decidir se o modelo atende aos requisitos para produção.
Outras ferramentas destacadas para avaliação de precisão são:
- lm-eval-harness (avaliação centrada no modelo)
- Ragas, LlamaIndex Evals, Haystack Eval framework (para RAG e agentes)
- TruLens e Langfuse (avaliação de aplicações e workflows)
- Avaliação humana e LLMs como juízes para análise qualitativa
Considerações finais e recomendações
Kerrison e Clyburn reforçam que equipes devem priorizar otimizações eficazes, como a quantização, que pode reduzir significativamente o tamanho do modelo (exemplo: 45% de redução com GPTQModifier) e acelerar a inferência.
O uso de caches KV também é recomendado para acelerar a decodificação, ainda que com maior consumo de memória.
Para aprofundamento, indicam os recursos da Hugging Face com modelos validados pela Red Hat e os cursos da deeplearning.ai.