Desafios e Métricas para Avaliação de Desempenho de LLMs: Insights de Legare Kerrison e Cedric Clyburn

Contexto e importância da avaliação de LLMs

O avanço das Large Language Models (LLMs) tem impulsionado a adoção de aplicações de inteligência artificial em diversos setores. Contudo, medir efetivamente o desempenho dessas aplicações é essencial para garantir sua viabilidade e aceitação em ambientes corporativos. Legare Kerrison e Cedric Clyburn, da equipe Red Hat, apresentaram na Arc of AI 2026 Conference métodos práticos para avaliação e otimização da inferência de LLMs, destacando desafios, métricas e estratégias para equilibrar qualidade, latência e custo.

O problema: limitações dos benchmarks tradicionais e o triângulo da otimização

Embora existam leaderboards e benchmarks que avaliam LLMs por meio de tarefas como programação, matemática e escrita criativa, esses testes costumam ser genéricos e não refletem problemas específicos das empresas. Isso gera uma lacuna entre o desempenho medido e a aplicação real.

Kerrison e Clyburn destacam o chamado "triângulo da compensação" para modelos em produção, que envolve três fatores:

Qualidade (precisão)
Responsividade (latência)
Custo

O desafio está em otimizar dois desses aspectos sem impactar negativamente o terceiro. Por exemplo, alta precisão e baixa latência tendem a aumentar os custos, enquanto foco em baixo custo e baixa latência pode prejudicar a qualidade do modelo.

Métricas essenciais para avaliação de desempenho

Para orientar decisões, os especialistas enfatizam o uso de métricas claras e alinhadas aos objetivos do sistema:

Requests Per Second (RPS): taxa de requisições de inferência processadas por segundo, indicando capacidade e escalabilidade.
Time to First Token (TTFT): tempo entre o envio da requisição e o recebimento do primeiro token gerado, refletindo a latência percebida pelo usuário.
Inter-Token Latency (ITL): intervalo entre tokens subsequentes, avaliando a fluidez da geração de texto e eficiência do decodificador.

Por exemplo, para chatbots de comércio eletrônico, um TTFT ≤ 200ms e ITL ≤ 50ms no percentil 99 (P99) são indicados para garantir respostas rápidas e conversacionais. Já aplicações baseadas em Retrieval Augmented Generation (RAG) priorizam precisão e completude, aceitando latências um pouco maiores, como TTFT ≤ 300ms e ITL ≤ 100ms.

Avaliação prática: workloads, hardware e técnicas de otimização

A avaliação deve considerar os padrões de uso e infraestrutura disponíveis. A inferência em LLMs ocorre em duas fases:

Prefill: etapa computacionalmente intensiva para o primeiro token.
Decode: fase de decodificação, limitada por memória, para tokens subsequentes.

Técnicas como geração estruturada, decodificação especulativa, cache de prefixos e cache de sessão podem acelerar o serviço de modelos.

Além disso, rodar LLMs localmente pode ser vantajoso para casos específicos, evitando latência e custos da nuvem.

Benchmarking com GuideLLM e outras ferramentas open source

Para avaliações mais realistas, Kerrison e Clyburn recomendam o uso de ferramentas como GuideLLM, parte do projeto vLLM, que simula tráfego real e mede throughput e latência conforme objetivos de SLO.

O processo do GuideLLM inclui:

Seleção e customização do modelo
Escolha do dataset (real ou sintético)
Configuração da carga de trabalho
Execução dos testes de benchmark

Os resultados permitem decidir se o modelo atende aos requisitos para produção.

Outras ferramentas destacadas para avaliação de precisão são:

lm-eval-harness (avaliação centrada no modelo)
Ragas, LlamaIndex Evals, Haystack Eval framework (para RAG e agentes)
TruLens e Langfuse (avaliação de aplicações e workflows)
Avaliação humana e LLMs como juízes para análise qualitativa

Considerações finais e recomendações

Kerrison e Clyburn reforçam que equipes devem priorizar otimizações eficazes, como a quantização, que pode reduzir significativamente o tamanho do modelo (exemplo: 45% de redução com GPTQModifier) e acelerar a inferência.

O uso de caches KV também é recomendado para acelerar a decodificação, ainda que com maior consumo de memória.

Para aprofundamento, indicam os recursos da Hugging Face com modelos validados pela Red Hat e os cursos da deeplearning.ai.