AWS SageMaker ganha mais de 100 métricas detalhadas para inferência de IA generativa

A Amazon Web Services (AWS) anunciou um salto significativo na observabilidade de endpoints de inferência de IA generativa no Amazon SageMaker AI. A plataforma agora emite mais de 100 métricas detalhadas de inferência, com um dashboard integrado no Amazon CloudWatch que elimina a necessidade de configurações manuais de Grafana e Prometheus.

O desafio da inferência em escala

Monitorar e solucionar problemas em endpoints de IA generativa operando em escala é um dos maiores desafios das equipes de MLOps atualmente. Quando a latência P99 de um endpoint de LLM aumenta, a equipe precisa determinar em minutos se a causa raiz é pressão de memória da GPU, saturação do cache KV, tráfego desbalanceado entre Zonas de Disponibilidade ou uma política de auto scaling que não foi acionada.

A mudança do treinamento para o serving está transformando como as equipes implantam LLMs e outros modelos de IA generativa em produção. Engenheiros de plataforma de ML, times de MLOps e SREs precisam manter endpoints de inferência saudáveis, responsivos e com custo eficiente — frequentemente gerenciando dezenas de modelos e centenas de instâncias de GPU.

Métricas detalhadas: o que há de novo

As novas métricas cobrem áreas críticas que antes exigiam instrumentação customizada:

Saúde da GPU: utilização por acelerador, temperatura, consumo de energia
Latência em nível de token: Time to First Token (TTFT) e Inter-Token Latency (ITL)
Pressão do cache KV: saturação e taxa de acerto/erro
Distribuição de tráfego: balanceamento entre Zonas de Disponibilidade
Posicionamento de componentes de inferência: distribuição de inference components
Diagnóstico de cold start: tempo de inicialização e aquecimento de modelos

As métricas são emitidas nativamente em formato OpenTelemetry e podem ser consultadas via PromQL, permitindo integração com ferramentas externas como Grafana e Datadog para quem já possui stacks de observabilidade estabelecidas.

Dashboard SageMaker Insights

O SageMaker Insights está localizado no console do CloudWatch em Infrastructure Monitoring → SageMaker Insights. O dashboard é organizado em três abas:

Performance: saúde da frota, latência de tokens, throughput, erros e pressão do motor de inferência
Capacity: utilização de GPU, CPU e memória da frota
Reliability: distribuição por Zona de Disponibilidade, eventos de scaling, anatomia de cold starts e erros de capacidade insuficiente

O dashboard suporta tanto Single-Model Endpoints (SME) quanto Inference Component (IC) Endpoints — a arquitetura recomendada para cargas de trabalho de IA generativa em produção por permitir hospedagem multi-modelo em infraestrutura de GPU compartilhada.

Como ativar

As métricas detalhadas podem ser ativadas em endpoints novos (automático por padrão) ou em endpoints existentes via configuração. Para métricas em nível de token (TTFT e ITL), é necessário usar containers vLLM ou SGLang.

Este lançamento representa um passo importante para tornar a inferência de IA generativa mais operacional e confiável em ambientes de produção, reduzindo o tempo de diagnóstico de horas para minutos.

AWS SageMaker ganha mais de 100 métricas detalhadas para inferência de IA generativa

O desafio da inferência em escala

Métricas detalhadas: o que há de novo

Dashboard SageMaker Insights

Como ativar

Leia também

Elastic adquire startup de IA DeductiveAI por até US$ 85 milhões

Casa Branca cria regras de IA em tempo real enquanto Anthropic enfrenta restrições sem precedentes

Baseten levanta US$ 1,5 bilhão e valuation salta para US$ 13 bilhões em apenas 5 meses

OpenAI Contrata Noam Shazeer, Coautor dos Transformers, e Ex-Assessor da Casa Branca na Preparação para o IPO