Voltar para artigos
Notícias de Tecnologia

AWS SageMaker AI agora suporta payloads inline na inferência assíncrona

17 de junho de 2026
21:50
machine-learningawssagemakeriainferencia
AWS SageMaker AI agora suporta payloads inline na inferência assíncrona

A AWS anunciou uma atualização importante para o Amazon SageMaker AI Async Inference: agora é possível enviar os payloads de inferência diretamente no corpo da requisição da API InvokeEndpointAsync, sem a necessidade de fazer upload prévio para o Amazon S3.

O que mudou?

Antes deste anúncio, para usar inferência assíncrona no SageMaker AI, os clientes precisavam fazer o upload dos dados de entrada para um bucket S3 e depois referenciar esse local na chamada da API. Isso adicionava latência, complexidade de código e custos extras de armazenamento.

Agora, os payloads podem ser enviados inline — ou seja, diretamente no corpo da requisição HTTP. O SageMaker AI gerencia o armazenamento temporário internamente, simplificando todo o fluxo.

Como funciona?

A nova funcionalidade suporta payloads de até 1 MB inline. Para cargas maiores, o upload via S3 continua sendo a abordagem recomendada. A API aceita os mesmos formatos de conteúdo de sempre: JSON, CSV, texto, imagens codificadas em base64, entre outros.

Exemplo simplificado de chamada:

aws sagemaker-runtime invoke-endpoint-async \
  --endpoint-name meu-endpoint \
  --content-type "application/json" \
  --body '{"inputs": "Exemplo de prompt"}'

Por que isso importa?

Este é mais um passo da AWS para reduzir a fricção no uso de modelos de IA em produção. Para times que fazem inferências de baixa latência com payloads pequenos (como classificação de texto, análise de sentimento, ou pequenas gerações de texto), a eliminação da etapa de upload S3 significa:

  • Menos código: sem gerenciar buckets, chaves e permissões S3
  • Menor latência: sem round-trip extra para upload
  • Custo reduzido: sem cobranças adicionais de S3 para armazenamento temporário

A funcionalidade já está disponível em todas as regiões onde o SageMaker AI Async Inference é suportado.

Fonte: AWS Machine Learning Blog

Leia também