AWS SageMaker AI agora suporta payloads inline na inferência assíncrona

A AWS anunciou uma atualização importante para o Amazon SageMaker AI Async Inference: agora é possível enviar os payloads de inferência diretamente no corpo da requisição da API InvokeEndpointAsync, sem a necessidade de fazer upload prévio para o Amazon S3.

O que mudou?

Antes deste anúncio, para usar inferência assíncrona no SageMaker AI, os clientes precisavam fazer o upload dos dados de entrada para um bucket S3 e depois referenciar esse local na chamada da API. Isso adicionava latência, complexidade de código e custos extras de armazenamento.

Agora, os payloads podem ser enviados inline — ou seja, diretamente no corpo da requisição HTTP. O SageMaker AI gerencia o armazenamento temporário internamente, simplificando todo o fluxo.

Como funciona?

A nova funcionalidade suporta payloads de até 1 MB inline. Para cargas maiores, o upload via S3 continua sendo a abordagem recomendada. A API aceita os mesmos formatos de conteúdo de sempre: JSON, CSV, texto, imagens codificadas em base64, entre outros.

Exemplo simplificado de chamada:

aws sagemaker-runtime invoke-endpoint-async \
  --endpoint-name meu-endpoint \
  --content-type "application/json" \
  --body '{"inputs": "Exemplo de prompt"}'

Por que isso importa?

Este é mais um passo da AWS para reduzir a fricção no uso de modelos de IA em produção. Para times que fazem inferências de baixa latência com payloads pequenos (como classificação de texto, análise de sentimento, ou pequenas gerações de texto), a eliminação da etapa de upload S3 significa:

Menos código: sem gerenciar buckets, chaves e permissões S3
Menor latência: sem round-trip extra para upload
Custo reduzido: sem cobranças adicionais de S3 para armazenamento temporário

A funcionalidade já está disponível em todas as regiões onde o SageMaker AI Async Inference é suportado.

Fonte: AWS Machine Learning Blog

AWS SageMaker AI agora suporta payloads inline na inferência assíncrona

O que mudou?

Como funciona?

Por que isso importa?

Leia também

Amazon Quick ganha agentes autônomos de IA e consultas cross-source

Líderes do G7 temem que EUA possam 'desligar' acesso à IA americana a qualquer momento

NVIDIA usa agentes de IA para treinar robôs a instalar GPUs com 99% de sucesso

OpenAI lança LifeSciBench: benchmark com 750 tarefas para avaliar IA em ciências da vida