Amazon SageMaker AI lança suporte à API compatível com OpenAI para endpoints de inferência em tempo real

A Amazon Web Services (AWS) anunciou uma importante novidade para desenvolvedores e empresas que utilizam inteligência artificial: o Amazon SageMaker AI agora oferece suporte à API compatível com OpenAI para seus endpoints de inferência em tempo real. Isso significa que usuários que já utilizam o SDK da OpenAI, LangChain ou Strands Agents podem invocar modelos hospedados no SageMaker AI simplesmente alterando a URL do endpoint, sem necessidade de clientes personalizados, wrappers SigV4 ou reescrita de código.
O que muda com o suporte à API compatível com OpenAI no SageMaker AI
Com essa atualização, os endpoints do SageMaker AI expõem o caminho /openai/v1, que aceita requisições do tipo Chat Completions e retorna as respostas diretamente do container, inclusive com suporte a streaming. Todo o roteamento é feito com base no nome do endpoint na URL, garantindo que qualquer cliente compatível com OpenAI funcione imediatamente, sem necessidade de adaptações.
Além disso, a AWS introduziu a possibilidade de criar tokens do tipo bearer com validade limitada para autenticação nos endpoints, facilitando a integração segura com clientes OpenAI.
Quem pode usar e quais são os casos de uso
Essa funcionalidade é especialmente útil para desenvolvedores que já trabalham com frameworks que utilizam a API OpenAI, como LangChain e Strands Agents, permitindo que seus agentes de inteligência artificial rodem inteiramente em endpoints SageMaker AI dedicados na infraestrutura própria, com GPUs alocadas em contas AWS individuais.
Outro cenário importante é o de hospedagem de múltiplos modelos em um único endpoint, com alocação dedicada de recursos para cada modelo por meio de componentes de inferência. Assim, é possível combinar, por exemplo, um modelo Llama para tarefas gerais, um Mistral fine-tunado para domínios específicos e um modelo menor para classificação, todos acessíveis pela mesma interface OpenAI SDK, simplificando a arquitetura e o código das aplicações.
Também é possível servir modelos fine-tunados de código aberto sem necessidade de alterações no código cliente, bastando apenas atualizar a URL do endpoint.
Disponibilidade e custos
A funcionalidade está disponível para todos os endpoints e componentes de inferência que utilizam as APIs padrão do SageMaker AI e seus SDKs. Para uso, é necessário possuir uma conta AWS com permissões adequadas para criação e invocação de endpoints. Os custos seguem a tabela de preços do Amazon SageMaker AI, onde os endpoints incorrerão em cobranças enquanto estiverem ativos, independentemente do volume de tráfego.
Como acessar e começar a usar
Para começar, é preciso ter:
- Conta AWS com permissões para criar endpoints SageMaker AI.
- SageMaker Python SDK (
pip install sagemaker). - OpenAI Python SDK (
pip install openai). - Modelo armazenado no Amazon S3 (exemplo: Qwen3-4B no Hugging Face).
- Funções IAM com permissões específicas para criação e invocação de endpoints, incluindo
sagemaker:CallWithBearerTokenesagemaker:InvokeEndpoint.
Autenticação com tokens bearer
A autenticação nos endpoints OpenAI-compatíveis do SageMaker AI é feita via tokens bearer, que são gerados localmente a partir das credenciais AWS existentes, com validade de até 12 horas. Não há necessidade de armazenar chaves secretas adicionais. A geração do token é feita com o método generate_token do SageMaker Python SDK.
from sagemaker.core.token_generator import generate_token
from datetime import timedelta
token = generate_token(region="us-west-2", expiry=timedelta(minutes=5))
Para aplicações de longa duração, recomenda-se implementar um padrão de auto-refresh para gerar tokens atualizados a cada requisição.
Exemplo prático: implantação e invocação de um endpoint com modelo único
O processo envolve criar o modelo, configurar o endpoint e iniciar o serviço. Por exemplo, para o modelo Qwen3-4B, utiliza-se o container vLLM Deep Learning Container em uma instância ml.g6.2xlarge. Após a criação e ativação do endpoint, ele pode ser acessado pela API OpenAI compatível da seguinte forma:
from openai import OpenAI
from sagemaker.core.token_generator import generate_token
REGION = "us-west-2"
SME_ENDPOINT_NAME = "nome-do-endpoint"
sme_base_url = f"https://runtime.sagemaker.{REGION}.amazonaws.com/endpoints/{SME_ENDPOINT_NAME}/openai/v1"
client = OpenAI(
base_url=sme_base_url,
api_key=generate_token(region=REGION)
)
response = client.chat.completions.create(
model="",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explique como transformers funcionam em machine learning, em três frases."}
],
stream=True,
)
for chunk in response:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="")
print()
Hospedagem de múltiplos modelos com componentes de inferência
Além do modelo único, é possível criar endpoints com múltiplos componentes de inferência, permitindo alocar recursos individualmente para cada modelo. Isso facilita a gestão de modelos diversos em um único ponto de acesso, mantendo a compatibilidade com a API OpenAI.
Impacto prático para desenvolvedores e empresas
Essa integração traz praticidade e flexibilidade para quem já utiliza a API OpenAI, permitindo migrar ou expandir cargas de trabalho para o SageMaker AI sem alterar a lógica dos clientes ou agentes. O uso de tokens bearer simplifica a autenticação, enquanto a arquitetura de endpoints e componentes facilita o gerenciamento e escalonamento de múltiplos modelos. Com isso, é possível aproveitar recursos dedicados de GPU na AWS, mantendo a familiaridade da interface OpenAI e garantindo segurança e controle via IAM.