Amazon SageMaker AI lança suporte à API compatível com OpenAI para endpoints de inferência em tempo real

A Amazon Web Services (AWS) anunciou uma importante novidade para desenvolvedores e empresas que utilizam inteligência artificial: o Amazon SageMaker AI agora oferece suporte à API compatível com OpenAI para seus endpoints de inferência em tempo real. Isso significa que usuários que já utilizam o SDK da OpenAI, LangChain ou Strands Agents podem invocar modelos hospedados no SageMaker AI simplesmente alterando a URL do endpoint, sem necessidade de clientes personalizados, wrappers SigV4 ou reescrita de código.

O que muda com o suporte à API compatível com OpenAI no SageMaker AI

Com essa atualização, os endpoints do SageMaker AI expõem o caminho /openai/v1, que aceita requisições do tipo Chat Completions e retorna as respostas diretamente do container, inclusive com suporte a streaming. Todo o roteamento é feito com base no nome do endpoint na URL, garantindo que qualquer cliente compatível com OpenAI funcione imediatamente, sem necessidade de adaptações.

Além disso, a AWS introduziu a possibilidade de criar tokens do tipo bearer com validade limitada para autenticação nos endpoints, facilitando a integração segura com clientes OpenAI.

Quem pode usar e quais são os casos de uso

Essa funcionalidade é especialmente útil para desenvolvedores que já trabalham com frameworks que utilizam a API OpenAI, como LangChain e Strands Agents, permitindo que seus agentes de inteligência artificial rodem inteiramente em endpoints SageMaker AI dedicados na infraestrutura própria, com GPUs alocadas em contas AWS individuais.

Outro cenário importante é o de hospedagem de múltiplos modelos em um único endpoint, com alocação dedicada de recursos para cada modelo por meio de componentes de inferência. Assim, é possível combinar, por exemplo, um modelo Llama para tarefas gerais, um Mistral fine-tunado para domínios específicos e um modelo menor para classificação, todos acessíveis pela mesma interface OpenAI SDK, simplificando a arquitetura e o código das aplicações.

Também é possível servir modelos fine-tunados de código aberto sem necessidade de alterações no código cliente, bastando apenas atualizar a URL do endpoint.

Disponibilidade e custos

A funcionalidade está disponível para todos os endpoints e componentes de inferência que utilizam as APIs padrão do SageMaker AI e seus SDKs. Para uso, é necessário possuir uma conta AWS com permissões adequadas para criação e invocação de endpoints. Os custos seguem a tabela de preços do Amazon SageMaker AI, onde os endpoints incorrerão em cobranças enquanto estiverem ativos, independentemente do volume de tráfego.

Como acessar e começar a usar

Para começar, é preciso ter:

Conta AWS com permissões para criar endpoints SageMaker AI.
SageMaker Python SDK (pip install sagemaker).
OpenAI Python SDK (pip install openai).
Modelo armazenado no Amazon S3 (exemplo: Qwen3-4B no Hugging Face).
Funções IAM com permissões específicas para criação e invocação de endpoints, incluindo sagemaker:CallWithBearerToken e sagemaker:InvokeEndpoint.

Autenticação com tokens bearer

A autenticação nos endpoints OpenAI-compatíveis do SageMaker AI é feita via tokens bearer, que são gerados localmente a partir das credenciais AWS existentes, com validade de até 12 horas. Não há necessidade de armazenar chaves secretas adicionais. A geração do token é feita com o método generate_token do SageMaker Python SDK.

from sagemaker.core.token_generator import generate_token
from datetime import timedelta
token = generate_token(region="us-west-2", expiry=timedelta(minutes=5))

Para aplicações de longa duração, recomenda-se implementar um padrão de auto-refresh para gerar tokens atualizados a cada requisição.

Exemplo prático: implantação e invocação de um endpoint com modelo único

O processo envolve criar o modelo, configurar o endpoint e iniciar o serviço. Por exemplo, para o modelo Qwen3-4B, utiliza-se o container vLLM Deep Learning Container em uma instância ml.g6.2xlarge. Após a criação e ativação do endpoint, ele pode ser acessado pela API OpenAI compatível da seguinte forma:

from openai import OpenAI
from sagemaker.core.token_generator import generate_token

REGION = "us-west-2"
SME_ENDPOINT_NAME = "nome-do-endpoint"
sme_base_url = f"https://runtime.sagemaker.{REGION}.amazonaws.com/endpoints/{SME_ENDPOINT_NAME}/openai/v1"

client = OpenAI(
    base_url=sme_base_url,
    api_key=generate_token(region=REGION)
)

response = client.chat.completions.create(
    model="",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explique como transformers funcionam em machine learning, em três frases."}
    ],
    stream=True,
)

for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")
print()

Hospedagem de múltiplos modelos com componentes de inferência

Além do modelo único, é possível criar endpoints com múltiplos componentes de inferência, permitindo alocar recursos individualmente para cada modelo. Isso facilita a gestão de modelos diversos em um único ponto de acesso, mantendo a compatibilidade com a API OpenAI.

Impacto prático para desenvolvedores e empresas

Essa integração traz praticidade e flexibilidade para quem já utiliza a API OpenAI, permitindo migrar ou expandir cargas de trabalho para o SageMaker AI sem alterar a lógica dos clientes ou agentes. O uso de tokens bearer simplifica a autenticação, enquanto a arquitetura de endpoints e componentes facilita o gerenciamento e escalonamento de múltiplos modelos. Com isso, é possível aproveitar recursos dedicados de GPU na AWS, mantendo a familiaridade da interface OpenAI e garantindo segurança e controle via IAM.