NVIDIA Nemotron 3 Ultra chega ao Amazon SageMaker JumpStart com inferência 5x mais rápida e custo 30% menor

Lançamento do NVIDIA Nemotron 3 Ultra no Amazon SageMaker JumpStart

A AWS anunciou a disponibilidade imediata do modelo NVIDIA Nemotron 3 Ultra na plataforma Amazon SageMaker JumpStart. Com uma experiência de implantação simplificada via um clique, essa novidade facilita o uso de um dos modelos de linguagem mais avançados para cargas de trabalho de inteligência artificial agentiva.

O que é o NVIDIA Nemotron 3 Ultra?

O Nemotron 3 Ultra é um modelo aberto de linguagem natural com 550 bilhões de parâmetros totais, dos quais 55 bilhões são ativados por inferência. Sua arquitetura híbrida Transformer-Mamba Mixture-of-Experts (MoE) foi projetada para oferecer inteligência de ponta com eficiência computacional superior, especialmente em tarefas que demandam raciocínio complexo e orquestração de agentes autônomos de longa duração.

Velocidade de inferência: até 5 vezes mais rápido em workflows de agentes de longa duração
Redução de custos: até 30% mais econômico para tarefas complexas e multi-etapas
Formato otimizado: NVFP4, que torna a hospedagem do modelo mais rápida e custo-efetiva
Contexto: suporta até 1 milhão de tokens, permitindo diálogos e raciocínios extensos

Para quem o Nemotron 3 Ultra é indicado?

Este modelo é especialmente indicado para empresas e desenvolvedores que precisam de inteligência artificial capaz de manter raciocínio contínuo e multi-etapas, como:

Orquestração de agentes que coordenam sub-agentes e gerenciam estados em cadeias de chamadas de ferramentas;
Agentes de codificação que geram, testam, depuram e iteram código em grandes repositórios;
Pesquisa avançada que sintetiza informações de múltiplas fontes mantendo coerência ao longo do contexto;
Automação de processos empresariais complexos com ramificação de decisões e recuperação de erros.

Como acessar e implantar o Nemotron 3 Ultra no SageMaker JumpStart

A implantação do modelo é simplificada e pode ser feita diretamente pelo SageMaker JumpStart, sem necessidade de configurar infraestrutura complexa. Veja os passos principais:

Pré-requisitos

Conta ativa na AWS com permissões apropriadas para SageMaker JumpStart;
Quota suficiente para instâncias GPU compatíveis (exemplo: ml.p5en.48xlarge, ml.p5.48xlarge ou ml.g7e.48xlarge);
Estar ciente dos custos envolvidos, pois endpoints em GPU podem gerar cobranças significativas enquanto ativos.

Passo a passo para deploy via SageMaker Studio

Acesse o Amazon SageMaker Studio;
No painel lateral esquerdo, selecione SageMaker JumpStart;
Procure por "Nemotron 3 Ultra";
Abra o cartão do modelo e clique em Deploy;
Escolha o tipo de instância GPU desejada;
Revise as configurações de implantação (as opções padrão atendem a maioria dos casos);
Clique em Deploy e aguarde o status do endpoint ficar InService.

Exemplo de deploy via SDK Python

import sagemaker
from sagemaker.jumpstart.model import JumpStartModel

model = JumpStartModel(
    model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",
    role=sagemaker.get_execution_role()
)
predictor = model.deploy(accept_eula=True)

Exemplo de inferência

payload = {
    "messages": [{ "role": "user", "content": "Divida esta tarefa em subtarefas, identifique quais ferramentas são necessárias e execute-as em sequência." }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Importante: limpeza após uso

Para evitar cobranças contínuas, exclua o endpoint após finalizar os testes:

predictor.delete_endpoint()

Impacto prático para usuários e empresas

Com o Nemotron 3 Ultra, empresas ganham uma solução robusta para construir agentes autônomos que precisam realizar múltiplas etapas de raciocínio e execução sem perder coerência, tudo com menor custo e maior velocidade. Isso abre portas para automações mais inteligentes, eficientes e econômicas em áreas como desenvolvimento de software, pesquisa avançada e orquestração de processos complexos.