NVIDIA Nemotron 3 Ultra chega ao Amazon SageMaker JumpStart com inferência 5x mais rápida e custo 30% menor

Lançamento do NVIDIA Nemotron 3 Ultra no Amazon SageMaker JumpStart
A AWS anunciou a disponibilidade imediata do modelo NVIDIA Nemotron 3 Ultra na plataforma Amazon SageMaker JumpStart. Com uma experiência de implantação simplificada via um clique, essa novidade facilita o uso de um dos modelos de linguagem mais avançados para cargas de trabalho de inteligência artificial agentiva.
O que é o NVIDIA Nemotron 3 Ultra?
O Nemotron 3 Ultra é um modelo aberto de linguagem natural com 550 bilhões de parâmetros totais, dos quais 55 bilhões são ativados por inferência. Sua arquitetura híbrida Transformer-Mamba Mixture-of-Experts (MoE) foi projetada para oferecer inteligência de ponta com eficiência computacional superior, especialmente em tarefas que demandam raciocínio complexo e orquestração de agentes autônomos de longa duração.
- Velocidade de inferência: até 5 vezes mais rápido em workflows de agentes de longa duração
- Redução de custos: até 30% mais econômico para tarefas complexas e multi-etapas
- Formato otimizado: NVFP4, que torna a hospedagem do modelo mais rápida e custo-efetiva
- Contexto: suporta até 1 milhão de tokens, permitindo diálogos e raciocínios extensos
Para quem o Nemotron 3 Ultra é indicado?
Este modelo é especialmente indicado para empresas e desenvolvedores que precisam de inteligência artificial capaz de manter raciocínio contínuo e multi-etapas, como:
- Orquestração de agentes que coordenam sub-agentes e gerenciam estados em cadeias de chamadas de ferramentas;
- Agentes de codificação que geram, testam, depuram e iteram código em grandes repositórios;
- Pesquisa avançada que sintetiza informações de múltiplas fontes mantendo coerência ao longo do contexto;
- Automação de processos empresariais complexos com ramificação de decisões e recuperação de erros.
Como acessar e implantar o Nemotron 3 Ultra no SageMaker JumpStart
A implantação do modelo é simplificada e pode ser feita diretamente pelo SageMaker JumpStart, sem necessidade de configurar infraestrutura complexa. Veja os passos principais:
Pré-requisitos
- Conta ativa na AWS com permissões apropriadas para SageMaker JumpStart;
- Quota suficiente para instâncias GPU compatíveis (exemplo:
ml.p5en.48xlarge,ml.p5.48xlargeouml.g7e.48xlarge); - Estar ciente dos custos envolvidos, pois endpoints em GPU podem gerar cobranças significativas enquanto ativos.
Passo a passo para deploy via SageMaker Studio
- Acesse o Amazon SageMaker Studio;
- No painel lateral esquerdo, selecione SageMaker JumpStart;
- Procure por "Nemotron 3 Ultra";
- Abra o cartão do modelo e clique em Deploy;
- Escolha o tipo de instância GPU desejada;
- Revise as configurações de implantação (as opções padrão atendem a maioria dos casos);
- Clique em Deploy e aguarde o status do endpoint ficar InService.
Exemplo de deploy via SDK Python
import sagemaker
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",
role=sagemaker.get_execution_role()
)
predictor = model.deploy(accept_eula=True)
Exemplo de inferência
payload = {
"messages": [{ "role": "user", "content": "Divida esta tarefa em subtarefas, identifique quais ferramentas são necessárias e execute-as em sequência." }],
"max_tokens": 20480,
"temperature": 0.6,
"top_p": 0.95
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
Importante: limpeza após uso
Para evitar cobranças contínuas, exclua o endpoint após finalizar os testes:
predictor.delete_endpoint()
Impacto prático para usuários e empresas
Com o Nemotron 3 Ultra, empresas ganham uma solução robusta para construir agentes autônomos que precisam realizar múltiplas etapas de raciocínio e execução sem perder coerência, tudo com menor custo e maior velocidade. Isso abre portas para automações mais inteligentes, eficientes e econômicas em áreas como desenvolvimento de software, pesquisa avançada e orquestração de processos complexos.