NVIDIA Nemotron 3 Nano Omni chega ao Amazon SageMaker JumpStart com inteligência multimodal avançada

A Amazon Web Services (AWS) anunciou a disponibilidade imediata do modelo NVIDIA Nemotron 3 Nano Omni no Amazon SageMaker JumpStart, plataforma que facilita o acesso e a implantação de modelos de machine learning de ponta. Essa novidade representa um avanço significativo no desenvolvimento de aplicações empresariais que demandam compreensão e raciocínio simultâneo sobre múltiplas modalidades, como vídeo, áudio, imagem e texto.
Arquitetura e capacidades do Nemotron 3 Nano Omni
O Nemotron 3 Nano Omni é um modelo multimodal aberto, com 30 bilhões de parâmetros totais e 3 bilhões ativos, baseado na arquitetura Mamba2 Transformer Hybrid Mixture of Experts (MoE). Ele integra três componentes principais:
- Nemotron 3 Nano LLM: backbone para processamento de linguagem;
- CRADIO v4-H: codificador de visão para compreensão de imagens e vídeos;
- Parakeet: codificador de fala para transcrição e entendimento de áudio.
Esse design unificado permite processar entradas multimodais — vídeo, áudio, imagens e texto — em uma única passagem de inferência, gerando respostas em texto. O modelo suporta contexto extenso de até 131 mil tokens, raciocínio em cadeia (chain of thought), chamadas de ferramentas, saída em JSON e timestamps ao nível de palavra para transcrição.
Disponível em precisão FP8 no SageMaker JumpStart, o Nemotron 3 Nano Omni oferece equilíbrio ideal entre precisão e eficiência para cargas de trabalho empresariais. Ele é licenciado sob o NVIDIA Open Model Agreement, permitindo uso comercial.
Impacto para o mercado e aplicações empresariais
Fluxos de trabalho corporativos frequentemente exigem agentes que compreendam simultaneamente múltiplos tipos de dados — telas, documentos, áudio e vídeo — dentro de um mesmo ciclo de raciocínio. Tradicionalmente, isso era feito com modelos separados para visão, fala e linguagem, aumentando latência, complexidade e custos.
O Nemotron 3 Nano Omni revoluciona esse cenário ao funcionar como um subagente multimodal unificado, oferecendo “olhos e ouvidos” para sistemas de agentes. Ele lê telas, interpreta documentos, transcreve áudios e analisa vídeos mantendo contexto convergente, simplificando arquiteturas e reduzindo múltiplas chamadas de inferência para apenas uma.
Entre os casos de uso destacados estão:
- Agentes de uso computacional: navegação e entendimento de interfaces gráficas, automação de browsers, gerenciamento de painéis e fluxos de trabalho de e-mails;
- Inteligência documental: análise integrada de documentos, gráficos, tabelas e mídias mistas para compliance, contratos e literatura científica;
- Agentes de áudio e vídeo: monitoramento contínuo para atendimento ao cliente, análise de reuniões, gestão de ativos de mídia e verificação de pedidos em drive-thru, entre outras aplicações.
Como usar o Nemotron 3 Nano Omni no Amazon SageMaker JumpStart
O SageMaker JumpStart permite implantar o modelo com um clique, eliminando a necessidade de gerenciar infraestrutura, configurar frameworks ou baixar artefatos manualmente. Para começar, é necessário:
- Conta AWS ativa;
- Permissões adequadas para SageMaker JumpStart;
- Cota de serviço suficiente para instâncias GPU, como
ml.p4d.24xlargeouml.p5.48xlarge.
O processo de implantação via SageMaker Studio inclui:
- Abrir o SageMaker Studio e acessar o painel JumpStart;
- Pesquisar por "Nemotron 3 Nano Omni" e selecionar o modelo;
- Configurar tipo de instância e parâmetros de implantação;
- Clicar em "Deploy" para criar o endpoint.
Alternativamente, a implantação pode ser feita programaticamente com o SDK Python do SageMaker:
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",
role="<seu_papel_sagemaker>",
)
predictor = model.deploy(accept_eula=True)
Exemplos de inferência multimodal
Após a implantação, é possível enviar solicitações multimodais ao endpoint. Veja exemplos para diferentes tipos de entrada:
Entendimento de imagem
import base64
def encode_image(image_path):
with open(image_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
image_b64 = encode_image("example.jpg")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Descreva esta imagem em detalhes."},
{"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},
],
}],
"max_tokens": 1024,
"temperature": 0.2,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
Resumo de vídeo com raciocínio
import base64
def encode_video(video_path):
with open(video_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
video_b64 = encode_video("meeting_recording.mp4")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "video_url", "video_url": {"url": f"data:video/mp4;base64,{video_b64}"}},
{"type": "text", "text": "Resuma os principais pontos da discussão."},
],
}],
"max_tokens": 20480,
"temperature": 0.6,
"top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
Transcrição e análise de áudio
import base64
def encode_audio(audio_path):
with open(audio_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
audio_b64 = encode_audio("customer_call.wav")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "audio_url", "audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}},
{"type": "text", "text": "Transcreva este áudio e identifique os principais itens de ação."},
],
}],
"max_tokens": 1024,
"temperature": 0.2,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
Parâmetros recomendados para inferência
O modelo oferece modos de inferência ajustados a diferentes demandas:
| Modo | Temperatura | top_p | max_tokens | Uso |
|---|---|---|---|---|
| Thinking | 0.6 | 0.95 | 20480 | Raciocínio complexo |
| Instruct | 0.2 | N/A | 1024 | Tarefas gerais, ASR |
O modo Thinking é indicado para tarefas que exigem raciocínio aprofundado, enquanto o modo Instruct proporciona respostas mais rápidas para transcrição e demandas simples.
Considerações finais e links úteis
Com a integração do NVIDIA Nemotron 3 Nano Omni ao Amazon SageMaker JumpStart, a AWS amplia as possibilidades para empresas desenvolverem agentes inteligentes multimodais com alta performance e menor complexidade operacional. A unificação de múltiplas modalidades em um único modelo acelera o desenvolvimento e reduz custos, abrindo espaço para soluções inovadoras em diversos setores.
Para mais detalhes técnicos e acesso ao modelo, consulte a página oficial da NVIDIA Nemotron no Hugging Face.