NVIDIA Nemotron 3 Nano Omni chega ao Amazon SageMaker JumpStart com inteligência multimodal avançada

A Amazon Web Services (AWS) anunciou a disponibilidade imediata do modelo NVIDIA Nemotron 3 Nano Omni no Amazon SageMaker JumpStart, plataforma que facilita o acesso e a implantação de modelos de machine learning de ponta. Essa novidade representa um avanço significativo no desenvolvimento de aplicações empresariais que demandam compreensão e raciocínio simultâneo sobre múltiplas modalidades, como vídeo, áudio, imagem e texto.

Arquitetura e capacidades do Nemotron 3 Nano Omni

O Nemotron 3 Nano Omni é um modelo multimodal aberto, com 30 bilhões de parâmetros totais e 3 bilhões ativos, baseado na arquitetura Mamba2 Transformer Hybrid Mixture of Experts (MoE). Ele integra três componentes principais:

Nemotron 3 Nano LLM: backbone para processamento de linguagem;
CRADIO v4-H: codificador de visão para compreensão de imagens e vídeos;
Parakeet: codificador de fala para transcrição e entendimento de áudio.

Esse design unificado permite processar entradas multimodais — vídeo, áudio, imagens e texto — em uma única passagem de inferência, gerando respostas em texto. O modelo suporta contexto extenso de até 131 mil tokens, raciocínio em cadeia (chain of thought), chamadas de ferramentas, saída em JSON e timestamps ao nível de palavra para transcrição.

Disponível em precisão FP8 no SageMaker JumpStart, o Nemotron 3 Nano Omni oferece equilíbrio ideal entre precisão e eficiência para cargas de trabalho empresariais. Ele é licenciado sob o NVIDIA Open Model Agreement, permitindo uso comercial.

Impacto para o mercado e aplicações empresariais

Fluxos de trabalho corporativos frequentemente exigem agentes que compreendam simultaneamente múltiplos tipos de dados — telas, documentos, áudio e vídeo — dentro de um mesmo ciclo de raciocínio. Tradicionalmente, isso era feito com modelos separados para visão, fala e linguagem, aumentando latência, complexidade e custos.

O Nemotron 3 Nano Omni revoluciona esse cenário ao funcionar como um subagente multimodal unificado, oferecendo “olhos e ouvidos” para sistemas de agentes. Ele lê telas, interpreta documentos, transcreve áudios e analisa vídeos mantendo contexto convergente, simplificando arquiteturas e reduzindo múltiplas chamadas de inferência para apenas uma.

Entre os casos de uso destacados estão:

Agentes de uso computacional: navegação e entendimento de interfaces gráficas, automação de browsers, gerenciamento de painéis e fluxos de trabalho de e-mails;
Inteligência documental: análise integrada de documentos, gráficos, tabelas e mídias mistas para compliance, contratos e literatura científica;
Agentes de áudio e vídeo: monitoramento contínuo para atendimento ao cliente, análise de reuniões, gestão de ativos de mídia e verificação de pedidos em drive-thru, entre outras aplicações.

Como usar o Nemotron 3 Nano Omni no Amazon SageMaker JumpStart

O SageMaker JumpStart permite implantar o modelo com um clique, eliminando a necessidade de gerenciar infraestrutura, configurar frameworks ou baixar artefatos manualmente. Para começar, é necessário:

Conta AWS ativa;
Permissões adequadas para SageMaker JumpStart;
Cota de serviço suficiente para instâncias GPU, como ml.p4d.24xlarge ou ml.p5.48xlarge.

O processo de implantação via SageMaker Studio inclui:

Abrir o SageMaker Studio e acessar o painel JumpStart;
Pesquisar por "Nemotron 3 Nano Omni" e selecionar o modelo;
Configurar tipo de instância e parâmetros de implantação;
Clicar em "Deploy" para criar o endpoint.

Alternativamente, a implantação pode ser feita programaticamente com o SDK Python do SageMaker:

from sagemaker.jumpstart.model import JumpStartModel

model = JumpStartModel(
    model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",
    role="<seu_papel_sagemaker>",
)
predictor = model.deploy(accept_eula=True)

Exemplos de inferência multimodal

Após a implantação, é possível enviar solicitações multimodais ao endpoint. Veja exemplos para diferentes tipos de entrada:

Entendimento de imagem

import base64

def encode_image(image_path):
    with open(image_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

image_b64 = encode_image("example.jpg")
payload = {
    "messages": [{
        "role": "user",
        "content": [
            {"type": "text", "text": "Descreva esta imagem em detalhes."},
            {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},
        ],
    }],
    "max_tokens": 1024,
    "temperature": 0.2,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Resumo de vídeo com raciocínio

import base64

def encode_video(video_path):
    with open(video_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

video_b64 = encode_video("meeting_recording.mp4")
payload = {
    "messages": [{
        "role": "user",
        "content": [
            {"type": "video_url", "video_url": {"url": f"data:video/mp4;base64,{video_b64}"}},
            {"type": "text", "text": "Resuma os principais pontos da discussão."},
        ],
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Transcrição e análise de áudio

import base64

def encode_audio(audio_path):
    with open(audio_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

audio_b64 = encode_audio("customer_call.wav")
payload = {
    "messages": [{
        "role": "user",
        "content": [
            {"type": "audio_url", "audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}},
            {"type": "text", "text": "Transcreva este áudio e identifique os principais itens de ação."},
        ],
    }],
    "max_tokens": 1024,
    "temperature": 0.2,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Parâmetros recomendados para inferência

O modelo oferece modos de inferência ajustados a diferentes demandas:

Modo	Temperatura	top_p	max_tokens	Uso
Thinking	0.6	0.95	20480	Raciocínio complexo
Instruct	0.2	N/A	1024	Tarefas gerais, ASR

O modo Thinking é indicado para tarefas que exigem raciocínio aprofundado, enquanto o modo Instruct proporciona respostas mais rápidas para transcrição e demandas simples.

Considerações finais e links úteis

Com a integração do NVIDIA Nemotron 3 Nano Omni ao Amazon SageMaker JumpStart, a AWS amplia as possibilidades para empresas desenvolverem agentes inteligentes multimodais com alta performance e menor complexidade operacional. A unificação de múltiplas modalidades em um único modelo acelera o desenvolvimento e reduz custos, abrindo espaço para soluções inovadoras em diversos setores.

Para mais detalhes técnicos e acesso ao modelo, consulte a página oficial da NVIDIA Nemotron no Hugging Face.