NVIDIA Lança Nemotron-Labs Diffusion: Geração de Texto em Velocidade Ultrarrápida com Modelos de Difusão

Nemotron-Labs Diffusion: inovação em geração de texto com modelos de difusão

A NVIDIA, em parceria com a HuggingFace, apresenta o Nemotron-Labs Diffusion, uma nova família de modelos de linguagem que revoluciona a geração de texto ao combinar a tradicional geração autoregressiva com a inovadora geração por difusão. O lançamento traz modelos de 3B, 8B e 14B parâmetros, além de uma versão multimodal visão-linguagem de 8B, todos disponíveis para uso comercial sob a NVIDIA Nemotron Open Model License e a NVIDIA Source Code License.

O que há de novo na geração de texto?

Modelos autoregressivos (AR) dominam o cenário atual, gerando texto token a token de forma sequencial. Embora eficazes, eles enfrentam limitações de desempenho, especialmente em aplicações sensíveis à latência e em GPUs modernas, pois cada token exige uma passagem completa pelo modelo e acesso integral à memória.

Imagem relacionada ao artigo de HuggingFace — Imagem de apoio da materia original.

Nemotron-Labs Diffusion introduz os modelos de linguagem por difusão (DLM), que geram múltiplos tokens em paralelo e refinam iterativamente esses blocos. Essa abordagem não só melhora a eficiência computacional, aproveitando melhor o hardware, como também permite a revisão e correção de tokens gerados, algo que modelos AR não fazem nativamente.

Modos de geração flexíveis em um único modelo

Um dos grandes diferenciais do Nemotron-Labs Diffusion é a capacidade de operar em três modos distintos:

Modo Autoregressivo: funcionamento clássico, gerando texto token a token, garantindo compatibilidade com fluxos de trabalho existentes.
Modo Difusão: gera blocos de tokens simultaneamente, refinando-os em múltiplas etapas, com ganhos significativos de velocidade.
Modo Autoespeculação: combina a rapidez da geração por difusão com a confiabilidade do modo autoregressivo, ao gerar múltiplas hipóteses e verificar a coerência causalmente.

Essa flexibilidade permite que desenvolvedores escolham o equilíbrio ideal entre velocidade e precisão, alterando o modo de inferência sem necessidade de mudanças no código da aplicação.

Desempenho e precisão comprovados

Nos testes, o modelo Nemotron-Labs Diffusion 8B apresentou uma melhora média de 1,2% em precisão em comparação ao Qwen3 8B. Em termos de velocidade, o modo difusão alcançou 2,6 vezes mais tokens processados por passagem do modelo (TPF) do que modelos autoregressivos. Já o modo autoespeculação atingiu até 6,4 vezes essa taxa, mantendo precisão comparável.

Treinamento e dados utilizados

Baseado no conceito Efficient-DLM, que converte modelos AR pré-treinados em modelos de difusão com atenção em blocos, o Nemotron-Labs Diffusion foi treinado com um objetivo conjunto autoregressivo e difusão. Foram utilizados 1,3 trilhão de tokens do NVIDIA Nemotron Pretraining datasets para pré-treinamento, seguido por um fine-tuning supervisionado com 45 bilhões de tokens do NVIDIA Nemotron Post-training datasets.

Como acessar e utilizar o Nemotron-Labs Diffusion

Os modelos estão disponíveis no repositório da HuggingFace, com acesso aberto para desenvolvedores e pesquisadores. O código e a receita de treinamento podem ser encontrados no GitHub da NVIDIA Megatron Bridge, enquanto o relatório técnico detalhado está disponível em http://bit.ly/Nemotron-Labs-Diffusion-Report.

A implantação e inferência dos modelos serão suportadas pelo framework SGLang, que permite alternar facilmente entre os três modos de geração por meio de configurações simples.

Para começar, é necessário criar uma conta na HuggingFace (cadastre-se aqui) e verificar os planos de preços disponíveis em https://huggingface.co/pricing.

Impacto prático para desenvolvedores

Nemotron-Labs Diffusion oferece uma solução eficiente para aplicações que demandam geração de texto rápida e de alta qualidade, como assistentes virtuais, ferramentas de resumo, geração de código e sistemas interativos que necessitam de respostas quase em tempo real.

Além disso, a capacidade de revisar e refinar o texto durante a geração abre novas possibilidades para edição automática e preenchimento de lacunas em textos já existentes, ampliando o escopo de uso dos LLMs.