DFlash: Decodificação Especulativa com Blocos em Paralelo Alcança Até 15x Mais Throughput em GPUs Blackwell

Pesquisadores da UC San Diego (z-lab) apresentaram o DFlash, uma nova técnica de decodificação especulativa que gera blocos inteiros de tokens em paralelo — em vez de um token de cada vez — alcançando até 6× de aceleração sem perda de qualidade em modelos como Qwen3-8B. Em testes da NVIDIA com GPUs Blackwell, o DFlash entregou até 15× mais vazão (throughput) no modelo gpt-oss-120B, superando em 2,5× o estado da arte anterior, EAGLE-3.

O problema da geração token a token

Modelos de linguagem autorregressivos geram texto um token por vez. Cada token espera o anterior ficar pronto. Esse loop serial deixa GPUs modernas subutilizadas e torna a inferência lenta — um custo que só aumenta com modelos de raciocínio longo (Chain-of-Thought), onde a latência domina o tempo total de geração.

Decodificação especulativa tradicional

A técnica padrão para acelerar a inferência é a decodificação especulativa: um modelo "rascunho" (drafter) pequeno propõe tokens futuros que o modelo-alvo grande verifica em paralelo. Tokens aceitos são mantidos; a saída permanece idêntica (lossless). Porém, métodos como o EAGLE-3 ainda geram rascunhos de forma autorregressiva, limitando o ganho real a 2–3×.

O que o DFlash faz de diferente

O DFlash usa um modelo de difusão em bloco leve como drafter. Em vez de propor tokens um a um, ele gera um bloco inteiro de tokens em uma única passada (forward pass). O modelo-alvo então verifica todo o bloco em paralelo.

Os ganhos reportados são expressivos:

6,08× de aceleração lossless no Qwen3-8B (MATH-500, temperatura 0)
4,86× de média contra 1,76× do EAGLE-3 na mesma tarefa
15× de throughput no gpt-oss-120B com 8 GPUs NVIDIA Blackwell (DGX B300)
2,3× de speedup em benchmarks de interatividade (NVIDIA Speed-Bench) contra 1,7× do EAGLE-3

"O alvo sabe mais" — a ideia central

A sacada do DFlash é simples: o modelo-alvo sabe mais. Modelos autorregressivos grandes codificam, em suas camadas ocultas, informações sobre múltiplos tokens futuros. O DFlash extrai estados ocultos de várias camadas do modelo-alvo, funde-os em um vetor de contexto compacto e injeta esse sinal em todas as camadas do drafter — especificamente nas projeções Key e Value do mecanismo de atenção.

Isso contrasta com o EAGLE-3, que injeta features apenas nos embeddings de entrada. Com o DFlash, conforme a profundidade do drafter aumenta, o sinal do alvo não se dilui — ele persiste no cache KV. O drafter de 5 camadas do DFlash gerando 16 tokens bate o EAGLE-3 gerando 8 tokens: mais rápido e com maior taxa de aceitação.

Drafter leve, ganho máximo

Enquanto métodos anteriores de difusão (DiffuSpec, SpecDiff-2) usavam drafters pesados de 7B parâmetros — limitando o ganho a 3–4× — o DFlash usa um drafter de apenas 5 camadas (8 para Qwen3-Coder). Por gerar todos os tokens em paralelo, o custo de drafting fica quase constante, permitindo modelos mais expressivos sem adicionar latência.

Casos de uso

Agentes de código: No Gemma 4 31B com vLLM, o DFlash atinge 5,8× no Math500 e 5,6× no HumanEval. Respostas mais rápidas significam menos espera dentro de loops de agentes.

Modelos de raciocínio: Com modo thinking ativado, mantém ~4,5× no Qwen3-4B e Qwen3-8B em decodificação greedy. Sob sampling, ~3,9×. Isso reduz o custo de outputs longos de raciocínio.

Inferência em produção: No SGLang com GPU B200, alcança 5,1× no Qwen3-8B. Os ganhos diminuem com concorrência alta, mas permanecem positivos — ou seja, o custo de serving sempre cai.

Como usar

O DFlash é open source e já funciona com vLLM, SGLang e Transformers. Basta trocar a config do EAGLE-3:

vllm serve Qwen/Qwen3.5-27B \
  --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15}' \
  --attention-backend flash_attn \
  --max-num-batched-tokens 32768

Checkpoints estão disponíveis no Hugging Face (z-lab) e o código no GitHub. O paper completo está no arXiv (2602.06036).

Por que isso importa

O DFlash representa um avanço significativo em eficiência de inferência. Com a crescente demanda por modelos maiores e raciocínio mais longo, técnicas que aceleram a geração sem sacrificar qualidade são essenciais para viabilizar IA em escala. A adoção por NVIDIA e integração nativa com frameworks como vLLM sinalizam que a decodificação especulativa por difusão em bloco veio para ficar.

Fonte: MarkTechPost | Paper: arXiv 2602.06036 | UC San Diego z-lab & NVIDIA