Voltar para o blog
Notícias de Tecnologia

NVIDIA Blackwell domina MLPerf Training 6.0 com recordes em todos os benchmarks

16 de junho de 2026
14:56
nvidiatreinamentogpudeepseekmlperfinteligencia-artificialblackwell
NVIDIA Blackwell domina MLPerf Training 6.0 com recordes em todos os benchmarks

NVIDIA Blackwell MLPerf Training 6.0

A NVIDIA acaba de varrer o MLPerf Training 6.0, o principal benchmark da indústria para treinamento de modelos de IA. A plataforma Blackwell conquistou liderança absoluta em três dimensões: performance bruta, escala massiva e confiabilidade em produção.

Mais rápido em todos os 7 benchmarks

A NVIDIA foi a única plataforma a submeter resultados em todos os sete benchmarks do MLPerf Training 6.0 — e terminou com o melhor tempo em cada um deles.

O destaque técnico ficou para a nova GB300 NVL72, que entregou desempenho até 1,6× superior ao GB200 NVL72 na mesma escala. O salto veio da maior densidade computacional com NVFP4 (precisão de 4 bits), memória expandida e maior teto de potência — provando que o treinamento de baixa precisão já é viável até para modelos de larga escala.

Escala recorde: 8.192 GPUs

O MLPerf Training 6.0 introduziu duas novas cargas de trabalho baseadas em mixture-of-experts (MoE):

  • DeepSeek-V3 671B — o maior modelo MoE da suíte
  • GPT-OSS-20B

A NVIDIA escalou o treinamento do DeepSeek-V3 671B para 8.192 GPUs usando sistemas GB200 NVL72 — a maior submissão Blackwell da história do benchmark. Em uma demonstração separada, a CoreWeave treinou o mesmo modelo em 2,02 minutos usando GB300 NVL72 com rede Spectrum-X Ethernet.

Workload GPUs Sistema Tempo Submissor
DeepSeek-V3 671B (MoE) 8.192 GB200 NVL72 NVIDIA
DeepSeek-V3 671B (MoE) 8.192 GB300 NVL72 2,02 min CoreWeave
Llama 3.1 405B (dense) 8.192 GB200 NVL72 7,07 min Microsoft Azure
Llama 3.1 405B (dense) 5.120 GB200 NVL72 NVIDIA

O segredo da escala está no NVLink de quinta geração, que conecta todas as 72 GPUs de um rack NVL72 como uma única GPU unificada — eliminando os gargalos de comunicação que historicamente limitavam o treinamento distribuído.

Confiabilidade para produção

Treinar modelos de fronteira pode levar semanas ou meses em centenas de milhares de GPUs. A NVIDIA endereçou isso em duas frentes:

Menos interrupções: mais de 30 estágios de teste de fabricação antes de uma GPU chegar ao data center, motor RAS que monitora quase todo o chip com capacidade de auto-recuperação, e a rede Spectrum-X que redireciona tráfego em milissegundos diante de falhas de link.

Recuperação mais rápida: a extensão de resiliência NVRx detecta e gerencia automaticamente nós com baixo desempenho e retoma o treinamento a partir do checkpoint mais recente, em vez de reiniciar o job inteiro.

Quem está usando Blackwell

19 organizações participaram desta rodada. Alguns destaques:

  • CoreWeave + Cohere: a Cohere reportou treinamento 3× mais rápido no GB200 NVL72 para sua plataforma de IA agentiva North
  • CoreWeave + Midjourney: o modelo de geração de imagens v8 foi treinado em cluster Blackwell; a empresa já está escalando GPUs Blackwell Ultra para os próximos modelos de imagem e vídeo
  • Google Cloud + Thinking Machines Lab: 2× mais rápido em treinamento e serving no GB300 NVL72 comparado à geração anterior
  • Nebius + Higgsfield: redução de 30% no tempo de treinamento de modelos, suportando 22 milhões de usuários que geram mais de 6 milhões de conteúdos por dia

O recado é claro: Blackwell não é apenas um chip mais rápido — é uma plataforma completa que redefine o que é possível em escala, eficiência e confiabilidade no treinamento de IA.