NVIDIA Blackwell domina MLPerf Training 6.0 com recordes em todos os benchmarks


A NVIDIA acaba de varrer o MLPerf Training 6.0, o principal benchmark da indústria para treinamento de modelos de IA. A plataforma Blackwell conquistou liderança absoluta em três dimensões: performance bruta, escala massiva e confiabilidade em produção.
Mais rápido em todos os 7 benchmarks
A NVIDIA foi a única plataforma a submeter resultados em todos os sete benchmarks do MLPerf Training 6.0 — e terminou com o melhor tempo em cada um deles.
O destaque técnico ficou para a nova GB300 NVL72, que entregou desempenho até 1,6× superior ao GB200 NVL72 na mesma escala. O salto veio da maior densidade computacional com NVFP4 (precisão de 4 bits), memória expandida e maior teto de potência — provando que o treinamento de baixa precisão já é viável até para modelos de larga escala.
Escala recorde: 8.192 GPUs
O MLPerf Training 6.0 introduziu duas novas cargas de trabalho baseadas em mixture-of-experts (MoE):
- DeepSeek-V3 671B — o maior modelo MoE da suíte
- GPT-OSS-20B
A NVIDIA escalou o treinamento do DeepSeek-V3 671B para 8.192 GPUs usando sistemas GB200 NVL72 — a maior submissão Blackwell da história do benchmark. Em uma demonstração separada, a CoreWeave treinou o mesmo modelo em 2,02 minutos usando GB300 NVL72 com rede Spectrum-X Ethernet.
| Workload | GPUs | Sistema | Tempo | Submissor |
|---|---|---|---|---|
| DeepSeek-V3 671B (MoE) | 8.192 | GB200 NVL72 | — | NVIDIA |
| DeepSeek-V3 671B (MoE) | 8.192 | GB300 NVL72 | 2,02 min | CoreWeave |
| Llama 3.1 405B (dense) | 8.192 | GB200 NVL72 | 7,07 min | Microsoft Azure |
| Llama 3.1 405B (dense) | 5.120 | GB200 NVL72 | — | NVIDIA |
O segredo da escala está no NVLink de quinta geração, que conecta todas as 72 GPUs de um rack NVL72 como uma única GPU unificada — eliminando os gargalos de comunicação que historicamente limitavam o treinamento distribuído.
Confiabilidade para produção
Treinar modelos de fronteira pode levar semanas ou meses em centenas de milhares de GPUs. A NVIDIA endereçou isso em duas frentes:
Menos interrupções: mais de 30 estágios de teste de fabricação antes de uma GPU chegar ao data center, motor RAS que monitora quase todo o chip com capacidade de auto-recuperação, e a rede Spectrum-X que redireciona tráfego em milissegundos diante de falhas de link.
Recuperação mais rápida: a extensão de resiliência NVRx detecta e gerencia automaticamente nós com baixo desempenho e retoma o treinamento a partir do checkpoint mais recente, em vez de reiniciar o job inteiro.
Quem está usando Blackwell
19 organizações participaram desta rodada. Alguns destaques:
- CoreWeave + Cohere: a Cohere reportou treinamento 3× mais rápido no GB200 NVL72 para sua plataforma de IA agentiva North
- CoreWeave + Midjourney: o modelo de geração de imagens v8 foi treinado em cluster Blackwell; a empresa já está escalando GPUs Blackwell Ultra para os próximos modelos de imagem e vídeo
- Google Cloud + Thinking Machines Lab: 2× mais rápido em treinamento e serving no GB300 NVL72 comparado à geração anterior
- Nebius + Higgsfield: redução de 30% no tempo de treinamento de modelos, suportando 22 milhões de usuários que geram mais de 6 milhões de conteúdos por dia
O recado é claro: Blackwell não é apenas um chip mais rápido — é uma plataforma completa que redefine o que é possível em escala, eficiência e confiabilidade no treinamento de IA.