NVIDIA Blackwell domina MLPerf Training 6.0 com recordes em todos os benchmarks

NVIDIA Blackwell MLPerf Training 6.0

A NVIDIA acaba de varrer o MLPerf Training 6.0, o principal benchmark da indústria para treinamento de modelos de IA. A plataforma Blackwell conquistou liderança absoluta em três dimensões: performance bruta, escala massiva e confiabilidade em produção.

Mais rápido em todos os 7 benchmarks

A NVIDIA foi a única plataforma a submeter resultados em todos os sete benchmarks do MLPerf Training 6.0 — e terminou com o melhor tempo em cada um deles.

O destaque técnico ficou para a nova GB300 NVL72, que entregou desempenho até 1,6× superior ao GB200 NVL72 na mesma escala. O salto veio da maior densidade computacional com NVFP4 (precisão de 4 bits), memória expandida e maior teto de potência — provando que o treinamento de baixa precisão já é viável até para modelos de larga escala.

Escala recorde: 8.192 GPUs

O MLPerf Training 6.0 introduziu duas novas cargas de trabalho baseadas em mixture-of-experts (MoE):

DeepSeek-V3 671B — o maior modelo MoE da suíte
GPT-OSS-20B

A NVIDIA escalou o treinamento do DeepSeek-V3 671B para 8.192 GPUs usando sistemas GB200 NVL72 — a maior submissão Blackwell da história do benchmark. Em uma demonstração separada, a CoreWeave treinou o mesmo modelo em 2,02 minutos usando GB300 NVL72 com rede Spectrum-X Ethernet.

Workload	GPUs	Sistema	Tempo	Submissor
DeepSeek-V3 671B (MoE)	8.192	GB200 NVL72	—	NVIDIA
DeepSeek-V3 671B (MoE)	8.192	GB300 NVL72	2,02 min	CoreWeave
Llama 3.1 405B (dense)	8.192	GB200 NVL72	7,07 min	Microsoft Azure
Llama 3.1 405B (dense)	5.120	GB200 NVL72	—	NVIDIA

O segredo da escala está no NVLink de quinta geração, que conecta todas as 72 GPUs de um rack NVL72 como uma única GPU unificada — eliminando os gargalos de comunicação que historicamente limitavam o treinamento distribuído.

Confiabilidade para produção

Treinar modelos de fronteira pode levar semanas ou meses em centenas de milhares de GPUs. A NVIDIA endereçou isso em duas frentes:

Menos interrupções: mais de 30 estágios de teste de fabricação antes de uma GPU chegar ao data center, motor RAS que monitora quase todo o chip com capacidade de auto-recuperação, e a rede Spectrum-X que redireciona tráfego em milissegundos diante de falhas de link.

Recuperação mais rápida: a extensão de resiliência NVRx detecta e gerencia automaticamente nós com baixo desempenho e retoma o treinamento a partir do checkpoint mais recente, em vez de reiniciar o job inteiro.

Quem está usando Blackwell

19 organizações participaram desta rodada. Alguns destaques:

CoreWeave + Cohere: a Cohere reportou treinamento 3× mais rápido no GB200 NVL72 para sua plataforma de IA agentiva North
CoreWeave + Midjourney: o modelo de geração de imagens v8 foi treinado em cluster Blackwell; a empresa já está escalando GPUs Blackwell Ultra para os próximos modelos de imagem e vídeo
Google Cloud + Thinking Machines Lab: 2× mais rápido em treinamento e serving no GB300 NVL72 comparado à geração anterior
Nebius + Higgsfield: redução de 30% no tempo de treinamento de modelos, suportando 22 milhões de usuários que geram mais de 6 milhões de conteúdos por dia

O recado é claro: Blackwell não é apenas um chip mais rápido — é uma plataforma completa que redefine o que é possível em escala, eficiência e confiabilidade no treinamento de IA.