Prime Intellect Lança prime-rl 0.6.0 para Treinar Modelos MoE de Trilhões de Parâmetros

A Prime Intellect acaba de lançar a versão 0.6.0 do prime-rl, um framework open-source de reinforcement learning assíncrono capaz de treinar modelos Mixture-of-Experts (MoE) com trilhões de parâmetros em cargas de trabalho agentivas de longa duração.

O grande destaque do anúncio é o treinamento do modelo GLM-5 em tarefas de engenharia de software (SWE) com 131 mil tokens de comprimento de sequência, usando apenas 28 nós H200. Cada passo de treinamento levou menos de 5 minutos, com batch size de 256 rollouts.

Por que isso importa

Treinar tarefas agentivas — como agentes de código que executam centenas de chamadas de ferramentas — sempre foi um pesadelo de engenharia. Alguns rollouts podem durar horas, e esperar por eles antes de cada atualização de política deixa GPUs ociosas. O prime-rl resolve isso com RL assíncrono: o treinador e o sistema de inferência são desacoplados e escalam independentemente.

Otimizações de inferência

O framework traz várias inovações para o lado da inferência, que costuma ser o gargalo em sistemas de RL:

Inferência FP8: usa kernels DeepEP e DeepGEMM para acelerar prefill e decode
Wide Expert Parallelism: distribui especialistas entre 32+ GPUs com comunicação all2all por camada
Desagregação Prefill/Decode (P/D): separa workers de prefill e decode para evitar que saídas longas de ferramentas estrangulem a decodificação
KV Cache com offloading em camadas: suporte a CPU e disco, com Mooncake Store fazendo pooling centralizado de RAM e disco entre nós
Router Replay (R3): captura decisões de roteamento da inferência e as reproduz no treinador, reduzindo a divergência KL em uma ordem de grandeza

Otimizações de treinamento

O treinador é construído sobre o torchtitan (código nativo PyTorch) e usa paralelismo 3D:

Estratégia	O que distribui	Função principal
FSDP (FSDP2)	Parâmetros, gradientes, estados do otimizador	Amortização de memória base
Expert Parallelism (EP)	Especialistas dentro de uma camada	Reduz memória ativa por camada
Context Parallelism (CP)	A dimensão da sequência	Gerencia ativação de contexto longo

O treinamento também adota FP8 block-scaled (seguindo a abordagem do DeepSeek V3), igualando a precisão entre treinador e inferência para reduzir a divergência KL e estabilizar o treinamento.

Casos de uso

Agentes SWE de longo horizonte: treinar modelos em issues reais de repositórios, com rollouts de centenas de turnos
Pós-treinamento em escala de 1T: o run do GLM-5 coube em apenas 28 nós H200 graças ao Wide EP e offloading de KV
RL agentiva estável em escala: Router Replay e FP8 training reduzem mismatch treinador↔inferência

O prime-rl 0.6.0 está disponível como open-source, com suporte a modelos como Kimi-K2.7-Code e NVIDIA Nemotron-3 Ultra 550B. Um run completo do GLM-5.1 começa com um único comando em cluster Slurm.

Este lançamento representa um avanço significativo para a comunidade open-source de RL, democratizando o acesso a técnicas de treinamento que antes estavam restritas a poucos laboratórios com recursos massivos.

Prime Intellect Lança prime-rl 0.6.0 para Treinar Modelos MoE de Trilhões de Parâmetros

Por que isso importa

Otimizações de inferência

Otimizações de treinamento

Casos de uso

Leia também

O mundo da IA está entrando em 'loop': agentes autônomos que nunca param de trabalhar

OpenAI Lança "Patch the Planet" e GPT-5.5-Cyber Supera Mythos 5 em Corrida por Cibersegurança com IA

O Que Todo Mundo Entende Errado Sobre IA Agentiva (E Como Corrigir)

NVIDIA Vera CPU Abre Caminho para IA Científica Agentiva no Laboratório Nacional de Los Alamos