Prime Intellect Lança prime-rl 0.6.0 para Treinar Modelos MoE de Trilhões de Parâmetros

A Prime Intellect acaba de lançar a versão 0.6.0 do prime-rl, um framework open-source de reinforcement learning assíncrono capaz de treinar modelos Mixture-of-Experts (MoE) com trilhões de parâmetros em cargas de trabalho agentivas de longa duração.
O grande destaque do anúncio é o treinamento do modelo GLM-5 em tarefas de engenharia de software (SWE) com 131 mil tokens de comprimento de sequência, usando apenas 28 nós H200. Cada passo de treinamento levou menos de 5 minutos, com batch size de 256 rollouts.
Por que isso importa
Treinar tarefas agentivas — como agentes de código que executam centenas de chamadas de ferramentas — sempre foi um pesadelo de engenharia. Alguns rollouts podem durar horas, e esperar por eles antes de cada atualização de política deixa GPUs ociosas. O prime-rl resolve isso com RL assíncrono: o treinador e o sistema de inferência são desacoplados e escalam independentemente.
Otimizações de inferência
O framework traz várias inovações para o lado da inferência, que costuma ser o gargalo em sistemas de RL:
- Inferência FP8: usa kernels DeepEP e DeepGEMM para acelerar prefill e decode
- Wide Expert Parallelism: distribui especialistas entre 32+ GPUs com comunicação all2all por camada
- Desagregação Prefill/Decode (P/D): separa workers de prefill e decode para evitar que saídas longas de ferramentas estrangulem a decodificação
- KV Cache com offloading em camadas: suporte a CPU e disco, com Mooncake Store fazendo pooling centralizado de RAM e disco entre nós
- Router Replay (R3): captura decisões de roteamento da inferência e as reproduz no treinador, reduzindo a divergência KL em uma ordem de grandeza
Otimizações de treinamento
O treinador é construído sobre o torchtitan (código nativo PyTorch) e usa paralelismo 3D:
| Estratégia | O que distribui | Função principal |
|---|---|---|
| FSDP (FSDP2) | Parâmetros, gradientes, estados do otimizador | Amortização de memória base |
| Expert Parallelism (EP) | Especialistas dentro de uma camada | Reduz memória ativa por camada |
| Context Parallelism (CP) | A dimensão da sequência | Gerencia ativação de contexto longo |
O treinamento também adota FP8 block-scaled (seguindo a abordagem do DeepSeek V3), igualando a precisão entre treinador e inferência para reduzir a divergência KL e estabilizar o treinamento.
Casos de uso
- Agentes SWE de longo horizonte: treinar modelos em issues reais de repositórios, com rollouts de centenas de turnos
- Pós-treinamento em escala de 1T: o run do GLM-5 coube em apenas 28 nós H200 graças ao Wide EP e offloading de KV
- RL agentiva estável em escala: Router Replay e FP8 training reduzem mismatch treinador↔inferência
O prime-rl 0.6.0 está disponível como open-source, com suporte a modelos como Kimi-K2.7-Code e NVIDIA Nemotron-3 Ultra 550B. Um run completo do GLM-5.1 começa com um único comando em cluster Slurm.
Este lançamento representa um avanço significativo para a comunidade open-source de RL, democratizando o acesso a técnicas de treinamento que antes estavam restritas a poucos laboratórios com recursos massivos.



