Voltar para artigos
Inteligência Artificial

Prime Intellect Lança prime-rl 0.6.0 para Treinar Modelos MoE de Trilhões de Parâmetros

23 de junho de 2026
06:34
treinamentoreinforcement-learningprime-rlPrime IntellectGLM-5open-sourceagentesMoE
Prime Intellect Lança prime-rl 0.6.0 para Treinar Modelos MoE de Trilhões de Parâmetros

A Prime Intellect acaba de lançar a versão 0.6.0 do prime-rl, um framework open-source de reinforcement learning assíncrono capaz de treinar modelos Mixture-of-Experts (MoE) com trilhões de parâmetros em cargas de trabalho agentivas de longa duração.

O grande destaque do anúncio é o treinamento do modelo GLM-5 em tarefas de engenharia de software (SWE) com 131 mil tokens de comprimento de sequência, usando apenas 28 nós H200. Cada passo de treinamento levou menos de 5 minutos, com batch size de 256 rollouts.

Por que isso importa

Treinar tarefas agentivas — como agentes de código que executam centenas de chamadas de ferramentas — sempre foi um pesadelo de engenharia. Alguns rollouts podem durar horas, e esperar por eles antes de cada atualização de política deixa GPUs ociosas. O prime-rl resolve isso com RL assíncrono: o treinador e o sistema de inferência são desacoplados e escalam independentemente.

Otimizações de inferência

O framework traz várias inovações para o lado da inferência, que costuma ser o gargalo em sistemas de RL:

  • Inferência FP8: usa kernels DeepEP e DeepGEMM para acelerar prefill e decode
  • Wide Expert Parallelism: distribui especialistas entre 32+ GPUs com comunicação all2all por camada
  • Desagregação Prefill/Decode (P/D): separa workers de prefill e decode para evitar que saídas longas de ferramentas estrangulem a decodificação
  • KV Cache com offloading em camadas: suporte a CPU e disco, com Mooncake Store fazendo pooling centralizado de RAM e disco entre nós
  • Router Replay (R3): captura decisões de roteamento da inferência e as reproduz no treinador, reduzindo a divergência KL em uma ordem de grandeza

Otimizações de treinamento

O treinador é construído sobre o torchtitan (código nativo PyTorch) e usa paralelismo 3D:

Estratégia O que distribui Função principal
FSDP (FSDP2) Parâmetros, gradientes, estados do otimizador Amortização de memória base
Expert Parallelism (EP) Especialistas dentro de uma camada Reduz memória ativa por camada
Context Parallelism (CP) A dimensão da sequência Gerencia ativação de contexto longo

O treinamento também adota FP8 block-scaled (seguindo a abordagem do DeepSeek V3), igualando a precisão entre treinador e inferência para reduzir a divergência KL e estabilizar o treinamento.

Casos de uso

  • Agentes SWE de longo horizonte: treinar modelos em issues reais de repositórios, com rollouts de centenas de turnos
  • Pós-treinamento em escala de 1T: o run do GLM-5 coube em apenas 28 nós H200 graças ao Wide EP e offloading de KV
  • RL agentiva estável em escala: Router Replay e FP8 training reduzem mismatch treinador↔inferência

O prime-rl 0.6.0 está disponível como open-source, com suporte a modelos como Kimi-K2.7-Code e NVIDIA Nemotron-3 Ultra 550B. Um run completo do GLM-5.1 começa com um único comando em cluster Slurm.

Este lançamento representa um avanço significativo para a comunidade open-source de RL, democratizando o acesso a técnicas de treinamento que antes estavam restritas a poucos laboratórios com recursos massivos.

Leia também