DeepReinforce lança Ornith-1.0: modelo open-source que aprende o próprio scaffold de código

A DeepReinforce lançou o Ornith-1.0, uma família de modelos open-source construída para codificação agentiva. A linha inclui quatro tamanhos — de um modelo denso de 9B até o flagship Mixture-of-Experts de 397B. Todos os checkpoints estão disponíveis sob licença MIT no Hugging Face, com pós-treinamento sobre os modelos base Gemma 4 e Qwen 3.5.
Aprendendo o próprio scaffold
A maioria dos agentes de código emparelha um modelo com um harness fixo projetado por humanos. O Ornith-1.0, em vez disso, aprende a escrever o próprio scaffold. A equipe de pesquisa da DeepReinforce reporta resultados estado da arte entre modelos open-source de tamanho comparável.
Cada passo de RL executa dois estágios: o modelo primeiro propõe um scaffold refinado, depois gera uma solução usando esse scaffold. A recompensa flui de volta para ambos os estágios, fazendo com que scaffolds de maior recompensa sejam selecionados ao longo do tempo.
Quatro tamanhos disponíveis
| Variante | Tipo | Parâmetros ativos |
|---|---|---|
| Ornith-1.0-9B | Denso | 9B |
| Ornith-1.0-31B | Denso | 31B |
| Ornith-1.0-35B | MoE | ~3B por token |
| Ornith-1.0-397B | MoE (flagship) | — |
Builds em FP8 e GGUF também estão publicados para servir localmente com mais eficiência. O modelo de 9B ocupa cerca de 19GB em bf16 e roda em uma única GPU de 80GB.
Performance competitiva
O Ornith-1.0-397B supera o Claude Opus 4.7 em ambos os benchmarks principais (SWE-bench e Terminal Bench), mas fica atrás do Opus 4.8 e do GLM-5.2-744B. Considerando que é open-source e licenciado sob MIT, o resultado é expressivo.
Defesas contra reward hacking
Três camadas protegem contra reward hacking durante o treinamento:
- Limite de confiança fixo — restrições que o scaffold não pode violar
- Monitor determinístico — verifica ações antes da execução
- Juiz LLM congelado — avaliação independente que não participa do loop de treinamento
Servindo
Cada modelo expõe um endpoint compatível com OpenAI. Frameworks de agentes padrão funcionam sem alterações de código. Receitas de serving para vLLM, SGLang e Transformers estão disponíveis no Hugging Face. Os modelos incluem um parser de raciocínio que retorna o trace em um campo reasoning_content separado, além de emitir tool calls bem formadas para loops de agente.
O lançamento representa um avanço significativo para modelos de código open-source com capacidades agentivas, especialmente pela licença MIT permissiva e pela abordagem inovadora de scaffold autoaprendido.



