DeepReinforce lança Ornith-1.0: modelo open-source que aprende o próprio scaffold de código

A DeepReinforce lançou o Ornith-1.0, uma família de modelos open-source construída para codificação agentiva. A linha inclui quatro tamanhos — de um modelo denso de 9B até o flagship Mixture-of-Experts de 397B. Todos os checkpoints estão disponíveis sob licença MIT no Hugging Face, com pós-treinamento sobre os modelos base Gemma 4 e Qwen 3.5.

Aprendendo o próprio scaffold

A maioria dos agentes de código emparelha um modelo com um harness fixo projetado por humanos. O Ornith-1.0, em vez disso, aprende a escrever o próprio scaffold. A equipe de pesquisa da DeepReinforce reporta resultados estado da arte entre modelos open-source de tamanho comparável.

Cada passo de RL executa dois estágios: o modelo primeiro propõe um scaffold refinado, depois gera uma solução usando esse scaffold. A recompensa flui de volta para ambos os estágios, fazendo com que scaffolds de maior recompensa sejam selecionados ao longo do tempo.

Quatro tamanhos disponíveis

Variante	Tipo	Parâmetros ativos
Ornith-1.0-9B	Denso	9B
Ornith-1.0-31B	Denso	31B
Ornith-1.0-35B	MoE	~3B por token
Ornith-1.0-397B	MoE (flagship)	—

Builds em FP8 e GGUF também estão publicados para servir localmente com mais eficiência. O modelo de 9B ocupa cerca de 19GB em bf16 e roda em uma única GPU de 80GB.

Performance competitiva

O Ornith-1.0-397B supera o Claude Opus 4.7 em ambos os benchmarks principais (SWE-bench e Terminal Bench), mas fica atrás do Opus 4.8 e do GLM-5.2-744B. Considerando que é open-source e licenciado sob MIT, o resultado é expressivo.

Defesas contra reward hacking

Três camadas protegem contra reward hacking durante o treinamento:

Limite de confiança fixo — restrições que o scaffold não pode violar
Monitor determinístico — verifica ações antes da execução
Juiz LLM congelado — avaliação independente que não participa do loop de treinamento

Servindo

Cada modelo expõe um endpoint compatível com OpenAI. Frameworks de agentes padrão funcionam sem alterações de código. Receitas de serving para vLLM, SGLang e Transformers estão disponíveis no Hugging Face. Os modelos incluem um parser de raciocínio que retorna o trace em um campo reasoning_content separado, além de emitir tool calls bem formadas para loops de agente.

O lançamento representa um avanço significativo para modelos de código open-source com capacidades agentivas, especialmente pela licença MIT permissiva e pela abordagem inovadora de scaffold autoaprendido.

DeepReinforce lança Ornith-1.0: modelo open-source que aprende o próprio scaffold de código

Aprendendo o próprio scaffold

Quatro tamanhos disponíveis

Performance competitiva

Defesas contra reward hacking

Servindo

Leia também

Claude conquista consumidores pagantes, mercado dominado pelo ChatGPT

Ex-chefe de IA da Databricks quer cortar consumo de energia da IA em 1.000x com chips osciladores

General Intuition levanta US$ 320M com aposta de US$ 2,3 bi: videogames podem treinar agentes de IA para o mundo real

Netris capta US$ 15 milhões da a16z para acelerar infraestrutura de data centers de IA