Modelos locais fazem triagem do OpenClaw de graça — independência da stack de IA

Junho de 2026 será lembrado como o momento em que ficou claro que modelos fechados podem ser retirados do ar. Com a remoção do Claude Fable 5 da Anthropic ainda fresca na memória, a equipe do Hugging Face decidiu provar que é possível realizar tarefas reais de engenharia usando apenas modelos locais.

O desafio: o repositório OpenClaw — um assistente pessoal de IA de código aberto — recebe centenas de issues e PRs por dia que precisam ser triados, priorizados e encaminhados aos mantenedores. Onur Solmaz, maintainer do OpenClaw, decidiu usar seu NVIDIA DGX Spark (GB10 com 128 GB de memória unificada) para construir um sistema de notificação em tempo real.

A abordagem: agentes com modelos locais

Em vez de classificar issues com prompts simples de Chat Completions, a equipe usou agentes no harness Pi com modelos locais como Gemma 4 26B (A4B) e Qwen 3.6 35B (A3B), ambos gerando centenas de tokens por segundo no hardware local.

O agente recebe título, corpo e um trecho truncado do diff do PR. Ele pode usar ferramentas de bash somente leitura (via reposhell) para inspecionar o repositório e deve, ao final, submeter a classificação via final_json. O reposhell é um shell restrito que só permite comandos como ls, find, cat, grep e git show — bloqueando qualquer operação destrutiva.

O pipeline completo

O localpager orquestra o fluxo: um espelho local do repositório (via openclaw/gitcrawl) normaliza cada novo PR ou issue, armazena em SQLite, e workers consomem a fila de classificação. O contexto do GitHub (título, corpo, labels, autor, diff) é renderizado em um prompt, processado pelo agente, e o resultado é enviado ao Discord conforme as políticas de notificação configuradas.

Resultados

Os primeiros testes com Gemma 4 E4B foram ruidosos — muitos falsos positivos. A migração para Gemma 4 26B (A4B) e Qwen 3.6 35B (A3B) melhorou significativamente a precisão. Em um caso real documentado, o Qwen 3.6 classificou corretamente um PR do provedor Kimi após inspecionar o package.json com reposhell, corrigindo sua classificação inicial.

O custo? Zero dólares em APIs. Apenas eletricidade e hardware que a equipe já possuía. Um caso concreto de soberania de stack de IA com modelos open-weight rodando localmente.

Modelos locais fazem triagem do OpenClaw de graça — independência da stack de IA

A abordagem: agentes com modelos locais

O pipeline completo

Resultados

Leia também

GLM-5.2: guia prático da API compatível com OpenAI para raciocínio e function calling

Claude-Mem: a “memória infinita” que faz o Claude Code lembrar do que já fez

Claude Code 2026: Guia Completo com 25 Funcionalidades, Exemplos e Demo Interativa

O Ecossistema NanoClaw: Arquitetura, Segurança e o Novo Modelo de Agentes Pessoais de IA