Como usar o Claude Code com modelos locais: guia completo para Ollama, LM Studio e llama.cpp

O Claude Code, da Anthropic, se tornou uma das ferramentas de desenvolvimento mais populares em 2026. Mas o que muita gente não sabe é que é possível executá-lo inteiramente com modelos locais, eliminando custos por token, limites de taxa e dependência de APIs externas.
Neste guia, você vai aprender a configurar o Claude Code para funcionar com três backends de inferência: Ollama, LM Studio e llama.cpp.
Como funciona
O Claude Code envia requisições no formato Anthropic Messages API. Ao redefinir a variável de ambiente ANTHROPIC_BASE_URL para apontar para um servidor local que "fale" o mesmo protocolo, o Claude Code passa a usar seu modelo local como se fosse o Claude oficial.
As variáveis de ambiente essenciais são:
ANTHROPIC_BASE_URL— endereço do servidor localANTHROPIC_API_KEY— placeholder (ex: "ollama"), servidores locais ignoramANTHROPIC_DEFAULT_SONNET_MODEL/HAIKU_MODEL/OPUS_MODEL— mapeiam os tiers internos para o nome do seu modelo local
Importante: sem essas três variáveis de modelo, o Claude Code tenta usar
claude-sonnet-4-20250514, que os servidores locais rejeitam.
Backend 1: Ollama (recomendado para começar)
O Ollama gerencia download, quantização e servidor de modelos com uma CLI simples.
Instalação e pull do modelo
# Instalar
curl -fsSL https://ollama.com/install.sh | sh
# Baixar um modelo recomendado (GLM-4.7 Flash)
ollama pull glm-4.7-flash:latest
Configuração temporária
export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_API_KEY="ollama"
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="glm-4.7-flash:latest"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-4.7-flash:latest"
claude
Configuração permanente (~/.claude/settings.json)
{
"env": {
"ANTHROPIC_BASE_URL": "http://localhost:11434",
"ANTHROPIC_API_KEY": "ollama",
"ANTHROPIC_AUTH_TOKEN": "ollama",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-4.7-flash:latest",
"ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-4.7-flash:latest",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-4.7-flash:latest",
"CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS": "1"
}
}
Backend 2: LM Studio
O LM Studio oferece interface gráfica e suporte nativo ao endpoint /v1/messages desde a versão 0.4.1.
- Instale o app desktop ou CLI
- Busque e baixe um modelo para código (ex: Qwen Coder)
- Inicie o servidor local (porta padrão
1234) - Configure o contexto para ≥ 25.000 tokens
Configuração
export ANTHROPIC_BASE_URL="http://localhost:1234"
export ANTHROPIC_API_KEY="lm-studio"
export ANTHROPIC_DEFAULT_SONNET_MODEL="qwen2.5-coder-32b-instruct"
# Repita para HAIKU e OPUS com o mesmo modelo
Backend 3: llama.cpp (controle total)
Para quem quer controle granular sobre parâmetros de inferência (quantização, contexto, camadas GPU).
Instalação
# Linux com CUDA
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release
# Download do modelo GGUF
huggingface-cli download unsloth/GLM-4.7-Flash-GGUF \
GLM-4.7-Flash-UD-Q4_K_XL.gguf --local-dir ./models/
Servidor
llama-server \
--model ./models/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
--alias "glm-4.7-flash" \
--port 8001 \
--ctx-size 131072 \
--flash-attn \
--n-gpu-layers 99
Flags importantes:
- --alias deve corresponder ao nome do modelo nas variáveis de ambiente
- --ctx-size 131072 = 128K de contexto
- --flash-attn reduz uso de VRAM
- --n-gpu-layers 99 descarrega todas as camadas na GPU
Correção crítica: CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS
O Claude Code adiciona cabeçalhos beta experimentais específicos da Anthropic que os servidores locais rejeitam. A variável CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS="1" remove esses cabeçalhos, evitando erros do tipo Unexpected value(s) for the anthropic-beta header.
Conclusão
Executar o Claude Code com modelos locais é surpreendentemente simples e elimina completamente os custos de API. O Ollama é a porta de entrada mais fácil, o LM Studio oferece a melhor experiência visual, e o llama.cpp dá controle total sobre a inferência.
Com esta configuração, você mantém toda a produtividade do Claude Code — edição de arquivos, execução de comandos, análise de código — rodando 100% offline e sem custo por requisição.
Fonte: KDnuggets