Voltar para o blog
Notícias de Tecnologia

Moonshot AI lança Kimi K2.7-Code: Modelo de 1 Trilhão de Parâmetros com Foco em Programação Agentiva

13 de junho de 2026
04:42
ProgramaçãoIA AgentivaMoonshot AIKimiKimi K2.7-CodeOpen Weights
Moonshot AI lança Kimi K2.7-Code: Modelo de 1 Trilhão de Parâmetros com Foco em Programação Agentiva

Moonshot AI Releases Kimi K2.7-Code

A Moonshot AI, uma das startups de inteligência artificial mais promissoras do mundo, anunciou oficialmente o lançamento do seu mais novo modelo de linguagem voltado para desenvolvimento de software: o Kimi K2.7-Code.

Diferente de modelos de chat generalistas, o Kimi K2.7-Code é um modelo de classe corporativa focado em engenharia de software de longo horizonte. Ele foi projetado especificamente para lidar com fluxos de desenvolvimento complexos e agentivos que exigem planejamento de múltiplos passos, edição profunda de código em repositórios inteiros, uso extensivo de ferramentas de terminal e depuração (debugging) autônoma.

O modelo é distribuído sob uma licença modificada do MIT (pesos abertos/open weights), permitindo sua execução local em servidores potentes.


Especificações Técnicas de Peso

O Kimi K2.7-Code utiliza uma arquitetura Mixture-of-Experts (MoE) massiva e introduz diversas inovações de ponta para otimizar a eficiência de raciocínio.

  • Arquitetura: Mixture-of-Experts (MoE).
  • Parâmetros Totais: 1 Trilhão de parâmetros no total, com 32 Bilhões de parâmetros ativos por token.
  • Configuração de Experts: 384 experts no total (8 especialistas selecionados por token e 1 compartilhado).
  • Camadas: 61 camadas (incluindo 1 camada densa).
  • Atenção e Feed-Forward: Multi-Head Latent Attention (MLA) e SwiGLU para eficiência extrema de memória.
  • Capacidade Multimodal: Integra um codificador visual MoonViT de 400 Milhões de parâmetros para processamento de imagens e vídeos de erros.
  • Janela de Contexto: Incríveis 256K tokens (262.144), permitindo analisar bases de código inteiras em uma única chamada.
  • Quantização: Suporte nativo a INT4 de fábrica.
  • Tamanho para Implantação: Aproximadamente 595 GB em disco, ideal para servidores dedicados rodando vLLM, SGLang ou KTransformers.

Restrições Obrigatórias da API

Para garantir o melhor desempenho e o comportamento esperado, a API oficial do Kimi impõe regras estritas aos desenvolvedores:
1. Modo de Raciocínio (Thinking Mode): É obrigatório e não pode ser desativado. Tentar desligá-lo via API resultará em erro imediato.
2. Parâmetros de Amostragem Fixos: Bloqueados do lado do servidor em temperature: 1.0, top_p: 0.95, n: 1 e penalidades zeradas. Tentar sobrescrever esses parâmetros causará um erro HTTP 400.
3. Saída Máxima: O limite máximo de tokens gerados em uma única chamada é de 32.768 tokens de resposta.


Desempenho Impressionante em Benchmarks

Nos testes divulgados pela Moonshot AI, o Kimi K2.7-Code demonstrou um salto geracional notável. Ele obteve um ganho de +21.8% no benchmark interno Kimi Code Bench v2 em comparação com seu antecessor direto, o Kimi K2.6. Além disso, o modelo se destaca no uso de ferramentas do Model Context Protocol (MCP), superando o Claude Opus 4.8 no teste de agentes MCP Mark Verified.

A tabela abaixo detalha o desempenho comparativo do modelo frente aos principais concorrentes do mercado:

Benchmark Kimi K2.6 Kimi K2.7-Code GPT-5.5 Claude Opus 4.8 Evolução K2.7 vs K2.6
Kimi Code Bench v2 50.9 62.0 69.0 67.4 +21.8%
Program Bench 48.3 53.6 69.1 63.8 +11.0%
MLS Bench Lite 26.7 35.1 35.5 42.8 +31.5%
Kimi Claw 24/7 Bench 42.9 46.9 52.8 50.4 +9.3%
MCP Atlas 69.4 76.0 79.4 81.3 +9.5%
MCP Mark Verified 72.8 81.1 92.9 76.4 +11.4%

Nota: Os dados apresentados são relatados pelos próprios desenvolvedores. O K2.7-Code foi executado utilizando o Kimi Code CLI, o GPT-5.5 no Codex xhigh, e o Claude Opus 4.8 no Claude Code xhigh.


Eficiência de Raciocínio e Custos Reduzidos

Uma das maiores críticas aos modelos que usam cadeias de pensamento (chain-of-thought) extensas é o "excesso de pensamento" (overthinking), que desperdiça recursos em reflexões repetitivas. O Kimi K2.7-Code resolve isso de forma brilhante, reduzindo em cerca de 30% o consumo de tokens de raciocínio em comparação com o K2.6, sem qualquer perda de precisão.

Essa otimização gera benefícios diretos de custo e usabilidade:
1. Custos Menores: Menos tokens faturados por tarefa concluída.
2. Execução Veloz: Respostas muito mais rápidas e interativas no terminal.
3. Contexto Estendido: Deixa espaço para a realização de mais etapas de agente antes de estourar a janela de contexto.

Preços Oficiais da API Kimi

  • Input com Cache (Cached Input): $0,19 por 1 milhão de tokens
  • Input sem Cache (Cache-Miss): $0,95 por 1 milhão de tokens
  • Output (Tokens Gerados): $4,00 por 1 milhão de tokens

Principais Casos de Uso

Graças à sua imensa janela de contexto de 256K e habilidades focadas em agentes autônomos, o Kimi K2.7-Code se destaca em:

  • Refatoração em Larga Escala (Repo-Scale): Você pode apontar o agente para um repositório de código inteiro. Ele lê dezenas de arquivos, planeja e edita módulos interdependentes de forma coerente e executa testes automatizados de forma iterativa até que tudo esteja verde.
  • Revisão de Código (Code Review): Capacidade de analisar diffs massivos de pull requests, arquivos de log complexos e documentações extensas em uma única chamada.
  • Fluxos de Trabalho MCP: Criação de loops autônomos que integram ferramentas de CI/CD, monitoramento de servidores, modificações de arquivos locais e atualização de tarefas em gerenciadores de projetos.
  • Depuração Multimodal Avançada: Análise conjunta de trechos de código, logs de erro, diagramas de infraestrutura e até mesmo gravações de tela de bugs em um único prompt.

Como Começar: Implementação Rápida (Quickstart)

A API oficial da Moonshot AI é totalmente compatível com o SDK da OpenAI, o que facilita drasticamente a integração.

Regras Críticas para Integração:

  1. Preservar o Histórico de Raciocínio: É obrigatório manter e enviar de volta o campo reasoning_content retornado pela API nas mensagens subsequentes da conversa. Se omitido, a chamada seguinte falhará.
  2. Seleção de Ferramentas: O parâmetro tool_choice deve ser definido estritamente como "auto" ou "none".

Veja um exemplo de implementação prática em Python:

import os
from openai import OpenAI

# Inicialização com o endpoint oficial da Moonshot AI
client = OpenAI(
    api_key=os.environ.get("MOONSHOT_API_KEY"),
    base_url="https://api.moonshot.ai/v1";,
)

messages = [
    {"role": "system", "content": "Você é um agente especialista em engenharia de software."},
    {"role": "user", "content": "Refatore o arquivo utils.py para remover códigos duplicados e otimizar a performance estrutural."}
]

# Realiza a chamada ao modelo Kimi K2.7-Code
response = client.chat.completions.create(
    model="kimi-k2.7-code",
    messages=messages,
    max_tokens=32768,  # Limite máximo padrão do modelo
    # Nota: Modo thinking ativo por padrão. Temperatura e top_p são fixos do lado do servidor.
)

message_output = response.choices[0].message
print("Sugestão de refatoração:", message_output.content)

# Lembre-se: em conversas continuadas (multiturn), anexe a mensagem completa do assistente:
# messages.append(message_output.model_dump()) para manter o reasoning_content ativo.

O Kimi K2.7-Code representa um passo importante na maturidade dos modelos especialistas em desenvolvimento de software com pesos abertos. Ele oferece poder de processamento corporativo a preços altamente acessíveis, provando que eficiência no raciocínio estruturado é o caminho para a IA agentiva de verdade.