NVIDIA Apresenta SpatialClaw: Agente de IA Que Usa Código Como Interface para Raciocínio Espacial

Capa: NVIDIA SpatialClaw

A NVIDIA Research acaba de lançar o SpatialClaw, um framework "training-free" (sem necessidade de treinamento) para raciocínio espacial. O sistema ataca uma fraqueza persistente nos modelos de visão-linguagem (VLMs): a dificuldade em julgar onde objetos estão posicionados, como se relacionam e como se movem em 3D.

A grande sacada do SpatialClaw é que ele não retreina o modelo. Em vez disso, muda a interface de ação que o agente usa para invocar ferramentas de percepção. A equipe de pesquisa argumenta que a interface é o gargalo, e a solução é tratar código como a interface de ação.

Os números impressionam: em 20 benchmarks, o SpatialClaw atinge 59,9% de precisão média, superando o agente espacial SpaceTools em 11,2 pontos percentuais.

O que é o SpatialClaw

O SpatialClaw é um loop de agente envolvendo um kernel Python com estado. O kernel é pré-carregado com frames de entrada e um conjunto de primitivas. As ferramentas de percepção são funções Python comuns — suas saídas (máscaras, mapas de profundidade, geometria de câmera e trajetórias) são variáveis Python normais.

O kernel expõe seis pontos de entrada públicos:

InputImages: armazena os frames amostrados
Metadata: contém frame rate, duração e índices dos frames
tools: expõe primitivas de percepção e geometria
show(): incorpora uma imagem no próximo contexto do agente
vlm: despacha consultas para uma sessão VLM separada
ReturnAnswer(): submete a resposta final

Duas ferramentas de percepção são centrais. A tools.Reconstruct utiliza Depth Anything 3 e retorna profundidade por frame, intrínsecos e extrínsecos da câmera, e mapas de pontos densos. A tools.SAM3 utiliza SAM 3 e produz máscaras de imagem ou vídeo a partir de prompts de texto, ponto ou caixa delimitadora.

O framework é totalmente training-free — o mesmo prompt de sistema, conjunto de ferramentas e hiperparâmetros funcionam em todos os benchmarks e backbones.

Por que a Interface de Ação Importa

A equipe estudou três interfaces de ação na mesma pergunta: medir a distância mais próxima entre um aquecedor e uma porta.

Single-pass code: escreve um programa completo e executa uma vez. Assume uma estratégia antes de ver qualquer máscara ou mapa de profundidade. Um erro de suposição se propaga direto para a resposta.
Structured tool-call: invoca ferramentas nomeadas via schema JSON fixo. Não consegue combinar livremente outputs com NumPy ou SciPy para cálculos em tempo de teste. O resultado é incorreto.
SpatialClaw: compõe ferramentas em código, inspeciona resultados, e então revisa. Primeiro calcula uma distância de centroide, depois percebe que o centroide usa mediana. O agente troca para scipy.spatial.KDTree e encontra o ponto mais próximo real: 0,9439 m contra um ground truth de 0,9 m.

Benchmark e Resultados

O SpatialClaw foi testado em 20 benchmarks distribuídos em cinco categorias: single-image, multi-view, general, video/4D, e compreensão geral de vídeo. Ele melhora sobre o baseline sem ferramentas em todos os seis backbones testados — variando de 26B a 397B parâmetros nas famílias Qwen3.5/3.6 e Gemma4.

Comparação controlada isolando a interface (backbone Gemma4-31B):

Interface de Ação	Média (20 bench.)	Δ vs no-tool
No-tool baseline	53,4	—
Single-pass code	55,2	+1,8
Structured tool-call	56,7	+3,3
SpatialClaw (code as action)	59,9	+6,5

Os ganhos mais expressivos estão em tarefas dinâmicas. No Gemma4-31B, o DSI-Bench subiu +17,6 pontos e o MindCube subiu +15,3 pontos — categorias que exigem computação geométrica encadeada entre frames e pontos de vista.

Por que Isso Importa

O SpatialClaw mostra que a interface de ação é tão importante quanto o modelo em si. Ao tratar código como a linguagem de ação do agente, a NVIDIA conseguiu ganhos substanciais sem nenhum fine-tuning. Isso abre caminho para agentes de IA mais capazes em tarefas que exigem raciocínio espacial — de robótica a navegação autônoma e AR/VR.

O código e o paper estão disponíveis no site oficial do projeto.

NVIDIA Apresenta SpatialClaw: Agente de IA Que Usa Código Como Interface para Raciocínio Espacial

O que é o SpatialClaw

Por que a Interface de Ação Importa

Benchmark e Resultados

Por que Isso Importa

Leia também

Controles de Exportação de IA: A História Mostra Por Que Restringir o Mythos Não Vai Funcionar

Ferramentas Server-Side para Agentes de IA: Arquitetura, Latência e Quando Migrar

Python 3.14 e seu Novo Compilador JIT: O Fim da Lentidão?

Governo dos EUA proíbe Anthropic de liberar Fable 5 e Mythos 5: aliados reagem e Europa pede soberania em IA