NVIDIA Apresenta SpatialClaw: Agente de IA Que Usa Código Como Interface para Raciocínio Espacial


A NVIDIA Research acaba de lançar o SpatialClaw, um framework "training-free" (sem necessidade de treinamento) para raciocínio espacial. O sistema ataca uma fraqueza persistente nos modelos de visão-linguagem (VLMs): a dificuldade em julgar onde objetos estão posicionados, como se relacionam e como se movem em 3D.
A grande sacada do SpatialClaw é que ele não retreina o modelo. Em vez disso, muda a interface de ação que o agente usa para invocar ferramentas de percepção. A equipe de pesquisa argumenta que a interface é o gargalo, e a solução é tratar código como a interface de ação.
Os números impressionam: em 20 benchmarks, o SpatialClaw atinge 59,9% de precisão média, superando o agente espacial SpaceTools em 11,2 pontos percentuais.
O que é o SpatialClaw
O SpatialClaw é um loop de agente envolvendo um kernel Python com estado. O kernel é pré-carregado com frames de entrada e um conjunto de primitivas. As ferramentas de percepção são funções Python comuns — suas saídas (máscaras, mapas de profundidade, geometria de câmera e trajetórias) são variáveis Python normais.
O kernel expõe seis pontos de entrada públicos:
- InputImages: armazena os frames amostrados
- Metadata: contém frame rate, duração e índices dos frames
- tools: expõe primitivas de percepção e geometria
- show(): incorpora uma imagem no próximo contexto do agente
- vlm: despacha consultas para uma sessão VLM separada
- ReturnAnswer(): submete a resposta final
Duas ferramentas de percepção são centrais. A tools.Reconstruct utiliza Depth Anything 3 e retorna profundidade por frame, intrínsecos e extrínsecos da câmera, e mapas de pontos densos. A tools.SAM3 utiliza SAM 3 e produz máscaras de imagem ou vídeo a partir de prompts de texto, ponto ou caixa delimitadora.
O framework é totalmente training-free — o mesmo prompt de sistema, conjunto de ferramentas e hiperparâmetros funcionam em todos os benchmarks e backbones.
Por que a Interface de Ação Importa
A equipe estudou três interfaces de ação na mesma pergunta: medir a distância mais próxima entre um aquecedor e uma porta.
-
Single-pass code: escreve um programa completo e executa uma vez. Assume uma estratégia antes de ver qualquer máscara ou mapa de profundidade. Um erro de suposição se propaga direto para a resposta.
-
Structured tool-call: invoca ferramentas nomeadas via schema JSON fixo. Não consegue combinar livremente outputs com NumPy ou SciPy para cálculos em tempo de teste. O resultado é incorreto.
-
SpatialClaw: compõe ferramentas em código, inspeciona resultados, e então revisa. Primeiro calcula uma distância de centroide, depois percebe que o centroide usa mediana. O agente troca para
scipy.spatial.KDTreee encontra o ponto mais próximo real: 0,9439 m contra um ground truth de 0,9 m.
Benchmark e Resultados
O SpatialClaw foi testado em 20 benchmarks distribuídos em cinco categorias: single-image, multi-view, general, video/4D, e compreensão geral de vídeo. Ele melhora sobre o baseline sem ferramentas em todos os seis backbones testados — variando de 26B a 397B parâmetros nas famílias Qwen3.5/3.6 e Gemma4.
Comparação controlada isolando a interface (backbone Gemma4-31B):
| Interface de Ação | Média (20 bench.) | Δ vs no-tool |
|---|---|---|
| No-tool baseline | 53,4 | — |
| Single-pass code | 55,2 | +1,8 |
| Structured tool-call | 56,7 | +3,3 |
| SpatialClaw (code as action) | 59,9 | +6,5 |
Os ganhos mais expressivos estão em tarefas dinâmicas. No Gemma4-31B, o DSI-Bench subiu +17,6 pontos e o MindCube subiu +15,3 pontos — categorias que exigem computação geométrica encadeada entre frames e pontos de vista.
Por que Isso Importa
O SpatialClaw mostra que a interface de ação é tão importante quanto o modelo em si. Ao tratar código como a linguagem de ação do agente, a NVIDIA conseguiu ganhos substanciais sem nenhum fine-tuning. Isso abre caminho para agentes de IA mais capazes em tarefas que exigem raciocínio espacial — de robótica a navegação autônoma e AR/VR.
O código e o paper estão disponíveis no site oficial do projeto.



