GroundedPlanBench: Avanços em Planejamento Espacial para Manipulação Robótica de Longo Prazo

Desafios do Planejamento Robótico com Modelos Visão-Linguagem

Modelos de visão e linguagem (VLMs) combinam imagens e texto para planejar ações de robôs, mas ainda enfrentam dificuldades em decidir o queonde

GroundedPlanBench: Um Novo Benchmark para Planejamento Espacialmente Fundamentado

Para enfrentar essas limitações, pesquisadores da Microsoft Research, em parceria com universidades, desenvolveram o GroundedPlanBench, um benchmark que avalia se modelos VLM conseguem planejar ações e determinar seus locais de execução em ambientes reais variados. O benchmark é construído a partir de 308 cenas de manipulação robótica do Distributed Robot Interaction Dataset (DROID), contendo 1.009 tarefas com diferentes níveis de complexidade (de 1 a 26 ações).

As tarefas são descritas em dois formatos: instruções explícitas, que detalham claramente as ações (exemplo: "coloque uma colher no prato branco"), e instruções implícitas, que descrevem metas gerais (exemplo: "arrume a mesa"). Cada plano é segmentado em quatro ações básicas — grasp (agarrar), place (colocar), open (abrir) e close (fechar) —, todas vinculadas a regiões específicas da imagem, assegurando o alinhamento espacial entre ação e local.

Video-to-Spatially Grounded Planning (V2GP): Transformando Vídeos em Dados de Treinamento

Para ensinar os modelos a planejar e ancorar espacialmente as ações simultaneamente, foi criado o V2GP, um framework que converte vídeos de demonstrações robóticas em dados de treinamento espacialmente fundamentados. O sistema detecta interações com objetos por meio dos sinais do gripper do robô, gera descrições textuais multimodais dos objetos manipulados e rastreia esses objetos durante o vídeo utilizando o modelo de segmentação SAM3, da Meta.

Assim, o V2GP constrói planos ancorados que indicam exatamente onde o objeto é agarrado e colocado, gerando um conjunto de 43 mil planos com diferentes comprimentos, que variam de 1 a 26 ações.

Avaliação Comparativa: Planejamento Decoupled vs. Planejamento Fundado

Para testar a eficácia do GroundedPlanBench, os pesquisadores utilizaram o modelo Qwen3-VL, um VLM multimodal capaz de processar texto, imagens e vídeos. A avaliação inicial, sem treinamento específico, mostrou que o planejamento de tarefas longas e a interpretação de instruções implícitas são desafios significativos para todos os modelos.

Comparou-se então o método tradicional decoupled, onde o planejamento e o grounding são realizados em etapas separadas (com GPT-5.2 ou Qwen3-VL-4B gerando planos em linguagem natural e o modelo Embodied-R1 traduzindo para ações executáveis), com a abordagem integrada de planejamento espacial fundamentado, em que ambas as funções ocorrem simultaneamente dentro do mesmo modelo.

Os resultados evidenciaram que a abordagem decoupled sofre com ambiguidades na linguagem natural, causando erros de localização — por exemplo, a referência genérica a "guardanapo na mesa" pode levar o modelo a escolher sempre o mesmo objeto entre vários semelhantes. Já o planejamento fundamentado melhora significativamente a precisão das ações e a taxa de sucesso das tarefas, conforme demonstrado na Tabela 1.

Resultados e Métricas de Desempenho

O benchmark utiliza duas métricas principais:

Task Success Rate (TSR): porcentagem de tarefas completadas corretamente, com todas as ações planejadas e ancoradas espacialmente.
Action Recall Rate (ARR): proporção de ações geradas que correspondem às subações definidas no conjunto de dados, independentemente da ordem.

O treinamento dos modelos Qwen3-VL-4B e Qwen3-VL-32B com dados do V2GP resultou em melhorias expressivas nessas métricas, confirmando a eficácia do planejamento espacial fundamentado para tarefas robóticas de longo prazo.

Limitações e Perspectivas Futuras

Apesar dos avanços, o planejamento espacial fundamentado ainda encontra dificuldades em tarefas muito longas e na interpretação de instruções implícitas, que demandam raciocínio ao longo de múltiplas etapas e consistência em metas indiretas, típicas da linguagem cotidiana.

Uma direção promissora para superar essas limitações é a combinação do planejamento fundamentado com world models, que permitem prever os resultados das ações antes de executá-las. Essa integração poderá levar a robôs capazes de decidir o que fazer, onde agir e antecipar consequências, aproximando a manipulação robótica da confiabilidade necessária para ambientes reais complexos.

GroundedPlanBench: Avanços em Planejamento Espacial para Manipulação Robótica de Longo Prazo

Desafios do Planejamento Robótico com Modelos Visão-Linguagem

GroundedPlanBench: Um Novo Benchmark para Planejamento Espacialmente Fundamentado

Video-to-Spatially Grounded Planning (V2GP): Transformando Vídeos em Dados de Treinamento

Avaliação Comparativa: Planejamento Decoupled vs. Planejamento Fundado

Resultados e Métricas de Desempenho

Limitações e Perspectivas Futuras

Links úteis

Leia também

Nvidia lança RTX Spark: a potência da IA Blackwell chega aos PCs Windows

Por que ainda não medimos os efeitos da IA sobre os seres humanos?

Google DeepMind apresenta Gemini Omni e Gemini 3.5 com 11 demonstrações inovadoras em vídeo

Data Formulator 0.7: Análise de dados empresariais impulsionada por IA para equipes corporativas