GroundedPlanBench: Avanços em Planejamento Espacial para Manipulação Robótica de Longo Prazo

Desafios do Planejamento Robótico com Modelos Visão-Linguagem
Modelos de visão e linguagem (VLMs) combinam imagens e texto para planejar ações de robôs, mas ainda enfrentam dificuldades em decidir o queonde
GroundedPlanBench: Um Novo Benchmark para Planejamento Espacialmente Fundamentado
Para enfrentar essas limitações, pesquisadores da Microsoft Research, em parceria com universidades, desenvolveram o GroundedPlanBench, um benchmark que avalia se modelos VLM conseguem planejar ações e determinar seus locais de execução em ambientes reais variados. O benchmark é construído a partir de 308 cenas de manipulação robótica do Distributed Robot Interaction Dataset (DROID), contendo 1.009 tarefas com diferentes níveis de complexidade (de 1 a 26 ações).
As tarefas são descritas em dois formatos: instruções explícitas, que detalham claramente as ações (exemplo: "coloque uma colher no prato branco"), e instruções implícitas, que descrevem metas gerais (exemplo: "arrume a mesa"). Cada plano é segmentado em quatro ações básicas — grasp (agarrar), place (colocar), open (abrir) e close (fechar) —, todas vinculadas a regiões específicas da imagem, assegurando o alinhamento espacial entre ação e local.
Video-to-Spatially Grounded Planning (V2GP): Transformando Vídeos em Dados de Treinamento
Para ensinar os modelos a planejar e ancorar espacialmente as ações simultaneamente, foi criado o V2GP, um framework que converte vídeos de demonstrações robóticas em dados de treinamento espacialmente fundamentados. O sistema detecta interações com objetos por meio dos sinais do gripper do robô, gera descrições textuais multimodais dos objetos manipulados e rastreia esses objetos durante o vídeo utilizando o modelo de segmentação SAM3, da Meta.
Assim, o V2GP constrói planos ancorados que indicam exatamente onde o objeto é agarrado e colocado, gerando um conjunto de 43 mil planos com diferentes comprimentos, que variam de 1 a 26 ações.
Avaliação Comparativa: Planejamento Decoupled vs. Planejamento Fundado
Para testar a eficácia do GroundedPlanBench, os pesquisadores utilizaram o modelo Qwen3-VL, um VLM multimodal capaz de processar texto, imagens e vídeos. A avaliação inicial, sem treinamento específico, mostrou que o planejamento de tarefas longas e a interpretação de instruções implícitas são desafios significativos para todos os modelos.
Comparou-se então o método tradicional decoupled, onde o planejamento e o grounding são realizados em etapas separadas (com GPT-5.2 ou Qwen3-VL-4B gerando planos em linguagem natural e o modelo Embodied-R1 traduzindo para ações executáveis), com a abordagem integrada de planejamento espacial fundamentado, em que ambas as funções ocorrem simultaneamente dentro do mesmo modelo.
Os resultados evidenciaram que a abordagem decoupled sofre com ambiguidades na linguagem natural, causando erros de localização — por exemplo, a referência genérica a "guardanapo na mesa" pode levar o modelo a escolher sempre o mesmo objeto entre vários semelhantes. Já o planejamento fundamentado melhora significativamente a precisão das ações e a taxa de sucesso das tarefas, conforme demonstrado na Tabela 1.
Resultados e Métricas de Desempenho
O benchmark utiliza duas métricas principais:
- Task Success Rate (TSR): porcentagem de tarefas completadas corretamente, com todas as ações planejadas e ancoradas espacialmente.
- Action Recall Rate (ARR): proporção de ações geradas que correspondem às subações definidas no conjunto de dados, independentemente da ordem.
O treinamento dos modelos Qwen3-VL-4B e Qwen3-VL-32B com dados do V2GP resultou em melhorias expressivas nessas métricas, confirmando a eficácia do planejamento espacial fundamentado para tarefas robóticas de longo prazo.
Limitações e Perspectivas Futuras
Apesar dos avanços, o planejamento espacial fundamentado ainda encontra dificuldades em tarefas muito longas e na interpretação de instruções implícitas, que demandam raciocínio ao longo de múltiplas etapas e consistência em metas indiretas, típicas da linguagem cotidiana.
Uma direção promissora para superar essas limitações é a combinação do planejamento fundamentado com world models, que permitem prever os resultados das ações antes de executá-las. Essa integração poderá levar a robôs capazes de decidir o que fazer, onde agir e antecipar consequências, aproximando a manipulação robótica da confiabilidade necessária para ambientes reais complexos.