AsgardBench: Benchmark para Planejamento Interativo Visualmente Fundamentado em IA Embutida

Imagine um robô encarregado de limpar uma cozinha. Para realizar essa tarefa com sucesso, ele precisa observar o ambiente, decidir as ações a serem tomadas e ajustar seu plano quando as condições mudam — por exemplo, quando a caneca que deveria lavar já está limpa ou a pia está cheia de outros objetos. Esse é o desafio central da IA embutida, sistemas que percebem e agem dentro de ambientes físicos ou simulados.

O desafio do planejamento interativo visualmente fundamentado

Embora a área de IA embutida tenha avançado rapidamente, avaliar se um agente realmente utiliza as informações visuais para tomar decisões adaptativas é complexo. Muitos benchmarks existentes misturam percepção, navegação e manipulação física, dificultando identificar se o agente está de fato reagindo ao ambiente ou apenas seguindo scripts pré-definidos que funcionam em ambientes previsíveis.

AsgardBench: método e funcionamento

Para enfrentar essa dificuldade, pesquisadores da Microsoft Research desenvolveram o AsgardBench, um benchmark que isola a capacidade dos agentes de revisar seus planos com base em observações visuais enquanto executam tarefas domésticas. Construído sobre o ambiente de simulação 3D interativo AI2-THOR, o benchmark inclui 108 instâncias controladas distribuídas em 12 tipos de tarefas, todas voltadas para a adaptação dinâmica do plano de ação conforme o agente percebe mudanças no ambiente.

O agente inicia próximo aos objetos relevantes e dispõe de um conjunto restrito de ações — como find (encontrar), pickup (pegar), put (colocar), clean (limpar) e toggle_on/off (ligar/desligar). A cada rodada, o agente propõe uma sequência completa de passos para concluir a tarefa, mas apenas o primeiro passo é executado. Após a ação, o agente recebe uma nova imagem do ambiente e um sinal simples de sucesso ou falha, obrigando-o a reavaliar e ajustar o plano continuamente, em vez de seguir um roteiro fixo.

Foco na adaptação, não na navegação

O AsgardBench elimina variáveis como navegação e seleção de ângulo de visão, posicionando o agente já em locais de interação. Isso permite concentrar a avaliação na habilidade do agente em interpretar imagens coloridas, relacionar o histórico de ações com seus resultados, e atualizar o plano com base no que vê — por exemplo, identificando se uma caneca está limpa, suja ou cheia de café, ou se a pia está cheia de outros objetos.

Resultados da avaliação e limitações atuais

Testes com modelos de visão computacional avançados mostraram que o uso de imagens melhora significativamente o desempenho: a maioria dos agentes mais eficientes dobrou suas taxas de sucesso em comparação com versões que recebem apenas descrições textuais do ambiente. Mesmo quando agentes só com texto recebem feedback detalhado sobre falhas, os modelos baseados em visão superam esses resultados, comprovando que o benchmark exige um entendimento visual que texto não substitui.

No entanto, os testes também revelaram desafios persistentes. Os agentes frequentemente tentam ações inviáveis — como limpar uma caneca que não está na pia —, ficam presos em loops de ações repetidas, interpretam mal detalhes visuais sutis (como ligar/desligar ou limpo/sujo) e perdem o controle do progresso da tarefa ao longo das etapas. Esses problemas indicam três áreas críticas para melhorias:

Distinguir detalhes visuais sutis em ambientes complexos;
Manter um rastreamento preciso do estado da tarefa entre os passos;
Traduzir consistentemente as observações visuais em atualizações oportunas do plano.

Importância prática e próximos passos

O AsgardBench funciona tanto como ferramenta de diagnóstico quanto de desenvolvimento. Ao variar o nível de feedback recebido pelos agentes — nenhum, mínimo ou detalhado — pesquisadores podem identificar se os avanços vêm da percepção, memória ou planejamento. As direções promissoras envolvem sistemas que combinam melhor entendimento visual com rastreamento de estado, treinamentos focados em corrigir planos durante a execução e métricas que avaliem não só o sucesso final, mas a qualidade da adaptação ao longo do processo.

Os padrões de falha destacados pelo benchmark apontam para a necessidade de agentes que façam distinções visuais mais finas, acompanhem mudanças de forma mais confiável e aprendam a revisar planos em tempo real, em vez de seguir rotinas fixas. Esses avanços são essenciais para que agentes estejam aptos a lidar com a complexidade e imprevisibilidade do mundo real, marcado por estados inesperados de objetos, cenas com muitos elementos e necessidade constante de adaptação.

Recursos para pesquisadores e desenvolvedores

O AsgardBench é open source e está disponível no GitHub, oferecendo uma base sólida para o avanço da pesquisa em planejamento interativo visualmente fundamentado. Documentação adicional pode ser encontrada em Microsoft Learn, e o benchmark utiliza o ambiente AI2-THOR, amplamente reconhecido em pesquisas de IA embutida.

Para quem deseja se aprofundar, a publicação original "AsgardBench — Evaluating Visually Grounded Interactive Planning Under Minimal Feedback" detalha metodologia, resultados e análises, disponível no blog da Microsoft Research.