MIT usa dois LLMs em sequência para ajudar robôs a entender instruções vagas e ignorar distrações

Imagine pedir a um robô para colocar um café na sua mesa sem atrapalhar sua chamada no Zoom — sem precisar explicar cada detalhe. Pesquisadores do MIT CSAIL criaram um sistema que faz exatamente isso, usando dois modelos de linguagem em sequência para interpretar comandos vagos e focar apenas no que importa.

O sistema, chamado Masked IRL (Masked Inverse Reinforcement Learning), resolve um dos problemas mais frustrantes da robótica: robôs que precisam de instruções extremamente detalhadas para não cometer erros. A nova abordagem reduz em quase cinco vezes a quantidade de demonstrações necessárias para ensinar uma tarefa.

Como funciona

O processo usa dois LLMs em sequência. O primeiro modelo compara os movimentos registrados durante a demonstração física com o caminho mais curto possível e elabora instruções ambíguas — transformando um pedido como "fique perto" em "fique perto da superfície da mesa".

O segundo modelo avalia cada detalhe do ambiente — obstáculos, formato dos objetos, posição do usuário — e atribui uma pontuação binária: "1" para elementos importantes, "0" para irrelevantes. Se uma pessoa estava apoiada na mesa durante a demonstração, é um "0". A posição do laptop, um "1".

Apenas os elementos marcados como "1" são incorporados ao plano de movimento final.

Resultados impressionantes

Nos testes, o Masked IRL identificou corretamente as preferências dos usuários — mesmo quando não declaradas explicitamente — até 15% mais vezes que os métodos comparáveis. Os robôs conseguiram mover uma caneca de café ao redor de um laptop sem colidir, limpar uma mesa mantendo-se próximos à superfície, e entregar um pacote de salgadinhos mantendo distância segura do usuário.

"Nossa abordagem pode ser útil quando um humano interage com um robô mas não quer detalhar cada aspecto da tarefa", explica Minyoung Hwang, doutorando do MIT e autor principal do estudo. "Estamos minimizando o esforço humano ao permitir que as máquinas entendam o que os usuários realmente querem."

Próximos passos

A equipe do CSAIL planeja equipar o sistema com câmeras para que o robô possa capturar imagens do ambiente e destacar elementos específicos visualmente. Por exemplo, se você pedir ao robô para pegar um brinquedo e houver bananas por perto, ele poderá identificá-las e ignorá-las antes de focar no objeto alvo.

O trabalho, apoiado pelo Tata Group e pelo Departamento de Defesa dos EUA, será apresentado na IEEE International Conference on Robotics and Automation em junho de 2026.

MIT usa dois LLMs em sequência para ajudar robôs a entender instruções vagas e ignorar distrações

Como funciona

Resultados impressionantes

Próximos passos

Leia também

Europa se cansa da dependência e acelera planos por soberania em inteligência artificial

Crise da Anthropic se agrava: negociações com Casa Branca completam duas semanas sem solução

Governo Trump Pede que OpenAI Escalone Lançamento do GPT-5.6 — Restrição Inédita nos EUA

Anthropic acredita que seu próprio sucesso é a chave para uma IA segura