Por que os Modelos de Linguagem Grande Ainda Não Conseguem Jogar Videogames?

O Desafio dos LLMs em Videogames
Modelos de linguagem grande (LLMs) avançaram rapidamente, superando benchmarks e resolvendo problemas cada vez mais complexos. Contudo, uma tarefa ainda parece escapar de suas capacidades: jogar videogames. Apesar de alguns casos isolados, como o Gemini 2.5 Pro que venceu Pokémon Blue em maio de 2025, a regra geral é que esses modelos não conseguem jogar bem, apresentando lentidão, erros repetitivos e comportamento estranho, além de dependerem de softwares auxiliares para interagir com os jogos.
Por que Codificar é um "Jogo Bem Comportado"?
Julian Togelius, diretor do Game Innovation Lab da NYU e cofundador da Modl.ai, explica que a programação é uma atividade estruturada, quase como um jogo com regras claras. Você recebe uma tarefa (uma especificação), escreve o código, executa e recebe um feedback imediato e detalhado: o código compila, roda sem erros e passa nos testes. Isso cria um ciclo de aprendizado e correção que facilita o avanço dos LLMs nessa área.

Essa característica torna a programação um ambiente ideal para o aprendizado dessas inteligências, diferente dos videogames, que possuem dinâmicas mais complexas e variadas.
Por que Videogames São Um Desafio Muito Maior?
Ao contrário dos jogos clássicos de tabuleiro como xadrez e Go, que LLMs e outras IA conseguem jogar razoavelmente bem, os videogames apresentam uma diversidade enorme de mecânicas, interfaces e objetivos que tornam difícil criar uma IA generalista.
Além disso, a falta de dados específicos para muitos jogos menos conhecidos limita o aprendizado dos modelos. Jogos populares como Minecraft e Pokémon têm milhões de horas de guias e dados disponíveis, mas a maioria dos jogos não tem essa riqueza de informação.
Benchmarks e o Progresso Limitado dos LLMs em Jogos
Para codificação, benchmarks facilitam o acompanhamento e aprimoramento dos modelos. No entanto, para jogos, criar benchmarks eficazes é mais difícil devido à variedade e complexidade dos títulos.

Togelius cita a General Video Game AI competition, que durou sete anos testando agentes em múltiplos jogos. O progresso estagnou porque os agentes melhoravam em alguns jogos, mas pioravam em outros. Com a chegada dos LLMs, a situação não melhorou: eles apresentam desempenho inferior até a algoritmos simples de busca, especialmente por terem sido treinados sem foco em jogos e possuírem limitações em raciocínio espacial.
Contradição Entre a Capacidade de Criar e Jogar Jogos
Curiosamente, LLMs conseguem gerar códigos para jogos simples, como Asteroids, graças à sua habilidade de produzir conteúdos típicos. No entanto, eles não conseguem jogar esses jogos porque não têm a capacidade de iterar – escrever, testar e ajustar – que é fundamental no desenvolvimento e na jogabilidade.
Isso se aplica também a outras áreas de software: o modelo pode criar interfaces, mas não entende como usá-las efetivamente.
Jogos e o Mundo Real: Comparação em Treinamento de IA
Jogos são, de certa forma, mais simples que o mundo real devido à menor abstração, mas também são mais diversos. Por exemplo, a condução autônoma, como a desenvolvida pela Waymo, usa modelos de mundo consistentes para treinamento, pois as regras físicas são uniformes. Já os jogos variam muito em regras e ambientes, dificultando o aprendizado generalizado.
Passos e Recursos Para Explorar IA em Jogos
- Google AI: Aprendizado de jogos clássicos de arcade do zero, com potencial para superar jogadores humanos.
- Embedded Generative AI: IA generativa embutida para dar vida a personagens de jogos.
- Microsoft Muse AI: Ferramenta para editar videogames em tempo real com IA.
- NYU Game Innovation Lab: Pesquisa e desenvolvimento em IA para jogos.