Por que os Modelos de Linguagem Grande Ainda Não Conseguem Jogar Videogames?

O Desafio dos LLMs em Videogames

Modelos de linguagem grande (LLMs) avançaram rapidamente, superando benchmarks e resolvendo problemas cada vez mais complexos. Contudo, uma tarefa ainda parece escapar de suas capacidades: jogar videogames. Apesar de alguns casos isolados, como o Gemini 2.5 Pro que venceu Pokémon Blue em maio de 2025, a regra geral é que esses modelos não conseguem jogar bem, apresentando lentidão, erros repetitivos e comportamento estranho, além de dependerem de softwares auxiliares para interagir com os jogos.

Por que Codificar é um "Jogo Bem Comportado"?

Julian Togelius, diretor do Game Innovation Lab da NYU e cofundador da Modl.ai, explica que a programação é uma atividade estruturada, quase como um jogo com regras claras. Você recebe uma tarefa (uma especificação), escreve o código, executa e recebe um feedback imediato e detalhado: o código compila, roda sem erros e passa nos testes. Isso cria um ciclo de aprendizado e correção que facilita o avanço dos LLMs nessa área.

Imagem relacionada ao artigo de IEEE Spectrum AI — Imagem de apoio da materia original.

Essa característica torna a programação um ambiente ideal para o aprendizado dessas inteligências, diferente dos videogames, que possuem dinâmicas mais complexas e variadas.

Por que Videogames São Um Desafio Muito Maior?

Ao contrário dos jogos clássicos de tabuleiro como xadrez e Go, que LLMs e outras IA conseguem jogar razoavelmente bem, os videogames apresentam uma diversidade enorme de mecânicas, interfaces e objetivos que tornam difícil criar uma IA generalista.

Além disso, a falta de dados específicos para muitos jogos menos conhecidos limita o aprendizado dos modelos. Jogos populares como Minecraft e Pokémon têm milhões de horas de guias e dados disponíveis, mas a maioria dos jogos não tem essa riqueza de informação.

Benchmarks e o Progresso Limitado dos LLMs em Jogos

Para codificação, benchmarks facilitam o acompanhamento e aprimoramento dos modelos. No entanto, para jogos, criar benchmarks eficazes é mais difícil devido à variedade e complexidade dos títulos.

Togelius cita a General Video Game AI competition, que durou sete anos testando agentes em múltiplos jogos. O progresso estagnou porque os agentes melhoravam em alguns jogos, mas pioravam em outros. Com a chegada dos LLMs, a situação não melhorou: eles apresentam desempenho inferior até a algoritmos simples de busca, especialmente por terem sido treinados sem foco em jogos e possuírem limitações em raciocínio espacial.

Contradição Entre a Capacidade de Criar e Jogar Jogos

Curiosamente, LLMs conseguem gerar códigos para jogos simples, como Asteroids, graças à sua habilidade de produzir conteúdos típicos. No entanto, eles não conseguem jogar esses jogos porque não têm a capacidade de iterar – escrever, testar e ajustar – que é fundamental no desenvolvimento e na jogabilidade.

Isso se aplica também a outras áreas de software: o modelo pode criar interfaces, mas não entende como usá-las efetivamente.

Jogos e o Mundo Real: Comparação em Treinamento de IA

Jogos são, de certa forma, mais simples que o mundo real devido à menor abstração, mas também são mais diversos. Por exemplo, a condução autônoma, como a desenvolvida pela Waymo, usa modelos de mundo consistentes para treinamento, pois as regras físicas são uniformes. Já os jogos variam muito em regras e ambientes, dificultando o aprendizado generalizado.

Passos e Recursos Para Explorar IA em Jogos

Google AI: Aprendizado de jogos clássicos de arcade do zero, com potencial para superar jogadores humanos.
Embedded Generative AI: IA generativa embutida para dar vida a personagens de jogos.
Microsoft Muse AI: Ferramenta para editar videogames em tempo real com IA.
NYU Game Innovation Lab: Pesquisa e desenvolvimento em IA para jogos.