Modelo de IA 'Centaur' não entende perguntas, apenas memoriza respostas, revela estudo

Desvendando o debate sobre a cognição humana e a inteligência artificial
Durante décadas, psicólogos discutem se a mente humana pode ser explicada por uma teoria unificada ou se deve ser dividida em funções específicas, como memória e atenção. Recentemente, um modelo de inteligência artificial (IA) chamado Centaur prometeu um avanço significativo ao simular o pensamento humano em 160 tarefas cognitivas distintas. No entanto, uma pesquisa recente questiona essa alegação, apontando que o modelo não entende as tarefas, mas apenas memoriza padrões.
O que é o modelo Centaur?
Lançado em julho de 2025 em um estudo publicado na revista Nature, o Centaur foi desenvolvido a partir de grandes modelos de linguagem, ajustados com dados de experimentos psicológicos. Ele foi projetado para replicar comportamentos cognitivos humanos, incluindo tomada de decisão e controle executivo, mostrando desempenho notável em uma ampla gama de testes.

Metodologia do novo estudo que questiona o Centaur
Pesquisadores da Universidade de Zhejiang, em artigo publicado na revista National Science Open, desafiaram os resultados originais. Eles levantaram a hipótese de que o sucesso aparente do Centaur se devia a overfitting, ou seja, o modelo teria aprendido a reconhecer padrões específicos do conjunto de treinamento em vez de compreender as instruções.
Para testar essa hipótese, os pesquisadores criaram novas situações de avaliação. Em um experimento, substituiram os prompts originais das tarefas psicológicas por uma instrução simples: "Por favor, escolha a opção A." Se o Centaur realmente entendesse a tarefa, deveria escolher consistentemente essa opção. No entanto, o modelo continuou a selecionar as respostas consideradas "corretas" no conjunto original, ignorando a nova instrução.
Resultados e limitações identificadas
- O Centaur demonstrou ser incapaz de interpretar o significado das perguntas, indicando ausência de compreensão real.
- O modelo baseia-se em padrões estatísticos aprendidos para "adivinhar" respostas, semelhante a um estudante que memoriza os formatos de prova sem entender o conteúdo.
- Essa limitação evidencia uma falha crucial na capacidade de compreensão da linguagem, um desafio fundamental para o desenvolvimento de IAs que simulem a cognição humana.
Implicações para a avaliação de modelos de IA
O estudo ressalta a necessidade de cautela na avaliação de modelos de linguagem avançados. Apesar do desempenho impressionante em tarefas específicas, a natureza de "caixa-preta" dessas IAs dificulta a compreensão dos processos internos que levam às respostas geradas, podendo resultar em erros como alucinações e interpretações equivocadas.
Assim, torna-se essencial aplicar métodos de teste variados e rigorosos para assegurar que um modelo realmente possua as habilidades que aparenta demonstrar.
Por que essa pesquisa é relevante para o futuro da IA
Compreender as limitações do Centaur e de modelos similares é vital para o avanço da inteligência artificial. O estudo destaca que o verdadeiro desafio não está apenas em reproduzir respostas corretas, mas em desenvolver sistemas capazes de entender e interpretar a linguagem e o contexto, aproximando-se da cognição humana.