Medindo o progresso rumo à AGI: um framework cognitivo para avaliar a inteligência artificial geral

A busca por medir o progresso rumo à Inteligência Artificial Geral (AGI, na sigla em inglês) enfrenta um desafio fundamental: como avaliar de forma objetiva e ampla a inteligência de sistemas que, em tese, devem exibir capacidades cognitivas próximas às humanas? Para responder a essa pergunta, pesquisadores do Google DeepMind propuseram um novo framework baseado em ciências cognitivas, detalhado no artigo “Measuring Progress Toward AGI: A Cognitive Taxonomy”.

O desafio da avaliação em AGI

A AGI representa um salto na inteligência artificial, capaz de realizar tarefas intelectuais em diferentes domínios com flexibilidade e autonomia comparáveis às humanas. Porém, diferentemente de sistemas especializados, não há métricas consolidadas para medir seu avanço. Testes tradicionais, como benchmarks de linguagem ou visão computacional, avaliam habilidades pontuais, mas não refletem o conjunto complexo de capacidades que definem uma inteligência geral.

Além disso, a ausência de uma taxonomia clara dificulta a comparação entre modelos e o acompanhamento do progresso ao longo do tempo. Sem um referencial, fica difícil saber se um sistema está mais próximo de uma AGI ou apenas melhor em tarefas específicas.

Uma taxonomia cognitiva fundamentada em ciência

Para preencher essa lacuna, o DeepMind recorreu a décadas de pesquisa em psicologia, neurociência e ciência cognitiva para criar uma estrutura que decompõe a inteligência geral em 10 habilidades cognitivas essenciais:

Percepção: extração e processamento de informações sensoriais do ambiente.
Geração: produção de saídas como texto, fala e ações.
Atenção: foco seletivo nos estímulos relevantes para a tarefa.
Aprendizado: aquisição de conhecimento a partir da experiência e instrução.
Memória: armazenamento e recuperação de informações ao longo do tempo.
Raciocínio: inferência lógica para tirar conclusões válidas.
Metacognição: consciência e monitoramento dos próprios processos cognitivos.
Funções executivas: planejamento, inibição e flexibilidade cognitiva.
Resolução de problemas: identificação e implementação de soluções eficazes para desafios específicos.
Cognição social: interpretação e resposta adequada a informações sociais.

Essa taxonomia permite descrever e avaliar as capacidades cognitivas de sistemas de IA de forma sistematizada, criando um padrão comparável ao desempenho humano.

Protocolo de avaliação em três etapas

Para operacionalizar o framework, o DeepMind propõe um protocolo de avaliação estruturado em três fases:

Testes amplos e variados: executar uma bateria diversificada de tarefas que explorem cada uma das habilidades cognitivas definidas, utilizando conjuntos de dados de teste inéditos para evitar viés de contaminação.
Coleta de dados humanos: estabelecer linhas de base com a performance de adultos representativos demograficamente, para calibrar o grau de dificuldade e contextualizar os resultados dos sistemas.
Mapeamento comparativo: posicionar o desempenho dos sistemas de IA em relação à distribuição do desempenho humano, permitindo uma avaliação relativa e quantitativa do progresso.

Essa abordagem busca não apenas medir resultados absolutos, mas entender o quão próximos os sistemas estão da inteligência humana em cada domínio cognitivo.

Do conceito à prática: o hackathon no Kaggle

Para transformar essa visão em realidade prática, o DeepMind lançou uma competição no Kaggle, intitulada “Measuring progress toward AGI: Cognitive abilities”. O objetivo é mobilizar a comunidade de pesquisa para desenvolver avaliações capazes de medir cinco habilidades cognitivas onde o gap de avaliação é maior: aprendizado, metacognição, atenção, funções executivas e cognição social.

Os participantes podem utilizar a plataforma Community Benchmarks do Kaggle para projetar, implementar e testar suas avaliações contra modelos de ponta já disponíveis. A competição oferece um prêmio total de US$ 200.000, distribuídos entre os melhores projetos de cada uma das cinco categorias e os quatro melhores trabalhos gerais.

O período para submissão vai de 17 de março a 16 de abril, com os resultados previstos para 1º de junho. Essa iniciativa pretende acelerar a criação de métricas robustas que possam ser adotadas amplamente para avaliar o progresso em AGI.

Limitações e desafios futuros

Embora o framework represente um avanço importante, ele não é uma solução definitiva. A inteligência geral é multifacetada e dinâmica, e a taxonomia pode precisar de ajustes conforme a pesquisa avança. Além disso, a avaliação comparativa com humanos depende da qualidade e representatividade dos dados coletados, que podem variar culturalmente e individualmente.

Outro ponto é que algumas habilidades, especialmente aquelas relacionadas a emoções e contexto social, são complexas para formalizar em testes automatizados. Portanto, o desenvolvimento de avaliações confiáveis para essas áreas permanece um desafio.

Relevância para o avanço da IA e impacto real

Medir o progresso rumo à AGI não é apenas um exercício acadêmico. Uma avaliação clara e padronizada pode guiar investimentos, políticas públicas e esforços de pesquisa, evitando falsas expectativas ou subestimações do potencial da tecnologia.

Além disso, entender as capacidades cognitivas dos sistemas permite identificar pontos fortes e fragilidades, facilitando a criação de IA mais segura, ética e alinhada com valores humanos. Em última análise, esse trabalho contribui para que a AGI possa acelerar descobertas científicas e ajudar a resolver desafios globais de forma responsável.

Links úteis

Paper completo “Measuring Progress Toward AGI: A Cognitive Taxonomy”: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/measuring-progress-toward-agi/measuring-progress-toward-agi-a-cognitive-framework.pdf
Página da competição no Kaggle: http://kaggle.com/competitions/kaggle-measuring-agi
Blog Google DeepMind: https://blog.google/innovation-and-ai/models-and-research/google-deepmind/

Este framework e a mobilização da comunidade científica representam um passo estratégico para tornar a avaliação da inteligência artificial geral mais objetiva, transparente e alinhada ao que sabemos sobre a mente humana. Acompanhar essa evolução será fundamental para o futuro da IA.