ADeLe: Novo método para prever e explicar desempenho de IA em múltiplas tarefas

Desafios na avaliação de modelos de linguagem

Benchmarks tradicionais de inteligência artificial medem o desempenho de grandes modelos de linguagem (LLMs) em tarefas específicas, mas oferecem pouca explicação sobre as capacidades subjacentes que influenciam esses resultados. Além disso, não conseguem prever com segurança o desempenho dos modelos em tarefas inéditas nem explicar as causas de falhas.

O que é ADeLe e como funciona

Para superar essas limitações, pesquisadores da Microsoft, em colaboração com a Universidade de Princeton e a Universitat Politècnica de València, desenvolveram o ADeLe (AI Evaluation with Demand Levels). Trata-se de um método inovador que avalia tanto os modelos quanto as tarefas por meio de um conjunto abrangente de 18 habilidades centrais, incluindo raciocínio, conhecimento de domínio, atenção, entre outras.

Cada tarefa recebe uma pontuação de 0 a 5 para cada habilidade, indicando o nível de exigência daquela capacidade para a execução da tarefa. Por exemplo, um problema aritmético básico terá baixa demanda em raciocínio quantitativo, enquanto uma prova de nível olímpico exigirá muito mais dessa habilidade.

De forma semelhante, ao avaliar um modelo em múltiplas tarefas, o ADeLe gera um perfil de habilidades que revela suas forças e fraquezas específicas. A comparação direta entre o perfil do modelo e as demandas da tarefa permite identificar quais lacunas podem causar falhas.

Resultados e análise dos perfis de habilidade

Aplicando o ADeLe em 15 modelos de linguagem, incluindo versões recentes como GPT-4o e LLaMA-3.1, os pesquisadores construíram perfis detalhados que evidenciam variações no desempenho segundo as habilidades. Modelos mais recentes tendem a superar versões anteriores, mas nem sempre em todas as competências.

Por exemplo, o desempenho em tarefas que exigem conhecimento específico depende fortemente do tamanho e do treinamento do modelo, enquanto modelos orientados a raciocínio apresentam avanços claros em lógica, aprendizado, abstração e inferência social.

Essas nuances, que geralmente demandariam múltiplas análises independentes e ainda assim poderiam resultar em conclusões contraditórias, são reveladas de forma integrada pelo ADeLe.

Previsão de desempenho em tarefas inéditas

Um dos avanços mais significativos do ADeLe é sua capacidade preditiva. Ao comparar o perfil de habilidades do modelo com as exigências de uma nova tarefa, o método pode prever com cerca de 88% de precisão se o modelo terá sucesso ou não, superando abordagens tradicionais.

Isso permite antecipar falhas antes da implantação, aumentando a confiabilidade das avaliações e ajudando no desenvolvimento de modelos mais robustos.

Entendendo os limites do raciocínio em IA

O debate sobre a capacidade real de raciocínio das IAs é central na área. O ADeLe demonstra que tarefas classificadas genericamente como de "raciocínio" variam muito em complexidade, desde problemas simples até desafios que combinam lógica avançada, abstração e conhecimento especializado.

Assim, um mesmo modelo pode apresentar desempenho superior a 90% em tarefas de baixa exigência e abaixo de 15% em tarefas mais complexas, revelando que a variação está na demanda da tarefa, não na mudança da capacidade do modelo.

Modelos focados em raciocínio, como o OpenAI o1 e o GPT-5, mostram ganhos significativos, mas seu desempenho decresce conforme aumenta a complexidade da tarefa, indicando um limite claro para o raciocínio automático.

Implicações práticas e futuro do ADeLe

O ADeLe foi concebido para evoluir com os avanços da IA, podendo ser estendido a sistemas multimodais e de inteligência incorporada. Além disso, tem potencial para se tornar um padrão na pesquisa, formulação de políticas e auditoria de segurança em IA.

Ao promover uma avaliação mais sistemática, explicativa e preditiva, o ADeLe contribui para um uso mais transparente e confiável de sistemas de IA em aplicações reais, onde a compreensão dos pontos fortes e limitações é essencial.

O código-fonte, anotações dos benchmarks e recursos adicionais estão disponíveis no site oficial do ADeLe e no repositório do GitHub.