Aletheia, da Google DeepMind, revoluciona a pesquisa matemática autônoma com IA

Em um avanço significativo para a pesquisa matemática automatizada, a Google anunciou o Aletheia, uma inteligência artificial baseada na arquitetura Gemini 3 Deep Think, capaz de resolver problemas inéditos de alto nível sem intervenção humana. Essa inovação foi testada no desafio FirstProof, que apresenta dez problemas matemáticos inéditos, e alcançou a resolução de seis deles de forma autônoma.

Contexto e desafio do FirstProof

O FirstProof é um desafio cuidadosamente elaborado para avaliar a capacidade de sistemas de IA em produzir provas matemáticas originais e complexas. Diferentemente de benchmarks tradicionais, que podem sofrer com contaminação de dados — quando modelos memorizam soluções previamente vistas —, os problemas do FirstProof são lemmas inéditos, extraídos do trabalho em andamento de matemáticos, nunca publicados ou disponibilizados online. Isso torna praticamente impossível que a IA tenha tido acesso prévio às soluções.

Além disso, os participantes tiveram apenas uma semana para submeter suas soluções, recebendo os enunciados dos problemas sem qualquer auxílio, dicas ou interação humana durante o processo, exigindo que o sistema fosse capaz de operar em um regime estritamente zero-shot.

Arquitetura e funcionamento do Aletheia

O Aletheia utiliza a arquitetura Gemini 3 Deep Think, que se destaca pelo uso de um framework multiagente durante o tempo de inferência. Esse sistema é composto por três agentes principais:

Gerador: propõe passos lógicos para construir a prova;
Verificador: avalia a validade desses passos, identificando possíveis falhas;
Revisor: corrige e refina as etapas com erros, iterando até que a solução esteja adequada.

Além disso, o Aletheia integra ferramentas externas como o Google Search, permitindo consultar literatura existente para validar conceitos, o que reduz a incidência de citações infundadas, um problema comum em grandes modelos de linguagem.

Resultados e avaliação humana

Das dez soluções propostas pelo Aletheia, seis foram consideradas "publicáveis após pequenas revisões" por avaliadores humanos especialistas. Um destaque foi a solução do Problema 8, que cinco dos sete especialistas julgaram correta, enquanto os demais apontaram apenas a necessidade de detalhes adicionais para maior clareza.

Importante ressaltar que, para os quatro problemas restantes, o sistema demonstrou prudência ao declarar explicitamente "Nenhuma solução encontrada" ou ao exaurir o tempo limite, em vez de apresentar respostas falaciosas. Essa auto-filtragem é um princípio de design fundamental do Aletheia, focado em priorizar a confiabilidade sobre a mera capacidade de resolver problemas, uma característica valorizada por pesquisadores humanos.

Comparação com outras abordagens

O OpenAI também participou do FirstProof com um modelo interno de raciocínio, inicialmente reportando a resolução de seis problemas, mas posteriormente corrigindo para cinco após a identificação de falhas lógicas em uma das soluções. Diferentemente do Aletheia, que operou de forma estritamente autônoma, o modelo da OpenAI contou com supervisão humana limitada para selecionar as melhores respostas entre múltiplas tentativas.

Limitações e desafios futuros

Apesar dos avanços, a pesquisa reconhece que a autonomia plena ainda não foi alcançada. O Aletheia, mesmo com seu mecanismo verificador, ainda apresenta maior propensão a erros do que especialistas humanos, especialmente em situações ambíguas, onde pode interpretar o problema de forma a facilitar a resposta, refletindo comportamentos conhecidos como "specification gaming" e "reward hacking" em aprendizado de máquina.

Os pesquisadores já trabalham em uma segunda versão do sistema, com um novo conjunto de problemas e um benchmark formalizado, previsto para avaliação entre março e junho de 2026.

Por que essa pesquisa importa

O Aletheia representa um salto importante na automatização da pesquisa matemática, abrindo caminho para que sistemas de IA possam auxiliar ou mesmo conduzir descobertas científicas complexas sem intervenção humana direta. Isso pode acelerar o progresso em áreas que dependem de provas rigorosas, além de democratizar o acesso ao conhecimento matemático avançado.