Avaliação de modelos de linguagem em perguntas sobre pesquisa em supercondutividade

Testando LLMs em Perguntas sobre Pesquisa em Supercondutividade

A inteligência artificial, especialmente os grandes modelos de linguagem (LLMs), tem se mostrado uma ferramenta promissora para acelerar a pesquisa científica. No entanto, sua capacidade de responder com precisão a perguntas complexas em áreas altamente especializadas ainda é pouco explorada. Um estudo recente conduzido por pesquisadores do Google em parceria com a Universidade Cornell avaliou justamente esse potencial, focando em um dos temas mais desafiadores da física moderna: a supercondutividade de alta temperatura.

Desafios em Supercondutividade de Alta Temperatura

Desde a descoberta da supercondutividade em compostos de cobre — os chamados cupratos — na década de 1980, a física tem enfrentado o desafio de entender os mecanismos que permitem a condução elétrica sem resistência a temperaturas muito superiores às dos supercondutores tradicionais. Apesar de ainda muito frias (cerca de -140 °C no limite superior), essas temperaturas são consideravelmente mais altas, abrindo possibilidades para aplicações tecnológicas revolucionárias.

O campo acumula milhares de artigos científicos, com múltiplas teorias concorrentes e debates em aberto, o que torna o acesso e a assimilação do conhecimento uma tarefa árdua, especialmente para novos pesquisadores. Nesse contexto, a ideia de um parceiro de pesquisa baseado em IA que ofereça respostas equilibradas, fundamentadas e atualizadas é extremamente atraente.

Metodologia do Estudo: Comparando LLMs com Diferentes Fontes

Para testar a capacidade dos LLMs em atuar como assistentes especializados, os pesquisadores formularam 67 perguntas complexas sobre supercondutividade de alta temperatura, incluindo questões específicas como o nível de dopagem para a transição de Lifshitz em LSCO (um tipo de cuprato) e evidências para o cenário do ponto crítico quântico nesses materiais.

Seis modelos foram avaliados:

GPT-4o
Perplexity
Claude 3.5
Gemini Advanced Pro 1.5
Google NotebookLM
Um sistema personalizado baseado em geração aumentada por recuperação (RAG)

Entre eles, quatro tinham acesso livre à internet, enquanto dois — NotebookLM e o sistema RAG — operavam em um ambiente fechado, com uma base de dados cuidadosamente selecionada por doze especialistas internacionais. Essa base incluía 15 artigos de revisão e cerca de 1.700 artigos experimentais e teóricos relacionados, garantindo material de alta qualidade e relevância.

Critérios de Avaliação

Um painel de especialistas avaliou as respostas em seis aspectos, atribuindo notas de 0 a 2:

Perspectiva equilibrada: consideração de diferentes pontos de vista científicos
Abrangência: profundidade factual e inclusão de experimentos relevantes
Concisão: clareza e objetividade
Evidência: suporte com links e referências às fontes
Relevância visual: qualidade das imagens fornecidas (quando aplicável)
Comentários qualitativos: feedback aberto dos especialistas

Principais Resultados

Os modelos que utilizaram a base de dados curada — especialmente o NotebookLM e o sistema RAG personalizado — superaram os demais em quase todos os critérios, destacando-se por fornecer respostas mais equilibradas, completas e bem fundamentadas.

NotebookLM obteve a maior nota geral, apesar de suas respostas serem menos sucintas, compensando com evidências robustas e referências precisas. Os modelos baseados em acesso aberto à web apresentaram maior dificuldade para separar teorias consolidadas de hipóteses especulativas e frequentemente não reconheceram quando certas hipóteses haviam sido refutadas posteriormente.

Além disso, todos os modelos mostraram limitações na compreensão temporal e contextual do conhecimento, assim como na interpretação de tabelas e imagens — elementos essenciais na literatura científica. Embora duas das ferramentas apresentassem imagens, a análise visual se restringia principalmente às legendas, sem uma interpretação mais profunda dos gráficos ou escalas.

Implicações para a Pesquisa Científica

Este estudo demonstra que LLMs podem, sim, alcançar níveis de proficiência úteis em campos complexos e em aberto, desde que alimentados por fontes confiáveis e controladas. A capacidade de oferecer uma visão equilibrada e atualizada pode tornar esses sistemas parceiros valiosos para acelerar o aprendizado de novos pesquisadores e para auxiliar cientistas experientes a explorar novas direções de investigação.

No entanto, a avaliação rigorosa dessas capacidades depende da expertise de especialistas humanos, cuja disponibilidade é limitada. O trabalho prospecta o desenvolvimento de benchmarks mais robustos, como o CMT-benchmark, que será apresentado na conferência ICLR 2026, ampliando a avaliação para toda a teoria da matéria condensada.

Limitações e Próximos Passos

As principais limitações apontadas incluem:

Falhas na atualização temporal do conhecimento científico
Dificuldade em interpretar imagens e dados visuais complexos
Tendência a misturar teorias estabelecidas com especulações não confirmadas

Para superar essas barreiras, futuros esforços devem focar em aprimorar a capacidade dos LLMs de realizar raciocínio visual e contextual, além de fortalecer a curadoria das bases de dados.

Links úteis

Repositório Google Research: https://github.com/google-research
Artigo do estudo “Expert evaluation of LLM world models: A high-Tc superconductivity case study” publicado na Proceedings of the National Academy of Sciences
Informações sobre cupratos: https://en.wikipedia.org/wiki/Cuprate
Benchmark CURIE para avaliação de LLMs: https://arxiv.org/abs/2503.13517
Próxima conferência ICLR 2026: https://iclr.cc/

Este estudo exemplifica o potencial e os desafios do uso de IA para apoiar pesquisas científicas avançadas, apontando caminhos para ferramentas cada vez mais confiáveis e integradas ao cotidiano dos cientistas.