Avaliação de modelos de linguagem em perguntas sobre pesquisa em supercondutividade

Testando LLMs em Perguntas sobre Pesquisa em Supercondutividade
A inteligência artificial, especialmente os grandes modelos de linguagem (LLMs), tem se mostrado uma ferramenta promissora para acelerar a pesquisa científica. No entanto, sua capacidade de responder com precisão a perguntas complexas em áreas altamente especializadas ainda é pouco explorada. Um estudo recente conduzido por pesquisadores do Google em parceria com a Universidade Cornell avaliou justamente esse potencial, focando em um dos temas mais desafiadores da física moderna: a supercondutividade de alta temperatura.
Desafios em Supercondutividade de Alta Temperatura
Desde a descoberta da supercondutividade em compostos de cobre — os chamados cupratos — na década de 1980, a física tem enfrentado o desafio de entender os mecanismos que permitem a condução elétrica sem resistência a temperaturas muito superiores às dos supercondutores tradicionais. Apesar de ainda muito frias (cerca de -140 °C no limite superior), essas temperaturas são consideravelmente mais altas, abrindo possibilidades para aplicações tecnológicas revolucionárias.
O campo acumula milhares de artigos científicos, com múltiplas teorias concorrentes e debates em aberto, o que torna o acesso e a assimilação do conhecimento uma tarefa árdua, especialmente para novos pesquisadores. Nesse contexto, a ideia de um parceiro de pesquisa baseado em IA que ofereça respostas equilibradas, fundamentadas e atualizadas é extremamente atraente.
Metodologia do Estudo: Comparando LLMs com Diferentes Fontes
Para testar a capacidade dos LLMs em atuar como assistentes especializados, os pesquisadores formularam 67 perguntas complexas sobre supercondutividade de alta temperatura, incluindo questões específicas como o nível de dopagem para a transição de Lifshitz em LSCO (um tipo de cuprato) e evidências para o cenário do ponto crítico quântico nesses materiais.
Seis modelos foram avaliados:
-
GPT-4o
-
Perplexity
-
Claude 3.5
-
Gemini Advanced Pro 1.5
-
Google NotebookLM
-
Um sistema personalizado baseado em geração aumentada por recuperação (RAG)
Entre eles, quatro tinham acesso livre à internet, enquanto dois — NotebookLM e o sistema RAG — operavam em um ambiente fechado, com uma base de dados cuidadosamente selecionada por doze especialistas internacionais. Essa base incluía 15 artigos de revisão e cerca de 1.700 artigos experimentais e teóricos relacionados, garantindo material de alta qualidade e relevância.
Critérios de Avaliação
Um painel de especialistas avaliou as respostas em seis aspectos, atribuindo notas de 0 a 2:
-
Perspectiva equilibrada: consideração de diferentes pontos de vista científicos
-
Abrangência: profundidade factual e inclusão de experimentos relevantes
-
Concisão: clareza e objetividade
-
Evidência: suporte com links e referências às fontes
-
Relevância visual: qualidade das imagens fornecidas (quando aplicável)
-
Comentários qualitativos: feedback aberto dos especialistas
Principais Resultados
Os modelos que utilizaram a base de dados curada — especialmente o NotebookLM e o sistema RAG personalizado — superaram os demais em quase todos os critérios, destacando-se por fornecer respostas mais equilibradas, completas e bem fundamentadas.
NotebookLM obteve a maior nota geral, apesar de suas respostas serem menos sucintas, compensando com evidências robustas e referências precisas. Os modelos baseados em acesso aberto à web apresentaram maior dificuldade para separar teorias consolidadas de hipóteses especulativas e frequentemente não reconheceram quando certas hipóteses haviam sido refutadas posteriormente.
Além disso, todos os modelos mostraram limitações na compreensão temporal e contextual do conhecimento, assim como na interpretação de tabelas e imagens — elementos essenciais na literatura científica. Embora duas das ferramentas apresentassem imagens, a análise visual se restringia principalmente às legendas, sem uma interpretação mais profunda dos gráficos ou escalas.
Implicações para a Pesquisa Científica
Este estudo demonstra que LLMs podem, sim, alcançar níveis de proficiência úteis em campos complexos e em aberto, desde que alimentados por fontes confiáveis e controladas. A capacidade de oferecer uma visão equilibrada e atualizada pode tornar esses sistemas parceiros valiosos para acelerar o aprendizado de novos pesquisadores e para auxiliar cientistas experientes a explorar novas direções de investigação.
No entanto, a avaliação rigorosa dessas capacidades depende da expertise de especialistas humanos, cuja disponibilidade é limitada. O trabalho prospecta o desenvolvimento de benchmarks mais robustos, como o CMT-benchmark, que será apresentado na conferência ICLR 2026, ampliando a avaliação para toda a teoria da matéria condensada.
Limitações e Próximos Passos
As principais limitações apontadas incluem:
-
Falhas na atualização temporal do conhecimento científico
-
Dificuldade em interpretar imagens e dados visuais complexos
-
Tendência a misturar teorias estabelecidas com especulações não confirmadas
Para superar essas barreiras, futuros esforços devem focar em aprimorar a capacidade dos LLMs de realizar raciocínio visual e contextual, além de fortalecer a curadoria das bases de dados.
Links úteis
-
Repositório Google Research: https://github.com/google-research
-
Artigo do estudo “Expert evaluation of LLM world models: A high-Tc superconductivity case study” publicado na Proceedings of the National Academy of Sciences
-
Informações sobre cupratos: https://en.wikipedia.org/wiki/Cuprate
-
Benchmark CURIE para avaliação de LLMs: https://arxiv.org/abs/2503.13517
-
Próxima conferência ICLR 2026: https://iclr.cc/
Este estudo exemplifica o potencial e os desafios do uso de IA para apoiar pesquisas científicas avançadas, apontando caminhos para ferramentas cada vez mais confiáveis e integradas ao cotidiano dos cientistas.