OpenAI Lança LifeSciBench: Benchmark com 750 Tarefas Avalia Modelos de IA em Pesquisas Reais de Biociências

A OpenAI acaba de lançar o LifeSciBench, um benchmark ambicioso com 750 tarefas desenvolvidas para avaliar modelos de IA em cenários reais de pesquisa em biociências. O resultado? Até o modelo mais forte da OpenAI, o GPT-Rosalind, passa em apenas 36,1% das tarefas — mostrando que ainda há um longo caminho pela frente.

O que é o LifeSciBench

Diferente dos benchmarks tradicionais de biologia, que costumam fazer perguntas factuais com respostas limpas, o LifeSciBench coloca os modelos diante de problemas que cientistas reais enfrentam: pesar evidências imperfeitas, tomar decisões com dados incompletos e navegar por múltiplas etapas de raciocínio.

As 750 tarefas cobrem sete fluxos de trabalho (análise, design e otimização, raciocínio científico, validação, tradução, comunicação científica e operações) e sete domínios biológicos (genômica, química medicinal, ciência clínica e translacional, entre outros).

Cada tarefa é de resposta livre — nada de múltipla escolha. Cerca de 79% exigem múltiplas etapas de raciocínio, com uma média de quatro passos por tarefa.

Como o benchmark foi construído

Uma coorte de 173 cientistas Ph.D. com experiência em biotecnologia e farmacêutica escreveram as tarefas. Cada uma passou por uma média de seis ciclos de revisão automatizada e pelo menos duas revisões por especialistas.

O benchmark inclui 1.062 artefatos anexados — sequências, figuras, tabelas, PDFs e estruturas químicas. Cerca de 53% das tarefas exigem pelo menos um artefato.

A validação foi feita por 453 revisores independentes, 97% com doutorado. A concordância entre eles ultrapassou 96% em relevância, raciocínio, fundamentação e utilidade.

O sistema de rubricas

O coração do LifeSciBench são as rubricas de avaliação: 19.020 critérios no total, aproximadamente 25 por tarefa. Cada critério pontua uma propriedade concreta — um fato específico, um passo de raciocínio ou uma resposta numérica dentro de uma margem de tolerância.

Duas métricas resumem o desempenho:

Pontuação normalizada da rubrica: divide os pontos ganhos pelo total de pontos possíveis
Taxa de aprovação: conta as tarefas com pontuação ≥ 70%

Uma resposta pode ganhar crédito parcial e ainda assim falhar na tarefa — e é exatamente essa lacuna que o LifeSciBench mede.

Desempenho dos modelos

A OpenAI avaliou cinco modelos em configuração de turno único, com navegação irrestrita na internet:

Modelo	Pontuação Normalizada	Taxa de Aprovação
GPT-Rosalind	0,576	36,1%
GPT-5.5	0,519	25,7%
Gemini 3.1 Pro	0,515	23,6%
GPT-5.4	0,479	20,7%
Grok 4.3	0,399	13,0%

O GPT-Rosalind, modelo especializado em domínios científicos da OpenAI, liderou no geral, mas foi o melhor em apenas 386 das 750 tarefas. O Gemini 3.1 Pro, do Google, liderou isoladamente em 214 tarefas — mostrando que rankings agregados escondem forças específicas de cada modelo.

Onde os modelos tropeçam

Os modelos foram mais fortes em julgamento estruturado. O GPT-Rosalind atingiu pontuação média de 0,712 em Tradução e 0,718 em Comunicação Científica.

Mas dois fluxos de trabalho continuaram extremamente difíceis:

Design, Otimização e Predição: apenas 30,7% de aprovação
Análise: apenas 30,3% de aprovação

O uso de artefatos foi um gargalo claro. O GPT-Rosalind caiu de 45,1% em tarefas só de texto para 28,1% em tarefas com artefatos. O GPT-5.5 caiu de 29,9% para 21,9%.

Nenhum modelo passou em 171 tarefas (22,8%), e 261 tarefas (34,8%) tiveram taxa de aprovação do melhor modelo abaixo de 20%.

Por que isso importa

O LifeSciBench representa uma mudança significativa na forma como avaliamos IA para ciências da vida. Em vez de perguntas de trivia biológica, ele testa se os modelos conseguem raciocinar como cientistas: analisar evidências, projetar experimentos, interpretar resultados ambíguos e comunicar descobertas.

Com 36,1% de aprovação do melhor modelo, o benchmark está longe de ser saturado. Isso significa que há espaço real para avanços — e o LifeSciBench servirá como régua para medir o progresso da IA nas biociências nos próximos anos.

O paper completo e detalhes técnicos estão disponíveis no site do LifeSciBench.