OpenAI Lança LifeSciBench: Benchmark com 750 Tarefas Avalia Modelos de IA em Pesquisas Reais de Biociências

A OpenAI acaba de lançar o LifeSciBench, um benchmark ambicioso com 750 tarefas desenvolvidas para avaliar modelos de IA em cenários reais de pesquisa em biociências. O resultado? Até o modelo mais forte da OpenAI, o GPT-Rosalind, passa em apenas 36,1% das tarefas — mostrando que ainda há um longo caminho pela frente.
O que é o LifeSciBench
Diferente dos benchmarks tradicionais de biologia, que costumam fazer perguntas factuais com respostas limpas, o LifeSciBench coloca os modelos diante de problemas que cientistas reais enfrentam: pesar evidências imperfeitas, tomar decisões com dados incompletos e navegar por múltiplas etapas de raciocínio.
As 750 tarefas cobrem sete fluxos de trabalho (análise, design e otimização, raciocínio científico, validação, tradução, comunicação científica e operações) e sete domínios biológicos (genômica, química medicinal, ciência clínica e translacional, entre outros).
Cada tarefa é de resposta livre — nada de múltipla escolha. Cerca de 79% exigem múltiplas etapas de raciocínio, com uma média de quatro passos por tarefa.
Como o benchmark foi construído
Uma coorte de 173 cientistas Ph.D. com experiência em biotecnologia e farmacêutica escreveram as tarefas. Cada uma passou por uma média de seis ciclos de revisão automatizada e pelo menos duas revisões por especialistas.
O benchmark inclui 1.062 artefatos anexados — sequências, figuras, tabelas, PDFs e estruturas químicas. Cerca de 53% das tarefas exigem pelo menos um artefato.
A validação foi feita por 453 revisores independentes, 97% com doutorado. A concordância entre eles ultrapassou 96% em relevância, raciocínio, fundamentação e utilidade.
O sistema de rubricas
O coração do LifeSciBench são as rubricas de avaliação: 19.020 critérios no total, aproximadamente 25 por tarefa. Cada critério pontua uma propriedade concreta — um fato específico, um passo de raciocínio ou uma resposta numérica dentro de uma margem de tolerância.
Duas métricas resumem o desempenho:
- Pontuação normalizada da rubrica: divide os pontos ganhos pelo total de pontos possíveis
- Taxa de aprovação: conta as tarefas com pontuação ≥ 70%
Uma resposta pode ganhar crédito parcial e ainda assim falhar na tarefa — e é exatamente essa lacuna que o LifeSciBench mede.
Desempenho dos modelos
A OpenAI avaliou cinco modelos em configuração de turno único, com navegação irrestrita na internet:
| Modelo | Pontuação Normalizada | Taxa de Aprovação |
|---|---|---|
| GPT-Rosalind | 0,576 | 36,1% |
| GPT-5.5 | 0,519 | 25,7% |
| Gemini 3.1 Pro | 0,515 | 23,6% |
| GPT-5.4 | 0,479 | 20,7% |
| Grok 4.3 | 0,399 | 13,0% |
O GPT-Rosalind, modelo especializado em domínios científicos da OpenAI, liderou no geral, mas foi o melhor em apenas 386 das 750 tarefas. O Gemini 3.1 Pro, do Google, liderou isoladamente em 214 tarefas — mostrando que rankings agregados escondem forças específicas de cada modelo.
Onde os modelos tropeçam
Os modelos foram mais fortes em julgamento estruturado. O GPT-Rosalind atingiu pontuação média de 0,712 em Tradução e 0,718 em Comunicação Científica.
Mas dois fluxos de trabalho continuaram extremamente difíceis:
- Design, Otimização e Predição: apenas 30,7% de aprovação
- Análise: apenas 30,3% de aprovação
O uso de artefatos foi um gargalo claro. O GPT-Rosalind caiu de 45,1% em tarefas só de texto para 28,1% em tarefas com artefatos. O GPT-5.5 caiu de 29,9% para 21,9%.
Nenhum modelo passou em 171 tarefas (22,8%), e 261 tarefas (34,8%) tiveram taxa de aprovação do melhor modelo abaixo de 20%.
Por que isso importa
O LifeSciBench representa uma mudança significativa na forma como avaliamos IA para ciências da vida. Em vez de perguntas de trivia biológica, ele testa se os modelos conseguem raciocinar como cientistas: analisar evidências, projetar experimentos, interpretar resultados ambíguos e comunicar descobertas.
Com 36,1% de aprovação do melhor modelo, o benchmark está longe de ser saturado. Isso significa que há espaço real para avanços — e o LifeSciBench servirá como régua para medir o progresso da IA nas biociências nos próximos anos.
O paper completo e detalhes técnicos estão disponíveis no site do LifeSciBench.



