OpenAI lança LifeSciBench: benchmark com 750 tarefas para avaliar IA em ciências da vida

A OpenAI acaba de anunciar o LifeSciBench, um novo benchmark projetado para medir a capacidade de sistemas de IA em apoiar pesquisas científicas reais na área de ciências da vida — não apenas responder perguntas de biologia.
O benchmark foi desenvolvido com a colaboração de 173 cientistas com doutorado e experiência direta em biotecnologia e indústria farmacêutica. Ao todo, são 750 tarefas cobrindo sete fluxos de trabalho e sete domínios biológicos, com 19.020 critérios de avaliação definidos por especialistas.
O que o LifeSciBench mede
Diferente de benchmarks anteriores, o LifeSciBench avalia se os modelos conseguem lidar com a complexidade real da pesquisa científica: interpretar evidências incompletas, reconciliar resultados conflitantes, projetar experimentos difíceis, fazer troubleshooting de ensaios e decidir próximos passos sob incerteza.
Os fluxos de trabalho avaliados incluem: manipulação de evidências, análise, design e otimização, raciocínio científico, validação e operações, tradução (do laboratório para a clínica) e comunicação científica.
Construção do dataset
79% das tarefas exigem múltiplas etapas de raciocínio ou tomada de decisão, com média de quatro etapas por tarefa. O benchmark inclui 1.062 artefatos — figuras, PDFs, tabelas, arquivos de sequência e referências web. Mais da metade das tarefas (53%) exige que os modelos interpretem ou sintetizem informações de pelo menos um artefato.
Cada tarefa passou por rigoroso processo de revisão: média de seis ciclos de revisão automatizada e pelo menos duas rodadas de revisão por especialistas, com 90% de concordância entre revisores do domínio relevante.
Resultados com modelos frontier
O GPT-Rosalind (versão mais recente da OpenAI focada em ciências) melhora significativamente em relação ao GPT-5.5, elevando a taxa de aprovação geral de 25,7% para 36,1%.
Os pontos fortes incluem Comunicação Científica (71,1% de aprovação) e Tradução (57,7%). Já os pontos fracos persistem em Design e Predição (30,7%) e Análise (30,3%).
O maior gap está no uso de artefatos: o GPT-Rosalind cai de 45,1% de aprovação em tarefas só com texto para 28,1% em tarefas com figuras ou arquivos. Em tarefas que exigem saídas numéricas exatas, a aprovação é de apenas 14,8%.
Validação independente
O benchmark foi validado por 453 revisores externos, dos quais 97% possuem Ph.D. ou doutorado equivalente, com média de 12 anos de experiência e 14 publicações revisadas por pares. A concordância sobre a qualidade das tarefas superou 96% em todas as categorias.
O LifeSciBench representa um passo importante para medir a utilidade real da IA na pesquisa em ciências da vida, mas a OpenAI reconhece que o benchmark não substitui estudos de uso em ambientes de pesquisa ao vivo. O próximo passo é conectar o desempenho no benchmark a estudos de deployment em fluxos de trabalho reais.



