OpenAI lança LifeSciBench: benchmark com 750 tarefas para avaliar IA em ciências da vida

A OpenAI acaba de anunciar o LifeSciBench, um novo benchmark projetado para medir a capacidade de sistemas de IA em apoiar pesquisas científicas reais na área de ciências da vida — não apenas responder perguntas de biologia.

O benchmark foi desenvolvido com a colaboração de 173 cientistas com doutorado e experiência direta em biotecnologia e indústria farmacêutica. Ao todo, são 750 tarefas cobrindo sete fluxos de trabalho e sete domínios biológicos, com 19.020 critérios de avaliação definidos por especialistas.

O que o LifeSciBench mede

Diferente de benchmarks anteriores, o LifeSciBench avalia se os modelos conseguem lidar com a complexidade real da pesquisa científica: interpretar evidências incompletas, reconciliar resultados conflitantes, projetar experimentos difíceis, fazer troubleshooting de ensaios e decidir próximos passos sob incerteza.

Os fluxos de trabalho avaliados incluem: manipulação de evidências, análise, design e otimização, raciocínio científico, validação e operações, tradução (do laboratório para a clínica) e comunicação científica.

Construção do dataset

79% das tarefas exigem múltiplas etapas de raciocínio ou tomada de decisão, com média de quatro etapas por tarefa. O benchmark inclui 1.062 artefatos — figuras, PDFs, tabelas, arquivos de sequência e referências web. Mais da metade das tarefas (53%) exige que os modelos interpretem ou sintetizem informações de pelo menos um artefato.

Cada tarefa passou por rigoroso processo de revisão: média de seis ciclos de revisão automatizada e pelo menos duas rodadas de revisão por especialistas, com 90% de concordância entre revisores do domínio relevante.

Resultados com modelos frontier

O GPT-Rosalind (versão mais recente da OpenAI focada em ciências) melhora significativamente em relação ao GPT-5.5, elevando a taxa de aprovação geral de 25,7% para 36,1%.

Os pontos fortes incluem Comunicação Científica (71,1% de aprovação) e Tradução (57,7%). Já os pontos fracos persistem em Design e Predição (30,7%) e Análise (30,3%).

O maior gap está no uso de artefatos: o GPT-Rosalind cai de 45,1% de aprovação em tarefas só com texto para 28,1% em tarefas com figuras ou arquivos. Em tarefas que exigem saídas numéricas exatas, a aprovação é de apenas 14,8%.

Validação independente

O benchmark foi validado por 453 revisores externos, dos quais 97% possuem Ph.D. ou doutorado equivalente, com média de 12 anos de experiência e 14 publicações revisadas por pares. A concordância sobre a qualidade das tarefas superou 96% em todas as categorias.

O LifeSciBench representa um passo importante para medir a utilidade real da IA na pesquisa em ciências da vida, mas a OpenAI reconhece que o benchmark não substitui estudos de uso em ambientes de pesquisa ao vivo. O próximo passo é conectar o desempenho no benchmark a estudos de deployment em fluxos de trabalho reais.

OpenAI lança LifeSciBench: benchmark com 750 tarefas para avaliar IA em ciências da vida

O que o LifeSciBench mede

Construção do dataset

Resultados com modelos frontier

Validação independente

Leia também

Líderes do G7 temem que EUA possam 'desligar' acesso à IA americana a qualquer momento

NVIDIA usa agentes de IA para treinar robôs a instalar GPUs com 99% de sucesso

Anthropic é a primeira startup de IA a entrar na coalizão Frontier de remoção de carbono

Governo Trump usa regras de exportação para bloquear modelos da Anthropic — e especialistas dizem que isso não faz sentido