Voltar para o blog
Machine Learning

Quantos avaliadores são necessários para criar benchmarks de IA mais confiáveis?

31 de março de 2026
13:53
Datasetsmachine learningavaliação de modelosGoogle Researchbenchmark de IAreprodutibilidadeavaliação subjetivaavaliadores humanostoxicidademetodologia científica
Quantos avaliadores são necessários para criar benchmarks de IA mais confiáveis?

Desafios na Reprodutibilidade dos Benchmarks de IA

Em pesquisas de machine learning (ML), a reprodutibilidade é crucial para validar resultados e construir confiança entre equipes. No entanto, um dos principais obstáculos é a subjetividade inerente aos dados rotulados por humanos. Diferentes avaliadores podem discordar sobre o mesmo exemplo, especialmente em tarefas subjetivas como detecção de toxicidade ou segurança em diálogos. Ignorar essa discordância humana pode levar a benchmarks menos precisos e menos confiáveis.

O Problema: Quantos Avaliadores por Item São Suficientes?

É comum que pesquisadores usem entre 1 e 5 avaliadores por item para criar dados "verdadeiros" (gold labels). Mas será que esse número é suficiente para capturar a complexidade e a variação da opinião humana? O estudo "Forest vs Tree: The (N, K) Trade-off in Reproducible ML Evaluation", realizado por pesquisadores do Google Research, investigou como equilibrar o número de itens avaliados (N) e a quantidade de avaliadores por item (K) para otimizar a reprodutibilidade dos benchmarks.

Imagem relacionada ao artigo de Google Research
Imagem de apoio da materia original.

Método: Simulando o Orçamento de Avaliação

Para abordar essa questão, os pesquisadores criaram um simulador baseado em dados reais de avaliações subjetivas, como:

  • Dataset de Toxicidade: 107.620 comentários de redes sociais avaliados por 17.280 pessoas;
  • DICES: 350 conversas de chatbots avaliadas por 123 avaliadores em 16 dimensões de segurança;
  • D3code: 4.554 itens avaliados por 4.309 pessoas em 21 países, equilibrando gênero e idade;
  • Jobs: 2.000 tweets relacionados a emprego, avaliados por 5 pessoas cada.

O simulador testou milhares de combinações entre o número total de itens avaliados (N) e o número de avaliadores por item (K), variando de 1 a 500 avaliadores por item, para identificar configurações que produzissem resultados estáveis e estatisticamente significativos (p < 0,05).

Imagem relacionada ao artigo de Google Research
Imagem de apoio da materia original.

Principais Descobertas

  1. 3 a 5 avaliadores não são suficientes: Esse padrão comum não capta toda a nuance das opiniões humanas. Para resultados confiáveis, é necessário frequentemente mais de 10 avaliadores por item, aumentando a significância estatística e reduzindo hipóteses nulas equivocadas.
  2. A métrica define a estratégia: Se o objetivo é medir a concordância com a maioria (exatidão), é melhor avaliar muitos itens com poucos avaliadores (abordagem "floresta"). Para captar a variação e nuances das opiniões humanas, é preciso mais avaliadores por item (abordagem "árvore").
  3. É possível eficiência com orçamento limitado: Com cerca de 1.000 anotações totais, ajustando corretamente a relação entre itens e avaliadores, é possível obter resultados altamente reprodutíveis. Gastar mais sem equilíbrio adequado pode gerar conclusões pouco confiáveis.

Por Que Essa Pesquisa é Importante para o Futuro da IA

O avanço da IA em áreas subjetivas, como ética, intenção de dano e interação social, exige benchmarks que reflitam a complexidade das opiniões humanas. O paradigma do "verdadeiro rótulo único" é insuficiente. Ao reconhecer e modelar a discordância natural entre humanos, podemos criar avaliações mais realistas e confiáveis.

Essa pesquisa oferece um roteiro matemático e prático para que pesquisadores e desenvolvedores construam benchmarks de IA que equilibram custo, escala e profundidade, garantindo que os testes reflitam a diversidade e a complexidade do julgamento humano.

Recursos e Ferramentas para a Comunidade

  • Simulador open source para testar diferentes configurações de avaliadores e itens.
  • DICES Dataset para avaliação de segurança em IA conversacional.
  • D3code, dataset multicultural para análise de conteúdo ofensivo.
  • Jobs Dataset com avaliações sobre tweets relacionados a emprego.
  • Artigo completo com metodologia e resultados detalhados.

Links úteis