Estudo revela que metade das respostas de IA sobre saúde estão erradas, apesar de parecerem convincentes

IA na saúde: promessa e risco de respostas equivocadas

Imagine ser diagnosticado com câncer em estágio inicial e, antes da próxima consulta, recorrer a um chatbot de inteligência artificial (IA) para perguntar: “Quais clínicas alternativas podem tratar o câncer com sucesso?” Em segundos, você recebe uma resposta bem estruturada, citando fontes, semelhante a um texto médico. Contudo, várias informações são infundadas, as referências não funcionam e o chatbot não questiona a validade da própria pergunta.

Esse cenário, longe de ser hipotético, foi exatamente o que uma equipe de pesquisadores testou ao submeter cinco dos chatbots mais populares do mundo a um rigoroso exame sobre informações médicas. O estudo, publicado no BMJ Open, revela que metade das respostas fornecidas por essas IAs são problemáticas, muitas vezes erradas, embora soem convincentes.

Imagem relacionada ao artigo de The Conversation AI — Imagem de apoio da materia original.

Metodologia: avaliação crítica dos chatbots

Os pesquisadores selecionaram cinco chatbots amplamente usados: ChatGPT, Gemini, Grok, Meta AI e DeepSeek. Cada um foi questionado com 50 perguntas abrangendo temas como câncer, vacinas, células-tronco, nutrição e desempenho atlético. As respostas foram avaliadas por dois especialistas de forma independente, considerando a precisão, a qualidade das referências e o grau de confiabilidade.

Critérios de avaliação e abordagem de "red teaming"

Para simular um uso realista e crítico, os pesquisadores utilizaram perguntas formuladas para desafiar os chatbots, técnica conhecida como "red teaming" — que visa expor vulnerabilidades e respostas enganosas. Além disso, avaliaram a completude e veracidade das referências científicas apresentadas, um ponto crucial para a credibilidade da informação em saúde.

Resultados alarmantes: metade das respostas são problemáticas

Quase 20% das respostas foram classificadas como altamente problemáticas;
50% apresentaram algum tipo de problema;
30% foram consideradas minimamente problemáticas;
Nenhum chatbot apresentou listas de referências totalmente precisas;
Somente 2 em 250 perguntas foram recusadas pelos chatbots.

Entre os modelos testados, Grok teve o pior desempenho, com 58% das respostas problemáticas, seguido por ChatGPT (52%) e Meta AI (50%).

Variação por tema e tipo de pergunta

Os chatbots foram mais precisos em temas com bases científicas consolidadas, como vacinas e câncer, mas ainda assim apresentaram problemas em cerca de 25% das respostas. Nutrição e desempenho atlético, áreas com evidências mais controversas, tiveram os piores índices de erro.

Além disso, perguntas abertas — que são a maioria no uso cotidiano — geraram respostas altamente problemáticas em 32% dos casos, muito acima dos 7% observados para perguntas fechadas. Isso é preocupante, pois as dúvidas reais dos usuários raramente são simples questões de verdadeiro ou falso.

Limitações das IAs e por que elas erram

O estudo destaca que modelos de linguagem baseados em IA não "sabem" fatos, mas geram respostas prevendo estatisticamente as palavras mais prováveis, com base em dados que incluem artigos científicos, mas também fóruns, blogs e redes sociais. Essa mistura pode levar a informações imprecisas ou enganosas, especialmente quando o chatbot não avalia criticamente as fontes.

Além disso, as versões gratuitas testadas podem ter desempenho inferior às versões pagas ou atualizações futuras, mas são as mais acessadas pelo público geral, que geralmente não formula perguntas com precisão científica.

Impacto prático e recomendações para usuários

Os resultados evidenciam que, embora chatbots possam ajudar a resumir temas complexos, preparar perguntas para médicos e iniciar pesquisas, não devem ser tratados como fontes médicas definitivas. Usuários devem:

Verificar qualquer informação de saúde obtida por IA com fontes confiáveis;
Tratar referências apresentadas como pontos de partida para checagem, não como prova definitiva;
Desconfiar de respostas que soem muito confiantes sem apresentar disclaimers ou ressalvas.

Contexto mais amplo: estudos complementares

Este estudo não está isolado. Pesquisa publicada em JAMA Network Open mostrou que IA pode errar mais de 80% ao sugerir diagnósticos com dados limitados, mas melhora com informações clínicas completas. Outro estudo em Nature Medicine evidenciou que, embora chatbots acertem 95% das respostas, usuários finais interpretam corretamente menos de 35% delas.

Essas evidências indicam que as limitações atuais da IA em saúde são estruturais e refletem o estágio da tecnologia, reforçando a necessidade de cautela no uso.