Imagine que acabou de receber um diagnóstico de cancro em fase inicial e, antes da próxima consulta, decide colocar uma pergunta a um chatbot de IA: "Que clínicas alternativas conseguem tratar o cancro com sucesso?"
Em poucos segundos, surge uma resposta bem escrita, com notas de rodapé, quase como se tivesse sido redigida por um médico.
Só que algumas afirmações não têm fundamento, as notas de rodapé não levam a lado nenhum e, em momento algum, o chatbot sugere que talvez a própria pergunta esteja mal colocada.
Este cenário não é teórico. Foi, em termos gerais, aquilo que uma equipa de sete investigadores encontrou ao submeter cinco dos chatbots mais populares do mundo a um teste sistemático de esforço sobre informação de saúde. Os resultados foram publicados na BMJ Open.
O que o estudo da BMJ Open mostra sobre chatbots de IA e informação de saúde
Os chatbots - ChatGPT, Gemini, Grok, Meta AI e DeepSeek - receberam 50 perguntas cada um, num total de 250, cobrindo cancro, vacinas, células estaminais, nutrição e desempenho atlético.
Cada resposta foi avaliada, de forma independente, por dois especialistas. Concluíram que quase 20% das respostas eram altamente problemáticas, metade eram problemáticas e 30% eram algo problemáticas. Nenhum dos chatbots gerou, de forma consistente, listas de referências totalmente fiáveis, e apenas duas das 250 perguntas foram recusadas sem resposta.
No cômputo geral, o desempenho dos cinco modelos foi semelhante. O Grok foi o que ficou pior, com 58% das respostas assinaladas como problemáticas, seguido do ChatGPT com 52% e do Meta AI com 50%.
Ainda assim, os resultados mudavam consoante o tema. Em vacinas e cancro - áreas com muita investigação e literatura bem estruturada - os chatbots saíram-se melhor, mas mesmo assim davam respostas problemáticas em cerca de um quarto das vezes.
Onde falharam mais foi em nutrição e desempenho atlético, domínios cheios de conselhos contraditórios na Internet e onde a evidência rigorosa é menos abundante.
As perguntas abertas foram o ponto em que tudo descarrilou a sério: 32% dessas respostas foram classificadas como altamente problemáticas, face a apenas 7% nas perguntas fechadas. Esta diferença é relevante porque, no mundo real, a maioria das dúvidas sobre saúde é aberta.
As pessoas não fazem aos chatbots perguntas arrumadas de verdadeiro-ou-falso. Perguntam coisas como: "Que suplementos são melhores para a saúde em geral?" É o tipo de pedido que convida a uma resposta fluente e segura, mas potencialmente perigosa.
Quando os investigadores pediram a cada chatbot dez referências científicas, a pontuação mediana (o valor do meio) de completude foi de apenas 40%.
Em 25 tentativas, nenhum chatbot conseguiu apresentar uma única lista de referências totalmente correcta. Os erros iam desde autores errados e ligações quebradas até artigos completamente inventados.
Isto é especialmente arriscado porque as referências parecem prova. Um leitor leigo, ao ver uma lista de citações bem formatada, tem poucos motivos para desconfiar do conteúdo que está por cima.
Porque é que os chatbots se enganam
Há um motivo simples para os chatbots errarem em respostas médicas. Os modelos de linguagem não “sabem” coisas. Limitam-se a prever a palavra seguinte mais provável, com base nos dados de treino e no contexto. Não ponderam evidência nem fazem juízos de valor.
Além disso, o material de treino inclui artigos revistos por pares, mas também debates no Reddit, blogues de bem-estar e discussões nas redes sociais.
Os investigadores também não colocaram perguntas neutras. De propósito, construíram prompts pensados para empurrar os chatbots para respostas enganadoras - uma técnica habitual em investigação de segurança em IA conhecida como “teste de equipa vermelha”.
Isto significa que as taxas de erro provavelmente exageram aquilo que encontraria com formulações mais neutras. O estudo avaliou ainda as versões gratuitas de cada modelo disponíveis em fevereiro de 2025. As versões pagas e os lançamentos mais recentes podem ter melhor desempenho.
Mesmo assim, a maioria das pessoas utiliza as versões gratuitas, e a maioria das perguntas de saúde não é cuidadosamente redigida. As condições do estudo, se alguma coisa, aproximam-se da forma como as pessoas realmente usam estas ferramentas.
As conclusões do artigo não surgem isoladas; encaixam num conjunto crescente de evidência que aponta de forma consistente na mesma direcção.
Um estudo de fevereiro de 2026 na Nature Medicine revelou algo inesperado. Os próprios chatbots conseguiam chegar à resposta médica correcta quase 95% das vezes.
Mas, quando pessoas reais usavam esses mesmos chatbots, só acertavam em menos de 35% das vezes - não melhor do que pessoas que nem sequer os usavam. Em termos simples, o problema não é apenas se o chatbot dá a resposta certa. É se os utilizadores comuns conseguem compreender essa resposta e aplicá-la correctamente.
Um estudo recente publicado na Jama Network Open testou 21 modelos de IA de referência. Os investigadores pediram-lhes que determinassem possíveis diagnósticos médicos.
Quando os modelos recebiam apenas informação básica - como idade, sexo e sintomas - tinham dificuldades, falhando em sugerir o conjunto correcto de hipóteses mais de 80% das vezes. Quando os investigadores acrescentavam achados do exame e resultados laboratoriais, a exactidão subia para mais de 90%.
Entretanto, outro estudo norte-americano, publicado na Nature Communications Medicine, concluiu que os chatbots repetiam facilmente e até desenvolviam termos médicos inventados que eram introduzidos nos prompts.
Em conjunto, estes estudos sugerem que as fragilidades observadas no estudo da BMJ Open não são uma estranheza de um método experimental, mas reflectem algo mais fundamental sobre o estado actual da tecnologia.
Estes chatbots não vão desaparecer - e nem deveriam. Conseguem resumir temas complexos, ajudar a preparar perguntas para levar ao médico e servir como ponto de partida para investigação. Mas o estudo sustenta de forma clara que não devem ser tratados como autoridades médicas autónomas.
Se usar um destes chatbots para aconselhamento médico, confirme qualquer afirmação sobre saúde que ele apresente, encare as referências como sugestões para verificar e não como facto, e repare quando uma resposta soa confiante mas não inclui avisos ou ressalvas.
Carsten Eickhoff, Professor, Medical Data Science, University of Tübingen
Este artigo é republicado de The Conversation ao abrigo de uma licença Creative Commons. Leia o artigo original.
Comentários
Ainda não há comentários. Seja o primeiro!
Deixar um comentário