Saltar para o conteúdo

Chatbots médicos: pessoas descrevem menos sintomas à IA e os relatos ficam 8% piores

Homem sentado no sofá a olhar para o telemóvel, com estetoscópio e documentos em cima da mesa.

A maioria das pessoas, por instinto, dá muito mais pormenor a um médico do que a uma aplicação. Uma simples dor de cabeça transforma-se num relato mais completo: onde dói, há quanto tempo começou, e se veio acompanhada de náuseas ou sensibilidade à luz.

Com ferramentas digitais, pelo contrário, costuma chegar apenas a versão “encurtada”. Investigadores dizem agora que este hábito também se estende aos chatbots médicos.

Um novo estudo quantificou, com precisão, quanta informação as pessoas omitem quando acreditam que é uma IA a ler os seus sintomas - e se essas omissões alteram a utilidade do relato.

As pessoas escreveram menos para a IA

Uma equipa liderada por Moritz Reis, investigador associado no Instituto de Psicologia da Universidade de Würzburg (JMU), recrutou 500 adultos no Reino Unido para um teste simples.

Cada participante redigiu dois relatos de sintomas: um sobre uma dor de cabeça invulgar e outro sobre uma doença com sintomas gripais.

Metade foi informada de que um médico iria ler o que escrevesse. A outra metade recebeu a indicação de que seria um chatbot de IA.

Embora o texto apresentado na página variasse, as instruções eram exatamente as mesmas. Os relatos destinados ao médico humano tiveram, em média, 256 caracteres. Já os relatos destinados ao chatbot ficaram pelos 229 caracteres - cerca de menos uma frase.

Avaliação às cegas dos relatos

Para perceber se “mais curto” também significava “menos bom”, a equipa submeteu todos os relatos a um sistema de pontuação.

O objetivo era medir quão útil era a descrição para decidir quem precisava de cuidados urgentes.

Uma pontuação mais elevada significava que um médico conseguiria ler as frases e dar aconselhamento com confiança.

Em média, os relatos dirigidos ao chatbot obtiveram uma pontuação 8% mais baixa. Quatro médicos com licença profissional analisaram os dados: dois neurologistas e dois pneumologistas.

Estes clínicos observaram um subconjunto aleatório sem saber se o texto tinha sido escrito para um médico ou para um chatbot. As avaliações deles foram consistentes com a pontuação gerada pela IA.

Pequenas omissões somam-se depressa

O que tende a ficar de fora é precisamente o contexto que permite a um médico construir uma visão completa. Por exemplo, durante quanto tempo durou a dor de cabeça, ou como soava a tosse às 3 da manhã.

Nada disto é particularmente difícil de escrever. Ainda assim, quando as pessoas pensavam que quem lia era uma máquina, simplesmente acrescentavam menos desse tipo de detalhe.

Os investigadores atribuíram a descida de qualidade diretamente ao comprimento do texto. Menos caracteres traduziram-se num relato menos útil para a auto-triagem - o filtro inicial que ajuda a decidir quem precisa de um médico imediatamente.

A precisão do chatbot pode falhar

As ferramentas de IA costumam ser avaliadas com cenários padronizados, e não com os parágrafos “desarrumados” que as pessoas realmente escrevem.

Isso tende a esconder o problema. Um chatbot pode ter um desempenho excelente num teste de referência e, mesmo assim, encaminhar mal um doente real se esse doente lhe der apenas metade da história.

Esta diferença de qualidade manteve-se até entre participantes que tinham sintomas relevantes naquele momento, e não apenas entre quem estava a imaginá-los.

Um artigo separado sobre a precisão de verificadores de sintomas online apontou limitações semelhantes. A precisão de laboratório não resiste ao contacto com a forma como os utilizadores comuns introduzem informação no dia a dia.

Máquinas que não “entendem” a pessoa

Porque é que as pessoas são mais poupadas com um chatbot? A equipa descreve um fenómeno chamado negligência da singularidade - a crença de que a IA o vê como uma categoria e não como um indivíduo.

Se a ferramenta apenas faz correspondência de padrões, pensa-se, para quê detalhar as especificidades mais estranhas?

“Muitas pessoas assumem que a IA não consegue apreender as nuances individuais da sua situação pessoal e, em vez disso, limita-se a corresponder a padrões padronizados”, explicou o Professor Wilfried Kunde.

As preocupações com privacidade também podem contribuir. O mesmo pode acontecer com um ceticismo geral sobre se um algoritmo consegue, de facto, diagnosticar alguma coisa.

Um estudo anterior do mesmo grupo mostrou que as pessoas classificam conselhos médicos idênticos como menos fiáveis e menos dignos de ser seguidos assim que lhes dizem que foi uma IA a escrevê-los.

Conceber perguntas melhores

A solução, segundo a equipa, não passa por um modelo mais “inteligente”, mas por uma entrevista mais bem estruturada. Eles defendem que os chatbots médicos devem solicitar ativamente os pormenores que um médico perguntaria.

Pormenores como duração, gravidade, e o que melhora ou piora os sintomas - em vez de esperar que o utilizador adivinhe o que é relevante.

Mostrar exemplos concretos de descrições bem feitas pode ajudar a reforçar a qualidade do aconselhamento médico.

Também pode ajudar explicar o que o sistema faz com a informação. As pessoas poderão escrever mais quando compreendem a lógica da ferramenta - e não menos.

“Se não confiarmos que uma máquina consegue compreender a nossa singularidade, podemos, inconscientemente, reter a informação de que ela precisaria para fornecer assistência precisa”, disse Reis.

A doença real pode alterar o comportamento

Os participantes escreveram sobre condições que lhes pediram para imaginar, e não sobre situações em que estivessem realmente doentes e a precisar urgentemente de cuidados.

Os investigadores assinalam que relatos do mundo real, onde o peso emocional é maior, podem diferir de formas que esta experiência não conseguiu captar.

Ainda não se sabe se a diferença se mantém em interações clínicas reais; isso continua por testar e exigirá estudos adicionais.

O lado humano da triagem por IA

Até aqui, ninguém tinha medido o que os doentes deixam de fora antes de uma IA sequer ver a pergunta. As avaliações de chatbots médicos concentravam-se quase exclusivamente no lado do modelo na conversa.

Este estudo fez o inverso. Quantificou o lado humano: relatos 8% piores, impulsionados por menos 27 caracteres, em adultos saudáveis a descrever sintomas a uma máquina.

Oito por cento por pessoa pode parecer pouco. Mas, multiplicado pelos milhões de perguntas que chegam a verificadores de sintomas e chatbots de consumo, o detalhe em falta confirma decisões de triagem tomadas com base em informação incompleta.

Os programadores passam a ter um problema específico para resolver no desenho do produto. E os doentes têm um motivo para escrever mais - e não menos - mesmo quando não há um humano do outro lado.


Comentários

Ainda não há comentários. Seja o primeiro!

Deixar um comentário