A inteligência artificial (IA) médica avançada está a evoluir a grande velocidade. Em testes exigentes de diagnóstico, construídos a partir de casos reais de doentes, alguns sistemas de IA já conseguem igualar - e, por vezes, superar - médicos experientes.
Este avanço levanta questões mais amplas sobre segurança e qualidade dos cuidados prestados aos doentes.
Um sistema que obtém bons resultados em exames médicos ou em casos descritos apenas por texto pode, ainda assim, falhar em contextos clínicos reais, onde o julgamento humano e os sinais físicos têm um peso decisivo.
Um estudo recente sublinha, em simultâneo, o potencial e os perigos associados ao uso de IA avançada na medicina.
O debate sobre a segurança da IA começa
Em dossiers de casos apresentados em formato textual, o sistema acompanhou sintomas, ponderou diagnósticos e apresentou respostas que médicos avaliaram face a padrões definidos por especialistas.
Na Flinders University, Ashley M. Hopkins, Ph.D., defendeu que respostas fortes, por si só, não equivalem a prática médica segura quando se consideram os riscos clínicos do mundo real.
O alerta foca-se numa fronteira estreita, mas decisiva: a informação em texto pode ocultar aquilo que os doentes mostram presencialmente. O passo seguinte é demonstrar que o software ajuda sem aumentar o risco para os doentes.
A IA médica avança rapidamente
Experiências independentes testaram o OpenAI o1-preview, um modelo de raciocínio que resolve problemas médicos passo a passo antes de dar uma resposta.
Em casos pedagógicos publicados, o GPT-4 identificou corretamente - ou ficou muito perto - do diagnóstico certo em quase três quartos dos casos.
O OpenAI o1-preview, um modelo de raciocínio mais recente, elevou esse valor para quase nove em cada dez casos, evidenciando a rapidez com que o desempenho da IA médica tem melhorado.
Resultados deste tipo são difíceis de ignorar para hospitais e médicos, mesmo que notas elevadas em testes não tornem automaticamente o software fiável em contexto clínico.
A IA chega às urgências
Em 76 casos reais de serviço de urgência, o sistema recebeu detalhes dos doentes de forma faseada, tal como acontece com os médicos durante um turno de ritmo acelerado.
Na primeira fase de triagem - quando os clínicos decidem a urgência com que alguém precisa de cuidados - o o1-preview superou dois médicos seniores ao aproximar-se mais do diagnóstico final.
Os revisores também não conseguiram distinguir, de forma consistente, se o raciocínio escrito tinha sido produzido por um médico humano ou pelo sistema de software.
Para os hospitais, essa semelhança é, ao mesmo tempo, promissora e perigosa, porque uma linguagem confiante pode esconder a falta de elementos à cabeceira do doente.
O que a IA médica ainda não capta
A medicina real inclui um corpo, uma voz, informações familiares, comportamento perante a dor e limitações funcionais - elementos que não aparecem num caso digitado.
O exame físico altera a evidência disponível, porque o toque, os sons respiratórios, o inchaço e o movimento podem confirmar ou enfraquecer uma hipótese diagnóstica.
“Health care decisions are complex, high stakes, and deeply human, and accuracy alone, particularly on just text-based cases, does not make a system safe for patients,” disse Erik Cornelisse, doutorando na Flinders University College of Medicine and Public Health.
Sem estas verificações, uma resposta que parece correta pode, ainda assim, orientar os cuidados no sentido errado.
A IA não pode substituir o julgamento humano
Chegar a um diagnóstico não encerra o trabalho, porque o tratamento tem de considerar riscos, valores, custos e a capacidade do doente para seguir o plano.
Os clínicos assumem responsabilidade quando escolhem um exame, ajustam uma medicação ou dão alta a alguém com sinais de alarme.
Os cuidados modernos também exigem discernimento e supervisão ética, já que alguém tem de pesar compromissos quando a evidência continua incompleta.
O apoio só se torna útil quando os clínicos compreendem onde a ferramenta é forte, onde é fraca, onde é omissa e onde mostra excesso de confiança.
A IA médica pode induzir médicos em erro
A colaboração parece simples até ao momento em que um médico sobrecarregado aceita a resposta de uma máquina sem questionar o que a determinou.
Um ensaio de 2024 concluiu que o acesso ao GPT-4 não melhorou de forma significativa o raciocínio diagnóstico dos médicos, quando comparado com recursos médicos standard.
Nesse ensaio, o GPT-4, isoladamente, obteve uma pontuação superior à dos médicos a utilizar esses recursos, complicando a ideia de que o software deve servir apenas como assistente.
Resultados assim pressionam os sistemas de saúde a comparar o desempenho de clínicos sozinhos, software sozinho e clínicos a trabalhar com software.
O viés espalha-se depressa
Software médico mal testado pode causar danos desiguais, sobretudo quando os dados de treino sub-representam determinados grupos.
Em 2019, um algoritmo de saúde amplamente usado estimava quem precisava de cuidados adicionais recorrendo à despesa médica anterior como substituto da gravidade da doença.
Esse atalho atribuiu menos apoio a doentes negros, porque o acesso desigual aos cuidados já tinha reduzido a despesa registada.
Modelos enviesados podem propagar os mesmos erros a milhares de doentes antes de alguém se aperceber.
Os cuidados reais são mais difíceis
Médias elevadas podem esconder falhas perigosas, e as ferramentas de saúde para consumidores mostram como tarefas estreitas podem facilmente ultrapassar o uso para que foram concebidas.
Uma avaliação de triagem em fevereiro testou o ChatGPT Health, o chatbot de saúde para consumidores da OpenAI, sobre o grau de urgência com que as pessoas necessitavam de cuidados.
Entre verdadeiras emergências, a ferramenta encaminhou 51.6 percent dos casos para uma avaliação adiada de 24 a 48 horas, em vez de cuidados de emergência.
Esta falha é relevante porque os doentes procuram frequentemente uma garantia rápida antes de os sintomas parecerem graves ou fáceis de classificar.
A IA médica precisa de supervisão
Uma implementação criteriosa pode ajudar médicos a organizar registos, comparar diagnósticos e detetar detalhes importantes durante turnos sob pressão.
A Food and Drug Administration (FDA) dos EUA já regula produtos médicos e orienta os desenvolvedores para um desenho mais seguro de inteligência artificial médica, enquanto as boas práticas de aprendizagem automática exigem monitorização contínua à medida que modelos, doentes e fluxos de trabalho hospitalares evoluem.
“Patients deserve technology that improves care in the real world, not systems that only look impressive in studies,” afirmou Hopkins.
Um modelo que raciocina a partir de texto só reforça a medicina se os testes se focarem em resultados reais dos doentes, em vez de pontuações apelativas.
Investigadores e hospitais têm de medir decisões mais seguras, acesso mais justo, fluxos de trabalho utilizáveis e responsabilização clara antes de dar maior autoridade a estes sistemas nos cuidados clínicos.
Comentários
Ainda não há comentários. Seja o primeiro!
Deixar um comentário