IA na medicina: ferramentas revolucionárias, resultados incertos
A IA pode realmente revolucionar a saúde? Uma revisão sistemática revela as lacunas ocultas nos benefícios para os pacientes e as barreiras à integração clínica significativa. Num estudo recente publicado no The Lancet Regional Health - Europe, um grupo de investigadores avaliou os benefícios e malefícios dos sistemas algorítmicos de tomada de decisão (ADM) baseados em inteligência artificial (IA) utilizados por profissionais de saúde em comparação com os cuidados padrão, centrando-se nos resultados relevantes para o paciente. Contexto Os avanços na IA permitiram que os sistemas superassem os especialistas médicos em tarefas como diagnóstico, medicina personalizada, monitorização de pacientes e desenvolvimento de medicamentos. Apesar desses avanços, ainda não está claro se melhorou...
IA na medicina: ferramentas revolucionárias, resultados incertos
A IA pode realmente revolucionar a saúde? Uma revisão sistemática revela as lacunas ocultas nos benefícios para os pacientes e as barreiras à integração clínica significativa.
Num estudo recente publicado emThe Lancet Regional Health – Europa, um grupo de pesquisadores avaliou os benefícios e malefícios dos sistemas algorítmicos de tomada de decisão (ADM) baseados em inteligência artificial (IA) usados por profissionais de saúde em comparação com o tratamento padrão, com foco em resultados relevantes para o paciente.
fundo
Os avanços na IA permitiram que os sistemas superassem os especialistas médicos em tarefas como diagnóstico, medicina personalizada, monitorização de pacientes e desenvolvimento de medicamentos. Apesar destes avanços, ainda não está claro se a melhoria da precisão diagnóstica e das métricas de desempenho se traduzem em benefícios tangíveis para os pacientes, tais como redução da mortalidade ou morbidade.
A pesquisa atual muitas vezes prioriza o desempenho analítico em detrimento dos resultados clínicos, e muitos dispositivos médicos baseados em IA são aprovados sem evidências de ensaios clínicos randomizados (ECR).
Além disso, a falta de transparência e de avaliações padronizadas dos danos associados a estas tecnologias levantam preocupações éticas e práticas. Isto realça uma lacuna crítica na investigação e desenvolvimento da IA que requer avaliações adicionais focadas em resultados relevantes para os pacientes, para garantir uma integração significativa e segura nos cuidados de saúde.
Sobre o estudo
Validação externa limitada: a maioria dos sistemas de IA avaliados foram desenvolvidos com base em dados internos, com poucos estudos relatando validação externa, levantando preocupações sobre a sua generalização para diferentes populações de pacientes.
Esta revisão sistemática seguiu as diretrizes Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) para garantir o rigor metodológico. As buscas foram realizadas no Medical Literature Analysis and Retrieval System Online (MEDLINE), no banco de dados Excerpta Medica (EMBASE), na editora pública MEDLINE (PubMed) e no Institute of Electrical and Electronics Engineers (IEEE) Xplore e abrangeram um período de 10 anos até 27 de março de 2024, quando os sistemas ADM relacionados à IA tornaram-se relevantes nos estudos de saúde. A pesquisa incluiu termos relacionados à IA, aprendizado de máquina (ML), algoritmos de decisão, profissionais de saúde e resultados de pacientes.
Os estudos elegíveis incluíram projetos de intervenção ou observacionais com sistemas de apoio à decisão de IA desenvolvidos com ou aproveitando o ML. Os estudos tiveram que relatar resultados relevantes para os pacientes, como mortalidade, morbidade, tempo de internação, readmissão ou qualidade de vida relacionada à saúde. Os critérios de exclusão incluíram estudos sem pré-registro, sem padrão de controle de atendimento ou com foco em robótica ou outros sistemas não relacionados à tomada de decisão baseada em IA. O protocolo desta revisão foi pré-registrado no Registro Prospectivo Internacional de Revisões Sistemáticas (PROSPERO) e todas as alterações foram documentadas.
Os revisores verificaram títulos, resumos e textos completos com base em critérios pré-definidos. A extração de dados e a avaliação da qualidade foram realizadas de forma independente, utilizando formulários padronizados. O risco de viés foi avaliado usando a ferramenta Cochrane Risk of Bias 2 (RoB 2) e a ferramenta Risk of Bias in Non-Randomized Studies of Interventions (ROBINS-I) para levar em conta possíveis fatores de confusão, enquanto a transparência do relatório foi avaliada usando o Consolidated Standards Expansion of Reporting Trials - Artificial Intelligence (CONSORT-AI) e o relatório transparente de um modelo de predição multivariável para prognóstico ou diagnóstico individual - estrutura de inteligência artificial (TRIPOD-AI).
Os dados extraídos incluíram configurações do estudo, detalhes de desenho, intervenção e comparação, dados demográficos de pacientes e profissionais, características de algoritmos e medidas de resultados. Os estudos também foram classificados por tipo de sistema de IA, área clínica, objetivos de previsão e informações regulatórias e de financiamento. A análise também examinou se as contribuições únicas dos sistemas de IA para os resultados foram isoladas e validadas.
Resultados do estudo
Especialidades sub-representadas: Embora os estudos de psiquiatria e oncologia estivessem bem representados, outras especialidades, como os cuidados intensivos e a pneumologia, permanecem sub-representadas, distorcendo potencialmente a aplicabilidade mais ampla dos resultados.
A revisão sistemática incluiu 19 estudos, incluindo 18 ECRs e um estudo de coorte prospectivo, selecionados após análise de 3.000 registros. Esses estudos foram realizados em diferentes regiões, incluindo nove nos Estados Unidos, quatro na Europa, três na China e outros distribuídos mundialmente. Os ambientes incluíram 14 estudos em hospitais, três em ambulatórios, um em casa de repouso e um em ambiente misto.
Os estudos abrangeram diversas especialidades médicas, incluindo oncologia (4 estudos), psiquiatria (3 estudos), medicina interna hospitalar, neurologia e anestesiologia (2 estudos cada), bem como estudos individuais em diabetologia, pneumologia, cuidados intensivos e outras especialidades.
O número médio de participantes em todos os estudos foi de 243, com idade média de 59,3 anos. A proporção de mulheres foi em média de 50,5%, e 10 estudos relataram composição racial ou étnica, com uma mediana de 71,4% de participantes brancos. Doze estudos descreveram os profissionais de saúde pretendidos, tais como: por exemplo, enfermeiros ou prestadores de cuidados primários, e nove protocolos de formação detalhados que vão desde breves introduções à plataforma até sessões supervisionadas de vários dias.
Os sistemas de IA diferem em tipo e função. Sete estudos usaram sistemas de monitoramento para monitoramento em tempo real e alertas preditivos, seis usaram sistemas de personalização de tratamento e quatro estudos integraram múltiplas funções. Os exemplos incluem algoritmos para controle glicêmico em diabetes, atendimento psiquiátrico personalizado e monitoramento de tromboembolismo venoso. As fontes de dados de desenvolvimento variaram de grandes conjuntos de dados internos a dados multiinstitucionais agrupados, aplicando vários modelos de ML, como aumento de gradiente, redes neurais, classificadores bayesianos e modelos baseados em regressão. Apesar destes desenvolvimentos, a validação externa de algoritmos foi limitada na maioria dos estudos, levantando preocupações sobre a sua generalização para populações mais amplas de pacientes.
O risco de viés foi avaliado como baixo em quatro ECRs, moderado em sete e alto em outros sete, enquanto o estudo de coorte apresentava um sério risco de viés. A adesão às diretrizes CONSORT-AI e TRIPOD-AI variou, com três estudos alcançando conformidade total, enquanto outros tiveram adesão alta a baixa. A maioria dos estudos realizados antes da introdução destas diretrizes mostrou adesão moderada, embora referências explícitas às diretrizes fossem raras.
Os resultados mostraram uma mistura de benefícios e malefícios. Doze estudos relataram benefícios relevantes para os pacientes, incluindo reduções na mortalidade, melhora na depressão e no controle da dor e melhora na qualidade de vida. No entanto, apenas oito estudos incluíram avaliações de danos padronizadas e a maioria deles não conseguiu documentar de forma abrangente os eventos adversos. Embora seis sistemas de IA tenham recebido aprovações regulamentares, as relações entre o estatuto regulamentar, a qualidade do estudo e os resultados dos pacientes permaneceram obscuras.
Conclusões
Esta revisão sistemática destaca a falta de estudos de alta qualidade que avaliem os resultados relevantes para os pacientes dos sistemas ADM relacionados à IA na área da saúde. Embora os benefícios tenham sido consistentemente demonstrados na psiquiatria, outras áreas relataram resultados mistos, com evidências limitadas de melhorias na mortalidade, ansiedade e hospitalizações. A maioria dos estudos carecia de avaliações equilibradas de danos e benefícios e não conseguiu isolar as contribuições únicas da IA.
As conclusões destacam a necessidade urgente de relatórios transparentes, práticas de validação robustas e estruturas padronizadas para orientar a integração segura e eficaz da IA em ambientes clínicos.
Fontes: