O sistema de IA corresponde à precisão do diagnóstico e reduz os custos médicos

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Num novo estudo, o sistema de diagnóstico baseado em IA da Microsoft superou os médicos experientes na resolução dos casos médicos mais desafiantes de forma mais rápida, barata e precisa. Estudo: Diagnóstico sequencial com modelos de linguagem. Crédito da imagem: MetamorWorks/Shutterstock.com *Divulgação importante: Arxiv publica relatórios científicos preliminares que não são revisados ​​por pares e, portanto, não são considerados conclusivos, orientam a prática clínica/comportamentos relacionados à saúde ou são tratados como informações estabelecidas. Um estudo recente sobre os servidores Arxiv Preprint comparou a precisão do diagnóstico e os gastos com recursos dos sistemas de IA com os dos médicos em casos complexos. A equipe de IA da Microsoft demonstrou o uso eficiente da inteligência artificial (IA) em...

O sistema de IA corresponde à precisão do diagnóstico e reduz os custos médicos

Num novo estudo, o sistema de diagnóstico baseado em IA da Microsoft superou os médicos experientes na resolução dos casos médicos mais desafiantes de forma mais rápida, barata e precisa.

Estudo: Diagnóstico sequencial com modelos de linguagem. Crédito da imagem: MetamorWorks/Shutterstock.com

*Aviso importante: ArxivPublicar relatórios científicos preliminares que não sejam revisados ​​por pares e, portanto, não considerados conclusivos, orientem a prática clínica/comportamentos relacionados à saúde ou sejam tratados como informações estabelecidas.

Um estudo recente sobreArxivO Preprint Server comparou a precisão do diagnóstico e os gastos com recursos dos sistemas de IA com os dos médicos em casos complexos. A equipe de IA da Microsoft demonstrou o uso eficiente da inteligência artificial (IA) na medicina para enfrentar os desafios de diagnóstico que os médicos precisam decifrar.

Diagnóstico sequencial e modelos de linguagem

Os médicos geralmente diagnosticam uma doença nos pacientes por meio de um processo de raciocínio clínico que envolve questionamentos e testes iterativos passo a passo. Mesmo com informações iniciais limitadas, os médicos restringem o possível diagnóstico questionando o paciente e confirmando-o através de testes bioquímicos, exames de imagem, biópsia e outros procedimentos diagnósticos.

A resolução de um caso complexo requer um conjunto abrangente de competências, incluindo a identificação das questões ou testes mais críticos a seguir, a atenção aos custos dos testes para evitar o aumento da carga do paciente e o reconhecimento de evidências para fazer um diagnóstico confiável.

Vários estudos demonstraram a maior eficiência dos modelos de linguagem (LMS) na realização de exames de licenciamento médico e vinhetas de diagnóstico altamente estruturadas. No entanto, o desempenho da maioria dos LMs foi avaliado sob condições artificiais que são drasticamente diferentes dos ambientes clínicos do mundo real.

A maioria dos modelos LMS para avaliações diagnósticas são baseados em um questionário de múltipla escolha, e o diagnóstico é feito a partir de um conjunto de respostas predefinido. Um ciclo de diagnóstico sequencial reduzido aumenta o risco de superestimar a competência do modelo dos benchmarks estáticos. Além disso, esses modelos de diagnóstico representam o risco de solicitação indiscriminada de exames e fechamento prematuro do diagnóstico. Portanto, há uma necessidade urgente de um sistema de IA baseado em um ciclo de diagnóstico sequencial para melhorar a precisão do diagnóstico e reduzir os custos de testes.

Sobre o estudo

Para superar as desvantagens acima mencionadas dos modelos LMS para diagnóstico clínico, os cientistas desenvolveram o Sequential Diagnostic Benchmark (SDBench) como uma estrutura interativa para avaliar agentes de diagnóstico (humanos ou IA) através de encontros clínicos sequenciais realistas.

Para avaliar a precisão do diagnóstico, o presente estudo utilizou casos semanais publicados no New England Journal of Medicine (NEJM), a principal revista médica do mundo. Esta revista normalmente publica notas de casos de pacientes do Massachusetts General Hospital em um formato narrativo detalhado. Estes casos estão entre os mais desafiadores em termos de diagnóstico e intelectualmente exigentes na medicina clínica e muitas vezes requerem vários especialistas e testes de diagnóstico para confirmar um diagnóstico.

Sdbench por 304 casos da Conferência Clinicopatológica NEJM (2017-2025) em encontros diagnósticos graduais. Os dados médicos incluíram apresentações clínicas em diagnósticos definitivos que variam de doenças comuns (por exemplo, pneumonia) a distúrbios raros (por exemplo, hipoglicemia neonatal). Usando a plataforma interativa, os agentes de diagnóstico decidem quais perguntas fazer, quais exames solicitar e quando confirmar um diagnóstico.

Information Gatekeeper é um modelo de linguagem que revela detalhes clínicos de um arquivo de caso abrangente apenas quando consultado explicitamente a partir de um arquivo de caso abrangente. Também pode fornecer informações adicionais consistentes para testes não descritos na narrativa original do CPC. Após o diagnóstico final ter sido feito com base nas informações recebidas do gatekeeper, a precisão da avaliação clínica foi testada em relação ao diagnóstico real. Além disso, foi estimado o custo cumulativo de todos os exames diagnósticos solicitados e realizados em diagnóstico real. Ao avaliar a precisão e o custo do diagnóstico, o Sdbench indica o quão perto estamos de fornecer cuidados de alta qualidade a um custo sustentável.

Resultados do estudo

O presente estudo analisou o desempenho de todos os agentes de diagnóstico no SDBEN. Os agentes de IA foram avaliados em todos os 304 casos de NEJM, enquanto os médicos foram avaliados em um subconjunto retido de 56 conjuntos de testes. Este estudo descobriu que os agentes de IA tiveram melhor desempenho do que os médicos deste subgrupo.

Os médicos que atuam nos EUA e no Reino Unido, com uma mediana de 12 anos de experiência clínica, alcançaram 20% de precisão diagnóstica a um custo médio de US$ 2.963 por caso no SDBench, destacando a dificuldade inerente do benchmark. Os médicos gastaram em média 11,8 minutos por caso e solicitaram 6,6 questões e 7,2 exames. O GPT -4o superou os médicos tanto em precisão diagnóstica quanto em custo. Modelos prontos para uso comercialmente disponíveis oferecem precisão e custos diagnósticos variados.

O presente estudo também introduziu o MAI Diagnostic Orchestrator (MAI-DXO), uma plataforma em parceria com médicos que demonstrou maior eficiência diagnóstica do que médicos humanos e modelos de linguagem comercial. Comparado aos LMs comerciais, o Mai-DXO demonstrou maior precisão diagnóstica e uma redução significativa nos custos médicos de mais da metade. Por exemplo, o modelo O3 pronto para uso alcançou 78,6% de precisão de diagnóstico por US$ 7.850, enquanto May-DXO alcançou 79,9% de precisão por apenas US$ 2.397 ou 85,5% por US$ 7.184.

O MAI-DXO conseguiu isso simulando um painel virtual de “agentes médicos” com diferentes funções na geração de hipóteses, seleção de testes, conscientização de custos e verificação de erros. Ao contrário do prompt básico da IA, essa orquestração estruturada permitiu que o sistema fosse iterativo e eficiente.

Mai-Dxo é uma abordagem independente de modelo que demonstrou ganhos de precisão em vários modelos de linguagem, não apenas no modelo O3 Foundation.

Conclusões e perspectivas futuras

Os resultados do presente estudo mostram a maior precisão de diagnóstico e rentabilidade dos sistemas de IA quando são processados ​​de forma iterativa e cuidadosa. Sdbench e Mai-Dxo forneceram uma base empírica para o avanço do diagnóstico assistido por IA sob restrições realistas.

No futuro, o Mai-DXO precisa ser validado em ambientes clínicos onde a prevalência e a apresentação da doença ocorrem tão frequentemente quanto diariamente, e não como uma ocasião rara. Além disso, são necessários benchmarks médicos interativos em grande escala com mais de 304 casos. A incorporação de modalidades visuais e outras modalidades sensoriais, como imagens, também poderia melhorar a precisão do diagnóstico sem comprometer a relação custo-benefício.

No entanto, os autores observam limitações importantes. Os casos NEJM -CPC são selecionados por sua dificuldade e não refletem as apresentações clínicas cotidianas. O estudo não incluiu pacientes saudáveis ​​nem mediu taxas de falsos positivos. Além disso, as estimativas de custos de diagnóstico baseiam-se nos preços dos EUA e podem variar em todo o mundo.

Os modelos também foram testados em um conjunto de testes retido de casos recentes (2024-2025) para avaliar a generalização e evitar overfitting, já que muitos desses casos foram liberados após o corte de treinamento para a maioria dos modelos.

O artigo também levanta uma questão mais ampla: devemos comparar os sistemas de IA com médicos individuais ou com equipes médicas completas? Como o Mai-Dxo imita a colaboração multiespecialista, a comparação pode refletir um pouco mais próxima do cuidado baseado em equipe do que da prática individual.

No entanto, a investigação sugere que sistemas estruturados de IA como o Mai-DXO poderão um dia apoiar ou reforçar os médicos, especialmente em ambientes onde o acesso a especialistas é limitado ou caro.

Baixe sua cópia em PDF agora!

*Aviso importante: ArxivPublicar relatórios científicos preliminares que não sejam revisados ​​por pares e, portanto, não considerados conclusivos, orientem a prática clínica/comportamentos relacionados à saúde ou sejam tratados como informações estabelecidas.


Fontes:

Journal reference:
  • Preliminary scientific report.
    Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405  https://arxiv.org/abs/2506.22405