Google Gemini e Bard passam no exame de oftalmologia

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Veja o desempenho do Google Gemini e Bard no exame de Oftalmologia. Estudo mostra seu desempenho em diferentes países e disciplinas. Informações importantes!

Erfahren Sie, wie Google Gemini und Bard bei der Ophthalmologie-Prüfung abschneiden. Studie zeigt ihre Leistung in verschiedenen Ländern und Disziplinen. Wichtige Erkenntnisse!
Veja o desempenho do Google Gemini e Bard no exame de Oftalmologia. Estudo mostra seu desempenho em diferentes países e disciplinas. Informações importantes!

Google Gemini e Bard passam no exame de oftalmologia

Em um estudo publicado recentemente na revistaOlho,Pesquisadores do Canadá avaliaram o desempenho de dois chatbots de inteligência artificial (IA), Google Gemini e Bard, no exame do Ophthalmology Board.

Eles descobriram que ambas as ferramentas alcançaram uma precisão de resposta aceitável e tiveram um bom desempenho no campo da oftalmologia, embora houvesse algumas diferenças entre os países.

fundo

Chatbots de IA como ChatGPT (abreviação de Chat-Generative Pre-Trained Transformer), Bard e Gemini estão sendo cada vez mais usados ​​na área médica. Seu desempenho evolui continuamente entre exames e disciplinas.

Embora a precisão do ChatGPT-3.5 tenha sido de até 64% nas etapas um e dois dos exames AMBOSS e NBME (abreviação de National Board Medical Examination), versões mais recentes, como o ChatGPT-4, mostraram desempenho melhorado.

Bard e Gemini, do Google, fornecem respostas baseadas em diversos treinamentos culturais e linguísticos e podem adaptar informações a países específicos. No entanto, as respostas variam consoante a região e requerem mais investigação para garantir a consistência, especialmente em aplicações médicas onde a precisão é crítica para a segurança do paciente.

No presente estudo, os pesquisadores procuraram avaliar o desempenho do Google Gemini e Bard usando uma série de questões práticas elaboradas para o exame de certificação do Ophthalmology Board.

Sobre o estudo

O desempenho do Google Gemini e Bard foi avaliado por meio de 150 questões de múltipla escolha baseadas em texto do EyeQuiz, uma plataforma educacional para profissionais médicos especializados em oftalmologia.

O portal fornece questões práticas para vários exames, incluindo o Programa de Avaliação de Conhecimento Oftalmológico (OKAP), exames do National Board, como o exame do American Board of Ophthalmology (ABO), e alguns exames de pós-graduação.

As perguntas foram categorizadas manualmente e os dados foram coletados nas versões Bard e Gemini disponíveis em 30 de novembro e 28 de dezembro de 2023, respectivamente. Precisão, fornecimento de explicação, tempo de resposta e extensão da pergunta foram avaliados para ambas as ferramentas.

As análises secundárias incluíram a avaliação do desempenho em outros países que não os Estados Unidos (EUA), incluindo Vietname, Brasil e Países Baixos, utilizando redes privadas virtuais (VPNs).

Testes estatísticos, incluindo testes qui-quadrado e Mann-Whitney U, foram realizados para comparar o desempenho de diferentes países e modelos de chatbot. A regressão logística multivariada foi utilizada para examinar os fatores que influenciam as respostas corretas.

Resultados e discussão

Bard e Gemini responderam prontamente e consistentemente a todas as 150 perguntas, sem muita demanda. Na análise primária com as versões norte-americanas, Bard demorou 7,1 ± 2,7 segundos para responder, enquanto Gemini demorou 7,1 ± 2,8 segundos, que teve uma duração média de resposta mais longa.

Na análise primária usando o formato de chatbots dos EUA, tanto Bard quanto Gemini alcançaram 71% de precisão, respondendo corretamente 106 de 150 perguntas. Bard forneceu explicações para 86% de suas respostas, enquanto Gemini forneceu explicações para todas as respostas.

Verificou-se que Bard teve melhor desempenho em cirurgia orbital e plástica, enquanto Gemini apresentou desempenho superior em oftalmologia geral, cirurgia orbital e plástica, glaucoma e uveíte. No entanto, ambas as ferramentas tiveram dificuldades nas categorias de catarata, cristalino e cirurgia refrativa.

Na análise secundária com Bard do Vietnã, o chatbot respondeu corretamente 67% das questões, semelhante à versão norte-americana. No entanto, usar o Bard do Vietnã resultou em opções de resposta diferentes para 21% das perguntas em comparação com a versão dos EUA.

Para gêmeos do Vietnã, 74% das perguntas foram respondidas corretamente de forma semelhante à versão dos EUA, embora tenham havido diferenças na seleção de respostas para 15% das perguntas em comparação com a versão dos EUA. Em ambos os casos, algumas questões respondidas incorretamente pelas versões dos EUA foram respondidas corretamente pelas versões do Vietname e vice-versa.

As versões vietnamitas de Bard e Gemini explicaram 86% e 100% de suas respostas, respectivamente. Bard teve melhor desempenho em cirurgia de retina e vítreo e cirurgia orbital e plástica (80% de precisão), enquanto Gemini teve melhor desempenho em doenças da córnea e externas, oftalmologia geral e glaucoma (87% de precisão cada).

Bard lutou mais com catarata e lentes (40% de precisão), enquanto Gemini lutou com desafios de oftalmologia pediátrica e estrabismo (60% de precisão). O desempenho do Gemini no Brasil e na Holanda foi relativamente pior do que o das versões dos EUA e do Vietnã.

Apesar dos resultados promissores, as limitações do estudo incluem o pequeno tamanho da amostra de perguntas, a dependência de um banco de perguntas disponível publicamente, os efeitos inexplorados das solicitações do usuário, a velocidade da Internet, o tráfego do site nos tempos de resposta e explicações incorretas ocasionais dos chatbots.

Estudos futuros poderiam examinar a capacidade relativamente inexplorada dos chatbots de interpretar imagens oculares. Mais pesquisas são necessárias para abordar as limitações e explorar aplicações adicionais nesta área.

Diploma

Em resumo, embora as versões dos EUA e do Vietnã do Bard e do Gemini destaquem a possível variabilidade de resposta relacionada à localização do usuário, o estudo demonstrou desempenho satisfatório em questões práticas de oftalmologia.

Avaliações futuras que acompanhem a melhoria dos chatbots de IA e comparações entre residentes de oftalmologia e chatbots de IA poderão fornecer informações valiosas sobre a sua eficácia e fiabilidade.


Fontes:

Journal reference: