Google Gemini e Bard passam no exame de oftalmologia
Veja o desempenho do Google Gemini e Bard no exame de Oftalmologia. Estudo mostra seu desempenho em diferentes países e disciplinas. Informações importantes!

Google Gemini e Bard passam no exame de oftalmologia
Em um estudo publicado recentemente na revistaOlho,Pesquisadores do Canadá avaliaram o desempenho de dois chatbots de inteligência artificial (IA), Google Gemini e Bard, no exame do Ophthalmology Board.
Eles descobriram que ambas as ferramentas alcançaram uma precisão de resposta aceitável e tiveram um bom desempenho no campo da oftalmologia, embora houvesse algumas diferenças entre os países.
fundo
Chatbots de IA como ChatGPT (abreviação de Chat-Generative Pre-Trained Transformer), Bard e Gemini estão sendo cada vez mais usados na área médica. Seu desempenho evolui continuamente entre exames e disciplinas.
Embora a precisão do ChatGPT-3.5 tenha sido de até 64% nas etapas um e dois dos exames AMBOSS e NBME (abreviação de National Board Medical Examination), versões mais recentes, como o ChatGPT-4, mostraram desempenho melhorado.
Bard e Gemini, do Google, fornecem respostas baseadas em diversos treinamentos culturais e linguísticos e podem adaptar informações a países específicos. No entanto, as respostas variam consoante a região e requerem mais investigação para garantir a consistência, especialmente em aplicações médicas onde a precisão é crítica para a segurança do paciente.
No presente estudo, os pesquisadores procuraram avaliar o desempenho do Google Gemini e Bard usando uma série de questões práticas elaboradas para o exame de certificação do Ophthalmology Board.
Sobre o estudo
O desempenho do Google Gemini e Bard foi avaliado por meio de 150 questões de múltipla escolha baseadas em texto do EyeQuiz, uma plataforma educacional para profissionais médicos especializados em oftalmologia.
O portal fornece questões práticas para vários exames, incluindo o Programa de Avaliação de Conhecimento Oftalmológico (OKAP), exames do National Board, como o exame do American Board of Ophthalmology (ABO), e alguns exames de pós-graduação.
As perguntas foram categorizadas manualmente e os dados foram coletados nas versões Bard e Gemini disponíveis em 30 de novembro e 28 de dezembro de 2023, respectivamente. Precisão, fornecimento de explicação, tempo de resposta e extensão da pergunta foram avaliados para ambas as ferramentas.
As análises secundárias incluíram a avaliação do desempenho em outros países que não os Estados Unidos (EUA), incluindo Vietname, Brasil e Países Baixos, utilizando redes privadas virtuais (VPNs).
Testes estatísticos, incluindo testes qui-quadrado e Mann-Whitney U, foram realizados para comparar o desempenho de diferentes países e modelos de chatbot. A regressão logística multivariada foi utilizada para examinar os fatores que influenciam as respostas corretas.
Resultados e discussão
Bard e Gemini responderam prontamente e consistentemente a todas as 150 perguntas, sem muita demanda. Na análise primária com as versões norte-americanas, Bard demorou 7,1 ± 2,7 segundos para responder, enquanto Gemini demorou 7,1 ± 2,8 segundos, que teve uma duração média de resposta mais longa.
Na análise primária usando o formato de chatbots dos EUA, tanto Bard quanto Gemini alcançaram 71% de precisão, respondendo corretamente 106 de 150 perguntas. Bard forneceu explicações para 86% de suas respostas, enquanto Gemini forneceu explicações para todas as respostas.
Verificou-se que Bard teve melhor desempenho em cirurgia orbital e plástica, enquanto Gemini apresentou desempenho superior em oftalmologia geral, cirurgia orbital e plástica, glaucoma e uveíte. No entanto, ambas as ferramentas tiveram dificuldades nas categorias de catarata, cristalino e cirurgia refrativa.
Na análise secundária com Bard do Vietnã, o chatbot respondeu corretamente 67% das questões, semelhante à versão norte-americana. No entanto, usar o Bard do Vietnã resultou em opções de resposta diferentes para 21% das perguntas em comparação com a versão dos EUA.
Para gêmeos do Vietnã, 74% das perguntas foram respondidas corretamente de forma semelhante à versão dos EUA, embora tenham havido diferenças na seleção de respostas para 15% das perguntas em comparação com a versão dos EUA. Em ambos os casos, algumas questões respondidas incorretamente pelas versões dos EUA foram respondidas corretamente pelas versões do Vietname e vice-versa.
As versões vietnamitas de Bard e Gemini explicaram 86% e 100% de suas respostas, respectivamente. Bard teve melhor desempenho em cirurgia de retina e vítreo e cirurgia orbital e plástica (80% de precisão), enquanto Gemini teve melhor desempenho em doenças da córnea e externas, oftalmologia geral e glaucoma (87% de precisão cada).
Bard lutou mais com catarata e lentes (40% de precisão), enquanto Gemini lutou com desafios de oftalmologia pediátrica e estrabismo (60% de precisão). O desempenho do Gemini no Brasil e na Holanda foi relativamente pior do que o das versões dos EUA e do Vietnã.
Apesar dos resultados promissores, as limitações do estudo incluem o pequeno tamanho da amostra de perguntas, a dependência de um banco de perguntas disponível publicamente, os efeitos inexplorados das solicitações do usuário, a velocidade da Internet, o tráfego do site nos tempos de resposta e explicações incorretas ocasionais dos chatbots.
Estudos futuros poderiam examinar a capacidade relativamente inexplorada dos chatbots de interpretar imagens oculares. Mais pesquisas são necessárias para abordar as limitações e explorar aplicações adicionais nesta área.
Diploma
Em resumo, embora as versões dos EUA e do Vietnã do Bard e do Gemini destaquem a possível variabilidade de resposta relacionada à localização do usuário, o estudo demonstrou desempenho satisfatório em questões práticas de oftalmologia.
Avaliações futuras que acompanhem a melhoria dos chatbots de IA e comparações entre residentes de oftalmologia e chatbots de IA poderão fornecer informações valiosas sobre a sua eficácia e fiabilidade.
Fontes:
-
Mihalache, A. et al., (2024) Desempenho do chatbot de inteligência artificial Google Gemini e Bard na avaliação do conhecimento oftalmológico.Olho.faça: https://doi.org/10.1038/s41433-024-03067-4. https://www.nature.com/articles/s41433-024-03067-4