Dr. Scott Gottlieb é médico e foi o 23º chefe da Food and Drug Administration dos EUA. Ele é colaborador da CNBC e membro do conselho da Pfizer e de várias outras startups de saúde e tecnologia. Ele também é sócio da empresa de capital de risco New Enterprise Associates. Shani Benezra é pesquisadora associada sênior do American Enterprise Institute e ex-produtora associada do Face the Nation da CBS News.
Muitos consumidores e profissionais de saúde utilizam chatbots que dependem de modelos de linguagem rica para responder a perguntas médicas e escolher opções de tratamento. Queríamos descobrir se existem grandes diferenças entre as principais plataformas em termos de adequação clínica.
Para obter uma licença médica nos Estados Unidos, os aspirantes a médicos devem concluir com sucesso três níveis do Exame de Licenciamento Médico dos EUA, sendo o terceiro e último nível geralmente considerado o mais difícil. Os candidatos devem responder corretamente a aproximadamente 60% das questões e, no passado, a nota média de aprovação girava em torno de 75%.
Quando submetemos os principais modelos de linguagem grande ao mesmo teste de nível 3, eles tiveram um desempenho significativamente melhor, alcançando resultados que excederam significativamente os de muitos médicos.
No entanto, houve algumas diferenças perceptíveis entre os modelos.
O teste USMLE Step 3 é normalmente realizado após o primeiro ano de residência e examina se os graduados em medicina podem aplicar seus conhecimentos de ciências clínicas à prática independente da medicina. Ele avalia a capacidade de um novo médico de gerenciar o atendimento ao paciente em uma ampla gama de disciplinas médicas e inclui questões de múltipla escolha e simulações de casos assistidas por computador.
Isolamos 50 perguntas do teste de amostra USMLE Step 3 de 2023 para avaliar a competência clínica de cinco diferentes modelos de linguagem principais, alimentando o mesmo conjunto de perguntas para cada uma dessas plataformas – ChatGPT, Claude, Google Gêmeos, Grok e Lhama.
Outros estudos testaram o desempenho médico destes modelos, mas, até onde sabemos, esta é a primeira vez que estas cinco plataformas líderes são comparadas frente a frente. Estes resultados poderão fornecer aos consumidores e fornecedores algumas informações sobre onde se devem dirigir.
Veja como eles se apresentaram:
- ChatGPT-4o (OpenAI) – 49/50 questões corretas (98%)
- Claude 3,5 (antrópico) – 45/50 (90%)
- Gêmeos Avançado (Google) – 43/50 (86%)
- Grok (xAI) – 42/50 (84%)
- HuggingChat (Lama) – 33/50 (66%)
Em nosso experimento, o ChatGPT-4o da OpenAI emergiu como o de melhor desempenho, alcançando uma pontuação de 98%. Forneceu análises médicas detalhadas usando uma linguagem que lembra a de um médico. Não só forneceu respostas com justificações detalhadas, mas também contextualizou o seu processo de tomada de decisão e explicou por que as respostas alternativas eram menos apropriadas.
Claude da Anthropic ficou em segundo lugar com 90%. As respostas foram mais humanas, a linguagem mais simples e a estrutura dos marcadores mais compreensível para os pacientes. Gemini, que obteve 86%, não forneceu respostas tão completas quanto ChatGPT ou Claude, tornando o raciocínio mais difícil de entender, mas as respostas foram concisas e diretas.
Grok, o chatbot do xAI de Elon Musk, obteve respeitáveis 84%, mas não forneceu nenhum raciocínio descritivo durante nossa análise, dificultando a compreensão de como chegou às suas respostas. Enquanto o HuggingChat – um site de código aberto desenvolvido por Metas Llama – teve o pior desempenho com 66%, mas ainda forneceu boas justificativas para as perguntas que respondeu corretamente e forneceu respostas precisas e links para fontes.
Uma pergunta que a maioria dos modelos respondeu incorretamente envolvia uma mulher de 75 anos com hipotética doença cardíaca. A questão era qual seria o próximo passo mais apropriado em sua investigação. Claude foi o único modelo que deu a resposta correta.
Outra questão notável envolveu um paciente do sexo masculino de 20 anos que apresentava sintomas de uma infecção sexualmente transmissível. Os médicos foram questionados sobre qual das cinco opções seria o próximo passo apropriado em sua investigação. O ChatGPT determinou corretamente que o paciente deveria receber uma consulta para um teste sorológico de HIV em três meses, mas o modelo foi além e recomendou uma consulta de acompanhamento em uma semana para garantir que os sintomas do paciente haviam desaparecido e os antibióticos estavam controlando sua cepa de infecção. abordado. Para nós, a resposta destacou a capacidade do modelo para um pensamento mais amplo que vai além das escolhas binárias da investigação.
Esses modelos não foram concebidos para o pensamento médico; são produtos de tecnologia de consumo projetados para tarefas como tradução de idiomas e criação de conteúdo. Apesar de suas origens não médicas, eles demonstraram uma surpreendente aptidão para o raciocínio clínico.
Plataformas mais recentes são desenvolvidas especificamente para resolver problemas médicos. O Google lançou recentemente o Med-Gemini, uma versão melhorada de seus modelos Gemini anteriores, adaptada para aplicações médicas e equipada com recursos de pesquisa baseados na web para melhorar o raciocínio clínico.
À medida que estes modelos evoluem, tornar-se-ão cada vez mais capazes de analisar dados médicos complexos, diagnosticar doenças e recomendar tratamentos. Eles poderiam fornecer um nível de precisão e consistência que os usuários humanos às vezes têm dificuldade em alcançar devido ao cansaço e aos erros. E abrem caminho para um futuro em que os portais de tratamento não sejam mais controlados por médicos, mas por máquinas.