Estudo de Harvard sobre "Diagnóstico de emergência de IA mais preciso que médicos humanos" foi superestimado, dizem médicos: falta de comparação real

Estudo de Harvard indica que a precisão do diagnóstico de IA em emergências atinge 67,1%, superando médicos de clínica geral. Mas os médicos de emergência contestam, dizendo que se trata de uma exagerada cobertura mediática, pois o estudo não compara com médicos de emergência reais e a IA só consegue processar texto, ainda não podendo substituir completamente o médico humano.

Estudo de Harvard: IA supera médicos humanos no diagnóstico em salas de emergência

30 de abril, um estudo publicado na revista 《Science》 revelou que os diagnósticos feitos por IA em emergências são mais precisos do que os de dois médicos humanos, o que rapidamente chamou atenção da indústria e da mídia, mas ainda é prematuro afirmar que a IA pode realmente atuar como médica.

A equipe de pesquisa, composta por médicos e cientistas da computação da Harvard Medical School e do Centro Médico Shaare Zedek de Israel, descobriu que, em um experimento focado em 76 pacientes reais na sala de emergência do Shaare Zedek, os resultados diagnósticos gerados pelo OpenAI’s o1 e pelo modelo GPT-4o foram comparados com os diagnósticos de dois “médicos de clínica geral”.

Os resultados mostraram que, nas três principais fases de diagnóstico — triagem inicial, avaliação preliminar do médico de emergência e decisão de transferência para enfermaria comum ou unidade de terapia intensiva —, o modelo GPT-o1 teve maior precisão do que o GPT-4o e os médicos humanos.

Na fase de triagem inicial, onde há menos informações e a decisão correta é mais crucial, a vantagem da IA foi mais evidente. O modelo GPT-o1 forneceu diagnósticos totalmente precisos ou muito próximos em 67,1% dos casos, enquanto os dois médicos humanos tiveram taxas de precisão de 55,3% e 50,0%.

Fonte: Estudo de Harvard Estudo comparou o desempenho de dois médicos de clínica geral com GPT-o1 e GPT-4 em 76 casos clínicos

Sem pré-processamento, teste com dados reais

Ao contrário de muitos estudos anteriores, a equipe de Harvard não realizou qualquer pré-processamento nos dados clínicos do mundo real antes de testar os modelos, apresentando os casos de emergência exatamente como estavam nos registros eletrônicos de saúde.

Quanto à metodologia, Thomas Buckley, doutorando do programa de doutorado em Medicina de IA na Harvard Medical School, explicou que, para entender o desempenho do modelo em ambientes reais, a equipe precisou testar logo no início do atendimento, quando os dados clínicos ainda eram escassos.

O coautor do estudo, Adam Rodman, também mencionou que a precisão diagnóstica do modelo nas fases iniciais de decisão de casos reais de emergência igualou ou superou a dos médicos de clínica geral, o que surpreendeu a equipe.

Fonte: Estudo de Harvard Estudo: comparação do desempenho do GPT-o1-preview, GPT-4 e médicos na inferência diagnóstica clínica

IA só consegue lidar com texto, a medicina real é cheia de informações não textuais

O relatório também aponta que os atuais modelos de IA generativa, como chatbots, ainda têm limitações consideráveis na capacidade de raciocínio com entradas não textuais.

Isso porque, até o momento, os estudos avaliam apenas o desempenho da IA ao receber informações puramente textuais, enquanto o ambiente clínico real é repleto de dados não textuais, como aspectos auditivos — por exemplo, o nível de dor do paciente — e visuais, como a interpretação de imagens médicas.

IA ainda não consegue atuar de forma autônoma na medicina

Embora a IA demonstre excelente capacidade diagnóstica, o estudo reforça que isso não significa que os modelos possam atuar de forma independente na área médica.

Peter Brodeur, pesquisador clínico na Harvard Medical School, explica que, embora a IA possa acertar no diagnóstico inicial, ela também pode recomendar exames desnecessários, colocando o paciente em risco adicional. Portanto, na avaliação do desempenho e segurança médica, a supervisão humana ainda é essencial.

Falta de comparação com médicos de emergência reais na pesquisa de Harvard

A médica de emergência Kristen Panthagani também comentou que, embora os resultados de Harvard sejam interessantes, eles geraram manchetes sensacionalistas.

Ela apontou que, ao comparar IA com médicos de clínica geral, o estudo não incluiu dados de médicos de emergência reais, que atuam na linha de frente:

“Se quisermos comparar ferramentas de IA com a capacidade clínica de médicos, devemos começar comparando com profissionais que realmente atuam na especialidade. Se um grande modelo de linguagem (LLM) vencer um neurologista na prova de especialidade, não me surpreenderia, mas isso pouco ajuda na prática clínica.”

Ela destacou que o objetivo principal do primeiro atendimento em emergência é verificar se o paciente tem uma condição fatal, não fazer um diagnóstico final imediato.

O estudo de Harvard também alerta que, atualmente, não há um quadro de responsabilidade formal para diagnósticos feitos por IA, e os pacientes ainda precisam de médicos humanos para orientá-los em decisões de vida ou morte, além de ajudar na escolha de tratamentos difíceis.

A equipe de pesquisa apela que a comunidade médica precisa urgentemente realizar testes clínicos prospectivos rigorosos em ambientes reais de cuidado ao paciente, para avaliar essas tecnologias de IA, entender como implantá-las de forma segura na prática clínica e auxiliar os médicos humanos.

Leitura adicional:
Por que a IA generativa avança lentamente na medicina e no direito? Replit founder: verificabilidade é a chave

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar