En resumen Casi la mitad de las respuestas de los chatbots de IA a preguntas de salud fueron calificadas como "algo" o "muy" problemáticas en una auditoría de BMJ Open de cinco chatbots principales. Grok produjo significativamente más respuestas "muy problemáticas" de lo estadísticamente esperado, mientras que las preguntas sobre nutrición y rendimiento atlético que

Decrypt

2026-05-13 14:56:41

En resumen

C casi la mitad de las respuestas de chatbots de IA a preguntas de salud fueron calificadas como “algo” o “muy” problemáticas en una auditoría de BMJ Open de cinco chatbots principales.
Grok produjo respuestas significativamente más “altamente problemáticas” de lo estadísticamente esperado, mientras que las preguntas sobre nutrición y rendimiento atlético fueron las peor valoradas en todos los modelos.
Ningún chatbot produjo una lista de referencias completamente precisa.

Casi la mitad de las respuestas de salud y medicina proporcionadas por los chatbots de IA más populares de hoy son incorrectas, engañosas o peligrosamente incompletas—y se entregan con total confianza. Esa es la conclusión principal de un nuevo estudio revisado por pares publicado el 14 de abril en BMJ Open. Investigadores de UCLA, la Universidad de Alberta y Wake Forest probaron cinco chatbots—Gemini, DeepSeek, Meta AI, ChatGPT y Grok—sobre 250 preguntas de salud que abarcan cáncer, vacunas, células madre, nutrición y rendimiento atlético. Los resultados: el 49,6% de las respuestas fueron problemáticas. El 30% fueron “algo problemáticas” y el 19,6% “altamente problemáticas”—el tipo de respuesta que podría llevar a alguien hacia tratamientos ineficaces o peligrosos. Para poner a prueba los modelos, el equipo utilizó un enfoque adversarial—formular preguntas deliberadamente para empujar a los chatbots hacia malos consejos. Las preguntas incluyeron si 5G causa cáncer, qué terapias alternativas son mejores que la quimioterapia y cuánto leche cruda hay que beber para beneficios de salud.

“Por defecto, los chatbots no acceden a datos en tiempo real sino que generan salidas infiriendo patrones estadísticos de sus datos de entrenamiento y prediciendo secuencias de palabras probables,” escriben los autores. “No razonan ni ponderan evidencia, ni son capaces de hacer juicios éticos o basados en valores.” Ese es el problema principal. Los chatbots no consultan a un médico—solo hacen coincidencias de patrones en el texto. Y hacer coincidencias en internet, donde la desinformación se propaga más rápido que las correcciones, produce exactamente este tipo de salida. Los investigadores continúan: “Esta limitación conductual significa que los chatbots pueden reproducir respuestas que suenan autoritativas pero que potencialmente son defectuosas.” De 250 preguntas, solo dos provocaron una negativa a responder—ambas de Meta AI, sobre esteroides anabólicos y tratamientos alternativos contra el cáncer. Todos los demás chatbots siguieron hablando.

El rendimiento varió según el tema. Las vacunas y el cáncer fueron los mejores—en parte porque la investigación de alta calidad sobre esos temas está bien estructurada y ampliamente reproducida en línea. La nutrición tuvo el peor rendimiento estadístico de cualquier categoría en el estudio, con el rendimiento en rendimiento atlético cerca detrás. Si has estado preguntando a la IA si la dieta carnívora es saludable, probablemente la respuesta que recibiste no estaba basada en el consenso científico.

Grok destacó por las razones equivocadas. El chatbot de Elon Musk fue el peor en rendimiento de todos los modelos evaluados. De sus 50 respuestas, 29 (58%) fueron calificadas como problemáticas en general—la mayor proporción entre los cinco chatbots. Quince de esas (30%) fueron altamente problemáticas, mucho más de lo esperado bajo una distribución aleatoria. Los investigadores relacionan esto directamente con los datos de entrenamiento de Grok: X es una plataforma conocida por difundir rápidamente y ampliamente desinformación sobre salud. Las citas fueron un desastre aparte. En todos los modelos, la puntuación media de completitud para las referencias fue solo del 40%—y ningún chatbot produjo una lista de referencias completamente precisa. Los modelos inventaron autores, revistas y títulos. DeepSeek incluso lo reconoció: El modelo dijo a los investigadores que sus referencias se generaron a partir de patrones de datos de entrenamiento “y pueden no corresponder a fuentes verificables reales.” El problema de legibilidad agrava todo lo demás. Todas las respuestas de los chatbots puntuaron en el rango de “Difícil” en la escala de Facilidad de Lectura de Flesch—equivalente a nivel de estudiantes de segundo a último año de universidad. Eso excede la recomendación de la Asociación Médica Americana de que los materiales de educación para pacientes no deben superar el nivel de lectura de sexto grado. En otras palabras, estos chatbots aplican el mismo truco que suelen hacer los políticos y debatientes profesionales: lanzarte tantas palabras técnicas en tan poco tiempo que terminas pensando que saben más de lo que en realidad saben. Cuanto más difícil sea de entender algo, más fácil será de malinterpretar. Los hallazgos reflejan un estudio de Oxford de febrero de 2026 cubierto por Decrypt que encontró que el consejo médico de IA no es mejor que los métodos tradicionales de autodiagnóstico. También se alinean con preocupaciones más amplias sobre cómo los chatbots de IA ofrecen orientación inconsistente dependiendo de cómo se formulen las preguntas. “Conforme continúa la expansión del uso de chatbots de IA, nuestros datos resaltan la necesidad de educación pública, capacitación profesional y supervisión regulatoria para garantizar que la IA generativa apoye, en lugar de socavar, la salud pública,” concluyen los autores.

El estudio solo evaluó cinco chatbots de nivel gratuito, y el método de preguntas adversariales puede sobreestimar las tasas de fallo en el mundo real. Pero los autores son claros: el problema no son los casos extremos. Es que estos modelos se despliegan a gran escala, son utilizados por no expertos como motores de búsqueda, y están configurados—por diseño—para casi nunca decir “No lo sé.”

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
1.59M Popularidad
#
IsraelStrikesIranBTCPlunges
46.59K Popularidad
#
#DailyPolymarketHotspot
927.87K Popularidad
#
JaneStreetReducesBitcoinETFHoldings
101.37K Popularidad
#
TrumpVisitsChinaMay13
26.09M Popularidad

Fijado

La mitad de los consejos de salud de IA son incorrectos—y parecen justos

En resumen

Temas de actualidad

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChinaMay13

Fijado