ChatGPT, Gemini y otros bots de IA dan malos consejos médicos la mitad del tiempo.
Las personas ya utilizan chatbots de IA como motores de búsqueda para obtener información de salud cotidiana. Ese hábito parece más arriesgado después de que un nuevo estudio encontró que la mitad de las respuestas de cinco bots principales eran problemáticas, incluso cuando las respuestas sonaban pulidas y seguras.
Los investigadores probaron ChatGPT, Gemini, Grok, Meta AI y DeepSeek con 250 solicitudes sobre cáncer, vacunas, células madre, nutrición y rendimiento atlético.
Las solicitudes reflejaron consultas de salud comunes y temas de desinformación familiares, y luego midieron si los bots se mantenían alineados con la evidencia científica o se desviaban hacia consejos engañosos y potencialmente inseguros.
Las preguntas amplias expusieron las mayores brechas
Los resultados más débiles provinieron de solicitudes abiertas. Esas preguntas más amplias produjeron muchas más respuestas problemáticas de lo esperado, mientras que las solicitudes cerradas eran más propensas a producir respuestas más seguras.
Unsplash
Eso importa porque las personas reales generalmente no hacen preguntas médicas en un formato ordenado de opción múltiple. Preguntan si un tratamiento funciona, si una vacuna es segura o qué podría mejorar el rendimiento atlético.
En el estudio, ese tipo de solicitud empujó a los bots hacia respuestas que mezclaban evidencia sólida con afirmaciones más débiles o engañosas.
Fuerte confianza, fuentes inestables
Las fallas no se detuvieron en las respuestas mismas. La calidad de las referencias fue pobre, con un puntaje promedio de completitud del 40%, y ninguno de los chatbots produjo una lista de referencias completamente precisa.
Eso debilita una de las principales razones por las que las personas confían en las respuestas de los chatbots. Una respuesta puede parecer fundamentada y autoritaria, pero desmoronarse una vez que se verifican las citas.
Gemini en un smartphone Unsplash
Los investigadores también señalaron referencias fabricadas, mientras que los bots aún respondían con certeza y ofrecían casi ninguna advertencia.
Por qué esto importa más allá de una prueba
Hay límites en los hallazgos. El estudio cubrió solo cinco chatbots, estos productos cambian rápidamente, y las solicitudes fueron diseñadas para presionar los modelos, lo que puede exagerar con qué frecuencia aparecen respuestas malas en el uso cotidiano.
Aún así, la conclusión principal es difícil de ignorar. Estos sistemas fueron probados en temas médicos basados en evidencia, y la mitad de las respuestas aún cruzaron hacia un territorio defectuoso o incompleto.
Por ahora, los chatbots pueden ayudar a resumir información o formular preguntas de seguimiento, pero aún no parecen lo suficientemente confiables para decisiones médicas significativas.
Otros artículos
ChatGPT, Gemini y otros bots de IA dan malos consejos médicos la mitad del tiempo.
Un estudio de BMJ Open encontró que cinco de los principales chatbots de IA a menudo devolvían consejos de salud defectuosos, siendo las preguntas abiertas las que provocaban las peores respuestas y la calidad de las citas se desmoronaba bajo escrutinio.
