ÚltimasNoticias Colombia

Tecnología

ChatGPT, Gemini y Grok fallan en salud: mitad de sus respuestas médicas son incorrectas

Fuente: El Colombiano - Tecnología
ChatGPT, Gemini y Grok fallan en salud: mitad de sus respuestas médicas son incorrectas
Imagen: El Colombiano - Tecnología Ver articulo original

Un estudio internacional revela que los chatbots de IA cometen errores graves en consultas sobre salud: el 50% de sus respuestas tienen problemas y el 20% son altamente peligrosas. El principal culpable es que estas máquinas no "saben" realmente, solo predicen palabras sin verificar fuentes ni distinguir entre ciencia real y mitos. Además, presentan información con falsa certeza y generan referencias bibliográficas completamente inventadas.

Si eres de los que pregunta a ChatGPT o Gemini sobre síntomas, dietas o qué vitaminas tomar, detente un momento. Un estudio publicado en la revista BMJ Open acaba de demostrar que confiar en estos chatbots para consejos médicos es francamente arriesgado.

Investigadores del Instituto Lundquist para la Innovación Biomédica pusieron a prueba cinco de los modelos más populares: Gemini (Google), DeepSeek, Meta AI, ChatGPT (OpenAI) y Grok (xAI). Hicieron 250 preguntas sobre cáncer, vacunas, células madre, nutrición y rendimiento deportivo, simulando búsquedas reales. Los resultados no dejaron lugar a dudas: la mitad de las respuestas salió problemática. Peor aún, el 20% fue clasificado como altamente peligroso, capaz de llevar a alguien a seguir tratamientos ineficaces o dañinos sin supervisión de un médico.

Lo más preocupante no es solo que fallen, sino cómo fallan. Nicholas Tiller, investigador principal del estudio, lo explica de manera clara: "Mucha gente tiende a pensar que los chatbots son IA omniscientes con un pozo profundo de conocimiento. Pero no poseen conocimiento en el sentido humano; no 'saben' cosas". Estos modelos están diseñados simplemente para predecir la siguiente palabra más probable basándose en datos enormes que incluyen artículos científicos y foros de Reddit. El problema es que no pueden verificar qué información es correcta y cuál no. "No pueden aplicar evidencia ni ponderar qué fuentes son precisas y cuáles no. Por eso ese falso equilibrio es tan común", añade Tiller.

La máquina que más falló fue Grok de xAI, con el 58% de respuestas altamente problemáticas. Gemini tuvo mejor desempeño, pero ninguna se salvó del mismo defecto: todas usan lenguaje demasiado técnico, equivalente al de un universitario. Esto puede parecer impresionante, pero es un peligro. Las respuestas complejas y largas hacen que el usuario confíe más en la máquina, incluso cuando esa complejidad no mejora la precisión. Es pura ilusión de credibilidad.

Hay otro problema igual de grave: estas máquinas inventan referencias. El estudio encontró que ningún chatbot logró dar una lista de fuentes completamente real. En su lugar, generan títulos de estudios y nombres de autores que suenan perfectamente creíbles pero que no existen. Solo el 40% de las referencias citadas eran intactas. Este fenómeno se llama "alucinaciones" y es una limitación inherente a cómo funcionan estos modelos.

Los investigadores son claros en su conclusión: a medida que más gente usa estos chatbots para temas médicos, necesitamos educación pública, capacitación profesional y regulación estricta. Sin eso, la IA generativa en salud puede terminar erosionando la confianza en la ciencia en lugar de ayudar.

La lección es simple: el chatbot puede ser un buscador rápido para preguntas generales, pero para cualquier cosa relacionada con tu salud, habla con un médico. La IA aún no está lista para ser tu consejero de medicina.

Noticias relacionadas