Chatbots de IA fallan en razonamiento médico pese a acertar en diagnósticos finales

Dos estudios internacionales demuestran que aunque los sistemas de inteligencia artificial pueden llegar a diagnósticos correctos, presentan debilidades graves en el razonamiento clínico y generan información médica problemática para el público. Los chatbots no evalúan evidencia como especialistas, tienden a conclusiones prematuras y ofrecen referencias fabricadas. Los investigadores advierten que estos sistemas aún no están listos para interactuar directamente con pacientes sin supervisión médica.
La inteligencia artificial avanza rápidamente en medicina, pero dos investigaciones recientes ponen el freno a la euforia. Aunque estos sistemas logran acertar en diagnósticos finales, tienen problemas serios en la forma como razonan clínicamente. El resultado es que pueden sonar convincentes incluso cuando cometen errores.
El primer estudio, publicado en JAMA Network Open, evaluó 21 modelos de lenguaje diferentes. Los investigadores crearon un nuevo sistema de medición llamado PrIME-LLM para analizar cómo estos sistemas razonan a lo largo de todo el proceso médico. Lo que encontraron fue preocupante: mientras que los modelos acertaban en el diagnóstico final, fallaban en pasos intermedios cruciales. Por ejemplo, tenían dificultades para generar diagnósticos alternativos o para manejar la incertidumbre, algo que los médicos hacen naturalmente. Los sistemas tendían a llegar rápidamente a una única respuesta, sin considerar otras posibilidades. Incluso los modelos especializados en "razonar" no mejoraron mucho este problema.
El segundo estudio, publicado en BMJ Open, revisó cinco chatbots de acceso público que responden preguntas de salud. Los resultados fueron alarmantes: cerca de la mitad de las respuestas fueron clasificadas como "algo" o "muy" problemáticas, incluso en temas donde la evidencia científica es clara. Los investigadores encontraron errores frecuentes, información omitida y, en algunos casos, contenido potencialmente engañoso. Además, las referencias que incluían los chatbots eran incompletas, inexactas o directamente inventadas.
El problema de fondo es que estos sistemas no funcionan como los médicos. Los chatbots no acceden a información actualizada ni evalúan evidencia de manera crítica. En cambio, generan texto basado en patrones estadísticos que aprendieron durante su entrenamiento. Esto significa que pueden sonar muy seguros y profesionales, pero estar equivocados. Algunos temas también son más problemáticos que otros: los chatbots se desempeñan mejor en áreas bien documentadas como vacunas o cáncer, pero fallan más frecuentemente en nutrición, rendimiento deportivo o terapias con células madre.
Hay otro problema que afecta directamente al usuario colombiano: el lenguaje. Aunque las respuestas son extensas y detalladas, están escritas en un nivel de complejidad equivalente a educación universitaria, muy por encima de lo recomendado para información dirigida al público general. Esto puede confundir al lector y, paradójicamente, aumentar la confianza en respuestas que no necesariamente son correctas.
Ambos estudios coinciden en el riesgo real: no se trata solo de errores puntuales, sino de la combinación de confianza aparente, razonamiento incompleto y falta de transparencia. En el sistema de salud colombiano, esto podría significar pacientes que toman decisiones mal fundamentadas basadas en información de chatbots.
Los investigadores reconocen que la inteligencia artificial tiene potencial para apoyar a los médicos, pero advierten que aún no está lista para funcionar de forma independiente en diagnósticos o atención directa. Por ahora, su uso debe ser supervisado por profesionales y limitado a contextos donde el margen de error sea muy bajo. También insisten en la necesidad de mayor regulación, educación para usuarios y evaluaciones más rigurosas antes de expandir estas herramientas. Sin estos controles, concluyen, una implementación apresurada de IA en salud podría terminar perjudicando a los pacientes en lugar de ayudarlos.
Fuente original: El Tiempo - Salud