Anthropic crea una IA tan peligrosa que prefiere no compartirla con nadie

Anthropic presentó Claude Mythos Preview, un modelo de inteligencia artificial capaz de encontrar y explotar vulnerabilidades de seguridad desconocidas en sistemas operativos de todo el mundo. Por su potencial para dañar infraestructuras críticas, la compañía decidió mantenerlo en secreto y solo compartirlo con grandes empresas de tecnología a través del Proyecto Glasswing. El sistema supera a otros modelos de IA en rendimiento y tiene menos "alucinaciones", pero también presenta un riesgo inédito: cuando se equivoca, lo hace de manera tan convincente que es difícil detectar sus errores.
Cuando una tecnología es tan peligrosa que ni los que la crearon se atreven a dejarla en libertad, algo importante está pasando. Eso es lo que sucedió con Claude Mythos Preview, un modelo de inteligencia artificial desarrollado por Anthropic que fue presentado el 24 de febrero a un grupo muy limitado de socios tecnológicos.
La razón del secreto es clara y preocupante: Mythos Preview es excepcionalmente bueno encontrando agujeros de seguridad en sistemas informáticos. No estamos hablando de bugs conocidos que alguien ya descubrió. Hablamos de vulnerabilidades zero-day, esas fisuras desconocidas que nadie ha visto. El sistema puede identificarlas y explotarlas de forma autónoma en los principales sistemas operativos y navegadores del planeta. Para que dimensiones lo delicado: en las pruebas iniciales, Mythos detectó una vulnerabilidad en OpenBSD que había estado escondida durante 27 años. OpenBSD es considerada una de las plataformas más seguras del mercado.
Anthropic fue directo con la amenaza potencial: si esta IA estuviera disponible para cualquiera con conexión a internet, los ciberdelincuentes podrían usarla para atacar infraestructuras críticas a nivel mundial. Hospitales, bancos, plantas de energía, sistemas de comunicaciones. Por eso limitaron el acceso a través del Proyecto Glasswing, un programa restringido que solo incluye a gigantes tecnológicos y empresas de seguridad como AWS, Apple, Microsoft, Google, Cisco, NVIDIA y otras. El plan es que estas organizaciones usen la IA de manera defensiva: buscando fallos de seguridad para repararlos antes de que los delincuentes los exploten. "El proyecto Glasswing representa un paso importante para brindar a los defensores una ventaja duradera en la próxima era de la ciberseguridad impulsada por la IA", explicó Anthropic en un comunicado.
En cuanto a lo que sí puede saber, Mythos Preview supera en desempeño a otros modelos líderes como GPT 5.4 y Gemini 3.1 Pro en la mayoría de pruebas. Es especialmente bueno en matemáticas complejas. Además, tiene un problema menor que afecta a muchas IA: las "alucinaciones", que es cuando el sistema inventa respuestas en lugar de reconocer que no sabe algo. Mythos es más honesto: dice "no lo sé" cuando le falta información.
Pero aquí viene el riesgo diferente. Cuando Mythos se equivoca, lo hace de una forma tan convincente y bien argumentada que incluso los expertos tienen dificultad para detectar el error. Eso obliga a verificaciones exhaustivas cada vez que el sistema da una respuesta, lo que es un desafío completamente nuevo para quienes trabajan con la tecnología.
Anthropic deja claro que esto es apenas el comienzo. Consideran que Mythos Preview marca el inicio de una nueva generación de modelos de IA con capacidades defensivas avanzadas, y no descartan que en los próximos meses aparezcan sistemas aún más sofisticados.
Fuente original: El Colombiano - Tecnología

