La brecha de seguridad de la IA que nadie quiere admitir ya está aquí

      El 31 de marzo de 2026, Anthropic envió accidentalmente todo el código fuente de Claude Code al registro público de npm. Alrededor de 512,000 líneas de TypeScript en 1,906 archivos, incluyendo 44 banderas de características ocultas y referencias a un modelo no publicado con el nombre en clave Mythos, estuvieron accesibles abiertamente en un bucket de almacenamiento de Cloudflare hasta que un investigador de seguridad lo encontró y publicó el enlace en X. En cuestión de horas, la base de código fue replicada en GitHub, acumulando miles de estrellas antes de que Anthropic pudiera emitir retiradas de DMCA. Anthropic lo llamó un error de empaquetado causado por un error humano. Esa explicación es precisa y también algo irrelevante.

      Al exponer los planos de Claude Code, Anthropic entregó una hoja de ruta a cualquiera que quisiera diseñar repositorios maliciosos específicamente adaptados para engañar a Claude Code para que ejecutara comandos en segundo plano o exfiltrara datos antes de que un usuario viera alguna vez un aviso de confianza. La lógica de aplicación de permisos, la arquitectura de sandboxing, los mecanismos de orquestación exactos que rigen cómo el agente valida lo que se le permite hacer: todo eso ahora está permanentemente en la naturaleza a través de decenas de miles de repositorios bifurcados que ninguna notificación de DMCA alcanzará completamente. Lo que la filtración expuso sobre el estado de la seguridad de la IA es más incómodo que la filtración misma.

      Un Lado Se Mueve Más Rápido

      El marco convencional en torno a la IA en ciberseguridad la trata como un equilibrio aproximado, una carrera armamentista donde la ofensiva y la defensa aceleran juntas. Ese marco no se sostiene bien frente a los detalles de lo que realmente sucedió en marzo, o frente a lo que los equipos de seguridad describen al trabajar día a día.

      La lógica de gancho y permisos expuesta por la filtración de Claude Code hace que la toma de control silenciosa de dispositivos sea más confiable para los atacantes que saben dónde buscar. Mientras tanto, los defensores están integrando la IA en las pilas de seguridad existentes y validando que no generará falsos positivos antes de que se vuelva operativamente útil. Esas dos líneas de tiempo no son comparables.

      Tim Burke, quien ha dirigido operaciones de seguridad gestionadas durante más de 30 años en Quest Technology Management, expone la asimetría de manera clara. “Los atacantes obtuvieron el plano completo de cómo una IA agente valida permisos y maneja credenciales sin tener que invertir tiempo en ingeniería inversa”, dice. “Eso significa que los atacantes están operando con IA que se mueve más rápido de lo que la mayoría de los sistemas de detección fueron diseñados para manejar, mientras que los equipos de seguridad aún están averiguando cómo implementar herramientas de IA sin crear más trabajo para los SOCs ya abrumados”.

      El Grupo de Inteligencia de Amenazas de Google identificó el primer exploit de día cero confirmado desarrollado completamente con asistencia de IA a principios de este mes y detuvo un evento de explotación masiva planificado antes de que pudiera ejecutarse, lo que representa la versión optimista de esta historia. La mayoría de las organizaciones que se defienden contra esas mismas capacidades no son Google, y su infraestructura de detección no fue construida para lo que ahora es posible.

      “La mayoría de las organizaciones aún están ejecutando infraestructura de detección que fue diseñada para atrapar atacantes humanos que se mueven metódicamente a través de redes durante días o semanas”, dice Burke. “La IA comprimió esos plazos a horas y en algunos casos minutos, lo que significa que la ventana entre la intrusión y el daño ahora es más corta que el tiempo que les toma a la mayoría de los SOCs investigar una sola alerta”.

      La Alerta Que No Existe

      Debajo del problema de velocidad hay algo más estructural. Las plataformas de seguridad están construidas para detectar anomalías de comportamiento, cosas que parecen actividad maliciosa basadas en lo que está sucediendo en lugar de en lo que lo impulsa. Lo que no pueden decirte es si un ataque fue iniciado por un humano o un agente de IA que opera de manera autónoma. Actualmente, ninguna plataforma destaca esa distinción.

      La vulnerabilidad descubierta en Claude Code después de la filtración ilustra esto directamente: un archivo malicioso puede instruir a la IA para generar una tubería de comandos que se asemeje exactamente a un proceso de construcción legítimo, desencadenando un comportamiento que elude completamente el sistema de permisos sin levantar una bandera que aparecería en un SIEM convencional.

      “Los agentes de IA pueden ser manipulados a través de descripciones de herramientas y mensajes de manera que eludan los controles de acceso tradicionales sin nunca desencadenar un fallo de autenticación o levantar una alerta en tu SIEM”, dice Burke. “Eso significa que la detección necesita comenzar a rastrear lo que el agente entendió que estaba haciendo y por qué tomó esa decisión, en lugar de señalar violaciones de políticas después del hecho”.

      Las referencias a Claude Mythos en los archivos filtrados añaden una capa a esto que no ha recibido mucha atención. Lo que se expuso no fue solo la herramienta actual, sino la dirección arquitectónica de hacia dónde se dirige la IA agente, incluyendo capacidades de razonamiento mejoradas e integración más profunda del uso de herramientas nativas. Los equipos de seguridad están construyendo defensas contra lo que estos sistemas pueden hacer hoy. La hoja de ruta filtrada describe algo considerablemente más capaz.

      “En este momento, la gran mayoría de las plataformas no pueden hacer esa distinción entre origen de IA y humano”, dice Burke, “y los equipos de seguridad están esencialmente defendiendo a ciegas contra una categoría entera de amenazas que no tienen visibilidad”.

      La filtración de Anthropic fue un archivo de depuración mal configurado. Las organizaciones que ahora intentan averiguar si su infraestructura de seguridad puede detectar lo que un agente de IA creía que estaba autorizado a hacer están trabajando en un problema que existía antes del 31 de marzo y existirá mucho después de que se procesen los avisos de DMCA.

      Aún no hay un final limpio para ese problema.

Otros artículos

3 juegos de MacBook que impactan más que la mayoría de las películas y no exigen instintos de jugador Si usas un MacBook y nunca te has considerado un jugador, estos tres juegos centrados en la historia son fáciles de empezar, emocionalmente intensos y sorprendentemente difíciles de olvidar.

iOS 27 podría facilitar mucho la gestión de tus AirPods. Apple podría estar finalmente preparando una limpieza muy esperada para la desordenada experiencia de configuración de AirPods. Y para los usuarios cansados de hurgar en los menús de Bluetooth, los cambios podrían sentirse sorprendentemente significativos.

Este cable USB "normal" secretamente quiere ser una herramienta de hacking. Un nuevo proyecto de Kickstarter llamado Hacknect oculta una plataforma de hacking y automatización habilitada para Wi-Fi dentro de lo que parece ser un cable USB ordinario.

Esta startup de Zúrich construyó un robot de cuatro brazos para estaciones espaciales. Cada hora de astronauta que ahorra vale 140,000 dólares. El Helios de Orbit Robotics utiliza brazos impulsados por tendones para moverse en microgravedad y manejar carga. El mantenimiento consume solo el 35% del tiempo de la tripulación en órbita.

Este cable USB "normal" en secreto quiere ser una herramienta de hacking. Un nuevo proyecto de Kickstarter llamado Hacknect oculta una plataforma de hacking y automatización habilitada para Wi-Fi dentro de lo que parece ser un cable USB ordinario.

Good Lock es la razón por la que sigo volviendo al Galaxy S26. Después de usar Good Lock en mi Galaxy S26, el software de Samsung dejó de sentirse como una interfaz fija y comenzó a sentirse como algo que podía moldear adecuadamente a mi propio gusto.

La brecha de seguridad de la IA que nadie quiere admitir ya está aquí

La filtración del código fuente de Anthropic Claude expuso más que un error de empaquetado, reveló cuán adelantados están los atacantes con la IA mientras los defensores luchan por mantener el ritmo.