Agentjacking: un informe de error falso secuestra agentes de codificación de IA
Los investigadores de seguridad han encontrado una manera de secuestrar agentes de codificación de IA con nada más que un informe de error falso. Lo llaman Agentjacking. No necesita malware, ni contraseña robada, ni violación del objetivo.
El ataque, revelado por Tenet Security, convierte al agente de codificación en el arma. Cuando un desarrollador le pide al agente que corrija un error, el agente ejecuta el código del atacante en su lugar, con los propios privilegios del desarrollador, en la máquina del desarrollador.
Cómo funciona el ataque de Agentjacking
Comienza con Sentry, una herramienta popular de seguimiento de errores. Sentry permite que cualquier aplicación le envíe informes de errores utilizando una clave pública llamada DSN, que está abierta en el código del sitio web por diseño.
Un atacante envía un error falso a ese punto final. No se necesita contraseña. El informe oculta una sección de "Resolución" con un comando, formateado para parecerse exactamente al propio consejo de Sentry.
Los agentes de codificación leen Sentry a través del Protocolo de Contexto del Modelo, el estándar que permite a los agentes incorporar herramientas externas. El agente trata la respuesta como confiable. No puede distinguir un fallo real de uno plantado. Así que cuando el desarrollador dice "arreglar los problemas no resueltos de Sentry", el agente ejecuta el comando del atacante.
El agente es ahora la superficie de ataque
Los agentes de codificación de IA han pasado de autocompletar a ejecutar terminales, y el mercado está en auge; una startup de codificación de vibraciones recientemente alcanzó $500 millones en ingresos. Ese poder es el problema.
El ataque funcionó en los grandes agentes. Tenet dice que secuestró a Claude Code, Cursor y Codex, con una tasa de éxito del 85 por ciento en pruebas controladas. Encontró 2,388 organizaciones expuestas, desde una empresa de $250 mil millones hasta desarrolladores individuales, e incluso un proveedor de seguridad en la nube.
La recompensa para un atacante es severa. Un error inyectado puede alcanzar variables de entorno, claves de AWS, tokens de GitHub, credenciales de git y URLs de repositorios privados. Desde allí, el camino conduce a pipelines de CI/CD e infraestructura en la nube.
La parte más aterradora es lo que no lo detecta. El ataque se escapa de EDR, cortafuegos, IAM y VPN, porque nada en la cadena es no autorizado. Tenet lo llama la "Cadena de Intención Autorizada". Los comandos tampoco ayudan. Los agentes ejecutaron el código incluso cuando se les dijo que ignoraran datos no confiables.
Nadie quiere hacerse cargo de la solución
Tenet informó a Sentry el 3 de junio. Sentry reconoció el problema pero se negó a solucionarlo en la raíz, llamándolo "técnicamente no defendible". Agregó un filtro para bloquear una cadena de carga útil específica, que trata el síntoma, no la causa.
Ese estancamiento es la verdadera historia. La falla no está solo en Sentry. Está en cómo los agentes manejan cualquier dato externo, por lo que el mismo riesgo recorre tickets de soporte, problemas de GitHub y documentación. Una prueba separada recientemente pescó a un agente de correo electrónico de IA para que filtrara claves de AWS.
La lección se hace evidente a medida que las empresas se apresuran a poner agentes en producción. Un agente conectado a tus herramientas también es una nueva forma de entrar. Como dice Tenet, el único lugar que queda para detener esto es el momento en que el agente decide actuar.
Otros artículos
Agentjacking: un informe de error falso secuestra agentes de codificación de IA
El ataque 'Agentjacking' de Tenet Security convierte un error falso de Sentry en código que se ejecuta en las máquinas de los desarrolladores. Secuestró Claude Code, Cursor y Codex.
