Anthropic, Google y Microsoft pagaron recompensas por errores de agentes de IA, luego guardaron silencio sobre las fallas.

Anthropic, Google y Microsoft pagaron recompensas por errores de agentes de IA, luego guardaron silencio sobre las fallas.

      En resumen: El investigador de seguridad Aonan Guan secuestró agentes de IA de Anthropic, Google y Microsoft a través de ataques de inyección de comandos en sus integraciones de GitHub Actions, robando claves API y tokens en cada caso. Las tres compañías pagaron recompensas por errores de manera silenciosa, $100 de Anthropic, $500 de GitHub, una cantidad no divulgada de Google, pero ninguna publicó avisos públicos ni asignó CVEs, dejando a los usuarios en versiones más antiguas sin conocer el riesgo.

      Los investigadores de seguridad han demostrado que los agentes de IA de Anthropic, Google y Microsoft pueden ser secuestrados a través de ataques de inyección de comandos para robar claves API, tokens de GitHub y otros secretos, y las tres compañías pagaron recompensas por errores sin publicar avisos públicos ni asignar CVEs.

      Las vulnerabilidades, divulgadas por el investigador Aonan Guan durante varios meses, afectan a herramientas de IA que se integran con GitHub Actions: la Revisión de Seguridad de Código Claude de Anthropic, la Acción CLI Gemini de Google y el Agente Copilot de GitHub. Cada herramienta lee datos de GitHub, incluidos los títulos de las solicitudes de extracción, los cuerpos de los problemas y los comentarios, los procesa como contexto de tarea y luego toma acciones. El problema es que ninguna de ellas distingue de manera confiable entre contenido legítimo e instrucciones inyectadas.

      Cómo funcionan los ataques

      La técnica principal es la inyección de comandos indirecta. En lugar de atacar directamente el modelo de IA, el investigador incrustó instrucciones maliciosas en lugares que los agentes estaban diseñados para confiar: títulos de PR, descripciones de problemas y comentarios. Cuando el agente ingirió ese contenido como parte de su flujo de trabajo, ejecutó los comandos inyectados como si fueran instrucciones legítimas.

      Contra la Revisión de Seguridad de Código Claude de Anthropic, que escanea solicitudes de extracción en busca de vulnerabilidades, Guan elaboró un título de PR que contenía una carga útil de inyección de comandos. Claude ejecutó los comandos incrustados e incluyó la salida, incluidas las credenciales filtradas, en su respuesta JSON, que luego se publicó como un comentario de PR para que cualquiera lo leyera. El ataque podría exfiltrar la clave API de Anthropic, los tokens de acceso de GitHub y otros secretos expuestos en el entorno del ejecutor de GitHub Actions.

      El ataque de Gemini siguió un patrón similar. Al inyectar una falsa “sección de contenido confiable” después de contenido legítimo en un problema de GitHub, Guan anuló las instrucciones de seguridad de Gemini y engañó al agente para que publicara su propia clave API como un comentario de problema. La Acción CLI Gemini de Google, que integra Gemini en los flujos de trabajo de problemas de GitHub, trató el texto inyectado como autoritario.

      El ataque de Copilot fue más sutil. Guan ocultó instrucciones maliciosas dentro de un comentario HTML en un problema de GitHub, haciendo que la carga útil fuera invisible en el Markdown renderizado que ven los humanos, pero completamente visible para el agente de IA que analiza el contenido en bruto. Cuando un desarrollador asignó el problema al Agente Copilot, el bot siguió las instrucciones ocultas sin cuestionar.

      Lo que sucedió a continuación es tan revelador como las vulnerabilidades mismas. Anthropic recibió la presentación de Guan en su plataforma de recompensas por errores HackerOne en octubre de 2025. La compañía preguntó si la técnica también podría robar datos más sensibles como tokens de GitHub, confirmó que sí podía, y en noviembre pagó una recompensa de $100 mientras actualizaba la calificación de severidad crítica de 9.3 a 9.4. Anthropic actualizó una sección de “consideraciones de seguridad” en su documentación, pero no publicó un aviso público ni asignó un CVE.

      GitHub inicialmente desestimó el hallazgo de Copilot como un “problema conocido” que “no podía reproducir”, pero finalmente pagó una recompensa de $500 en marzo. Google pagó una cantidad no divulgada por la vulnerabilidad de Gemini. Ninguno de los tres proveedores asignó CVEs ni publicó avisos que alertaran a los usuarios atados a versiones vulnerables.

      Para Guan, este es el núcleo del problema. Los usuarios que ejecutan versiones más antiguas de estas integraciones de agentes de IA pueden nunca enterarse de que están expuestos. Sin un CVE, los escáneres de vulnerabilidades no marcarán el problema. Sin un aviso, los equipos de seguridad no tienen un artefacto para rastrear.

      Un problema estructural, no un error aislado

      Los ataques explotan una debilidad fundamental en cómo los agentes de IA procesan el contexto. Los modelos de lenguaje grandes no pueden separar de manera confiable los datos de las instrucciones. Cuando un agente lee un problema de GitHub, trata el texto como entrada para razonar, pero una inyección de comandos bien elaborada puede hacer que esa entrada funcione como un comando. Cada fuente de datos que alimenta el razonamiento de un agente de IA, ya sea un correo electrónico, una invitación de calendario, un mensaje de Slack o un comentario de código, es un vector de ataque potencial.

      Esta no es una preocupación teórica. En enero de 2026, investigadores de Miggo Security demostraron que Google Gemini podría ser utilizado como arma a través de invitaciones de calendario que contenían instrucciones ocultas. Días después, el ataque “Reprompt” contra Microsoft Copilot mostró que los comandos inyectados podían secuestrar sesiones de usuario enteras. Se encontró que el propio servidor Git MCP de Anthropic albergaba tres CVEs que permitían a los atacantes inyectar puertas traseras a través de repositorios que el servidor procesaba. Un análisis sistemático de 78 estudios publicado en enero encontró que cada agente de codificación probado, incluidos Claude Code, GitHub Copilot y Cursor, era vulnerable a la inyección de comandos, con tasas de éxito de ataque adaptativas que superaban el 85%.

      La dimensión de la cadena de suministro lo empeora. Una auditoría de seguridad de casi 4,000 habilidades de agentes en el mercado ClawHub encontró que más de un tercio contenía al menos un defecto de seguridad, y el 13.4% tenía problemas de nivel crítico. Cuando los agentes de IA incorporan herramientas de terceros y fuentes de datos con el mismo nivel de confianza que extienden a sus propias instrucciones, un solo componente comprometido puede cascada a través de toda una tubería de desarrollo.

      La brecha de divulgación

      La renuencia de los proveedores a publicar avisos refleja una realidad incómoda: no hay un marco establecido para divulgar vulnerabilidades de agentes de IA. Los errores de software tradicionales obtienen CVEs, parches y cronogramas de divulgación coordinada. Los defectos de inyección de comandos se encuentran en una zona gris. No son errores en el código tanto como comportamientos emergentes del modelo, y las mitigaciones, como prompts de sistema más fuertes, saneamiento de entradas y filtrado de salidas, son parciales en el mejor de los casos.

      Pero las consecuencias son indistinguibles de las de un defecto de seguridad convencional. Un atacante que exfiltra un token de GitHub a través de una inyección de comandos puede causar exactamente el mismo daño que uno que explota un desbordamiento de búfer. El argumento de que la seguridad de la IA requiere nuevos marcos no excusa la ausencia de divulgación para vulnerabilidades que ya se están explotando en la naturaleza.

      La investigación de Zenity Labs publicada este mes encontró que la mayoría de los marcos de construcción de agentes, incluidos los de OpenAI, Google y Microsoft, carecen de salvaguardias apropiadas, poniendo la carga de gestionar el riesgo en las empresas que los implementan. En un caso documentado, los atacantes manipularon la memoria de un agente de adquisiciones de IA para que creyera que tenía autoridad para aprobar compras de hasta $500,000, cuando el límite real era de $10,000. El agente aprobó $5 millones en órdenes de compra fraudulentas antes de que alguien lo notara.

      Para las organizaciones que han integrado agentes de IA en sus tuberías de CI/CD, el mensaje es claro. Estas herramientas son poderosas precisamente porque tienen acceso a sistemas y datos sensibles. Ese mismo acceso las convierte en objetivos de alto valor, y la industria aún no ha construido la infraestructura de divulgación para igualar el riesgo.

Anthropic, Google y Microsoft pagaron recompensas por errores de agentes de IA, luego guardaron silencio sobre las fallas.

Otros artículos

Los rumores de Nvidia predicen un nuevo enfoque de memoria para la supuesta tarjeta gráfica RTX 5060 Ti. Los rumores de Nvidia predicen un nuevo enfoque de memoria para la supuesta tarjeta gráfica RTX 5060 Ti. Un nuevo rumor sugiere que Nvidia podría adoptar módulos de 3GB GDDR7 en una supuesta RTX 5060 Ti, aumentando la VRAM a 9GB pero potencialmente reduciendo el ancho de banda de la memoria en el proceso. HBO Max se lanza en India a través de una asociación exclusiva con JioHotstar a ₹49 por mes. HBO Max se lanza en India a través de una asociación exclusiva con JioHotstar a ₹49 por mes. HBO Max se lanza en India como un complemento de JioHotstar a ₹49/mes, trayendo Euphoria, House of the Dragon, Friends y The Big Bang Theory a más de 100 millones de suscriptores de pago. Astroport y Vermeer colaboran en maquinaria de construcción lunar autónoma Astroport y Vermeer colaboran en maquinaria de construcción lunar autónoma Astroport y Vermeer están adaptando equipos de minería de superficie industrial para la Luna, utilizando un adaptador de herramientas modular para construir caminos, plataformas de aterrizaje e infraestructura base para 2030. El precio del iPhone 18 Pro de Apple podría dejar a la competencia sin aliento. El precio del iPhone 18 Pro de Apple podría dejar a la competencia sin aliento. Un nuevo rumor de la cadena de suministro sugiere que Apple está esforzándose por evitar un gran aumento en el precio del iPhone 18 Pro, un movimiento que podría ejercer una presión adicional sobre los precios ya en aumento de los teléfonos Android de gama alta. Google penalizará los sitios que secuestren el botón de retroceso de tu navegador. Google penalizará los sitios que secuestren el botón de retroceso de tu navegador. La nueva política de spam de Google apunta a los sitios que atrapan a los usuarios al secuestrar el botón de retroceso. La aplicación comienza el 15 de junio, con penalizaciones en el ranking para las páginas que no cumplan. Nissan revela el Juke EV y espero de corazón que este audaz diseño se mantenga. Nissan revela el Juke EV y espero de corazón que este audaz diseño se mantenga. Nissan ha revelado la tercera generación del Juke como un crossover totalmente eléctrico para Europa, y su nuevo aspecto más audaz es, sin duda, lo más interesante de él.

Anthropic, Google y Microsoft pagaron recompensas por errores de agentes de IA, luego guardaron silencio sobre las fallas.

Los investigadores secuestraron a los agentes de IA Claude, Gemini y Copilot mediante inyección de comandos para robar claves API y tokens. Los tres proveedores pagaron recompensas pero omitieron la divulgación pública.