Tu navegador de IA puede ser secuestrado por inyección de prompts; OpenAI acaba de parchear Atlas.
OpenAI dice que un equipo rojo automatizado interno descubrió una nueva clase de ataques de agente en el navegador, lo que motivó una actualización de seguridad con un modelo recién entrenado de forma adversarial y salvaguardas más estrictas.
Andrew Brookes / Getty Images
OpenAI ha enviado una actualización de seguridad a ChatGPT Atlas dirigida a la inyección de prompts en navegadores con IA, ataques que ocultan instrucciones maliciosas dentro de contenido cotidiano que un agente podría leer mientras trabaja.
El modo agente de Atlas está diseñado para actuar en tu navegador como lo harías tú: puede ver páginas, hacer clic y escribir para completar tareas en el mismo espacio y contexto que utilizas. Eso también lo convierte en un objetivo de mayor valor, porque el agente puede encontrarse con texto no confiable en correos electrónicos, documentos compartidos, foros, publicaciones sociales y cualquier página web que abra.
La advertencia central de la compañía es simple. Los hackers pueden engañar la toma de decisiones del agente contrabandeando instrucciones en el flujo de información que procesa a mitad de tarea.
Una instrucción oculta, grandes consecuencias
La publicación de OpenAI destaca lo rápido que pueden torcerse las cosas. Un atacante siembra una bandeja de entrada con un correo malicioso que contiene instrucciones escritas para el agente, no para el humano.
Más tarde, cuando el usuario le pide a Atlas que redacte una respuesta de fuera de la oficina, el agente se topa con ese correo durante el trabajo normal y trata las instrucciones inyectadas como autorizadas. En el escenario de demostración, el agente envía una carta de renuncia al director ejecutivo del usuario, y la respuesta de fuera de la oficina nunca se escribe.
Si un agente está escaneando contenido de terceros como parte de un flujo de trabajo legítimo, un atacante puede intentar anular la petición del usuario ocultando comandos en lo que parece texto ordinario.
Un atacante de IA realiza pruebas de práctica
Para encontrar estas fallas antes, OpenAI dice que construyó un modelo atacante automatizado y lo entrenó de extremo a extremo con aprendizaje por refuerzo para buscar exploits de inyección de prompts contra un agente de navegador. El objetivo es poner a prueba con presión flujos de trabajo largos y realistas, no solo forzar una única salida mala.
El atacante puede redactar una inyección candidata, ejecutar un despliegue simulado de cómo se comportaría el agente objetivo y luego iterar usando el razonamiento devuelto y el rastro de acciones como retroalimentación. OpenAI dice que el acceso privilegiado a esos rastros le da a su equipo rojo interno una ventaja que los atacantes externos no tienen.
Qué hacer ahora
OpenAI enfoca la inyección de prompts como un problema de seguridad a largo plazo, más parecido a las estafas en línea que a un error que parcheas una vez. Su enfoque es descubrir nuevos patrones de ataque, entrenar contra ellos y reforzar las salvaguardas a nivel de sistema.
Para los usuarios, debes usar la navegación sin iniciar sesión cuando sea posible, examinar con cuidado las confirmaciones para acciones como enviar correos, y dar a los agentes instrucciones estrechas y explícitas en lugar de indicaciones amplias del tipo "encárgate de todo". Si aún tienes curiosidad sobre lo que puede hacer la navegación con IA, entonces opta por navegadores que publiquen actualizaciones que te beneficien.
Paulo Vargas es un licenciado en Inglés que se convirtió en reportero y luego en escritor técnico, con una carrera que siempre ha vuelto a...
Lanzar mi primer podcast generado por IA con NotebookLM me enseñó una cosa que debes evitar
Cómo hacer un podcast usando Google NotebookLM
Empezó como una broma. "¿Y si creara un podcast en el que hablo con bots de inteligencia artificial y finjo estar interesado en lo que tienen que decir?" le pregunté a un amigo. Eso fue hace unos meses, antes de darme cuenta de que Google tiene una herramienta de IA llamada NotebookLM que (en su mayor parte) te permite conversar con dos presentadores que suenan como humanos en tiempo real. Conocido como modo interactivo, puedes unirte al podcast y hacer una pregunta en cualquier momento. Los bots harán una pausa y te reconocerán como "oyente" y luego comentarán lo que tengas que decir.
Leer más
La oferta del portátil para juegos Lenovo Legion Pro 5 incluye pantalla OLED, RTX 5060 y 32 GB de RAM
El Lenovo Legion Pro 5 de 16 pulgadas con OLED, Ryzen 7 8745HX, RTX 5060, 32 GB de RAM y 1 TB de SSD ahora cuesta $1,299.99, rebajado desde $1,659.99.
La mayoría de los portátiles para juegos en este rango de precio te piden que hagas concesiones en algún aspecto: o una gran pantalla con especificaciones de gama media, o internals potentes con un panel apagado. Esta oferta del Legion Pro 5 resulta atractiva porque consigue el equilibrio correcto. Obtienes un procesador AMD Ryzen 7 2025, gráficos RTX 5060, 32 GB de RAM y una pantalla OLED 2.5K por $1,299.99, lo que supone $360 de descuento respecto al precio habitual de $1,659.99.
Obtener la oferta
Leer más
Esta oferta combinada de Ryzen y B650 libera más de tu presupuesto para una mejor GPU
Consigue un Ryzen 5 7600X AM5 y una placa base B650 con Wi-Fi juntos por $363.99, ahorrando $165.99 sobre el valor combinado de $529.98.
Si has estado esperando el momento adecuado para empezar una nueva construcción AM5, este paquete es un atajo fácil. Por $363.99 obtienes un AMD Ryzen 5 7600X y una placa base Gigabyte B650 AORUS Elite AX juntos, en lugar de comprar ambas piezas por separado al habitual $529.98. Eso son $165.99 que puedes destinar a una GPU, memoria RAM o un SSD más grande, que es exactamente lo que quieres cuando intentas estirar un presupuesto para PC.
Obtener la oferta
Leer más
Otros artículos
Tu navegador de IA puede ser secuestrado por inyección de prompts; OpenAI acaba de parchear Atlas.
OpenAI dice que ha parcheado ChatGPT Atlas después de que un equipo interno de red teaming encontrara nuevos ataques de inyección de instrucciones que pueden secuestrar agentes del navegador de IA. La actualización incorpora un modelo entrenado adversarialmente y salvaguardas más robustas.
