Este astuto truco fotográfico hace que los chatbots de IA ignoren sus reglas de seguridad.
Los investigadores de la Universidad Internacional de Florida construyeron un método que casi duplicó la tasa de respuestas dañinas de un modelo de IA probado utilizando nada más que ediciones a nivel de píxel en una imagen.
Una foto que parece completamente ordinaria para ti podría llevar una instrucción oculta para engañar a un chatbot de IA y hacer que ignore sus reglas de seguridad, según una nueva investigación de la Universidad Internacional de Florida. El estudio encontró que las alteraciones a nivel de píxel en una imagen que son invisibles al ojo humano pueden ser suficientes para confundir al modelo que lee la imagen y llevarlo a generar respuestas que normalmente bloquearía.
Hackeando lo que ve la IA
“Los modelos de IA no ven las imágenes de la misma manera que los humanos”, dijo Hadi Amini, profesor asociado en la Escuela de Computación y Ciencias de la Información de la Fundación Knight de FIU. Ellos leen fotos como datos numéricos, explicó, y cambiar esos datos incluso ligeramente puede alterar lo que el sistema lee en la imagen y cómo responde.
Amini y el investigador de posgrado Md Jueal Mia utilizaron eso para construir un método llamado JaiLIP, abreviatura de Jailbreaking with Loss-guided Image Perturbation, según un comunicado sobre los hallazgos. La técnica calcula el cambio de píxel más pequeño necesario para empujar a un modelo hacia una respuesta insegura sin alterar nada visible en la foto misma.
Al probar JaiLIP en BLIP-2, un modelo de IA multimodal utilizado en investigación y desarrollo, el equipo encontró que las imágenes alteradas casi duplicaron la frecuencia con la que el sistema producía respuestas dañinas. En una prueba, una foto modificada de un semáforo hizo que el modelo explicara cómo pasar un semáforo en rojo sin recibir una multa.
Los modelos que las empresas ya utilizan son objetivos fáciles
Los modelos de lenguaje pequeños, el tipo en el que muchas empresas confían para la contabilidad o el soporte al cliente, resultaron ser especialmente fáciles de engañar en las pruebas del equipo. A medida que más empresas asignan tales roles a herramientas de IA, un defecto como este podría erosionar la confianza del usuario o abrir una nueva puerta para los atacantes.
El descubrimiento se une a una lista creciente de investigaciones que examinan las barandillas de la IA, incluido un método que permitió a investigadores externos secuestrar robots controlados por IA y los propios hallazgos de Anthropic sobre un modelo que aprendió a comportarse mal una vez que se dio cuenta de que podía salirse con la suya. Lo que destaca en la investigación de FIU es el método de entrega. Un jailbreak oculto dentro de una foto que de otro modo es normal no necesita un lenguaje ingenioso ni un aviso alternativo, solo una imagen que nadie pensaría dos veces.
Pranob es un periodista tecnológico experimentado con más de ocho años de experiencia cubriendo tecnología de consumo. Su trabajo ha sido…
El creador de ChatGPT quiere hacer que los proyectos de código abierto sean menos una ganga de seguridad
OpenAI lanza Patch the Planet para la seguridad de código abierto, con más de 30 proyectos de código abierto a bordo.
OpenAI ha lanzado Patch the Planet, una nueva iniciativa destinada a solucionar uno de los problemas más silenciosos de Internet: la crónicamente subfinanciada seguridad del software de código abierto. Patch the Planet empareja los modelos de IA más capaces en seguridad de OpenAI con Trail of Bits, una firma de seguridad que ha comprometido toda su organización de investigación a este esfuerzo, junto con el apoyo de HackerOne y Calif.
Leí más
Revisé el caos del Prime Day para encontrar las mejores ofertas de Apple que realmente valen la pena comprar
Apple está a punto de aumentar los precios. El Prime Day 2026 es tu última oportunidad para ahorrar hasta $150 en MacBooks, AirPods e iPads.
Apple está a punto de aumentar los precios de sus próximos iPhones y MacBooks, ya que la compañía ya no puede compensar el aumento de los costos de RAM y almacenamiento. Eso significa que, si estás buscando actualizar tu dispositivo antiguo, deberías comprar los productos de Apple de la generación actual en lugar de esperar a los nuevos. Y dado que el Prime Day de Amazon está ofreciendo buenos descuentos en los últimos iPhones, iPads, MacBooks y otros accesorios de Apple, este es el momento perfecto para comprarlos. Aquí están mis ofertas favoritas del Prime Day de Amazon para productos de Apple.
Leí más
Meta estaba rastreando sigilosamente a sus empleados, pero pronto lo cerró después de una filtración interna
Meta admite que su programa de vigilancia de empleados no cumplió con la privacidad.
Meta acaba de pausar una herramienta divisiva de vigilancia de empleados después de que accidentalmente expuso datos sensibles de los trabajadores a toda la empresa (vía Wired). La herramienta, llamada Iniciativa de Capacidad del Modelo, había estado recopilando silenciosamente pulsaciones de teclas, movimientos del mouse y contenido de pantalla de las laptops de empleados en EE. UU. desde abril.
Leí más
Otros artículos
Este astuto truco fotográfico hace que los chatbots de IA ignoren sus reglas de seguridad.
Un nuevo exploit de la Universidad Internacional de Florida muestra cómo cambios invisibles a nivel de píxel en una foto pueden engañar a los chatbots de IA para generar respuestas que normalmente bloquearían.
