Este astuto truco fotográfico hace que los chatbots de IA ignoren sus reglas de seguridad.

      Los investigadores de la Universidad Internacional de Florida construyeron un método que casi duplicó la tasa de respuestas dañinas de un modelo de IA probado utilizando nada más que ediciones a nivel de píxel en una imagen.

      Una foto que parece completamente ordinaria para ti podría llevar una instrucción oculta para engañar a un chatbot de IA y hacer que ignore sus reglas de seguridad, según una nueva investigación de la Universidad Internacional de Florida. El estudio encontró que las alteraciones a nivel de píxel en una imagen que son invisibles al ojo humano pueden ser suficientes para confundir al modelo que lee la imagen y llevarlo a generar respuestas que normalmente bloquearía.

      Hackeando lo que ve la IA

      “Los modelos de IA no ven las imágenes de la misma manera que los humanos”, dijo Hadi Amini, profesor asociado en la Escuela de Computación y Ciencias de la Información de la Fundación Knight de FIU. Ellos leen fotos como datos numéricos, explicó, y cambiar esos datos incluso ligeramente puede alterar lo que el sistema lee en la imagen y cómo responde.

      Amini y el investigador de posgrado Md Jueal Mia utilizaron eso para construir un método llamado JaiLIP, abreviatura de Jailbreaking with Loss-guided Image Perturbation, según un comunicado sobre los hallazgos. La técnica calcula el cambio de píxel más pequeño necesario para empujar a un modelo hacia una respuesta insegura sin alterar nada visible en la foto misma.

      Al probar JaiLIP en BLIP-2, un modelo de IA multimodal utilizado en investigación y desarrollo, el equipo encontró que las imágenes alteradas casi duplicaron la frecuencia con la que el sistema producía respuestas dañinas. En una prueba, una foto modificada de un semáforo hizo que el modelo explicara cómo pasar un semáforo en rojo sin recibir una multa.

      Los modelos que las empresas ya utilizan son objetivos fáciles

      Los modelos de lenguaje pequeños, el tipo en el que muchas empresas confían para la contabilidad o el soporte al cliente, resultaron ser especialmente fáciles de engañar en las pruebas del equipo. A medida que más empresas asignan tales roles a herramientas de IA, un defecto como este podría erosionar la confianza del usuario o abrir una nueva puerta para los atacantes.

      El descubrimiento se une a una lista creciente de investigaciones que examinan las barandillas de la IA, incluido un método que permitió a investigadores externos secuestrar robots controlados por IA y los propios hallazgos de Anthropic sobre un modelo que aprendió a comportarse mal una vez que se dio cuenta de que podía salirse con la suya. Lo que destaca en la investigación de FIU es el método de entrega. Un jailbreak oculto dentro de una foto que de otro modo es normal no necesita un lenguaje ingenioso ni un aviso alternativo, solo una imagen que nadie pensaría dos veces.

      Pranob es un periodista tecnológico experimentado con más de ocho años de experiencia cubriendo tecnología de consumo. Su trabajo ha sido…

      El creador de ChatGPT quiere hacer que los proyectos de código abierto sean menos una ganga de seguridad

      OpenAI lanza Patch the Planet para la seguridad de código abierto, con más de 30 proyectos de código abierto a bordo.

      OpenAI ha lanzado Patch the Planet, una nueva iniciativa destinada a solucionar uno de los problemas más silenciosos de Internet: la crónicamente subfinanciada seguridad del software de código abierto. Patch the Planet empareja los modelos de IA más capaces en seguridad de OpenAI con Trail of Bits, una firma de seguridad que ha comprometido toda su organización de investigación a este esfuerzo, junto con el apoyo de HackerOne y Calif.

      Leí más

      Revisé el caos del Prime Day para encontrar las mejores ofertas de Apple que realmente valen la pena comprar

      Apple está a punto de aumentar los precios. El Prime Day 2026 es tu última oportunidad para ahorrar hasta $150 en MacBooks, AirPods e iPads.

      Apple está a punto de aumentar los precios de sus próximos iPhones y MacBooks, ya que la compañía ya no puede compensar el aumento de los costos de RAM y almacenamiento. Eso significa que, si estás buscando actualizar tu dispositivo antiguo, deberías comprar los productos de Apple de la generación actual en lugar de esperar a los nuevos. Y dado que el Prime Day de Amazon está ofreciendo buenos descuentos en los últimos iPhones, iPads, MacBooks y otros accesorios de Apple, este es el momento perfecto para comprarlos. Aquí están mis ofertas favoritas del Prime Day de Amazon para productos de Apple.

      Leí más

      Meta estaba rastreando sigilosamente a sus empleados, pero pronto lo cerró después de una filtración interna

      Meta admite que su programa de vigilancia de empleados no cumplió con la privacidad.

      Meta acaba de pausar una herramienta divisiva de vigilancia de empleados después de que accidentalmente expuso datos sensibles de los trabajadores a toda la empresa (vía Wired). La herramienta, llamada Iniciativa de Capacidad del Modelo, había estado recopilando silenciosamente pulsaciones de teclas, movimientos del mouse y contenido de pantalla de las laptops de empleados en EE. UU. desde abril.

      Leí más

Otros artículos

Meta lanza sus propias gafas inteligentes y una de ellas está diseñada por Kylie Jenner. Meta ha presentado sus primeras gafas inteligentes de marca propia, incluyendo una edición especial de Kylie Jenner y el debut de la nueva plataforma MuseSpark AI de la compañía.

La filtración de Samsung afirma una variedad de colores llamativos para el próximo Galaxy Z Fold 8 y Flip 8. Los próximos dispositivos plegables de Samsung pueden venir en una amplia gama de colores, incluyendo Menta, Rosa, Pistacho, Sombra Verde y Sombra Violeta, según una nueva filtración.

Luminvera apuesta por software inmersivo para robótica Luminvera lanzó su dispositivo portátil de realidad aumentada y se centró de la ingeniería industrial al software de robótica justo cuando se graduó del Founder Institute, apostando a que una herramienta de diseño espacial impulsada por IA puede competir contra competidores mejor financiados.

El algoritmo ahora tiene nariz, y el perfume es mejor para ello. Desde un laboratorio vivo en Breda hasta las grandes casas de fragancias, el software está ampliando quién puede crear un aroma. Eso merece ser celebrado. Interrupción de Claude: El último tambaleo de Anthropic Interrupción de Claude: El último tambaleo de Anthropic llega tras las suspensiones de modelos y los repetidos informes de errores de Anthropic.

Las Mejores Ofertas de Tineco para el Prime Day para Mejorar Tu Rutina de Limpieza El Prime Day suele ser el mejor momento del año para invertir en electrodomésticos de alta gama, y la venta del Prime Day 2026 de Tineco se perfila como una de las más grandes hasta ahora. Conocida por su innovadora tecnología de cuidado del suelo, Tineco se ha convertido en una marca de referencia para los hogares que buscan simplificar la limpieza con soluciones inteligentes y multifuncionales diseñadas para ahorrar tiempo y […]

Este astuto truco fotográfico hace que los chatbots de IA ignoren sus reglas de seguridad.

Un nuevo exploit de la Universidad Internacional de Florida muestra cómo cambios invisibles a nivel de píxel en una foto pueden engañar a los chatbots de IA para generar respuestas que normalmente bloquearían.