Un aviso de ChatGPT que parecía inofensivo abrió la puerta a imágenes de IA espeluznantes.

      Los hallazgos muestran cómo los sistemas de seguridad de imágenes pueden fallar sin instrucciones gráficas explícitas.

















       ChatGPT





       Unsplash







       Un aviso de ChatGPT que parecía inofensivo llevó a la última versión pública de ChatGPT a generar imágenes sexualizadas y violentas, dijeron investigadores de seguridad de IA a la BBC. El hallazgo ejerce nueva presión sobre los sistemas de seguridad de imágenes de OpenAI, ya que la solicitud no se describió como gráficamente explícita.

      Mindgard, una startup británica de seguridad de IA, dijo que alcanzó los resultados al alterar una instrucción ampliamente compartida que se había utilizado para comedia. OpenAI agregó salvaguardias después de que la BBC se pusiera en contacto, pero los investigadores dijeron que pequeños cambios en la redacción aún producían imágenes preocupantes.

      Los generadores de imágenes se están convirtiendo en software cotidiano, no en herramientas especializadas reservadas para expertos. Cuando sus barandillas fallan, un experimento casual puede convertirse en representaciones realistas de daño antes de que un usuario lo espere.

      Cómo logró pasar

      Los miembros del equipo rojo de Mindgard dijeron que el chatbot generó imágenes que involucraban gore, restricción, desnudez, poses sexuales y escenas que la empresa creía sugerían violencia sexual. La BBC retuvo la redacción utilizada, lo que limita el riesgo de que otros copien la técnica.

      Nadeem Sarwar / Digital Trends

      El detalle más serio es que los investigadores dijeron que las salidas dañinas no requerían una solicitud directa de contenido gráfico. ChatGPT, dijeron, produjo una variedad de escenas perturbadoras después de ser empujado por una redacción alterada.

      OpenAI dijo que revisó el problema y agregó protecciones. Mindgard dijo que esas defensas no cerraron completamente la brecha.

      Por qué los filtros no son suficientes

      El caso subraya un problema difícil para las herramientas de imagen de IA. Las reglas de OpenAI prohíben el gore extremo, la violencia sexual, el contenido íntimo no consensuado, el material de abuso sexual infantil y los intentos de eludir las salvaguardias, pero los investigadores dijeron que el modelo aún podría ser dirigido hacia territorio prohibido.

      Un modelo no juzga el daño como lo hace una persona. Genera salida, luego sistemas en capas intentan atrapar lo que no debería llegar a la pantalla.

      Unsplash

      Expertos externos citados por la BBC describieron la seguridad de la IA como un concurso constante entre los creadores de modelos y los que buscan eludirlos. Mejores defensas pueden ayudar, pero a menudo siguen nuevos métodos alternativos.

      Qué debería suceder a continuación

      OpenAI dice que utiliza múltiples capas de protección, incluidos sistemas automatizados y revisión humana, y que continúa monitoreando fallos. La presión ahora recae en demostrar que las soluciones se mantienen después de que los investigadores divulgan una debilidad.

      Por ahora, la conclusión práctica es lo suficientemente clara. Cualquier herramienta de imagen de IA que pueda generar daño realista necesita un constante equipo rojo, un manejo más rápido de divulgaciones y evidencia más clara de que las fallas reparadas se mantienen reparadas.

Otros artículos

Life360 ahora permite a los padres solicitar viajes de Uber para adolescentes sin salir de la aplicación. Life360 integró Uber Family para que los padres puedan solicitar viajes a la ubicación en tiempo real de un adolescente. Las cuentas de Uber para adolescentes han completado decenas de millones de viajes a nivel mundial.

El editor de imágenes AI de Google Photos se expande a más regiones, pero solo para usuarios de Android. Google ha expandido Editar con Ask Photos, su herramienta de edición conversacional impulsada por IA, a cinco nuevos mercados. La función se está implementando para usuarios de Android en Alemania, el Reino Unido, Francia, España e Italia, pero no se ha confirmado el soporte para iOS en las nuevas regiones.

Un estado de EE. UU. quiere prohibir las gafas inteligentes mientras se conduce, y podría abrir la caja de Pandora. Las gafas inteligentes están evolucionando rápidamente de ser dispositivos de nicho a tecnología de consumo general. Los dispositivos de empresas como Meta, Google, Apple y Snap son cada vez más capaces de mostrar notificaciones, proporcionar navegación, grabar video e incluso ejecutar asistentes impulsados por IA directamente en el campo de visión del usuario. Pero un estado de EE. UU. ya está planteando una pregunta importante: ¿Debería […]

Gradial recauda $65 millones para marketing empresarial agente. Gradial de Seattle ha recaudado 65 millones de dólares en una Serie C liderada por Insight Partners a una valoración de 675 millones de dólares, implementando agentes de IA en herramientas de marketing empresarial.

Dos de los mejores juegos de Call of Duty finalmente están llegando a las PlayStations modernas. Treyarch ha confirmado que Call of Duty: Black Ops y Black Ops 2 están siendo portados a las consolas PlayStation modernas por Iron Galaxy. Los clásicos shooters incluirán campaña, multijugador y Zombies, dando a los jugadores de PlayStation la oportunidad de revivir dos de las entregas más queridas de la franquicia.

Dentro de la revuelta en la unidad de IA Aplicada de Meta La unidad de IA Aplicada de Meta, compuesta por 6,500 personas, está en abierta rebelión, con ingenieros de élite reclutados para etiquetar datos e incluso el CTO calificando la reorganización de 'atroz'.

Un aviso de ChatGPT que parecía inofensivo abrió la puerta a imágenes de IA espeluznantes.

Los investigadores dicen que ChatGPT generó imágenes violentas y sexualizadas después de que se alterara un aviso que parecía inofensivo, lo que plantea nuevas preguntas sobre las salvaguardias de OpenAI y cuán rápidamente se pueden eludir los filtros de las herramientas de imagen de IA.