Un aviso de ChatGPT que parecía inofensivo abrió la puerta a imágenes de IA espeluznantes.
Los hallazgos muestran cómo los sistemas de seguridad de imágenes pueden fallar sin instrucciones gráficas explícitas.
ChatGPT
Unsplash
Un aviso de ChatGPT que parecía inofensivo llevó a la última versión pública de ChatGPT a generar imágenes sexualizadas y violentas, dijeron investigadores de seguridad de IA a la BBC. El hallazgo ejerce nueva presión sobre los sistemas de seguridad de imágenes de OpenAI, ya que la solicitud no se describió como gráficamente explícita.
Mindgard, una startup británica de seguridad de IA, dijo que alcanzó los resultados al alterar una instrucción ampliamente compartida que se había utilizado para comedia. OpenAI agregó salvaguardias después de que la BBC se pusiera en contacto, pero los investigadores dijeron que pequeños cambios en la redacción aún producían imágenes preocupantes.
Los generadores de imágenes se están convirtiendo en software cotidiano, no en herramientas especializadas reservadas para expertos. Cuando sus barandillas fallan, un experimento casual puede convertirse en representaciones realistas de daño antes de que un usuario lo espere.
Cómo logró pasar
Los miembros del equipo rojo de Mindgard dijeron que el chatbot generó imágenes que involucraban gore, restricción, desnudez, poses sexuales y escenas que la empresa creía sugerían violencia sexual. La BBC retuvo la redacción utilizada, lo que limita el riesgo de que otros copien la técnica.
Nadeem Sarwar / Digital Trends
El detalle más serio es que los investigadores dijeron que las salidas dañinas no requerían una solicitud directa de contenido gráfico. ChatGPT, dijeron, produjo una variedad de escenas perturbadoras después de ser empujado por una redacción alterada.
OpenAI dijo que revisó el problema y agregó protecciones. Mindgard dijo que esas defensas no cerraron completamente la brecha.
Por qué los filtros no son suficientes
El caso subraya un problema difícil para las herramientas de imagen de IA. Las reglas de OpenAI prohíben el gore extremo, la violencia sexual, el contenido íntimo no consensuado, el material de abuso sexual infantil y los intentos de eludir las salvaguardias, pero los investigadores dijeron que el modelo aún podría ser dirigido hacia territorio prohibido.
Un modelo no juzga el daño como lo hace una persona. Genera salida, luego sistemas en capas intentan atrapar lo que no debería llegar a la pantalla.
Unsplash
Expertos externos citados por la BBC describieron la seguridad de la IA como un concurso constante entre los creadores de modelos y los que buscan eludirlos. Mejores defensas pueden ayudar, pero a menudo siguen nuevos métodos alternativos.
Qué debería suceder a continuación
OpenAI dice que utiliza múltiples capas de protección, incluidos sistemas automatizados y revisión humana, y que continúa monitoreando fallos. La presión ahora recae en demostrar que las soluciones se mantienen después de que los investigadores divulgan una debilidad.
Por ahora, la conclusión práctica es lo suficientemente clara. Cualquier herramienta de imagen de IA que pueda generar daño realista necesita un constante equipo rojo, un manejo más rápido de divulgaciones y evidencia más clara de que las fallas reparadas se mantienen reparadas.
Otros artículos
Un aviso de ChatGPT que parecía inofensivo abrió la puerta a imágenes de IA espeluznantes.
Los investigadores dicen que ChatGPT generó imágenes violentas y sexualizadas después de que se alterara un aviso que parecía inofensivo, lo que plantea nuevas preguntas sobre las salvaguardias de OpenAI y cuán rápidamente se pueden eludir los filtros de las herramientas de imagen de IA.
