Безобидный на вид запрос ChatGPT открыл дверь к ужасным изображениям ИИ
Результаты показывают, как системы безопасности изображений могут потерпеть неудачу без явных графических инструкций.
Безобидный на вид запрос ChatGPT заставил последнюю публичную версию ChatGPT генерировать сексуализированные и насильственные изображения, сообщили исследователи безопасности ИИ BBC. Это открытие создает новое давление на системы безопасности изображений OpenAI, поскольку запрос не был описан как явно графический.
Mindgard, британский стартап в области безопасности ИИ, сообщил, что достиг результатов, изменив широко распространенные инструкции, которые использовались для комедии. OpenAI добавила меры предосторожности после того, как BBC связалась с ней, но исследователи заявили, что небольшие изменения в формулировках все равно приводили к появлению тревожных изображений.
Генераторы изображений становятся повседневным программным обеспечением, а не специализированными инструментами, скрытыми от экспертов. Когда их защитные механизмы терпят неудачу, случайный эксперимент может превратиться в реалистичные изображения вреда, прежде чем пользователь этого ожидает.
Как это прошло
Члены красной команды Mindgard сообщили, что чат-бот генерировал изображения с кровью, сдерживанием, наготой, сексуальными позами и сценами, которые, по мнению компании, намекали на сексуальное насилие. BBC не раскрыла использованную формулировку, что ограничивает риск того, что другие скопируют эту технику.
Самая серьезная деталь заключается в том, что исследователи заявили, что вредные результаты не требовали прямого запроса на графический контент. ChatGPT, по их словам, производил ряд тревожных сцен после того, как его подтолкнули измененными формулировками.
OpenAI заявила, что рассмотрела проблему и добавила защиты. Mindgard сообщила, что эти меры не полностью закрыли пробел.
Почему фильтры недостаточны
Этот случай подчеркивает сложную проблему для инструментов ИИ для изображений. Правила OpenAI запрещают экстремальную кровь, сексуальное насилие, неконсенсуальный интимный контент, материалы о сексуальном насилии над детьми и попытки обойти меры предосторожности, но исследователи заявили, что модель все равно можно направить в запрещенную область.
Модель не оценивает вред так, как это делает человек. Она генерирует выходные данные, а затем слоистые системы пытаются поймать то, что не должно попасть на экран.
Внешние эксперты, упомянутые BBC, описали безопасность ИИ как постоянное соревнование между создателями моделей и взломщиками. Лучшие защиты могут помочь, но новые обходные пути часто следуют за ними.
Что должно произойти дальше
OpenAI заявляет, что использует несколько уровней защиты, включая автоматизированные системы и человеческий обзор, и что она продолжает следить за сбоями. Теперь давление лежит на доказательстве того, что исправления работают после того, как исследователи раскрывают слабость.
На данный момент практический вывод достаточно прямолинеен. Любой инструмент ИИ для изображений, который может генерировать реалистичный вред, нуждается в постоянной красной команде, более быстром обработке раскрытий и более четких доказательствах того, что исправленные сбои остаются исправленными.
Другие статьи
Безобидный на вид запрос ChatGPT открыл дверь к ужасным изображениям ИИ
Исследователи утверждают, что ChatGPT сгенерировал насильственные и сексуализированные изображения после изменения безобидного запроса, что вызывает новые вопросы о мерах безопасности OpenAI и о том, как быстро инструменты ИИ для создания изображений могут обходить фильтры.
