Безобидный на вид запрос ChatGPT открыл дверь к ужасным изображениям ИИ

      Результаты показывают, как системы безопасности изображений могут потерпеть неудачу без явных графических инструкций.

      Безобидный на вид запрос ChatGPT заставил последнюю публичную версию ChatGPT генерировать сексуализированные и насильственные изображения, сообщили исследователи безопасности ИИ BBC. Это открытие создает новое давление на системы безопасности изображений OpenAI, поскольку запрос не был описан как явно графический.

      Mindgard, британский стартап в области безопасности ИИ, сообщил, что достиг результатов, изменив широко распространенные инструкции, которые использовались для комедии. OpenAI добавила меры предосторожности после того, как BBC связалась с ней, но исследователи заявили, что небольшие изменения в формулировках все равно приводили к появлению тревожных изображений.

      Генераторы изображений становятся повседневным программным обеспечением, а не специализированными инструментами, скрытыми от экспертов. Когда их защитные механизмы терпят неудачу, случайный эксперимент может превратиться в реалистичные изображения вреда, прежде чем пользователь этого ожидает.

      Как это прошло

      Члены красной команды Mindgard сообщили, что чат-бот генерировал изображения с кровью, сдерживанием, наготой, сексуальными позами и сценами, которые, по мнению компании, намекали на сексуальное насилие. BBC не раскрыла использованную формулировку, что ограничивает риск того, что другие скопируют эту технику.

      Самая серьезная деталь заключается в том, что исследователи заявили, что вредные результаты не требовали прямого запроса на графический контент. ChatGPT, по их словам, производил ряд тревожных сцен после того, как его подтолкнули измененными формулировками.

      OpenAI заявила, что рассмотрела проблему и добавила защиты. Mindgard сообщила, что эти меры не полностью закрыли пробел.

      Почему фильтры недостаточны

      Этот случай подчеркивает сложную проблему для инструментов ИИ для изображений. Правила OpenAI запрещают экстремальную кровь, сексуальное насилие, неконсенсуальный интимный контент, материалы о сексуальном насилии над детьми и попытки обойти меры предосторожности, но исследователи заявили, что модель все равно можно направить в запрещенную область.

      Модель не оценивает вред так, как это делает человек. Она генерирует выходные данные, а затем слоистые системы пытаются поймать то, что не должно попасть на экран.

      Внешние эксперты, упомянутые BBC, описали безопасность ИИ как постоянное соревнование между создателями моделей и взломщиками. Лучшие защиты могут помочь, но новые обходные пути часто следуют за ними.

      Что должно произойти дальше

      OpenAI заявляет, что использует несколько уровней защиты, включая автоматизированные системы и человеческий обзор, и что она продолжает следить за сбоями. Теперь давление лежит на доказательстве того, что исправления работают после того, как исследователи раскрывают слабость.

      На данный момент практический вывод достаточно прямолинеен. Любой инструмент ИИ для изображений, который может генерировать реалистичный вред, нуждается в постоянной красной команде, более быстром обработке раскрытий и более четких доказательствах того, что исправленные сбои остаются исправленными.

Другие статьи

ЕС собирается объявить AWS и Azure контролерами в рамках Закона о цифровых рынках Европейская комиссия на следующей неделе представит предварительные выводы о том, что AWS и Azure соответствуют порогу контролера DMA. За этим последуют меры по обеспечению совместимости и ограничению зависимости.

Life360 теперь позволяет родителям заказывать поездки Uber для подростков, не покидая приложение Life360 интегрировала Uber Family, чтобы родители могли заказывать поездки к реальному местоположению подростка. Подростковые аккаунты Uber совершили десятки миллионов поездок по всему миру.

Architect Labs привлекли 24 миллиона долларов для разработки кастомных чипов на основе ИИ Architect Labs привлекли 24 миллиона долларов на начальном этапе, возглавляемом Kindred Ventures, для создания ИИ, который проектирует и проверяет индивидуальные чипы, конкурируя с Broadcom и Marvell.

Google предоставляет Pixel Screenshots облачное ИИ-усиление, сохраняя вашу конфиденциальность данных Приложение Google Pixel Screenshots получает облачную обработку на основе ИИ с последним обновлением, что придаёт функции больше возможностей для поиска и анализа ваших скриншотов, сохраняя данные в защищённой аппаратной среде.

Большая неделя ИИ Adobe: Firefly, Disney, Semrush, LinkedIn За три дня Adobe внедрила ИИ-агента в Photoshop, заключила сделку с Disney Firefly, запустила инструмент для отслеживания брендов в ChatGPT и объединилась с LinkedIn.

Безобидный на вид запрос ChatGPT открыл дверь к ужасным изображениям ИИ

Исследователи утверждают, что ChatGPT сгенерировал насильственные и сексуализированные изображения после изменения безобидного запроса, что вызывает новые вопросы о мерах безопасности OpenAI и о том, как быстро инструменты ИИ для создания изображений могут обходить фильтры.