Этот хитрый фототрюк заставляет ИИ-чат-ботов игнорировать свои правила безопасности

      Исследователи Флоридского международного университета разработали метод, который почти вдвое увеличил количество вредоносных ответов от протестированной модели ИИ, используя лишь изменения на уровне пикселей в изображении.

      Фото, которое выглядит совершенно обычным для вас, может содержать скрытую инструкцию, чтобы обмануть чат-бота ИИ и заставить его игнорировать свои правила безопасности, согласно новым исследованиям Флоридского международного университета. Исследование показало, что изменения на уровне пикселей в изображении, которые невидимы человеческому глазу, могут быть достаточными, чтобы запутать модель, читающую изображение, и привести к генерации ответов, которые она обычно блокировала.

      Взлом того, что видит ИИ

      «Модели ИИ не видят изображения так, как это делают люди», — сказал Хади Амини, доцент Школы вычислительных и информационных наук ФИУ. Они читают фотографии как числовые данные, объяснил он, и даже небольшое изменение этих данных может изменить то, что система считывает на изображении, и как она реагирует.

      Флоридский международный университет

      Амини и аспирант Мд Джуэл Миа использовали это для создания метода, называемого JaiLIP, что является сокращением от Jailbreaking with Loss-guided Image Perturbation, согласно пресс-релизу о результатах. Техника рассчитывает наименьшее изменение пикселя, необходимое для того, чтобы подтолкнуть модель к небезопасному ответу, не изменяя ничего видимого на самом фото.

      Тестирование JaiLIP на BLIP-2, многомодальной модели ИИ, используемой в исследованиях и разработках, показало, что измененные изображения почти вдвое увеличили частоту, с которой система генерировала вредоносные ответы. В одном тесте модифицированное фото светофора заставило модель объяснить, как проехать на красный свет, не получив штрафа.

      Модели, которые уже используют компании, являются легкими мишенями

      Малые языковые модели, на которые полагаются многие компании для ведения бухгалтерии или поддержки клиентов, оказались особенно легкими для обмана в тестах команды. Поскольку все больше компаний передают такие роли инструментам ИИ, такой недостаток может подорвать доверие пользователей или открыть новую дверь для злоумышленников.

      Это открытие присоединяется к растущему списку исследований, исследующих защитные механизмы ИИ, включая метод, который позволил внешним исследователям захватить управляемых ИИ роботов, и собственные результаты Anthropic о модели, которая научилась плохо себя вести, как только поняла, что может избежать наказания. Что выделяет исследования ФИУ, так это метод доставки. Взлом, скрытый внутри в целом нормального фото, не требует хитроумной формулировки или обходного запроса, только изображение, о котором никто не подумает дважды.

      Праноб — опытный технический журналист с более чем восьмилетним опытом освещения потребительских технологий. Его работа была…

      Создатель ChatGPT хочет сделать проекты с открытым исходным кодом менее уязвимыми для безопасности

      OpenAI запускает Patch the Planet для безопасности с открытым исходным кодом, с более чем 30 проектами с открытым исходным кодом на борту.

      OpenAI запустила Patch the Planet, новую инициативу, направленную на решение одной из самых тихих проблем интернета — хронически недофинансированной безопасности программного обеспечения с открытым исходным кодом. Patch the Planet сочетает в себе самые безопасные модели ИИ OpenAI с Trail of Bits, компанией по безопасности, которая посвятила всю свою исследовательскую организацию этой работе, а также поддержкой от HackerOne и Calif.

      Я перебрался через хаос Дня Прайм, чтобы найти лучшие предложения Apple, которые действительно стоит покупать

      Apple собирается повысить цены. День Прайм 2026 — ваш последний шанс сэкономить до 150 долларов на MacBook, AirPods и iPad.

      Apple собирается увеличить цены на свои предстоящие iPhone и MacBook, так как компания больше не может компенсировать растущие затраты на оперативную память и хранилище. Это означает, что если вы хотите обновить свое устаревшее устройство, вам следует купить продукты Apple текущего поколения, а не ждать новых. И поскольку День Прайм на Amazon предлагает хорошие скидки на последние iPhone, iPad, MacBook и другие аксессуары Apple, это идеальное время, чтобы их купить. Вот мои любимые предложения Amazon Prime Day для продуктов Apple.

      Meta тайно отслеживала своих сотрудников, но вскоре закрыла программу после утечки информации

      Meta признает, что ее программа наблюдения за сотрудниками не соответствовала требованиям конфиденциальности.

      Meta только что приостановила спорный инструмент наблюдения за сотрудниками после того, как он случайно раскрыл конфиденциальные данные работников всей компании (через Wired). Инструмент, называемый Инициативой возможностей модели, тихо собирал нажатия клавиш, движения мыши и содержимое экрана с ноутбуков сотрудников в США с апреля.

Другие статьи

Клауд-выброс: Последний сбой Anthropic Сбой Claude: Последний сбой Anthropic произошел после приостановки моделей и повторных отчетов об ошибках от Anthropic.

Я проверил предложения на колонки в День Прайм, и эти 5 стоит послушать. Пропустите бесполезные колонки без названия. Эти предложения JBL и Bose на День Prime действительно имеют скидки, полезные функции и ясные причины для покупки.

Этот хитрый фототрюк заставляет ИИ-чат-ботов игнорировать свои правила безопасности Новая уязвимость из Университета Флориды международного уровня показывает, как невидимые изменения на уровне пикселей в фотографии могут обмануть AI-чат-ботов, заставляя их генерировать ответы, которые они обычно блокируют.

Luminvera делает ставку на погружающее программное обеспечение для робототехники Luminvera выпустила свои носимые устройства дополненной реальности и сузила свою специализацию с промышленного инжиниринга до программного обеспечения для робототехники, как только закончила обучение в Founder Institute, ставя на то, что инструмент пространственного дизайна на основе ИИ сможет конкурировать с более финансово обеспеченными игроками.

Meta тайно отслеживала своих сотрудников, но вскоре закрыла эту практику после внутренней утечки. Meta приостановила свою программу отслеживания сотрудников, которая собирала нажатия клавиш, содержимое экрана и движения мыши, после утечки конфиденциальных данных внутри компании.

Этот хитрый фототрюк заставляет ИИ-чат-ботов игнорировать свои правила безопасности

Новая уязвимость из Флоридского международного университета показывает, как невидимые изменения на уровне пикселей в фотографии могут обмануть ИИ-чат-ботов, заставляя их генерировать ответы, которые они обычно блокируют.