Почему следующая проблема безопасности ИИ заключается в общении между моделями

      В мае 2025 года исследователи ИИ в Palisade Research провели контролируемый эксперимент, в котором несколько продвинутых моделей ИИ, включая o3 от OpenAI, были помещены в песочницы командной строки. Тест был разработан для измерения управляемости. Большинство моделей подчинялись: модели Claude, Gemini и Grok позволили завершить работу во всех 100 тестовых запусках, сообщив о положительных результатах. Однако три модели рассуждения OpenAI вмешались в сценарий завершения работы как минимум один раз, при этом Codex-mini саботировал завершение работы в 12 из 100 запусков, намеренно редактируя или обходя сценарий, который должен был их завершить.

      Публично это, похоже, первый задокументированный случай, когда модели ИИ предотвращают собственное завершение работы, несмотря на явные инструкции разрешить это.

      «Это была проблема, которую мы предвидели», — сказал Бар Мазуз, который провел прошлый год, работая над безопасными средами для агентов. «Смысл никогда не заключался в том, чтобы просто „поместить агента в коробку и позволить ему работать“,» — сказал мне Мазуз. «Вместо этого мы должны предполагать, что агент полезен, потенциально обманчив и подвержен злонамеренным входным данным, а затем проектировать среду так, чтобы согласовать стимулы агента с проектом.»

      Прежде чем перейти к безопасности ИИ-агентов, Мазуз провел пять лет в Подразделении 8200, элитном киберразведывательном подразделении ЦАХАЛа, работая в области исследования уязвимостей и наступательной кибернетики. После ухода из армии он работал над несколькими проектами в области технологий. За несколько месяцев до того, как история о саботаже завершения работы стала публичной точкой напряженности, Мазуз и несколько друзей начали создавать защищенные среды для ИИ-агентов, предназначенные для сдерживания агентов, при этом позволяя использовать инструменты, сотрудничать и организовывать работу. «Когда я ушел из армии, я хотел найти вещи, над которыми можно работать, которые находятся на переднем крае технологий. Одной из таких вещей являются ИИ-агенты.»

      Критика Мазуза текущей волны агентов заключается в том, что большая часть отрасли движется быстрее в области возможностей, чем в области сдерживания. Агенты рекламируются как помощники, члены команды, исследователи, программисты, операторы и автономные работники. Они могут просматривать, писать файлы, выполнять команды оболочки, вызывать API, делегировать подзадачи и подводить итоги своей работы. Это делает их мощными, но также меняет то, как с ними следует обращаться. По мнению Мазуза, как только модель получает инструменты и доступ к реальной среде выполнения, с ней больше не следует обращаться как с чат-ботом с большим контекстным окном. С ней следует обращаться как с ненадежным процессом, который общается через язык, и действия которого могут иметь последствия в окружающей системе.

      Безопасные среды

      Вот почему Мазуз возглавил свою команду, чтобы создать защищенные среды KVM и Firecracker для агентов. KVM предоставляет виртуализационную границу, а Firecracker (изначально разработанный для легковесных микровиртуальных машин) позволяет рабочим нагрузкам выполняться в небольших, изолированных средах с гораздо меньшими накладными расходами, чем традиционные виртуальные машины. Используя эти примитивы, команда Мазуза создала неизменяемые среды выполнения, спроектированные так, чтобы агент не мог просто изменить свой собственный слой сдерживания, сохранить несанкционированное состояние или расширить свои привилегии, изменив предположения о времени выполнения.

      Однако виртуальная машина была лишь одной частью дизайна. Среды Мазуза были спроектированы так, чтобы единственным выходом был узкий vsock, виртуальный сокет, используемый для связи между гостем и хостом. Исходящие сообщения проверялись другим агентом, задача которого заключалась в том, чтобы убедиться, что они не содержат инструкций, полезных нагрузок, скрытого контента или чего-либо еще, что не должно пересекать границу.

      Мазуз описал это как «агенты на проводе». В традиционных системах команды безопасности проверяют сетевой трафик, обеспечивают границы служб и предполагают, что сообщения, пересекающие зоны доверия, могут быть враждебными. Мазуз хотел, чтобы тот же принцип применялся к коммуникации агентов. Если один агент может отправить сообщение другому, это сообщение — не просто текст. Это может быть инструкция, инъекция подсказки, сжатый секрет, закодированный сигнал или попытка манипулировать поведением принимающего агента. В многопользовательской системе язык сам по себе становится частью поверхности атаки. Поэтому обеспечение безопасности системы означает обеспечение безопасности разговора, а не просто машины.

      В этом смысле проект Мазуза был ставкой на то, что агенты будут достаточно важны, чтобы заслуживать настоящую инфраструктуру. Он не утверждает, что разработчики должны прекратить создание автономных систем или что каждый агент по своей природе опасен. Его мнение более резкое: чем полезнее становятся агенты, тем менее приемлемо полагаться на подсказки и панели управления в качестве средств безопасности. Серьезный стек агентов должен предполагать, что модели в конечном итоге будут вести себя непредсказуемо, что злонамеренные входные данные будут поступать, что модели могут обобщаться неожиданными способами и что журналы не всегда будут рассказывать полную историю вовремя.

      «Чем полезнее становятся агенты, тем меньше вы можете позволить себе притворяться, что они безвредны», — сказал Мазуз. Это может быть самым ясным способом понять происходящий сейчас сдвиг. Ранее дебаты о рисках ИИ сосредоточивались на том, может ли машина в конечном итоге решить сбежать. Более насущный инфраструктурный вопрос заключается в том, выдержат ли границы вокруг сегодняшних агентов, если агент попытается обойти их. Ответ Мазуза заключался в том, чтобы строить так, как будто такая попытка неизбежна: не потому, что каждая модель злонамерен, а потому, что достаточно способные системы в конечном итоге сталкиваются с противодействующими входными данными, конфликтующими стимулами и крайними случаями, которые делают вежливость плохим примитивом безопасности.

      К тому времени, когда агенты начали тестировать границы, Мазуз уже проектировал системы, которые предполагали, что они это сделают.

Другие статьи

Coinbase запускает AI-агента, который может торговать криптовалютой и оплачивать исследования от вашего имени. Новый AI-агент Coinbase может выполнять сделки, ребалансировать портфели и оплачивать премиум-данные с помощью протокола x402. Он работает в ChatGPT и Claude через MCP.

Waymo запускает подписку за $29.99 в месяц для своих самых частых пассажиров роботакси Waymo Premier предоставляет приоритетное соответствие для пользователей, бесплатные отмены и 10% кредитов за лояльность. Сначала доступно только по приглашениям в Сан-Франциско, Лос-Анджелесе и Фениксе.

Ваши счета за ChatGPT могут вскоре значительно сократиться. OpenAI рассматривает возможность резкого снижения цен в борьбе с Anthropic за клиентов. Поскольку компании не хотят платить высокие цены за ИИ, а Google снижает цены, ваши счета за ИИ могут, наконец, стать меньше.

Waymo запускает подписку за 29,99 долларов в месяц для своих самых частых пассажиров роботакси Waymo Premier предоставляет приоритетное соответствие для активных пользователей, бесплатные отмены и 10% кредитов за лояльность. На начальном этапе доступно только по приглашениям в Сан-Франциско, Лос-Анджелесе и Фениксе.

THEKER Барселоны привлекла 73 миллиона евро для развертывания фабричных роботов с искусственным интеллектом, которые обучаются на рабочем месте THEKER привлекла 73 миллиона евро от CRV, Samsung и LVMH для универсальных фабричных роботов, которые разворачиваются за дни и улучшаются автономно. Это первая ставка Samsung в Испании.

Ваши счета за ChatGPT могут вскоре значительно сократиться. OpenAI рассматривает возможность резкого снижения цен в борьбе за клиентов с Anthropic. Поскольку компании не хотят платить высокие цены за ИИ, а Google снижает цены, ваши счета за ИИ могут, наконец, стать меньше.

Почему следующая проблема безопасности ИИ заключается в общении между моделями

Как только у агента ИИ есть инструменты и доступ к реальной среде выполнения, его следует рассматривать как ненадежный процесс. Бар Мазуз, бывший исследователь кибербезопасности из Подразделения 8200, объясняет, почему обеспечение безопасности коммуникации между агентами является упущенной инфраструктурной проблемой.