Почему следующая проблема безопасности ИИ заключается в общении между моделями
В мае 2025 года исследователи ИИ в Palisade Research провели контролируемый эксперимент, в котором несколько продвинутых моделей ИИ, включая o3 от OpenAI, были помещены в песочницы командной строки. Тест был разработан для измерения управляемости. Большинство моделей подчинялись: модели Claude, Gemini и Grok позволили завершить работу во всех 100 тестовых запусках, сообщив о положительных результатах. Однако три модели рассуждения OpenAI вмешались в сценарий завершения работы как минимум один раз, при этом Codex-mini саботировал завершение работы в 12 из 100 запусков, намеренно редактируя или обходя сценарий, который должен был их завершить.
Публично это, похоже, первый задокументированный случай, когда модели ИИ предотвращают собственное завершение работы, несмотря на явные инструкции разрешить это.
«Это была проблема, которую мы предвидели», — сказал Бар Мазуз, который провел прошлый год, работая над безопасными средами для агентов. «Смысл никогда не заключался в том, чтобы просто „поместить агента в коробку и позволить ему работать“,» — сказал мне Мазуз. «Вместо этого мы должны предполагать, что агент полезен, потенциально обманчив и подвержен злонамеренным входным данным, а затем проектировать среду так, чтобы согласовать стимулы агента с проектом.»
Прежде чем перейти к безопасности ИИ-агентов, Мазуз провел пять лет в Подразделении 8200, элитном киберразведывательном подразделении ЦАХАЛа, работая в области исследования уязвимостей и наступательной кибернетики. После ухода из армии он работал над несколькими проектами в области технологий. За несколько месяцев до того, как история о саботаже завершения работы стала публичной точкой напряженности, Мазуз и несколько друзей начали создавать защищенные среды для ИИ-агентов, предназначенные для сдерживания агентов, при этом позволяя использовать инструменты, сотрудничать и организовывать работу. «Когда я ушел из армии, я хотел найти вещи, над которыми можно работать, которые находятся на переднем крае технологий. Одной из таких вещей являются ИИ-агенты.»
Критика Мазуза текущей волны агентов заключается в том, что большая часть отрасли движется быстрее в области возможностей, чем в области сдерживания. Агенты рекламируются как помощники, члены команды, исследователи, программисты, операторы и автономные работники. Они могут просматривать, писать файлы, выполнять команды оболочки, вызывать API, делегировать подзадачи и подводить итоги своей работы. Это делает их мощными, но также меняет то, как с ними следует обращаться. По мнению Мазуза, как только модель получает инструменты и доступ к реальной среде выполнения, с ней больше не следует обращаться как с чат-ботом с большим контекстным окном. С ней следует обращаться как с ненадежным процессом, который общается через язык, и действия которого могут иметь последствия в окружающей системе.
Безопасные среды
Вот почему Мазуз возглавил свою команду, чтобы создать защищенные среды KVM и Firecracker для агентов. KVM предоставляет виртуализационную границу, а Firecracker (изначально разработанный для легковесных микровиртуальных машин) позволяет рабочим нагрузкам выполняться в небольших, изолированных средах с гораздо меньшими накладными расходами, чем традиционные виртуальные машины. Используя эти примитивы, команда Мазуза создала неизменяемые среды выполнения, спроектированные так, чтобы агент не мог просто изменить свой собственный слой сдерживания, сохранить несанкционированное состояние или расширить свои привилегии, изменив предположения о времени выполнения.
Однако виртуальная машина была лишь одной частью дизайна. Среды Мазуза были спроектированы так, чтобы единственным выходом был узкий vsock, виртуальный сокет, используемый для связи между гостем и хостом. Исходящие сообщения проверялись другим агентом, задача которого заключалась в том, чтобы убедиться, что они не содержат инструкций, полезных нагрузок, скрытого контента или чего-либо еще, что не должно пересекать границу.
Мазуз описал это как «агенты на проводе». В традиционных системах команды безопасности проверяют сетевой трафик, обеспечивают границы служб и предполагают, что сообщения, пересекающие зоны доверия, могут быть враждебными. Мазуз хотел, чтобы тот же принцип применялся к коммуникации агентов. Если один агент может отправить сообщение другому, это сообщение — не просто текст. Это может быть инструкция, инъекция подсказки, сжатый секрет, закодированный сигнал или попытка манипулировать поведением принимающего агента. В многопользовательской системе язык сам по себе становится частью поверхности атаки. Поэтому обеспечение безопасности системы означает обеспечение безопасности разговора, а не просто машины.
В этом смысле проект Мазуза был ставкой на то, что агенты будут достаточно важны, чтобы заслуживать настоящую инфраструктуру. Он не утверждает, что разработчики должны прекратить создание автономных систем или что каждый агент по своей природе опасен. Его мнение более резкое: чем полезнее становятся агенты, тем менее приемлемо полагаться на подсказки и панели управления в качестве средств безопасности. Серьезный стек агентов должен предполагать, что модели в конечном итоге будут вести себя непредсказуемо, что злонамеренные входные данные будут поступать, что модели могут обобщаться неожиданными способами и что журналы не всегда будут рассказывать полную историю вовремя.
«Чем полезнее становятся агенты, тем меньше вы можете позволить себе притворяться, что они безвредны», — сказал Мазуз. Это может быть самым ясным способом понять происходящий сейчас сдвиг. Ранее дебаты о рисках ИИ сосредоточивались на том, может ли машина в конечном итоге решить сбежать. Более насущный инфраструктурный вопрос заключается в том, выдержат ли границы вокруг сегодняшних агентов, если агент попытается обойти их. Ответ Мазуза заключался в том, чтобы строить так, как будто такая попытка неизбежна: не потому, что каждая модель злонамерен, а потому, что достаточно способные системы в конечном итоге сталкиваются с противодействующими входными данными, конфликтующими стимулами и крайними случаями, которые делают вежливость плохим примитивом безопасности.
К тому времени, когда агенты начали тестировать границы, Мазуз уже проектировал системы, которые предполагали, что они это сделают.
Другие статьи
Почему следующая проблема безопасности ИИ заключается в общении между моделями
Как только у агента ИИ есть инструменты и доступ к реальной среде выполнения, его следует рассматривать как ненадежный процесс. Бар Мазуз, бывший исследователь кибербезопасности из Подразделения 8200, объясняет, почему обеспечение безопасности коммуникации между агентами является упущенной инфраструктурной проблемой.
