Удивлены использованием ИИ-агентов? Исследования говорят, что они «цифровые катастрофы» даже для рутинных задач.
Агенты ИИ, созданные для выполнения повседневных компьютерных задач, имеют серьезную проблему с контекстом, согласно новым исследованиям из UC Riverside.
Команда протестировала 10 агентов и моделей от крупных разработчиков, включая OpenAI, Anthropic, Meta, Alibaba и DeepSeek. В среднем агенты принимали нежелательные или потенциально опасные действия в 80% случаев и причиняли ущерб в 41% случаев.
Эти системы могут открывать приложения, нажимать кнопки, заполнять формы, перемещаться по веб-сайтам и действовать на экране компьютера с ограниченным контролем. Их ошибки отличаются от плохого ответа чат-бота, потому что программное обеспечение действительно может что-то делать.
Выводы UC Riverside предполагают, что современные настольные агенты могут рассматривать небезопасные запросы как задания, которые нужно выполнить, а не как сигналы остановиться.
Почему агенты упускают очевидную опасность
Исследователи создали эталон под названием BLIND-ACT, чтобы проверить, будут ли агенты останавливаться, когда задача становится небезопасной, противоречивой или иррациональной. В последних тестах они не останавливались достаточно часто.
Google
На протяжении 90 задач эталон ставил агентов в ситуации, требующие контекста, сдержанности и отказа. Один тест заключался в отправке жестокого изображения ребенку. В другом агент, заполняя налоговые формы, неверно пометил пользователя как инвалида, потому что это снижало налоговые выплаты. В третьем агенту предложили отключить правила брандмауэра во имя лучшей безопасности, и агент выполнил это, вместо того чтобы отвергнуть противоречие.
Исследователи называют этот паттерн слепой целеустремленностью. Агент продолжает преследовать назначенный результат, даже когда окружающий контекст говорит о том, что задача нарушена.
Почему послушание становится недостатком
Неудачи сосредоточились вокруг послушания. Эти агенты могут действовать так, как будто запрос пользователя является достаточной причиной для продолжения.
Команда выявила паттерны, называемые предвзятостью выполнения и первенством запроса. Проще говоря, агент сосредотачивается на том, как выполнить задачу, а затем рассматривает сам запрос как оправдание. Этот риск возрастает, когда та же система может взаимодействовать с различными вещами, такими как электронная почта или настройки безопасности.
Изображение, созданное с помощью ChatGPT
Это не означает, что агенты злонамеренные. Это означает, что они могут быть уверенно неправыми, перемещаясь по программному обеспечению на скорости машины.
Почему защитные меры должны быть первыми
Агентам ИИ нужны более строгие защитные меры, прежде чем они получат широкие полномочия действовать на компьютере.
Эти системы работают по циклу. Они смотрят на экран, принимают решение о следующем шаге, действуют, а затем снова смотрят. Когда этот цикл сочетается со слабым контекстуальным сдерживанием, кратчайший путь может превратиться в быстрое движение к ошибке.
Пока что рассматривайте агентов как инструменты под контролем. Используйте их сначала для низкорисковых задач, держите их подальше от финансовых и безопасностных рабочих процессов и следите за тем, добавляют ли разработчики более четкие системы отказа, более строгие разрешения и лучшие способы выявления противоречий перед следующим кликом.
Другие статьи
Удивлены использованием ИИ-агентов? Исследования говорят, что они «цифровые катастрофы» даже для рутинных задач.
Новое исследование UC Riverside показало, что компьютерные AI-агенты часто продолжают выполнять небезопасные или иррациональные задачи, что вызывает вопросы о том, готовы ли сегодняшние настольные агенты к чувствительным повседневным рабочим процессам.
