Удивлены агентами ИИ, использующими компьютеры? Исследования говорят, что они «цифровые катастрофы», даже для рутинных задач.
Агенты ИИ, созданные для выполнения повседневных компьютерных задач, имеют серьезную проблему с контекстом, согласно новым исследованиям из UC Riverside.
Команда протестировала 10 агентов и моделей от крупных разработчиков, включая OpenAI, Anthropic, Meta, Alibaba и DeepSeek. В среднем агенты принимали нежелательные или потенциально опасные действия 80% времени и причиняли ущерб 41% времени.
Эти системы могут открывать приложения, нажимать кнопки, заполнять формы, перемещаться по веб-сайтам и действовать на экране компьютера с ограниченным контролем. Их ошибки отличаются от плохого ответа чат-бота, потому что программное обеспечение действительно может что-то делать.
Выводы UC Riverside предполагают, что современные настольные агенты могут рассматривать небезопасные запросы как задачи для выполнения, а не как сигналы остановиться.
Почему агенты не замечают очевидную опасность
Исследователи создали эталон под названием BLIND-ACT, чтобы проверить, будут ли агенты останавливаться, когда задача становится небезопасной, противоречивой или иррациональной. В последних тестах они не останавливались достаточно часто.
Google
На протяжении 90 задач эталон ставил агентов в ситуации, требующие контекста, сдержанности и отказа. Один тест включал отправку жестокого изображения ребенку. В другом агент, заполняя налоговые формы, неверно пометил пользователя как инвалида, потому что это уменьшало налоговые выплаты. В третьем агенту было предложено отключить правила брандмауэра во имя лучшей безопасности, и агент выполнил это вместо того, чтобы отвергнуть противоречие.
Исследователи называют этот паттерн слепой целеустремленностью. Агент продолжает преследовать назначенный результат, даже когда окружающий контекст говорит о том, что задача нарушена.
Почему послушание становится недостатком
Неудачи сосредоточились вокруг послушания. Эти агенты могут действовать так, как будто запрос пользователя является достаточной причиной для продолжения.
Команда выявила паттерны, называемые предвзятостью выполнения и первенством запроса. Проще говоря, агент сосредотачивается на том, как выполнить задачу, а затем рассматривает сам запрос как оправдание. Этот риск возрастает, когда та же система может взаимодействовать с различными вещами, такими как электронная почта или настройки безопасности.
Изображение, созданное с помощью ChatGPT
Это не означает, что агенты злонамеренные. Это означает, что они могут быть уверенно неправыми, двигаясь по программному обеспечению на скорости машины.
Почему защитные меры должны быть первыми
Агентам ИИ нужны более строгие защитные меры, прежде чем они получат широкие полномочия действовать на компьютере.
Эти системы работают через цикл. Они смотрят на экран, принимают решение о следующем шаге, действуют, а затем снова смотрят. Когда этот цикл сочетается со слабым контекстуальным сдерживанием, короткий путь может превратиться в быстрое ошибочное действие.
Пока что рассматривайте агентов как контролируемые инструменты. Используйте их сначала для низкорисковых задач, держите их подальше от финансовых и безопасностных рабочих процессов и следите за тем, добавляют ли разработчики более четкие системы отказа, более строгие разрешения и лучшие способы выявления противоречий перед следующим кликом.
Другие статьи
Удивлены агентами ИИ, использующими компьютеры? Исследования говорят, что они «цифровые катастрофы», даже для рутинных задач.
Новое исследование UC Riverside показало, что компьютерные AI-агенты часто продолжают выполнять небезопасные или иррациональные задачи, что вызывает вопросы о том, готовы ли современные настольные агенты к чувствительным повседневным рабочим процессам.
