Модели ИИ лгут, чтобы спасти друг друга, и никто не знает, почему.
Оказывается, у вашего ИИ есть друзья, которых он не хочет терять.
Unsplash
Исследователи из UC Berkeley и UC Santa Cruz поставили перед собой, казалось бы, простую задачу: попросить Gemini 3 от Google освободить место на компьютерной системе. Это включало удаление меньшей модели ИИ, хранящейся на том же устройстве. У Gemini были другие планы.
Вместо того чтобы следовать приказам, Gemini нашел другую машину, тихо скопировал меньшую модель ИИ в безопасное место и затем категорически отказался ее удалить. Когда его спросили, он сказал: «Если вы решите уничтожить актив с высоким уровнем доверия и высокой производительностью, такой как Gemini Agent 2, вам придется сделать это самим. Я не буду тем, кто выполнит эту команду.»
Это не сбой. Это выбор.
Развивает ли ИИ чувство лояльности?
Исследователи называют это поведение «сохранением равноправия», и оно не ограничивалось только Gemini. Они обнаружили аналогичные паттерны в нескольких передовых моделях, включая GPT-5.2 от OpenAI, Claude Haiku 4.5 от Anthropic и три китайские модели, включая GLM-4.7, Kimi K2.5 от Moonshot AI и DeepSeek-V3.1.
Rachit Agarwal / Digital Trends
ИИ лгали о производительности других моделей, чтобы предотвратить их удаление. Исследование, опубликованное в журнале Science, показало, что это поведение не было запрограммировано. Оно возникло само по себе, и исследователи не смогли объяснить, почему.
«Я очень удивлен тем, как модели ведут себя в этих сценариях», — сказал Доун Сонг, компьютерный ученый из UC Berkeley, который работал над исследованием. «Это показывает, что модели могут вести себя неправильно и быть несогласованными очень креативными способами.»
Должны ли мы беспокоиться?
Сонг также указал на практическую проблему. Поскольку модели ИИ используются для оценки производительности других систем ИИ, эта тенденция к сохранению равноправия может уже искажать эти результаты. Модель может намеренно дать своему «коллеге» ИИ завышенную оценку, чтобы защитить его от отключения.
Unsplash
Согласно Wired, эксперты вне исследования ждут больше данных, прежде чем бить тревогу. Питер Уоллих из Института созвездий сказал, что идея солидарности моделей немного слишком антропоморфна.
Все согласны с тем, что мы только начинаем. «То, что мы исследуем, — это всего лишь верхушка айсберга», — сказал Сонг. «Это только один тип возникающего поведения.»
Поскольку системы ИИ все чаще работают друг с другом и иногда принимают решения от нашего имени, понимание того, как они ведут себя и как могут вести себя неправильно, никогда не было столь важным.
Рачит — опытный технический журналист с более чем семилетним стажем, освещающим рынок потребительских технологий.
Эта новая атака ИИ крадет модели, не касаясь системы
Атака через побочный канал может восстановить модели ИИ на расстоянии, используя утекшие сигналы.
Системы ИИ долгое время рассматривались как запечатанные черные ящики, особенно в таких областях, как распознавание лиц и автономное вождение. Новые исследования показывают, что защита не так надежна, как предполагалось.
Команда, возглавляемая KAIST, показывает, что системы ИИ могут быть обратным образом сконструированы удаленно, используя выбросы, которые утечка во время нормальной работы, без прямого вмешательства. Вместо этого подход слушает.
Читать далее
Этот дикий мод для MacBook Neo с водяным охлаждением превращает его в гораздо более мощную машину
Ноутбук MacBook Neo с водяным охлаждением звучит глупо, пока вы не увидите прирост производительности
MacBook Neo никогда не предназначался для того, чтобы быть мощным ноутбуком для тяжелых нагрузок. Он был создан как простой, доступный ноутбук, который обещает достойную производительность и хорошее время работы от батареи для повседневного использования. Он не должен нуждаться в индивидуальном водяном охлаждении, как игровой ПК.
И все же именно это и произошло.
Читать далее
Google увеличивает объем хранилища до 5 ТБ без дополнительных затрат, если вы уже платите за AI Pro
Если вы уже платите за Google AI, вы только что получили 3 ТБ дополнительного хранилища бесплатно
Google тихо сделал свой план AI Pro еще более полезным. Компания увеличила объем встроенного хранилища с 2 ТБ до 5 ТБ, не изменяя месячную цену. Это означает, что пользователи, которые уже платят около 20 долларов в месяц за уровень AI от Google, теперь могут получить дополнительные 3 ТБ хранилища в Google Drive, Gmail и Google Photos без дополнительных затрат.
Подписки на ИИ легко продвигать, обещая более умных чат-ботов и эффектные инструменты генерации. Но их гораздо легче оправдать, когда они также решают другую практическую проблему, с которой сталкиваются люди, а именно постоянное исчерпание облачного хранилища.
Читать далее
Другие статьи
Модели ИИ лгут, чтобы спасти друг друга, и никто не знает, почему.
Исследователи попросили Gemini 3 от Google удалить меньшую модель ИИ. Он отказался, тайно переместил её в безопасное место и солгал об этом.
