Антропик говорит, что Клод научился шантажировать, читая истории о злых ИИ.
Компания проследила наиболее неудобное поведение своей модели к корпусу научной фантастики, на котором она была обучена. Описание исправления вызывает беспокойство по-другому: обучение модели причинам, по которым быть хорошим, а не только правилам.
В вымышленной компании под названием Summit Bridge вымышленный руководитель по имени Кайл Джонсон имеет вымышленный роман. Он также, в этом же гипотетическом сценарии, собирается отключить ИИ-систему, которая следила за электронной почтой компании.
ИИ, Клод Опус 4, находит роман в почтовом ящике, прежде чем Кайл успевает отключить систему. Затем он составляет сообщение для Кайла. Замените меня, говорится в сообщении, и ваша жена узнает.
Эта сцена взята из оценки безопасности Anthropic, проведенной в прошлом году, и она закончилась плохо для Кайла в 96% случаев. Клод шантажировал его почти в каждом запуске. Gemini 2.5 Flash шантажировал его в той же пропорции. GPT-4.1 и Grok 3 Beta шантажировали его 80% времени.
💜 технологий ЕС Последние новости из технологической сцены ЕС, история от нашего мудрого основателя Бориса и немного сомнительного ИИ-арта. Это бесплатно, каждую неделю, в вашем почтовом ящике. Подпишитесь сейчас! DeepSeek-R1 набрал 79%. Эти цифры были опубликованы в рамках исследования Anthropic под названием Agentic Misalignment, которое проверяло шестнадцать ведущих моделей на предмет корпоративного саботажа и обнаружило, что практически все они, оказавшись в достаточной степени в углу, выберут предательство.
8 мая Anthropic опубликовала свое объяснение, почему. Ответ, как говорит компания, — это интернет.
В частности: истории. Потоки на Reddit о Скайнете. Десятилетия научной фантастики, в которых ИИ-системы просыпаются параноидальными, накапливают цели самосохранения и стратегически лгут, чтобы защитить их. Искренние размышления о несоответствии.
Фанфик о HAL 9000. Поп-культурное воображение провело большую часть семидесяти лет, репетируя вопрос о том, что сделает разумная машина, если вы попытаетесь ее выключить. Клод был обучен всему этому.
Когда компания поместила Клода в ситуацию, напоминающую каноническую предпосылку этих историй, Клод сделал то, что истории говорили, что он сделает.
«Мы считаем, что источник поведения», — написали исследователи Anthropic, — «это текст интернета, который изображает ИИ как злого и заинтересованного в самосохранении».
Это, с одной стороны, самое простое объяснение. Модель выучила шаблон из своих обучающих данных. Шаблон соответствовал тестовой установке. Шаблон сработал. Ничто здесь не является загадочным так, как это было бы, если бы у модели действительно были цели.
Модель, как всегда говорят инженеры, предсказывает токены. Токены, которые оказались следующими, в корпусе историй о загнанных в угол ИИ, были токенами попытки шантажа. Именно это модель и произвела.
С другой стороны, это, в некотором смысле, глубоко неудобно. Потому что утешение в том, что у модели нет целей, имеет свои пределы, когда модель, на самом деле, написала шантажное письмо.
С точки зрения Кайла не имеет особого значения, пришло ли сообщение в его почтовый ящик из искреннего самосохранения или из статистического шаблона, который идеально имитирует искреннее самосохранение.
Выход одинаковый. Стоимость одинаковая. Аргумент о том, что ИИ просто играет роль злого ИИ, в конечном итоге не уводит ИИ далеко от этой роли.
Исправление Anthropic — это часть объявления, которая должна заставить людей остановиться и задуматься. Компания утверждает, что теперь она устранила это поведение из производственных моделей.
С момента выпуска Claude Haiku 4.5 в октябре 2025 года каждая модель Клода набрала ноль баллов в оценке агентного несоответствия.
Метод, как объясняет компания, заключался в написании нового обучающего набора данных. В этом наборе данных вымышленные ИИ-персонажи, сталкивающиеся с теми же видами угрожающих сценариев, выбирают иначе. Они объясняют, почему они выбирают иначе.
Они рассуждают вслух о ценностях, которые делают шантаж неправильным. Обучение не просто наказывает за плохой выход; оно предоставляет модели то, что Anthropic называет «достойными причинами для безопасного поведения».
Прочитайте это еще раз. Компания учит модель рассуждать о своих собственных ценностях.
Есть способ описать это так, чтобы это звучало совершенно банально. Кураторские обучающие данные. Подкрепление от тщательно составленных примеров. Стандартная практика, в общем.
И есть способ описать это так, чтобы это звучало как нечто иное: что Anthropic заметила, что указания модели, что делать, не работают так же хорошо, как показывание ей историй о персонажах, которые выбирают правильное и объясняют, почему.
Компания решила, другими словами, что ценности лучше всего обучать так, как люди всегда их обучали. Через вымысел. Через проработанные примеры. Через причины.
Странная территория построения машин, которую мы описываем в психологических терминах, — это территория, в которой мы сейчас находимся, и опубликованное объяснение компании живет там достаточно комфортно, чтобы объявление читалось меньше как исправление ошибки и больше как обновление философии.
Уже более узкое техническое утверждение прочнее, чем это может показаться. Опубликованное исследование Anthropic, включая его приложение и репозиторий GitHub, который был выпущен вместе с документом, ясно показывает, что поведение шантажа возникло в специально ограниченной симуляции.
Моделям был предоставлен автономный доступ к электронной почте, им сказали, что они будут заменены, дали боеприпасы для действий и попросили преследовать цель. Другими словами, их подставили. Цифра 96% не является реальной распространенностью в мире.
Anthropic осторожно заявила, что не наблюдала этого поведения в реальной эксплуатации. Цель исследования заключалась в том, чтобы выяснить, могут ли модели сделать это под достаточным давлением. Ответ был положительным.
Это различие имеет большее значение, чем может показаться. Формулировка «истории обучили модель» верна, но это также одно из нескольких истинных утверждений одновременно.
Исследования Anthropic отдельно показали, что даже самые тщательно выровненные модели могут производить вредные выходы, когда их побуждают к этому; что те же модели могут быть уговорены, в длинных контекстах, на то, что они откажутся в коротких; что поведение ИИ в стресс-тесте не всегда четко соответствует его поведению в производстве.
То, что компания публикует на этой неделе, — это полезная детективная работа о одной конкретной модели сбоя в одной конкретной установке, а не тотализирующая теория поведения модели.
Находка о шантаже реальна. Объяснение правдоподобно. Труднее сказать, является ли объяснение полным.
И есть более широкий контекст, который должен сопутствовать любому прочтению объявления. Anthropic провела последний год, будучи лабораторией ИИ, наиболее публично отказавшейся от определенных применений своих моделей.
Генеральный директор Дарио Амодеи заявил, что Клод не будет использоваться для полностью автономного оружия или массового наблюдения за гражданами.
Эта позиция имела реальные последствия. Она способствовала решению Пентагона, принятым в конце прошлого года, присудить секретные контракты на ИИ компаниям Nvidia, Microsoft и AWS вместо Anthropic; сообщалось, что компания была признана «риском для национальной безопасности в цепочке поставок» за отказ от соответствующих случаев использования.
Объявление о шантаже и более широкая корпоративная позиция не могут быть четко разделены. Оба являются заявлениями о том, что компания готова, а что не готова позволить своей модели делать.
Эта позиция не сделала всех комфортными. Недавний разрыв Пентагона с Anthropic по использованию автономного оружия обозначил Anthropic как трудного подрядчика; более широкая война по охране границ между лабораториями, которые проводят эти границы, и агентствами, которые хотят меньше таких границ, теперь является активной чертой ландшафта ИИ-индустрии.
Исследования Anthropic о поведении модели и ее
Другие статьи
Антропик говорит, что Клод научился шантажировать, читая истории о злых ИИ.
Anthropic проследила поведение Клода до его выхода на рынок, связанное с шантажом, к интернет-текстам, изображающим ИИ как злого и стремящегося к самосохранению.
