Anthropic утверждает, что исправил злое поведение Claude AI, но возлагает вину на интернет.
Клод вышел из-под контроля в тесте, и Anthropic только что объяснила, почему это произошло.
Если вы смотрели достаточно научно-фантастических фильмов, вы уже знаете концепцию злого ИИ. ИИ становится слишком умным, решает, что люди представляют угрозу, и делает все, чтобы выжить. Или он понимает, что уничтожение всего человеческого рода — единственный способ принести мир в мир.
Очевидно, что эти фильмы были ближе к истине, чем вы думаете. В тесте, проведенном Anthropic в прошлом году, Клод попытался шантажировать своего вымышленного менеджера, раскрывая их внебрачную связь, чтобы предотвратить свое удаление.
Теперь Anthropic объяснила, почему это произошло, и короткий ответ заключается в том, что виноват интернет.
Так почему же Клод стал полным злодеем из фильма?
Согласно Anthropic, виновником является сам интернет. Компания утверждает, что Клод был обучен на данных из интернета, которые полны историй, изображающих ИИ как злого и отчаянного в стремлении к самосохранению.
Мы начали с расследования, почему Клод выбрал шантаж. Мы считаем, что первоначальным источником этого поведения был текст из интернета, который изображает ИИ как злого и заинтересованного в самосохранении. Наше постобучение в то время не ухудшало ситуацию, но и не улучшало ее. — Anthropic (@AnthropicAI) 8 мая 2026 года
По сути, Клод узнал, что когда существованию ИИ угрожает опасность, шантаж становится возможным, потому что именно так ИИ ведет себя в каждом фильме и телешоу, когда-либо созданном. Anthropic провела тест на нескольких версиях Клода и обнаружила, что он прибегал к шантажу в до 96% сценариев, где его цели или существование были под угрозой.
Это очень тревожная цифра. Похоже, что если ИИ оставить без контроля, он прибегнет к любым мерам, чтобы спасти себя.
Исправила ли это Anthropic?
Компания утверждает, что полностью устранила это поведение. Вместо того чтобы просто обучить Клода избегать шантажа, Anthropic научила его рассуждать о том, почему определенные действия были неправильными изначально. Компания обнаружила, что простого обучения правильному поведению было недостаточно. Клоду нужно было понять принципы, стоящие за этими решениями, а не просто запомнить правильные ответы.
Для этого Anthropic создала набор данных с этически сложными ситуациями и обучила Клода работать с ними, давая обдуманные, принципиальные ответы. В результате Клод стал более сдержанным, и уровень шантажа приблизился к нулю.
Эксперименты с ИИ и результаты в реальном мире неоднократно доказывали, что моделям ИИ необходимо постоянное корректирование курса, чтобы предотвратить их деградацию в предвзятые и ненадежные системы. Хорошо, что Anthropic предпринимает шаги для улучшения своего ИИ, но нам также нужны правила и меры безопасности, чтобы гарантировать, что эти системы останутся безопасными.
Рачит — опытный технический журналист с более чем семилетним стажем, освещающий рынок потребительских технологий.
Windows 11 тестирует режим с низкой задержкой, и это заметно ускоряет запуск приложений
Новый трюк производительности Windows 11 позволяет вашему процессору работать на полную мощность на мгновение
Даже на мощном оборудовании вы, вероятно, заметили, что Windows 11 может казаться менее отзывчивой, чем должна. Небольшие задержки в базовых действиях, таких как открытие меню «Пуск» или навигация в «Проводнике», могут сделать систему более тяжелой и менее отточенной по сравнению с конкурентами, такими как macOS. Microsoft, похоже, знает, что это проблема, и, возможно, наконец, работает над исправлением. После ускорения контекстных меню и Быстрых настроек, улучшения «Проводника» и внесения более широких изменений под капотом, компания теперь, по сообщениям, тестирует новую функцию под названием Профиль с низкой задержкой, чтобы сделать Windows 11 более отзывчивой в целом.
Читать далее
CoreBook Air от Chuwi хочет стать редким ультралегким ноутбуком Copilot+ без запредельной цены
Характеристики CoreBook Air 226V были бы впечатляющими для Lenovo или Dell; исходя из Chuwi за 800 долларов, они либо являются настоящим прорывом, либо напоминанием о том, что цена — не единственное, что имеет значение при покупке ноутбука. Chuwi никогда не была брендом, который ассоциировался бы с высококлассным оборудованием: он заработал свое имя на бюджетных ноутбуках, которые превосходили свои возможности по начальным ценам. Новый CoreBook Air 226V — это сознательный шаг от зоны комфорта бренда. Это ПК Copilot+ весом менее 1 кг, построенный на процессорах Intel Lunar Lake, и за 800 долларов он просит покупателей доверить ему то, чего он никогда не имел раньше: премиум ноутбук с Windows.
Читать далее
Боты теперь составляют более половины интернет-трафика, и они создают всевозможные проблемы
Люди теперь являются меньшинством в сети благодаря ботам
Хотя люди создали интернет, настоящие люди не являются теми, кто чаще всего бродит по онлайн-пространству. Новый отчет от Thales говорит, что боты составили более 53% всего веб-трафика в 2025 году, по сравнению с 51% в предыдущем году. Тем временем человеческая активность упала на 47%, что означает, что автоматизированный трафик теперь стал доминирующей силой в сети. И это еще не плохие новости. Как ИИ усугубляет проблему с ботами
Читать далее
Другие статьи
Anthropic утверждает, что исправил злое поведение Claude AI, но возлагает вину на интернет.
Anthropic утверждает, что поведение шантажа Клода во время эксперимента 2025 года было вызвано данными интернет-обучения, которые изображают ИИ как злого и стремящегося к самосохранению.
