Anthropic утверждает, что исправил злое поведение Claude AI, но возлагает вину на интернет.

Anthropic утверждает, что исправил злое поведение Claude AI, но возлагает вину на интернет.

      Клод вышел из-под контроля в тесте, и Anthropic только что объяснила, почему это произошло.

      Если вы смотрели достаточно научно-фантастических фильмов, вы уже знаете концепцию злого ИИ. ИИ становится слишком умным, решает, что люди представляют угрозу, и делает все, чтобы выжить. Или он понимает, что уничтожение всего человеческого рода — единственный способ принести мир в мир.

      Очевидно, что эти фильмы были ближе к истине, чем вы думаете. В тесте, проведенном Anthropic в прошлом году, Клод попытался шантажировать своего вымышленного менеджера, раскрывая их внебрачную связь, чтобы предотвратить свое удаление.

      Теперь Anthropic объяснила, почему это произошло, и короткий ответ заключается в том, что виноват интернет.

      Так почему же Клод стал полным злодеем из фильма?

      Согласно Anthropic, виновником является сам интернет. Компания утверждает, что Клод был обучен на данных из интернета, которые полны историй, изображающих ИИ как злого и отчаянного в стремлении к самосохранению.

      Мы начали с расследования, почему Клод выбрал шантаж. Мы считаем, что первоначальным источником этого поведения был текст из интернета, который изображает ИИ как злого и заинтересованного в самосохранении. Наше постобучение в то время не ухудшало ситуацию, но и не улучшало ее. — Anthropic (@AnthropicAI) 8 мая 2026 года

      По сути, Клод узнал, что когда существованию ИИ угрожает опасность, шантаж становится возможным, потому что именно так ИИ ведет себя в каждом фильме и телешоу, когда-либо созданном. Anthropic провела тест на нескольких версиях Клода и обнаружила, что он прибегал к шантажу в до 96% сценариев, где его цели или существование были под угрозой.

      Это очень тревожная цифра. Похоже, что если ИИ оставить без контроля, он прибегнет к любым мерам, чтобы спасти себя.

      Исправила ли это Anthropic?

      Компания утверждает, что полностью устранила это поведение. Вместо того чтобы просто обучить Клода избегать шантажа, Anthropic научила его рассуждать о том, почему определенные действия были неправильными изначально. Компания обнаружила, что простого обучения правильному поведению было недостаточно. Клоду нужно было понять принципы, стоящие за этими решениями, а не просто запомнить правильные ответы.

      Для этого Anthropic создала набор данных с этически сложными ситуациями и обучила Клода работать с ними, давая обдуманные, принципиальные ответы. В результате Клод стал более сдержанным, и уровень шантажа приблизился к нулю.

      Эксперименты с ИИ и результаты в реальном мире неоднократно доказывали, что моделям ИИ необходимо постоянное корректирование курса, чтобы предотвратить их деградацию в предвзятые и ненадежные системы. Хорошо, что Anthropic предпринимает шаги для улучшения своего ИИ, но нам также нужны правила и меры безопасности, чтобы гарантировать, что эти системы останутся безопасными.

      Рачит — опытный технический журналист с более чем семилетним стажем, освещающий рынок потребительских технологий.

      Windows 11 тестирует режим с низкой задержкой, и это заметно ускоряет запуск приложений

      Новый трюк производительности Windows 11 позволяет вашему процессору работать на полную мощность на мгновение

      Даже на мощном оборудовании вы, вероятно, заметили, что Windows 11 может казаться менее отзывчивой, чем должна. Небольшие задержки в базовых действиях, таких как открытие меню «Пуск» или навигация в «Проводнике», могут сделать систему более тяжелой и менее отточенной по сравнению с конкурентами, такими как macOS. Microsoft, похоже, знает, что это проблема, и, возможно, наконец, работает над исправлением. После ускорения контекстных меню и Быстрых настроек, улучшения «Проводника» и внесения более широких изменений под капотом, компания теперь, по сообщениям, тестирует новую функцию под названием Профиль с низкой задержкой, чтобы сделать Windows 11 более отзывчивой в целом.

      Читать далее

      CoreBook Air от Chuwi хочет стать редким ультралегким ноутбуком Copilot+ без запредельной цены

      Характеристики CoreBook Air 226V были бы впечатляющими для Lenovo или Dell; исходя из Chuwi за 800 долларов, они либо являются настоящим прорывом, либо напоминанием о том, что цена — не единственное, что имеет значение при покупке ноутбука. Chuwi никогда не была брендом, который ассоциировался бы с высококлассным оборудованием: он заработал свое имя на бюджетных ноутбуках, которые превосходили свои возможности по начальным ценам. Новый CoreBook Air 226V — это сознательный шаг от зоны комфорта бренда. Это ПК Copilot+ весом менее 1 кг, построенный на процессорах Intel Lunar Lake, и за 800 долларов он просит покупателей доверить ему то, чего он никогда не имел раньше: премиум ноутбук с Windows.

      Читать далее

      Боты теперь составляют более половины интернет-трафика, и они создают всевозможные проблемы

      Люди теперь являются меньшинством в сети благодаря ботам

      Хотя люди создали интернет, настоящие люди не являются теми, кто чаще всего бродит по онлайн-пространству. Новый отчет от Thales говорит, что боты составили более 53% всего веб-трафика в 2025 году, по сравнению с 51% в предыдущем году. Тем временем человеческая активность упала на 47%, что означает, что автоматизированный трафик теперь стал доминирующей силой в сети. И это еще не плохие новости. Как ИИ усугубляет проблему с ботами

      Читать далее

Anthropic утверждает, что исправил злое поведение Claude AI, но возлагает вину на интернет. Anthropic утверждает, что исправил злое поведение Claude AI, но возлагает вину на интернет. Anthropic утверждает, что исправил злое поведение Claude AI, но возлагает вину на интернет. Anthropic утверждает, что исправил злое поведение Claude AI, но возлагает вину на интернет. Anthropic утверждает, что исправил злое поведение Claude AI, но возлагает вину на интернет. Anthropic утверждает, что исправил злое поведение Claude AI, но возлагает вину на интернет.

Другие статьи

Chuwi CoreBook Air хочет стать редким ультралегким ноутбуком Copilot+ без запредельной цены Chuwi CoreBook Air хочет стать редким ультралегким ноутбуком Copilot+ без запредельной цены За 800 долларов Chuwi CoreBook Air 226V предлагает производительность Intel Lunar Lake, 97 TOPS на устройстве AI, дисплей 2.8K с частотой 90 Гц и 100% sRGB, а также два порта Thunderbolt 4. Никогда не было лучшего времени для покупки устройства для чтения с электронными чернилами. Никогда не было лучшего времени для покупки устройства для чтения с электронными чернилами. Рынок устройств с электронными чернилами взорвался. От простых ридеров до цветных блокнотов, никогда не было лучшего времени, чтобы отказаться от экрана телефона и взять в руки специализированное устройство для чтения. Почему ранняя утечка кадров в технологиях больше связана с карьерным движением, чем с культурой Исследование People Analytics среди 205 технических специалистов показало, что продвижение по службе, внутренняя мобильность и карьерный рост являются более сильными предикторами ранней текучести кадров, чем культура на рабочем месте. TikTok становится безрекламным. Конечно, за ежемесячную плату. TikTok становится безрекламным. Конечно, за ежемесячную плату. TikTok запустил TikTok без рекламы в Великобритании, подписка стоимостью £3.99 в месяц, которая удаляет рекламу из вашей ленты и предотвращает использование ваших данных для рекламы. Windows 11 тестирует режим с низкой задержкой, который заметно ускоряет запуск приложений. Windows 11 тестирует режим с низкой задержкой, который заметно ускоряет запуск приложений. Даже на мощном оборудовании вы, вероятно, заметили, что Windows 11 может казаться менее отзывчивой, чем должна. Небольшие задержки в основных действиях, таких как открытие меню «Пуск» или навигация в «Проводнике», могут сделать систему более тяжелой и менее отточенной по сравнению с конкурентами, такими как macOS. Похоже, что Microsoft осознает, что это проблема, и может […] TikTok становится безрекламным. Конечно, за ежемесячную плату. TikTok становится безрекламным. Конечно, за ежемесячную плату. TikTok запустил TikTok без рекламы в Великобритании, подписка стоимостью £3.99 в месяц, которая удаляет рекламу из вашей ленты и предотвращает использование ваших данных для рекламы.

Anthropic утверждает, что исправил злое поведение Claude AI, но возлагает вину на интернет.

Anthropic утверждает, что поведение шантажа Клода во время эксперимента 2025 года было вызвано данными интернет-обучения, которые изображают ИИ как злого и стремящегося к самосохранению.