Anthropic призывает к согласованной, проверяемой паузе для передового ИИ

      Сценарий, который беспокоит Anthropic, заключается в том, что технология перестанет ждать разрешения. В четверг компания заявила, что разработчики передовых ИИ должны создать согласованный, проверяемый механизм, чтобы замедлить или временно приостановить развитие, если продвинутые системы начнут улучшать себя быстрее, чем общество сможет справляться с последствиями.

      Предложение скорее является просьбой о том, чтобы отрасль согласовала тормоза, чем анонсом продукта.

      Триггером, который называет Anthropic, является рекурсивное самоулучшение, ИИ-системы, способные существенно ускорять собственное развитие. Эта способность «стала бы значительным событием в истории технологий», заявила компания, но полное рекурсивное самоулучшение «также может увеличить риски потери контроля человека над ИИ-системами».

      В качестве показателя того, насколько далеко автоматизация собственной работы уже зашла, Anthropic сообщила, что на май более 80% кода, объединенного в ее кодовой базе, было написано ее моделью, Клодом.

      Острота аргумента заключается в координации, а не в осторожности. Односторонняя пауза одной компании была бы легче осуществима, признала Anthropic, но в основном просто передала бы лидерство тому, кто продолжил бы работу, смещая границу, а не замедляя ее.

      Пауза, которая имела бы значение, потребовала бы согласия среди «нескольких хорошо обеспеченных лабораторий» на технологическом фронте, а также правил о том, какие условия вызовут или отменят ее и кто будет контролировать всю эту схему.

      Беспокойство о самоулучшении не является гипотетическим размахиванием руками со стороны Anthropic; оно указывает на собственные операции как на доказательство. Если модель уже пишет подавляющее большинство кода, который создает следующую модель, то связь между системой и ее собственным улучшением больше не является теоретической, а лишь частичной.

      Аргумент Anthropic заключается в том, что эта связь становится более тесной, и время согласовать тормоза — пока она еще частичная, а не после того, как она закроется.

      Это и есть сложная часть, и Anthropic не притворяется иначе. Проверяемая пауза подразумевает лаборатории, способные подтвердить, что соперники действительно остановились, согласованные пороги того, что считается слишком быстрым, и какой-то орган, имеющий полномочия это объявить. Ничего из этого не существует сегодня, и компании, которые должны были бы участвовать, являются прямыми конкурентами на рынке, где быть первым было всей целью.

      Ответ Anthropic — начать разговор. В ближайшие месяцы компания заявила, что планирует провести обсуждения с политиками, исследователями, группами гражданского общества и другими ИИ-компаниями, чтобы разобраться, как управлять рисками, такими как рекурсивное самоулучшение, и как улучшить механизмы координации. Она позиционирует себя как организатор разговора, в который хочет вовлечь остальную часть отрасли.

      Этот шаг соответствует модели для компании, которая построила свой бренд на указании на опасности того, что она продает. Очевидное возражение пишет само себя: лаборатория, предлагающая отрасли согласовать, когда остановиться, также является лабораторией, которая продолжает строить, пока не остановится.

      Будут ли конкуренты рассматривать предложение как искреннюю проблему координации или как попытку соперника установить условия — это вопрос, на который ответят ближайшие месяцы. На данный момент Anthropic выставила тормоза на стол. Никто другой не согласился их взять.

Другие статьи

Дженсен Хуанг из Nvidia обозначает робототехнику как следующий двигатель роста Кореи Во время четырехдневного визита в Сеул Дженсен Хуанг из Nvidia назвал робототехнику следующим крупным сектором роста для Южной Кореи, ссылаясь на ее производственную базу.

Anthropic призывает к согласованной, проверяемой паузе для передового ИИ

Anthropic заявляет, что пограничные лаборатории нуждаются в скоординированном, проверяемом способе замедлить или приостановить развитие ИИ, если системы начнут слишком быстро улучшать себя.