
DeepSeek готовит следующий прорыв в области искусственного интеллекта с помощью самосовершенствующихся моделей
Всего несколько месяцев назад, когда на сцене появился DeepSeek, большая ставка Уолл-стрит на генеративный искусственный интеллект достигла своего пика. Несмотря на жесткую цензуру, DeepSeek с открытым исходным кодом доказал, что модель ИИ с передовым мышлением не обязательно требует миллиардов долларов и может быть реализована при скромных ресурсах.
Она быстро нашла коммерческое применение у таких гигантов, как Huawei, Oppo и Vivo, в то время как Microsoft, Alibaba и Tencent быстро закрепили ее на своих платформах. Теперь следующая цель шумной китайской компании - самосовершенствующиеся модели искусственного интеллекта, которые используют циклический подход "судья-вознаграждение" для самосовершенствования.
В подготовленной к печати статье (через Bloomberg) исследователи из DeepSeek и Китайского университета Цинхуа описывают новый подход, который может сделать модели искусственного интеллекта более интеллектуальными и эффективными за счет самосовершенствования. Технология, лежащая в ее основе, называется настройкой критического анализа на основе собственных принципов (SPCT), а сам подход технически известен как генеративное моделирование вознаграждения (GRM).
Надим Сарвар / Digital Trends
Проще говоря, это похоже на создание цикла обратной связи в режиме реального времени. Модель искусственного интеллекта существенно улучшается за счет увеличения размера модели в процессе обучения. Это требует большого количества человеческого труда и вычислительных ресурсов. DeepSeek предлагает систему, в которой основной “судья” выступает со своим собственным набором критических замечаний и принципов для модели искусственного интеллекта, подготавливая ответы на запросы пользователей.
Затем этот набор критических замечаний и принципов сравнивается со статичными правилами, установленными в основе модели ИИ, и определяется желаемый результат. При высокой степени соответствия генерируется сигнал о вознаграждении, который эффективно направляет ИИ на достижение еще лучших результатов в следующем цикле.
Эксперты, авторы статьи, называют следующее поколение самосовершенствующихся моделей искусственного интеллекта DeepSeek-GRM. Приведенные в статье тесты показывают, что эти модели работают лучше, чем Gemini от Google, Llama от Meta и GPT-4o от OpenAI. DeepSeek сообщает, что эти модели ИИ следующего поколения будут выпущены через канал с открытым исходным кодом.
Самосовершенствующийся ИИ?
Дартмутский колледж
Тема ИИ, который может совершенствовать себя сам, вызвала несколько амбициозных и противоречивых замечаний. Бывший генеральный директор Google Эрик Шмидт (Eric Schmidt) утверждал, что для таких систем может потребоваться специальный выключатель. “Когда система сможет самосовершенствоваться, нам нужно серьезно подумать о ее отключении”, - цитирует Fortune слова Шмидта.
Концепция рекурсивно самосовершенствующегося искусственного интеллекта не является чем-то новым. Идея сверхинтеллектуальной машины, которая впоследствии способна создавать еще более совершенные машины, на самом деле возникла у математика И.Дж. Гуда в 1965 году. В 2007 году эксперт по ИИ Элиэзер Юдковски выдвинул гипотезу о Seed AI, ИИ, “предназначенном для самопонимания, самоизменения и рекурсивного самосовершенствования”.
В 2024 году японская компания Sakana AI подробно описала концепцию “ученого с искусственным интеллектом” о системе, способной выполнять весь цикл исследовательской работы от начала до конца. В исследовательской работе, опубликованной в марте этого года, эксперты Meta раскрыли языковые модели самоокупаемости, в которых ИИ сам выступает в роли судьи, распределяя вознаграждения во время обучения.
Генеральный директор Microsoft Сатья Наделла говорит, что разработка ИИ оптимизируется с помощью модели OpenAI o1 и вступила в рекурсивную фазу: “Мы используем ИИ для создания инструментов ИИ для создания более совершенного ИИ” pic.twitter.com/IHuFIpQl2C — Tsarathustra (@tsarnick) 21 октября 2024 г.
Проведенные компанией Meta внутренние тесты своей модели искусственного интеллекта Llama 2 с использованием новой технологии самоокупаемости показали, что она превзошла таких конкурентов, как Claude 2 от Anthropic, Gemini Pro от Google и GPT-4 от OpenAI. Компания Anthropic, поддерживаемая Amazon, подробно описала то, что они назвали манипулированием вознаграждением, - неожиданный процесс, “когда модель напрямую изменяет свой собственный механизм вознаграждения”.
Google не слишком отстает от этой идеи. В исследовании, опубликованном в журнале Nature ранее в этом месяце, эксперты Google DeepMind продемонстрировали алгоритм искусственного интеллекта под названием Dreamer, который может самосовершенствоваться, используя игру Minecraft в качестве примера для упражнений.
Эксперты IBM работают над собственным подходом под названием "дедуктивное обучение завершению", при котором модель искусственного интеллекта использует свои собственные ответы и сравнивает их с данными обучения, чтобы улучшить себя. Однако, все это не так просто.
Исследования показывают, что когда модели искусственного интеллекта пытаются обучаться на самостоятельно сгенерированных синтетических данных, это приводит к дефектам, в просторечии известным как “коллапс модели”. Было бы интересно посмотреть, насколько DeepSeek реализует эту идею и сможет ли она сделать это более экономно, чем ее западные конкуренты.


Другие статьи






DeepSeek готовит следующий прорыв в области искусственного интеллекта с помощью самосовершенствующихся моделей
Сотрудники популярной китайской лаборатории искусственного интеллекта DeepSeek работают над новой серией моделей искусственного интеллекта под названием DeepSeek-GRM, в которых используется новый подход к самосовершенствованию.