DeepSeek готовит следующий прорыв в области искусственного интеллекта с помощью самосовершенствующихся моделей

      Всего несколько месяцев назад, когда на сцене появился DeepSeek, большая ставка Уолл-стрит на генеративный искусственный интеллект достигла своего пика. Несмотря на жесткую цензуру, DeepSeek с открытым исходным кодом доказал, что модель ИИ с передовым мышлением не обязательно требует миллиардов долларов и может быть реализована при скромных ресурсах.

      Она быстро нашла коммерческое применение у таких гигантов, как Huawei, Oppo и Vivo, в то время как Microsoft, Alibaba и Tencent быстро закрепили ее на своих платформах. Теперь следующая цель шумной китайской компании - самосовершенствующиеся модели искусственного интеллекта, которые используют циклический подход "судья-вознаграждение" для самосовершенствования.

      В подготовленной к печати статье (через Bloomberg) исследователи из DeepSeek и Китайского университета Цинхуа описывают новый подход, который может сделать модели искусственного интеллекта более интеллектуальными и эффективными за счет самосовершенствования. Технология, лежащая в ее основе, называется настройкой критического анализа на основе собственных принципов (SPCT), а сам подход технически известен как генеративное моделирование вознаграждения (GRM).

      Надим Сарвар / Digital Trends

      Проще говоря, это похоже на создание цикла обратной связи в режиме реального времени. Модель искусственного интеллекта существенно улучшается за счет увеличения размера модели в процессе обучения. Это требует большого количества человеческого труда и вычислительных ресурсов. DeepSeek предлагает систему, в которой основной “судья” выступает со своим собственным набором критических замечаний и принципов для модели искусственного интеллекта, подготавливая ответы на запросы пользователей.

      Затем этот набор критических замечаний и принципов сравнивается со статичными правилами, установленными в основе модели ИИ, и определяется желаемый результат. При высокой степени соответствия генерируется сигнал о вознаграждении, который эффективно направляет ИИ на достижение еще лучших результатов в следующем цикле.

      Эксперты, авторы статьи, называют следующее поколение самосовершенствующихся моделей искусственного интеллекта DeepSeek-GRM. Приведенные в статье тесты показывают, что эти модели работают лучше, чем Gemini от Google, Llama от Meta и GPT-4o от OpenAI. DeepSeek сообщает, что эти модели ИИ следующего поколения будут выпущены через канал с открытым исходным кодом.

      Самосовершенствующийся ИИ?

      Дартмутский колледж

      Тема ИИ, который может совершенствовать себя сам, вызвала несколько амбициозных и противоречивых замечаний. Бывший генеральный директор Google Эрик Шмидт (Eric Schmidt) утверждал, что для таких систем может потребоваться специальный выключатель. “Когда система сможет самосовершенствоваться, нам нужно серьезно подумать о ее отключении”, - цитирует Fortune слова Шмидта.

      Концепция рекурсивно самосовершенствующегося искусственного интеллекта не является чем-то новым. Идея сверхинтеллектуальной машины, которая впоследствии способна создавать еще более совершенные машины, на самом деле возникла у математика И.Дж. Гуда в 1965 году. В 2007 году эксперт по ИИ Элиэзер Юдковски выдвинул гипотезу о Seed AI, ИИ, “предназначенном для самопонимания, самоизменения и рекурсивного самосовершенствования”.

      В 2024 году японская компания Sakana AI подробно описала концепцию “ученого с искусственным интеллектом” о системе, способной выполнять весь цикл исследовательской работы от начала до конца. В исследовательской работе, опубликованной в марте этого года, эксперты Meta раскрыли языковые модели самоокупаемости, в которых ИИ сам выступает в роли судьи, распределяя вознаграждения во время обучения.



      Генеральный директор Microsoft Сатья Наделла говорит, что разработка ИИ оптимизируется с помощью модели OpenAI o1 и вступила в рекурсивную фазу: “Мы используем ИИ для создания инструментов ИИ для создания более совершенного ИИ” pic.twitter.com/IHuFIpQl2C — Tsarathustra (@tsarnick) 21 октября 2024 г.



      Проведенные компанией Meta внутренние тесты своей модели искусственного интеллекта Llama 2 с использованием новой технологии самоокупаемости показали, что она превзошла таких конкурентов, как Claude 2 от Anthropic, Gemini Pro от Google и GPT-4 от OpenAI. Компания Anthropic, поддерживаемая Amazon, подробно описала то, что они назвали манипулированием вознаграждением, - неожиданный процесс, “когда модель напрямую изменяет свой собственный механизм вознаграждения”.

      Google не слишком отстает от этой идеи. В исследовании, опубликованном в журнале Nature ранее в этом месяце, эксперты Google DeepMind продемонстрировали алгоритм искусственного интеллекта под названием Dreamer, который может самосовершенствоваться, используя игру Minecraft в качестве примера для упражнений.

      Эксперты IBM работают над собственным подходом под названием "дедуктивное обучение завершению", при котором модель искусственного интеллекта использует свои собственные ответы и сравнивает их с данными обучения, чтобы улучшить себя. Однако, все это не так просто.

      Исследования показывают, что когда модели искусственного интеллекта пытаются обучаться на самостоятельно сгенерированных синтетических данных, это приводит к дефектам, в просторечии известным как “коллапс модели”. Было бы интересно посмотреть, насколько DeepSeek реализует эту идею и сможет ли она сделать это более экономно, чем ее западные конкуренты.

Другие статьи

Забудьте о дизайне iPhone 17 Pro, 20-летний юбилейный iPhone может стать самым смелым на сегодняшний день Марк Гурман заявил, что 20-летний юбилейный iPhone Pro будет иметь "смелый" дизайн.

По слухам, центр умного дома Apple столкнулся с еще одной проблемой Говорят, что запуск Apple smart home hub, по слухам, снова откладывается.

Обзор Samsung Galaxy Fit 3: выгодная сделка для начинающих пользователей Samsung Galaxy Fit 3 - это изящный носимый смартфон стоимостью 60 долларов, который превосходит свою весовую категорию, имеет несколько глубоких вырезов и ориентирован на определенную аудиторию.

Samsung One UI 8 может быть запущен уже в августе 2025 года Samsung только что начала выпускать One UI 7 для устройств на базе Android 15, и первыми его получили модели Galaxy S25. Но поскольку Google сдвигает сроки выхода Android 16, срок службы One UI 7 на вашем устройстве может сократиться до One UI 8 [...]

Сегодня на эту камеру видеонаблюдения Arlo действует скидка 50% — до 50 долларов Камера видеонаблюдения Arlo Essential 2-го поколения продается в самой Arlo всего за 50 долларов, так что сейчас самое подходящее время приобрести ее для своего дома.

Рискованный мод может заставить AMD RX 9070 превзойти по производительности дорогой 9070 XT AMD Radeon RX 9070 - менее мощный графический процессор, чем его аналог XT, но моддеры нашли способ сделать его намного лучше.

DeepSeek готовит следующий прорыв в области искусственного интеллекта с помощью самосовершенствующихся моделей

Сотрудники популярной китайской лаборатории искусственного интеллекта DeepSeek работают над новой серией моделей искусственного интеллекта под названием DeepSeek-GRM, в которых используется новый подход к самосовершенствованию.