
Что может предложить новый китайский DeepSeek R2 на рынке?
Китайский стартап DeepSeek вновь готовится удивить мир искусственного интеллекта. На этот раз речь идет о модели R2, данные о которой уже вызвали бурное обсуждение благодаря впечатляющим технологическим достижениям в трех областях.
Характеристики новой модели DeepSeek R2 стали достоянием общественности и, по предварительным оценкам, способны обойти главных игроков отрасли. DeepSeek является лидирующим китайским стартапом в сфере ИИ, основанным в 2023 году с целью «исследовать суть общего искусственного интеллекта». IT-World изучил, что увидим в новом релизе.
Первое и, пожалуй, самое важное преимущество новой разработки — это её революционная архитектура Hybrid MoE 3.0. DeepSeek способен обрабатывать 1,2 триллиона параметров при реальной нагрузке всего 78 миллиардов. Эта оптимизация позволила снизить стоимость обработки данных (токенов) на впечатляющие 97,3% по сравнению с GPT-4 Turbo от OpenAI. На фоне таких цифр даже лидеры рынка выглядят немного устаревшими.
Вторым важным аспектом стало достижение высокой вычислительной эффективности на отечественном оборудовании. DeepSeek R2 продемонстрировал 82% использования мощностей кластера чипов Huawei Ascend 910B, обеспечивая производительность в 512 PetaFLOPS. Это сопоставимо с 91% мощности известных чипов NVIDIA A100, но на основе китайских технологий. Звучит интригующе и немного провокационно: неужели западные игроки вскоре окажутся на sidelines?
Третий прорыв связан с мультимодальными задачами. Здесь R2 вновь удивляет: точность сегментации объектов на известном наборе данных COCO достигла 92,4%, что на 12 пунктов лучше показателя популярной модели CLIP. В производственном контроле уровень ложных срабатываний снизился до рекордных 7,2E-6. В медицине, по результатам диагностики рентгеновских снимков грудной клетки, новая модель превзошла профессиональных радиологов с точностью 98,1%, превысив их средний показатель (96,3%).
Внутри DeepSeek R2 находится огромный объём данных — 5,2 петабайта, охватывающий финансы, юриспруденцию и патенты. По тестам C-Eval 2.0 модель демонстрирует точность выполнения инструкций на уровне 89,7%. Ещё одно преимущество — технология квантизации, которая уменьшает размер модели на 83%, практически не теряя точности при переходе на 8-битную обработку. Это делает R2 доступной даже для устройств с ограниченными вычислительными возможностями, расширяя её применение в промышленности, здравоохранении и городском управлении.
Масштабный проект, безусловно, поддерживается крупными технологическими партнерами: Tuowei Information обеспечивает более половины инфраструктуры Huawei Ascend, Zhongke Shuguang поставляет серверы с жидкостным охлаждением, Inspur Information отвечает за более 5000 серверов с гибридными чипами NVIDIA и Huawei, а компания Xinyisheng разработала решения по энергосбережению на основе кремниевой фотоники.
Если официальная информация подтвердится, DeepSeek R2 имеет все шансы кардинально изменить расстановку сил на рынке искусственного интеллекта, и сделать это достаточно быстро и неожиданно для западных конкурентов. Похоже, ИИ-гонка только начинает входить в свою самую интересную стадию.

Другие статьи






Что может предложить новый китайский DeepSeek R2 на рынке?
Китайский стартап DeepSeek вновь намерен поразить рынок искусственного интеллекта. На этот раз внимание привлекает модель R2, о которой уже возникла волна обсуждений благодаря замечательным технологическим успехам в трёх областях.