
GigaChat 2.0 поднял российский искусственный интеллект на новый уровень.
Модель способна обрабатывать аудио, видео, текст, изображения и проводить анализ данных в режиме реального времени с помощью интернета.
Сбер представил обновлённый вариант своей нейросетевой платформы — GigaChat 2.0. Это уже не просто чат-бот, а полноценный мультимодальный помощник, который способен понимать речь, изображения, видео и обрабатывать большие объемы текста, предоставляя актуальную и проверенную информацию с указанием источников. Новый GigaChat 2.0 также интегрирован в голосовые помощники умных колонок Сбер, а одной из первых цифровых платформ, включивших его, стала МАХ от VK.
Что нового в GigaChat 2.0
Основное обновление — поддержка мультимодальности. Искусственный интеллект теперь распознаёт голосовые записи, интерпретирует изображения, взаимодействует с видео по ссылкам (включая YouTube) и анализирует документы объёмом до 200 страниц. Например, пользователь может загрузить договор аренды и получить его анализ с учётом современных российских законов, расшифровать запись врачебных рекомендаций или понять содержание видеоурока.
Значительно улучшились возможности обработки аудио. Модель воспринимает звуковые данные в оригинальном формате, без преобразования в текст. Она умеет выделять ключевые моменты, отвечать на вопросы по содержанию, распознавать устную речь, акценты, музыку и посторонние звуки. Ограничения связаны с размерами файлов: до 60 минут или 30 мегабайт. Однако на практике пока существуют ограничения по форматам и объёмам при работе с аудиофайлами.
Работа с актуальными данными в реальном времени стала ещё одной важной функцией. Теперь GigaChat 2.0 может искать информацию в интернете, отфильтровывать её, выделять главное и предоставлять ссылки на проверенные источники. Это помогает избежать устаревших данных, на которых была обучена модель, и снижает риск так называемых «галлюцинаций» — ошибок в выдаче.
Две версии — для разных нужд
В линейке доступны две версии: GigaChat 2 Pro — для повседневных задач, таких как написание текстов или поиск справочной информации, и GigaChat 2 Max — для более сложных профессиональных запросов. Max-модель уже заняла первое место среди AI-моделей в бенчмарке MERA для русского языка и уверенно конкурирует с зарубежными аналогами, такими как GPT-4 и LLaMA 70B.
Музыка, изображения и видео
GigaChat 2.0 научился генерировать музыку и песни по текстовому запросу — теперь максимальная длина трека достигает трёх минут, а создать его можно за одну. Модель поддерживает создание композиций даже на иностранных языках, таких как китайский.
Работа с изображениями также вышла на новый уровень. Искусственный интеллект способен анализировать содержание фотографии, расшифровывать текст, предлагать стили одежды, решать задачи и объяснять смысл квитанций.
Что касается видео, GigaChat 2.0 может обрабатывать ссылки: модель анализирует аудиодорожку, рассказывает основную суть, отвечает на вопросы или выделяет ключевые моменты, включая записи на английском или других языках.
Умные колонки и интерактивный диалог
Впервые в России все умные колонки Сбера работают на мощной языковой модели. Это позволяет вести живое взаимодействие с пользователем на понятном языке или исполнять заданные роли. Теперь колонка поддерживает нить разговора в 10 раз дольше, чем раньше, объясняет сложные понятия простым языком или отвечает от имени, например, кинозвезды.
Модель предлагает 18 вариантов для настройки общения: выбор голоса, формата обращения (на «ты» или «вы»), стиля общения. В одном обращении можно задать несколько команд, и колонка сама поймёт, когда нужно установить будильник, включить музыку или найти информацию.
GigaChat 2.0 на платформе МАХ от VK
Одним из первых новых партнёров стала платформа МАХ от VK — отечественный аналог WeChat с мессенджером, мини-приложениями, чат-ботами и платежными сервисами. Пользователи могут с помощью GigaChat 2.0 создавать тексты, расшифровывать аудио, кратко пересказывать видео и статьи, получать помощь по профессиональным и повседневным вопросам.
GigaChat 2

Другие статьи






GigaChat 2.0 поднял российский искусственный интеллект на новый уровень.
Модель способна обрабатывать аудио, видео, тексты и изображения, а также в режиме реального времени анализировать информацию из интернета.