Google запускает Gemini Omni Flash, модель генерации видео с разговорным интерфейсом, с режимом аватара, который был приостановлен.
Первая модель в новой семье Omni от DeepMind будет генерировать и редактировать видео из любой комбинации изображений, аудио, видео и текстовых входов. Редактирование речи временно приостановлено; водяной знак SynthID включен по умолчанию.
Google представила Gemini Omni во вторник на конференции разработчиков I/O 2026, новой мультимодальной модели от Google DeepMind, предназначенной для генерации и редактирования видео из любой комбинации изображений, аудио, видео и текстовых входов.
Первая модель в этой семье, Gemini Omni Flash, начала развертывание в тот же день для приложения Gemini и Google Flow для подписчиков Google AI Plus, Pro и Ultra, а также для YouTube Shorts и приложения YouTube Create без каких-либо затрат. Доступ к API для разработчиков и корпоративных клиентов будет предоставлен в ближайшие недели.
Формулировка продукта от Корая Кавукджиоглу, технического директора Google DeepMind и главного архитектора ИИ в Google, заключается в том, что Omni «объединяет изображения, аудио, видео и текст в качестве входных данных и генерирует высококачественные видео, основанные на реальных знаниях Gemini». Входные данные могут быть смешаны в одном запросе.
Редактирование происходит в разговорной форме, при этом каждая инструкция основывается на предыдущей, так что персонажи, физика и контекст сцены сохраняются между обращениями. Выходные модальности, помимо видео, включая генерацию изображений и аудио, «появятся со временем», написал Кавукджиоглу в блоге компании.
Позиционирование Omni, согласно опубликованным материалам, основывается на трех утверждениях. Во-первых, модель имеет улучшенное интуитивное понимание физических сил, включая гравитацию, кинетическую энергию и динамику жидкостей, что позволяет ей генерировать сцены с более точной физикой.
Во-вторых, она опирается на существующие знания о мире Gemini, чтобы связывать язык, изображения и смысл за пределами сопоставления шаблонов, при этом компания демонстрирует запросы, которые варьируются от объяснений сворачивания белков в клейкой анимации до треков физики цепной реакции. В-третьих, слой разговорного редактирования сохраняет согласованность между многократными revisions, где предыдущие видео модели имели тенденцию к отклонению в идентичности персонажей или непрерывности сцены.
Выпуск также расширяет семью Omni до генерации цифровых аватаров. Аватары позволяют пользователям записывать свой голос и внешность, чтобы создавать видео, которые выглядят и звучат как они, при этом процесс регистрации требует записи себя и произнесения ряда чисел вслух.
Помимо аватаров, Google временно удерживает общие возможности редактирования аудио и речи внутри Omni. «Мы все еще работаем над тестированием этого и лучше понимаем, как мы можем ответственно предоставить эту возможность пользователям», — написал Кавукджиоглу в абзаце, который сторонние источники интерпретировали как сознательный шаг назад от территории редактирования голоса без согласия, смежной с дипфейками.
Все видео, сгенерированные с помощью Omni, будут по умолчанию содержать незаметный цифровой водяной знак SynthID от Google. Пользователи могут проверить, было ли видео сгенерировано с помощью Omni через приложение Gemini, Gemini в Chrome и Google Search, сообщила компания.
Слой SynthID — это та же инфраструктура водяных знаков, которую OpenAI приняла ранее в этом году в рамках открытого стандарта C2PA и теперь позиционируется как межотраслевой стандарт для визуального происхождения, сгенерированного ИИ.
Что касается первоначальных ограничений, клипы уровня Flash ограничены 10 секундами при запуске, это решение по развертыванию, а не ограничение модели. Этот лимит короче, чем максимальное время Sora от OpenAI в 60 секунд, где архитектура токенизации пространственно-временных патчей Sora является ближайшим опубликованным сравнением с моделью на переднем крае.
Google не раскрыла структуру стоимости за клип, вычислительный след на одно поколение или набор эталонов, который использовался для оценки Omni по сравнению с Veo 3 или сторонними моделями, такими как Seedance от ByteDance.
Omni является главной моделью в более широком объявлении I/O 2026, которое также включало Gemini 3.5 и то, что Сундар Пичаи назвал «агентной эпохой Gemini» в своем ключевом выступлении. Стратегический вопрос для модели, согласно объявлению и немедленным аналитическим оценкам, заключается в том, является ли поток редактирования с несколькими входами действительно новой категорией продукта или более тесной интеграцией возможностей, которые уже продемонстрировала более широкая область видео на переднем крае.
Следующей видимой точкой доказательства станет развертывание API для разработчиков и корпоративных клиентов в ближайшие недели, где структура стоимости и верхний предел длины клипа в платных категориях станут публичными.
Что Google еще не раскрыла: основная архитектура модели Omni относительно Veo 3, вычислительный след на одно поколение, цены за клипы за пределами уровня Flash, эталонные оценки по сравнению с предыдущими видео моделями DeepMind и конкурентными предложениями на переднем крае, а также сроки для общего редактирования аудио и речи внутри семьи Omni.
Процесс регистрации аватаров и соблюдение SynthID являются, согласно объявлению, официальным ответом компании на вопросы согласия и происхождения, которые вызывает запуск.
Другие статьи
Google запускает Gemini Omni Flash, модель генерации видео с разговорным интерфейсом, с режимом аватара, который был приостановлен.
Google запустил Gemini Omni Flash, новую мультимодальную модель генерации видео от DeepMind, которая создает и редактирует видео в разговорном формате на основе изображений, аудио, видео и текстовых данных, с включенной по умолчанию водяной маркой SynthID.
