Google запускает Gemini Omni Flash, модель генерации видео с разговорным интерфейсом, с режимом аватара, который был приостановлен.

      Первая модель в новой семье Omni от DeepMind будет генерировать и редактировать видео из любой комбинации изображений, аудио, видео и текстовых входов. Редактирование речи временно приостановлено; водяной знак SynthID включен по умолчанию.

      Google представила Gemini Omni во вторник на конференции разработчиков I/O 2026, новой мультимодальной модели от Google DeepMind, предназначенной для генерации и редактирования видео из любой комбинации изображений, аудио, видео и текстовых входов.

      Первая модель в этой семье, Gemini Omni Flash, начала развертывание в тот же день для приложения Gemini и Google Flow для подписчиков Google AI Plus, Pro и Ultra, а также для YouTube Shorts и приложения YouTube Create без каких-либо затрат. Доступ к API для разработчиков и корпоративных клиентов будет предоставлен в ближайшие недели.

      Формулировка продукта от Корая Кавукджиоглу, технического директора Google DeepMind и главного архитектора ИИ в Google, заключается в том, что Omni «объединяет изображения, аудио, видео и текст в качестве входных данных и генерирует высококачественные видео, основанные на реальных знаниях Gemini». Входные данные могут быть смешаны в одном запросе.

      Редактирование происходит в разговорной форме, при этом каждая инструкция основывается на предыдущей, так что персонажи, физика и контекст сцены сохраняются между обращениями. Выходные модальности, помимо видео, включая генерацию изображений и аудио, «появятся со временем», написал Кавукджиоглу в блоге компании.

      Позиционирование Omni, согласно опубликованным материалам, основывается на трех утверждениях. Во-первых, модель имеет улучшенное интуитивное понимание физических сил, включая гравитацию, кинетическую энергию и динамику жидкостей, что позволяет ей генерировать сцены с более точной физикой.

      Во-вторых, она опирается на существующие знания о мире Gemini, чтобы связывать язык, изображения и смысл за пределами сопоставления шаблонов, при этом компания демонстрирует запросы, которые варьируются от объяснений сворачивания белков в клейкой анимации до треков физики цепной реакции. В-третьих, слой разговорного редактирования сохраняет согласованность между многократными revisions, где предыдущие видео модели имели тенденцию к отклонению в идентичности персонажей или непрерывности сцены.

      Выпуск также расширяет семью Omni до генерации цифровых аватаров. Аватары позволяют пользователям записывать свой голос и внешность, чтобы создавать видео, которые выглядят и звучат как они, при этом процесс регистрации требует записи себя и произнесения ряда чисел вслух.

      Помимо аватаров, Google временно удерживает общие возможности редактирования аудио и речи внутри Omni. «Мы все еще работаем над тестированием этого и лучше понимаем, как мы можем ответственно предоставить эту возможность пользователям», — написал Кавукджиоглу в абзаце, который сторонние источники интерпретировали как сознательный шаг назад от территории редактирования голоса без согласия, смежной с дипфейками.

      Все видео, сгенерированные с помощью Omni, будут по умолчанию содержать незаметный цифровой водяной знак SynthID от Google. Пользователи могут проверить, было ли видео сгенерировано с помощью Omni через приложение Gemini, Gemini в Chrome и Google Search, сообщила компания.

      Слой SynthID — это та же инфраструктура водяных знаков, которую OpenAI приняла ранее в этом году в рамках открытого стандарта C2PA и теперь позиционируется как межотраслевой стандарт для визуального происхождения, сгенерированного ИИ.

      Что касается первоначальных ограничений, клипы уровня Flash ограничены 10 секундами при запуске, это решение по развертыванию, а не ограничение модели. Этот лимит короче, чем максимальное время Sora от OpenAI в 60 секунд, где архитектура токенизации пространственно-временных патчей Sora является ближайшим опубликованным сравнением с моделью на переднем крае.

      Google не раскрыла структуру стоимости за клип, вычислительный след на одно поколение или набор эталонов, который использовался для оценки Omni по сравнению с Veo 3 или сторонними моделями, такими как Seedance от ByteDance.

      Omni является главной моделью в более широком объявлении I/O 2026, которое также включало Gemini 3.5 и то, что Сундар Пичаи назвал «агентной эпохой Gemini» в своем ключевом выступлении. Стратегический вопрос для модели, согласно объявлению и немедленным аналитическим оценкам, заключается в том, является ли поток редактирования с несколькими входами действительно новой категорией продукта или более тесной интеграцией возможностей, которые уже продемонстрировала более широкая область видео на переднем крае.

      Следующей видимой точкой доказательства станет развертывание API для разработчиков и корпоративных клиентов в ближайшие недели, где структура стоимости и верхний предел длины клипа в платных категориях станут публичными.

      Что Google еще не раскрыла: основная архитектура модели Omni относительно Veo 3, вычислительный след на одно поколение, цены за клипы за пределами уровня Flash, эталонные оценки по сравнению с предыдущими видео моделями DeepMind и конкурентными предложениями на переднем крае, а также сроки для общего редактирования аудио и речи внутри семьи Omni.

      Процесс регистрации аватаров и соблюдение SynthID являются, согласно объявлению, официальным ответом компании на вопросы согласия и происхождения, которые вызывает запуск.

Другие статьи

Meta начинает сокращение на 10%, при этом сингапурский офис получает уведомление в 4 утра первым. Meta начала уведомлять тысячи сотрудников о сокращениях в среду, начиная с сотрудников в Сингапуре в 4 часа утра по местному времени. Сокращения реализуют обязательство, взятое в апреле, сократить численность сотрудников примерно на 8,000 человек.

Берлинская компания Dunia Innovations инвестирует 280 миллионов евро в автономную GigaLab по разработке AI-материалов. Берлинская компания Dunia Innovations представила планы по созданию GigaLab площадью 6,000 квадратных метров стоимостью 280 миллионов евро для проверки материалов, разработанных с помощью ИИ, на промышленном уровне.

Google анонсирует Pics, встроенный в Workspace генератор изображений на базе ИИ, который конкурирует с Canva в точности редактирования. Google объявил о Pics, встроенном в Workspace генераторе изображений на базе AI, работающем на Nano Banana 2, с точными инструментами редактирования и интеграцией с Slides/Drive.

Google запускает Gemini Omni Flash, модель генерации видео с разговорным интерфейсом, с режимом аватара, который был отложен. Google запустил Gemini Omni Flash, новую многомодальную модель генерации видео от DeepMind, которая создает и редактирует видео в разговорном формате на основе изображений, аудио, видео и текстовых данных, с включенной по умолчанию водяной маркой SynthID.

Берлинская компания Dunia Innovations инвестирует 280 миллионов евро в автономную ГигаЛаб по материалам на основе ИИ. Берлинская компания Dunia Innovations представила планы по созданию GigaLab площадью 6,000 квадратных метров стоимостью 280 миллионов евро для проверки материалов, разработанных с помощью ИИ, на промышленном уровне.

CircuitHub получает 28 миллионов долларов от Plural, чтобы производить печатные платы так, как облака создают вычисления. CircuitHub привлек 28 миллионов долларов, возглавляемых Plural, для расширения своих автоматизированных заводов по производству печатных плат 'Grid' в Европе и США.

Google запускает Gemini Omni Flash, модель генерации видео с разговорным интерфейсом, с режимом аватара, который был приостановлен.

Google запустил Gemini Omni Flash, новую мультимодальную модель генерации видео от DeepMind, которая создает и редактирует видео в разговорном формате на основе изображений, аудио, видео и текстовых данных, с включенной по умолчанию водяной маркой SynthID.