Google запускает Gemini Omni Flash, модель генерации видео с разговорным интерфейсом, с режимом аватара, который был отложен.

      Первая модель в новой семье Omni от DeepMind будет генерировать и редактировать видео из любой комбинации изображений, аудио, видео и текстовых входов. Редактирование речи временно приостановлено; водяной знак SynthID включен по умолчанию.

      Google представила Gemini Omni во вторник на конференции разработчиков I/O 2026, новой мультимодальной модели от Google DeepMind, предназначенной для генерации и редактирования видео из любой комбинации изображений, аудио, видео и текстовых входов.

      Первая модель в этой семье, Gemini Omni Flash, начала развертывание в тот же день для приложения Gemini и Google Flow для подписчиков Google AI Plus, Pro и Ultra, а также для YouTube Shorts и приложения YouTube Create бесплатно. Доступ к API для разработчиков и корпоративных клиентов будет предоставлен в ближайшие недели.

      Формулировка продукта от Корая Кавукджиоглу, технического директора Google DeepMind и главного архитектора ИИ в Google, заключается в том, что Omni «объединяет изображения, аудио, видео и текст в качестве входных данных и генерирует высококачественные видео, основанные на реальных знаниях Gemini». Входные данные могут быть смешаны в одном запросе.

      Редактирование происходит в разговорной форме, при этом каждая инструкция основывается на предыдущей, так что персонажи, физика и контекст сцены сохраняются между поворотами. Выходные модальности, помимо видео, включая генерацию изображений и аудио, «появятся со временем», написал Кавукджиоглу в блоге компании.

      Позиционирование Omni, согласно опубликованным материалам, основывается на трех утверждениях. Во-первых, модель имеет улучшенное интуитивное понимание физических сил, включая гравитацию, кинетическую энергию и динамику жидкостей, что позволяет ей генерировать сцены с более точной физикой.

      Во-вторых, она опирается на существующие знания о мире Gemini, чтобы связывать язык, изображения и значение за пределами сопоставления шаблонов, при этом компания демонстрирует запросы, которые варьируются от объяснений сворачивания белков в клейкой анимации до треков физики цепной реакции. В-третьих, слой разговорного редактирования сохраняет последовательность в многоповоротных ревизиях, где предыдущие модели видео имели тенденцию к отклонению в идентичности персонажей или непрерывности сцены.

      Выпуск также расширяет семью Omni до генерации цифровых аватаров. Аватары позволяют пользователям записывать свой собственный голос и внешность, чтобы создавать видео, которые выглядят и звучат как они, при этом процесс регистрации требует записи себя и произнесения серии чисел вслух.

      Помимо аватаров, Google временно удерживает общие возможности редактирования аудио и речи внутри Omni. «Мы все еще работаем над тестированием этого и лучше понимаем, как мы можем ответственно предоставить эту возможность пользователям», — написал Кавукджиоглу в абзаце, который сторонние источники интерпретировали как преднамеренный шаг назад от территории редактирования голоса без согласия, близкой к дипфейкам.

      Все видео, сгенерированные с помощью Omni, будут по умолчанию содержать незаметный цифровой водяной знак SynthID от Google. Пользователи могут проверить, было ли видео сгенерировано Omni через приложение Gemini, Gemini в Chrome и Google Search, сообщила компания.

      Слой SynthID — это та же инфраструктура водяных знаков, которую OpenAI приняла ранее в этом году в рамках открытого стандарта C2PA и теперь позиционируется как кросс-индустриальный стандарт для визуального происхождения, сгенерированного ИИ.

      Что касается раскрытых первоначальных ограничений, клипы уровня Flash ограничены 10 секундами при запуске, это решение по развертыванию, а не ограничение модели. Ограничение короче, чем максимальная продолжительность Sora от OpenAI в 60 секунд, где архитектура токенизации пространственно-временных патчей Sora является ближайшим опубликованным сравнением с моделью на переднем крае.

      Google не раскрыла структуру стоимости за клип, вычислительный след на одно поколение или набор тестов, который использовался для оценки Omni по сравнению с Veo 3 или сторонними моделями, такими как Seedance от ByteDance.

      Omni является основной моделью в более широком объявлении I/O 2026, которое также включало Gemini 3.5 и то, что Сундар Пичаи назвал «агентной эпохой Gemini» в своем ключевом посте. Стратегический вопрос для модели, согласно объявлению и немедленным оценкам аналитиков, заключается в том, является ли поток разговорного редактирования с несколькими входами действительно новой категорией продукта или более тесной интеграцией возможностей, которые уже продемонстрировала более широкая область видео на переднем крае.

      Следующей видимой точкой доказательства станет развертывание API для разработчиков и корпоративных клиентов в ближайшие недели, где структура стоимости и верхний предел длины клипа в платных уровнях станут публичными.

      Что Google еще не раскрыла: архитектура базовой модели Omni относительно Veo 3, вычислительный след на одно поколение, цены за клипы сверх уровня Flash, оценки по сравнению с предыдущими видео моделями DeepMind и конкурентными предложениями на переднем крае, а также сроки для общего редактирования аудио и речи внутри семьи Omni.

      Процесс регистрации аватаров и соблюдение SynthID являются, согласно объявлению, официальным ответом компании на вопросы о согласии и происхождении, которые вызывает запуск.

Другие статьи

OpenAI открывает свою первую зарубежную лабораторию прикладного ИИ в Сингапуре с обязательством в 235 миллионов долларов. OpenAI откроет свою первую лабораторию прикладного ИИ за пределами Соединенных Штатов в Сингапуре с обязательством в 300 миллионов сингапурских долларов (235 миллионов долларов США) и увеличением численности персонала до примерно 200 человек в течение следующих нескольких лет.

Google анонсирует Pics, встроенный в Workspace генератор изображений на базе ИИ, который конкурирует с Canva в точности редактирования. Google объявил о Pics, встроенном в Workspace генераторе изображений на базе AI, работающем на Nano Banana 2, с точными инструментами редактирования и интеграцией с Slides/Drive.

Meta предлагает конкурентам ИИ-чатботов ограниченный бесплатный доступ в WhatsApp на условиях Брюсселя. Meta подала новое предложение в Европейскую комиссию, предлагая конкурентам AI-чатов бесплатный доступ к WhatsApp в Европе до достижения лимита использования, после чего будет взиматься плата за каждое сообщение. Комиссия рассматривает его в рамках Закона о цифровых рынках.

Meta предоставляет конкурентам ИИ-чатботов ограниченный бесплатный доступ к WhatsApp на условиях Брюсселя Meta подала новое предложение в Европейскую комиссию, предлагая конкурентным AI-чат-ботам бесплатный доступ к WhatsApp в Европе до достижения лимита использования, после чего будет взиматься плата за каждое сообщение. Комиссия рассматривает его в рамках Закона о цифровых рынках.

Виктор получает 75 миллионов долларов от Accel, чтобы внедрить ИИ-коллегу в Slack и Teams. Виктор, компания по разработке ИИ-сотрудников, расположенная в Варшаве и Мюнхене и основанная бывшими инженерами Meta, привлекла 75 миллионов долларов в рамках раунда финансирования Series A, возглавляемого Accel.

Берлинская компания Dunia Innovations инвестирует 280 миллионов евро в автономную ГигаЛаб по материалам на основе ИИ. Берлинская компания Dunia Innovations представила планы по созданию GigaLab площадью 6,000 квадратных метров стоимостью 280 миллионов евро для проверки материалов, разработанных с помощью ИИ, на промышленном уровне.

Google запускает Gemini Omni Flash, модель генерации видео с разговорным интерфейсом, с режимом аватара, который был отложен.

Google запустил Gemini Omni Flash, новую многомодальную модель генерации видео от DeepMind, которая создает и редактирует видео в разговорном формате на основе изображений, аудио, видео и текстовых данных, с включенной по умолчанию водяной маркой SynthID.