Google lanza Gemini Omni Flash, un modelo de generación de video conversacional con modo avatar retenido.
El primer modelo de la nueva familia Omni de DeepMind generará y editará video a partir de cualquier combinación de imágenes, audio, video y entradas de texto. La edición de voz está siendo retenida; la marca de agua SynthID está activada por defecto.
Google presentó Gemini Omni el martes en la conferencia de desarrolladores I/O 2026, una nueva familia de modelos multimodales de Google DeepMind diseñada para generar y editar video a partir de cualquier combinación de imágenes, audio, video y entradas de texto.
El primer modelo de la familia, Gemini Omni Flash, comenzó a implementarse el mismo día en la aplicación Gemini y Google Flow para suscriptores de Google AI Plus, Pro y Ultra, y en YouTube Shorts y la aplicación YouTube Create sin costo alguno. El acceso a la API para desarrolladores y clientes empresariales seguirá en las próximas semanas.
El marco del producto, de Koray Kavukcuoglu, CTO de Google DeepMind y Arquitecto Jefe de IA en Google, es que Omni "combina imágenes, audio, video y texto como entrada y genera videos de alta calidad basados en el conocimiento del mundo real de Gemini". Las entradas pueden mezclarse en un solo aviso.
Las ediciones se realizan de manera conversacional, con cada instrucción construyendo sobre la anterior, de modo que los personajes, la física y el contexto de la escena persistan a lo largo de los turnos. Las modalidades de salida más allá del video, incluida la generación de imágenes y audio, "llegarán a su debido tiempo", escribió Kavukcuoglu en el blog de la empresa.
El posicionamiento de Omni, en los materiales publicados, se basa en tres afirmaciones. Primero, el modelo tiene una comprensión intuitiva mejorada de las fuerzas físicas, incluida la gravedad, la energía cinética y la dinámica de fluidos, lo que le permite generar escenas con una física más precisa.
En segundo lugar, se basa en el conocimiento del mundo existente de Gemini para conectar el lenguaje, las imágenes y el significado más allá de la coincidencia de patrones, con la empresa demostrando avisos que van desde explicaciones de plegado de proteínas en arcilla hasta pistas de física de reacciones en cadena. Tercero, la capa de edición conversacional preserva la consistencia a través de revisiones de múltiples turnos, donde los modelos de video anteriores tienden a desviarse en la identidad de los personajes o la continuidad de la escena.
El lanzamiento también extiende la familia Omni a la generación de avatares digitales. Los avatares permiten a los usuarios grabar su propia voz y semejanza para crear videos que se vean y suenen como ellos, con el proceso de incorporación requiriendo grabarse a sí mismo y hablar una serie de números en voz alta.
Más allá de los avatares, Google está reteniendo explícitamente la edición de audio y voz de propósito general dentro de Omni por ahora. "Todavía estamos trabajando para probar esto y comprender mejor cómo podemos llevar esta capacidad a los usuarios de manera responsable", escribió Kavukcuoglu, en un párrafo que la cobertura de terceros ha interpretado como un paso deliberado atrás del territorio adyacente a los deepfakes de edición de voz sin consentimiento.
Todos los videos generados con Omni llevarán la marca de agua digital imperceptible SynthID de Google por defecto. Los usuarios pueden verificar si un clip fue generado por Omni a través de la aplicación Gemini, Gemini en Chrome y Google Search, dijo la empresa.
La capa SynthID es la misma infraestructura de marca de agua que OpenAI adoptó a principios de este año bajo el estándar abierto C2PA, y ahora se posiciona como el estándar predeterminado de la industria para la procedencia visual generada por IA.
Sobre los límites iniciales divulgados, los clips de nivel Flash están limitados a 10 segundos en el lanzamiento, una decisión de implementación más que una restricción del modelo. El límite es más corto que el máximo de 60 segundos de Sora de OpenAI, donde la arquitectura de tokenización de parches espaciotemporales de Sora es la comparación de modelo de frontera publicada más cercana.
Google no ha divulgado la estructura de costos por clip, la huella computacional por generación, ni el conjunto de referencia que utilizó para evaluar Omni en comparación con Veo 3 o modelos de terceros como Seedance de ByteDance.
Omni es el modelo principal en un anuncio más amplio de I/O 2026 que también incluyó Gemini 3.5 y lo que Sundar Pichai llamó la "era agentiva de Gemini" en su discurso principal. La pregunta estratégica para el modelo, en el anuncio y las lecturas inmediatas de los analistas, es si el flujo de edición conversacional de múltiples entradas es genuinamente una nueva categoría de producto o una integración más estrecha de capacidades que el campo de video de frontera más amplio ya ha demostrado.
El próximo punto de prueba visible será el lanzamiento de la API para desarrolladores y clientes empresariales en las próximas semanas, donde la estructura de costos y el límite superior en la duración de los clips bajo niveles de pago se harán públicos.
Lo que Google aún no ha divulgado: la arquitectura subyacente del modelo Omni en relación con Veo 3, la huella computacional por generación, los precios para clips más allá del nivel Flash, las puntuaciones de referencia contra los propios modelos de video anteriores de DeepMind y las ofertas de frontera competidoras, y la línea de tiempo para la edición de audio y voz de propósito general dentro de la familia Omni.
El proceso de incorporación de avatares y la aplicación de SynthID son, en el anuncio, la respuesta formal de la empresa a las preguntas de consentimiento y procedencia que invita el lanzamiento.
Otros artículos
Google lanza Gemini Omni Flash, un modelo de generación de video conversacional con modo avatar retenido.
Google ha lanzado Gemini Omni Flash, un nuevo modelo de generación de video multimodal de DeepMind que crea y edita video de manera conversacional a partir de entradas de imagen, audio, video y texto, con la marca de agua SynthID activada por defecto.
