Google lanza Gemini Omni Flash, un modelo de generación de video conversacional con modo avatar retenido.

      El primer modelo de la nueva familia Omni de DeepMind generará y editará video a partir de cualquier combinación de imágenes, audio, video y entradas de texto. La edición de voz está siendo retenida; la marca de agua SynthID está activada por defecto.

      Google presentó Gemini Omni el martes en la conferencia de desarrolladores I/O 2026, una nueva familia de modelos multimodales de Google DeepMind diseñada para generar y editar video a partir de cualquier combinación de imágenes, audio, video y entradas de texto.

      El primer modelo de la familia, Gemini Omni Flash, comenzó a implementarse el mismo día en la aplicación Gemini y Google Flow para suscriptores de Google AI Plus, Pro y Ultra, y en YouTube Shorts y la aplicación YouTube Create sin costo alguno. El acceso a la API para desarrolladores y clientes empresariales seguirá en las próximas semanas.

      El marco del producto, de Koray Kavukcuoglu, CTO de Google DeepMind y Arquitecto Jefe de IA en Google, es que Omni "combina imágenes, audio, video y texto como entrada y genera videos de alta calidad basados en el conocimiento del mundo real de Gemini". Las entradas pueden mezclarse en un solo aviso.

      Las ediciones se realizan de manera conversacional, con cada instrucción construyendo sobre la anterior, de modo que los personajes, la física y el contexto de la escena persistan a lo largo de los turnos. Las modalidades de salida más allá del video, incluida la generación de imágenes y audio, "llegarán a su debido tiempo", escribió Kavukcuoglu en el blog de la empresa.

      El posicionamiento de Omni, en los materiales publicados, se basa en tres afirmaciones. Primero, el modelo tiene una comprensión intuitiva mejorada de las fuerzas físicas, incluida la gravedad, la energía cinética y la dinámica de fluidos, lo que le permite generar escenas con una física más precisa.

      En segundo lugar, se basa en el conocimiento del mundo existente de Gemini para conectar el lenguaje, las imágenes y el significado más allá de la coincidencia de patrones, con la empresa demostrando avisos que van desde explicaciones de plegado de proteínas en arcilla hasta pistas de física de reacciones en cadena. Tercero, la capa de edición conversacional preserva la consistencia a través de revisiones de múltiples turnos, donde los modelos de video anteriores tienden a desviarse en la identidad de los personajes o la continuidad de la escena.

      El lanzamiento también extiende la familia Omni a la generación de avatares digitales. Los avatares permiten a los usuarios grabar su propia voz y semejanza para crear videos que se vean y suenen como ellos, con el proceso de incorporación requiriendo grabarse a sí mismo y hablar una serie de números en voz alta.

      Más allá de los avatares, Google está reteniendo explícitamente la edición de audio y voz de propósito general dentro de Omni por ahora. "Todavía estamos trabajando para probar esto y comprender mejor cómo podemos llevar esta capacidad a los usuarios de manera responsable", escribió Kavukcuoglu, en un párrafo que la cobertura de terceros ha interpretado como un paso deliberado atrás del territorio adyacente a los deepfakes de edición de voz sin consentimiento.

      Todos los videos generados con Omni llevarán la marca de agua digital imperceptible SynthID de Google por defecto. Los usuarios pueden verificar si un clip fue generado por Omni a través de la aplicación Gemini, Gemini en Chrome y Google Search, dijo la empresa.

      La capa SynthID es la misma infraestructura de marca de agua que OpenAI adoptó a principios de este año bajo el estándar abierto C2PA, y ahora se posiciona como el estándar predeterminado de la industria para la procedencia visual generada por IA.

      Sobre los límites iniciales divulgados, los clips de nivel Flash están limitados a 10 segundos en el lanzamiento, una decisión de implementación más que una restricción del modelo. El límite es más corto que el máximo de 60 segundos de Sora de OpenAI, donde la arquitectura de tokenización de parches espaciotemporales de Sora es la comparación de modelo de frontera publicada más cercana.

      Google no ha divulgado la estructura de costos por clip, la huella computacional por generación, ni el conjunto de referencia que utilizó para evaluar Omni en comparación con Veo 3 o modelos de terceros como Seedance de ByteDance.

      Omni es el modelo principal en un anuncio más amplio de I/O 2026 que también incluyó Gemini 3.5 y lo que Sundar Pichai llamó la "era agentiva de Gemini" en su discurso principal. La pregunta estratégica para el modelo, en el anuncio y las lecturas inmediatas de los analistas, es si el flujo de edición conversacional de múltiples entradas es genuinamente una nueva categoría de producto o una integración más estrecha de capacidades que el campo de video de frontera más amplio ya ha demostrado.

      El próximo punto de prueba visible será el lanzamiento de la API para desarrolladores y clientes empresariales en las próximas semanas, donde la estructura de costos y el límite superior en la duración de los clips bajo niveles de pago se harán públicos.

      Lo que Google aún no ha divulgado: la arquitectura subyacente del modelo Omni en relación con Veo 3, la huella computacional por generación, los precios para clips más allá del nivel Flash, las puntuaciones de referencia contra los propios modelos de video anteriores de DeepMind y las ofertas de frontera competidoras, y la línea de tiempo para la edición de audio y voz de propósito general dentro de la familia Omni.

      El proceso de incorporación de avatares y la aplicación de SynthID son, en el anuncio, la respuesta formal de la empresa a las preguntas de consentimiento y procedencia que invita el lanzamiento.

Otros artículos

OpenAI establece su primer laboratorio de IA aplicada en el extranjero en Singapur, con un compromiso de $235 millones. OpenAI abrirá su primer laboratorio de IA aplicada fuera de los Estados Unidos en Singapur, con un compromiso de S$300 millones ($235 millones) y un aumento de personal a aproximadamente 200 personas en los próximos años.

Alibaba presenta el Zhenwu M890 como la alternativa de NVIDIA de China mientras la presión se intensifica. La unidad de chips T-Head de Alibaba ha presentado el Zhenwu M890, su acelerador de IA de más alta especificación hasta la fecha, y ha dicho que el chip ya está en 'producción masiva escalada' mientras China acelera su impulso para tener una alternativa nacional a NVIDIA.

Google anuncia Pics, un generador de imágenes de IA nativo de Workspace que compite con Canva en edición de precisión. Google ha anunciado Pics, un generador de imágenes nativo de Workspace impulsado por Nano Banana 2, con controles de edición de precisión e integración con Slides/Drive.

Meta comienza el recorte del 10%, con la oficina de Singapur recibiendo primero la nota a las 4 a.m. Meta comenzó a notificar a miles de empleados sobre despidos el miércoles, comenzando con el personal de Singapur a las 4 a.m. hora local. Los recortes implementan un compromiso de abril de reducir el número de empleados en aproximadamente 8,000 puestos.

La Generación Z no está abucheando a la IA. Está abucheando su propio mercado laboral. Eric Schmidt fue abucheado en la Universidad de Arizona. Gloria Caulfield fue abucheada en UCF. El marco lo llamó confusión generacional. Los números dicen que fue precisión generacional.

Meta ofrece a los chatbots de IA rivales un pase gratuito limitado en WhatsApp, según los términos de Bruselas. Meta ha presentado una nueva propuesta a la Comisión Europea que ofrece a los chatbots de IA rivales acceso gratuito a WhatsApp en Europa hasta un límite de uso, luego una tarifa por mensaje. La Comisión la está revisando bajo la Ley de Mercados Digitales.

Google lanza Gemini Omni Flash, un modelo de generación de video conversacional con modo avatar retenido.

Google ha lanzado Gemini Omni Flash, un nuevo modelo de generación de video multimodal de DeepMind que crea y edita video de manera conversacional a partir de entradas de imagen, audio, video y texto, con la marca de agua SynthID activada por defecto.