Por qué el próximo salto en la IA de video es enseñar a los avatares a ver y escuchar

      El video TL;DRAI está pasando de una carrera de fidelidad a una carrera de interactividad. Una nueva clase de modelos de avatares interactivos se puede clasificar en tres niveles: Nivel 1 (hablar), Nivel 2 (hablar y escuchar) y Nivel 3 (hablar, escuchar y ver). El salto del Nivel 1 al Nivel 2, donde un avatar aprende a escuchar y reaccionar en tiempo real, es el avance que convierte una cara que habla en un contraparte conversacional convincente.

      Durante los últimos años, el progreso en video generativo y avatares de IA se ha medido casi en su totalidad en fidelidad, con cada nuevo modelo logrando avances significativos en la entrega de detalles más nítidos, mejor física y movimiento más suave empaquetado en clips más largos. Esa carrera está lejos de haber terminado, pero está comenzando a perder una dirección más interesante. El video, como formato de medio en línea, está evolucionando de una experiencia estática, similar a una transmisión, a una más interactiva.

      El software está cada vez más mediado por agentes en lugar de por botones y menús, y para casi cualquier flujo de trabajo que puedas nombrar, alguien está construyendo un agente para manejarlo. En paralelo, las arquitecturas híbridas que combinan métodos autorregresivos y de difusión se han convertido en una de las áreas más dinámicas de la investigación en video. Y un conjunto creciente de equipos está tratando el video interactivo como una base para clases de aplicaciones completamente nuevas, desde simulaciones de mundo abierto hasta diálogos en vivo. Juntando todo esto, la conclusión es bastante clara: la interactividad, no la resolución, se está convirtiendo en la frontera.

      Como resultado, está surgiendo una nueva categoría de modelos de video cuyo trabajo es producir un agente hablante que reacciona a un humano en tiempo real, con latencias lo suficientemente bajas como para mantener una conversación natural, generalmente por debajo de un segundo. De manera similar a cómo los coches autónomos se definen por seis niveles de automatización, estos Modelos de Avatar Interactivos vienen en tres niveles de interactividad definidos por sus capacidades técnicas.

      El 💜 de la tecnología de la UE Las últimas novedades de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris, y un arte de IA cuestionable. Es gratis, cada semana, en tu bandeja de entrada. ¡Regístrate ahora! Un sistema de Nivel 1 puede hablar. Está impulsado completamente por su propio audio y no tiene conciencia de la persona frente a él. Casi todos los sistemas de avatares hablantes disponibles hoy logran este nivel de rendimiento. Es un problema de generación unidireccional: dado un discurso, produce una cara que habla plausible.

      Un sistema de Nivel 2 puede hablar y escuchar. Toma el audio del usuario así como el suyo propio, y reacciona mientras la otra persona está hablando. Estas reacciones incluyen pequeñas señales visuales que los oyentes reales producen, como un asentimiento de acuerdo o un cambio en la expresión, y con señales vocales como un breve “mhm” para mostrar reconocimiento. Este es un problema fundamentalmente más difícil que el Nivel 1, porque el modelo ya no está generando en aislamiento. Tiene que interpretar una señal entrante y responder a ella continuamente, a tiempo.

      Un sistema de Nivel 3 puede hablar, escuchar y ver. Además del audio, toma la transmisión de la cámara del usuario, por lo que puede responder a la postura, gesto y expresión facial de la manera en que las personas se ajustan entre sí en una videollamada.

      La razón por la que queremos evolucionar más allá de los modelos de Nivel 1 es porque un avatar que habla sin ninguna conciencia de la persona con la que está hablando parece estar vivo sin ser receptivo. Se mueve mientras hablas, a menudo de maneras que no tienen nada que ver con lo que estás diciendo, y el efecto es sorprendente o inquietante. En comparación con los sistemas de conversación solo de audio, que al menos permanecen en silencio y atentos mientras hablas, un avatar que no escucha a veces puede sentirse peor que no tener avatar en absoluto.

      Por eso el salto del Nivel 1 al Nivel 2 es el que más importa. Hacer que un avatar escuche de manera convincente es lo que convierte una cara que habla en algo que se siente como un contraparte. Lograr eso es más difícil de lo que parece, porque escuchar no es puramente visual. El lado vocal, el momento de una interrupción, la prosodia de un reconocimiento, la pausa de medio segundo antes de una reacción llevan tanto sentido de compromiso como el asentimiento. El enfoque ingenuo es acoplar un sistema de voz conversacional a un modelo de video en una pila. El camino más prometedor es modelar audio y movimiento conjuntamente, aprendiendo cómo la voz y el movimiento se moldean mutuamente en tiempo real. La lección de los recientes modelos de video multimodal es que predecir ambas modalidades juntas es a menudo donde el realismo cruza un umbral en lugar de avanzar lentamente.

      Los modelos de avatar de Nivel 3 pueden usar la transmisión de video de la cámara de una persona para crear la experiencia conversacional definitiva que replica perfectamente una videollamada. Por ejemplo, imagina que estás hablando con alguien; si se levanta y se va, entonces naturalmente dejas de hablar porque eso es una señal clara de que la conversación ha terminado. Por lo tanto, los avatares interactivos de Nivel 3 no solo reaccionan a las emociones o el tono de voz de una persona, sino también a lo que el usuario está haciendo. Como resultado, pueden modelar completamente las interacciones de humano a humano.

      Construir hacia el Nivel 3 es uno de los problemas más ambiciosos en la investigación de video aplicada, y llegar allí requerirá un trabajo sostenido y acumulativo en datos, modelos y ingeniería de sistemas, algo en lo que Synthesia tiene un excelente historial.

Otros artículos

Google pierde la apelación final sobre la multa récord de 4.1 mil millones de euros de la UE por Android El Tribunal de Justicia de la UE ha desestimado el recurso final de Google contra una multa antimonopolio de 4.1 mil millones de euros por Android, cerrando un caso de ocho años.

Cloudflare da a los rastreadores de IA un plazo hasta septiembre para pagar. A partir del 15 de septiembre, Cloudflare bloqueará por defecto los bots de entrenamiento de IA en páginas con anuncios y pagará a los editores cuando su contenido forme parte de una respuesta de IA.

Getty cancela la fusión de $3.7 mil millones con Shutterstock debido a las condiciones del Reino Unido Getty Images está terminando su fusión de $3.7 mil millones con Shutterstock después de que la CMA del Reino Unido exigiera una venta que no aceptaría, a pesar de la aprobación antimonopolio en EE. UU.

Tesla entregó 480,126 vehículos en el segundo trimestre, superando con creces las 406,000 que Wall Street esperaba. Tesla superó las estimaciones de entrega en un 18% en el segundo trimestre de 2026, registrando 480,126 entregas. Fue un aumento del 25% interanual y un salto del 34% respecto al primer trimestre mientras la compañía intenta recuperarse.

Samsung podría dejar de restringir la pantalla anti-espionaje del Galaxy S26 Ultra con la serie Galaxy S27. Una nueva filtración afirma que Samsung podría llevar su tecnología de pantalla de privacidad Flex Magic Pixel a toda la línea Galaxy S27, incluidos los modelos base, Plus, Pro y Ultra.

Las ventas de Ford en EE. UU. en el segundo trimestre cayeron un 10.3% ya que las ventas de vehículos eléctricos disminuyeron un 40.7% y una escasez de aluminio afectó a las camionetas de la serie F. Ford vendió 549,200 vehículos en el segundo trimestre, una disminución del 10.3%. Las ventas de vehículos eléctricos puros cayeron un 40.7%. Las ventas de la serie F cayeron un 11% después de que su principal proveedor de aluminio sufriera dos incendios en fábricas.

Por qué el próximo salto en la IA de video es enseñar a los avatares a ver y escuchar

Los modelos de avatares interactivos están evolucionando más allá de la fidelidad hacia la capacidad de respuesta en tiempo real. Un marco de tres niveles, desde hablar hasta escuchar y ver, mapea el camino desde la generación unidireccional hasta los agentes de video conversacionales completos.