Los auriculares con IA impulsados por Apple M2 pueden traducir varios altavoces a la vez

      Los auriculares inalámbricos Pixel Buds de Google han ofrecido una fantástica función de traducción en tiempo real desde hace un tiempo. En los últimos años, marcas como Timkettle han ofrecido auriculares similares para clientes comerciales. Sin embargo, todas estas soluciones solo pueden manejar una transmisión de audio a la vez para la traducción.

      La gente de la Universidad de Washington (UW) ha desarrollado algo realmente notable en forma de auriculares impulsados por IA que pueden traducir la voz de varios oradores a la vez. Piense en ello como un políglota en un bar lleno de gente, capaz de entender el habla de las personas que lo rodean, hablando en diferentes idiomas, todo a la vez.

      El equipo se refiere a su innovación como una Traducción Espacial del Habla, y cobra vida gracias a los auriculares binaurales. Para los que no lo saben, el audio binaural intenta simular los efectos de sonido tal como los perciben los oídos humanos de forma natural. Para grabarlos, los micrófonos se colocan en una cabeza simulada, separados a la misma distancia que los oídos humanos a cada lado.





      El enfoque es crucial porque nuestros oídos no solo escuchan el sonido, sino que también nos ayudan a medir la dirección de su origen. El objetivo general es producir un escenario sonoro natural con un efecto estéreo que pueda proporcionar una sensación similar a la de un concierto en vivo. O, en el contexto moderno, la escucha espacial.

      El trabajo es cortesía de un equipo dirigido por el profesor Shyam Gollakota, cuyo prolífico repertorio incluye aplicaciones que pueden poner GPS subacuático en relojes inteligentes, convertir escarabajos en fotógrafos, implantes cerebrales que pueden interactuar con dispositivos electrónicos, una aplicación móvil que puede escuchar infecciones y más.

      ¿Cómo funciona la traducción de múltiples hablantes?

      "Por primera vez, hemos conservado el sonido de la voz de cada persona y la dirección de donde proviene", explica Gollakota, actualmente profesor en la Escuela de Ciencias de la Computación e Ingeniería Paul G. Allen del instituto.

      Imagen representativa. A24

      El equipo compara su pila con un radar, ya que entra en acción identificando la cantidad de hablantes en los alrededores y actualizando esa cantidad en tiempo real a medida que las personas entran y salen del rango de escucha. Todo el enfoque funciona en el dispositivo y no implica enviar transmisiones de voz del usuario a un servidor en la nube para su traducción. ¡Ay, privacidad!

      Además de la traducción del habla, el kit también " mantiene las cualidades expresivas y el volumen de la voz de cada hablante."Además, los ajustes direccionales y de intensidad de audio se realizan a medida que el altavoz se mueve por la habitación. Curiosamente, también se dice que Apple está desarrollando un sistema que permite que los AirPods traduzcan audio en tiempo real.

      ¿Cómo cobra vida todo?

      El equipo de la Universidad de Washington probó las capacidades de traducción de los auriculares con IA en casi una docena de entornos exteriores e interiores. En lo que respecta al rendimiento, el sistema puede tomar, procesar y producir audio traducido en 2-4 segundos. Los participantes de la prueba parecían preferir un retraso de 3 a 4 segundos, pero el equipo está trabajando para acelerar el proceso de traducción.

      Phil Nickinson / Tendencias digitales

      Hasta ahora, el equipo solo ha probado traducciones al español, alemán y Francés, pero tienen la esperanza de agregar más al grupo. Técnicamente, condensaron la separación ciega de fuentes, la localización, la traducción expresiva en tiempo real y la representación binaural en un solo flujo, lo cual es una hazaña bastante impresionante.

      En lo que respecta al sistema, el equipo desarrolló un modelo de traducción de voz capaz de ejecutarse en tiempo real en un silicio Apple M2, logrando inferencias en tiempo real. Las tareas de audio fueron manejadas por un par de auriculares WH-1000XM4 con cancelación de ruido de Sony y un micrófono USB binaural Sonic Presence SP15C.

      Y aquí está la mejor parte. "El código para el dispositivo de prueba de concepto está disponible para que otros lo desarrollen", dice el comunicado de prensa de la institución. Eso significa que la comunidad científica y de retoques de código abierto puede aprender y basar proyectos más avanzados en los cimientos establecidos por el equipo de la Universidad de Washington.

Otros artículos

Charlize Theron dice que Uma Thurman debería haber ganado un Oscar por Kill Bill Las dos actrices se enfrentarán en The Old Guard 2, que llegará a Netflix en julio.

Suits LA cancelado después de una sola temporada en NBC El programa no logró recuperar el renovado interés en la serie original, que se emitió por primera vez en EE.UU. en la década de 2010.

EVE Fanfest 2025 demostró que la influencia de EVE Online es innegable Un viaje al EVE Fanfest 2025 en Islandia nos mostró cuán impactante es realmente el legendario juego.

Hilos del NYT de hoy: consejos, espangramas y respuestas para el sábado 10 de mayo Strands es una versión complicada de la clásica búsqueda de palabras de NYT Games. Si estás atascado y no puedes resolver el rompecabezas de hoy, tenemos ayuda y sugerencias para ti aquí.

Este televisor Element de 43 pulgadas cuesta solo 1 118 en Walmart hoy El televisor inteligente Element XUMO 4K de 43 pulgadas tiene un descuento de today 118 hoy en Walmart, que es una rebaja de 4 40 de su precio original de $158.

Los mejores trailers de videojuegos de todos los tiempos Ver un nuevo tráiler brillante de un videojuego es la mejor manera de emocionarse por un nuevo juego. Incluso los juegos malos pueden tener buenos trailers, y estos son los mejores trailers de videojuegos jamás creados.

Los auriculares con IA impulsados por Apple M2 pueden traducir varios altavoces a la vez

Un equipo de la Universidad de Washington ha creado auriculares impulsados por IA que pueden traducir las voces de varias personas que hablan diferentes idiomas.