
Los auriculares con IA impulsados por Apple M2 pueden traducir varios altavoces a la vez
Los auriculares inalámbricos Pixel Buds de Google han ofrecido una fantástica función de traducción en tiempo real desde hace un tiempo. En los últimos años, marcas como Timkettle han ofrecido auriculares similares para clientes comerciales. Sin embargo, todas estas soluciones solo pueden manejar una transmisión de audio a la vez para la traducción.
La gente de la Universidad de Washington (UW) ha desarrollado algo realmente notable en forma de auriculares impulsados por IA que pueden traducir la voz de varios oradores a la vez. Piense en ello como un políglota en un bar lleno de gente, capaz de entender el habla de las personas que lo rodean, hablando en diferentes idiomas, todo a la vez.
El equipo se refiere a su innovación como una Traducción Espacial del Habla, y cobra vida gracias a los auriculares binaurales. Para los que no lo saben, el audio binaural intenta simular los efectos de sonido tal como los perciben los oídos humanos de forma natural. Para grabarlos, los micrófonos se colocan en una cabeza simulada, separados a la misma distancia que los oídos humanos a cada lado.
El enfoque es crucial porque nuestros oídos no solo escuchan el sonido, sino que también nos ayudan a medir la dirección de su origen. El objetivo general es producir un escenario sonoro natural con un efecto estéreo que pueda proporcionar una sensación similar a la de un concierto en vivo. O, en el contexto moderno, la escucha espacial.
El trabajo es cortesía de un equipo dirigido por el profesor Shyam Gollakota, cuyo prolífico repertorio incluye aplicaciones que pueden poner GPS subacuático en relojes inteligentes, convertir escarabajos en fotógrafos, implantes cerebrales que pueden interactuar con dispositivos electrónicos, una aplicación móvil que puede escuchar infecciones y más.
¿Cómo funciona la traducción de múltiples hablantes?
"Por primera vez, hemos conservado el sonido de la voz de cada persona y la dirección de donde proviene", explica Gollakota, actualmente profesor en la Escuela de Ciencias de la Computación e Ingeniería Paul G. Allen del instituto.
Imagen representativa. A24
El equipo compara su pila con un radar, ya que entra en acción identificando la cantidad de hablantes en los alrededores y actualizando esa cantidad en tiempo real a medida que las personas entran y salen del rango de escucha. Todo el enfoque funciona en el dispositivo y no implica enviar transmisiones de voz del usuario a un servidor en la nube para su traducción. ¡Ay, privacidad!
Además de la traducción del habla, el kit también " mantiene las cualidades expresivas y el volumen de la voz de cada hablante."Además, los ajustes direccionales y de intensidad de audio se realizan a medida que el altavoz se mueve por la habitación. Curiosamente, también se dice que Apple está desarrollando un sistema que permite que los AirPods traduzcan audio en tiempo real.
¿Cómo cobra vida todo?
El equipo de la Universidad de Washington probó las capacidades de traducción de los auriculares con IA en casi una docena de entornos exteriores e interiores. En lo que respecta al rendimiento, el sistema puede tomar, procesar y producir audio traducido en 2-4 segundos. Los participantes de la prueba parecían preferir un retraso de 3 a 4 segundos, pero el equipo está trabajando para acelerar el proceso de traducción.
Phil Nickinson / Tendencias digitales
Hasta ahora, el equipo solo ha probado traducciones al español, alemán y Francés, pero tienen la esperanza de agregar más al grupo. Técnicamente, condensaron la separación ciega de fuentes, la localización, la traducción expresiva en tiempo real y la representación binaural en un solo flujo, lo cual es una hazaña bastante impresionante.
En lo que respecta al sistema, el equipo desarrolló un modelo de traducción de voz capaz de ejecutarse en tiempo real en un silicio Apple M2, logrando inferencias en tiempo real. Las tareas de audio fueron manejadas por un par de auriculares WH-1000XM4 con cancelación de ruido de Sony y un micrófono USB binaural Sonic Presence SP15C.
Y aquí está la mejor parte. "El código para el dispositivo de prueba de concepto está disponible para que otros lo desarrollen", dice el comunicado de prensa de la institución. Eso significa que la comunidad científica y de retoques de código abierto puede aprender y basar proyectos más avanzados en los cimientos establecidos por el equipo de la Universidad de Washington.


Otros artículos






Los auriculares con IA impulsados por Apple M2 pueden traducir varios altavoces a la vez
Un equipo de la Universidad de Washington ha creado auriculares impulsados por IA que pueden traducir las voces de varias personas que hablan diferentes idiomas.