
Наушники с искусственным интеллектом, управляемые Apple M2, могут переводить несколько динамиков одновременно
Беспроводные наушники Pixel Buds от Google уже давно предлагают фантастические возможности перевода в режиме реального времени. За последние несколько лет такие бренды, как Timkettle, предложили аналогичные наушники для бизнес-клиентов. Однако все эти решения могут обрабатывать только один аудиопоток одновременно для перевода.
Сотрудники Вашингтонского университета (UW) разработали нечто поистине замечательное в виде наушников, управляемых искусственным интеллектом, которые могут переводить голос нескольких говорящих одновременно. Представьте, что вы полиглот в переполненном баре, способный понимать речь окружающих людей, говорящих на разных языках одновременно.
Команда называет свое новшество пространственным переводом речи, и оно воплощается в жизнь благодаря бинауральным наушникам. Для тех, кто не знает, binaural audio пытается имитировать звуковые эффекты именно так, как их воспринимает человеческий слух. Для их записи микрофоны устанавливаются на голову манекена на расстоянии, равном расстоянию между ушами человека с каждой стороны.
Такой подход имеет решающее значение, поскольку наши уши не только слышат звук, но и помогают нам определить направление его происхождения. Главная цель - создать естественную звуковую сцену со стереоэффектом, которая может создать ощущение живого концерта. Или, в современном контексте, пространственное прослушивание.
Работа выполнена командой под руководством профессора Шайама Голлакоты, чей обширный репертуар включает в себя приложения, которые могут встроить подводный GPS-навигатор в умные часы, превращающие жуков в фотографов, мозговые имплантаты, которые могут взаимодействовать с электроникой, мобильное приложение, которое может распознавать инфекцию, и многое другое.
Как работает перевод с несколькими дикторами?
“Впервые мы сохранили звучание голоса каждого человека и направление, с которого он доносится”, - объясняет Голлакота, в настоящее время профессор института Пола Дж. Школа компьютерных наук и инженерии Аллена.
Репрезентативное изображение. A24
Команда сравнивает свой стек с радаром, который начинает работать, определяя количество динамиков в окружении и обновляя это число в режиме реального времени по мере того, как люди приближаются к месту прослушивания и удаляются из него. Весь подход работает на устройстве и не требует отправки голосовых потоков пользователя на облачный сервер для перевода. Ура, конфиденциальность!
В дополнение к переводу речи, набор также “поддерживает выразительность и громкость голоса каждого говорящего”. Более того, направление и интенсивность звука настраиваются по мере перемещения динамика по комнате. Интересно, что Apple также разрабатывает систему, которая позволяет AirPods транслировать звук в режиме реального времени.
Как все это воплощается в жизнь?
Команда UW протестировала возможности AI headphones по переводу почти в десятке мест на улице и в помещении. Что касается производительности, то система может воспринимать, обрабатывать и воспроизводить переведенный звук в течение 2-4 секунд. Участники тестирования, по-видимому, предпочли бы задержку в 3-4 секунды, но команда работает над ускорением процесса перевода.
Фил Никинсон / Digital Trends
Пока что команда тестировала переводы только на испанский, немецкий и французский языки, но надеется, что их количество будет увеличено. Технически они объединили слепое разделение источников, локализацию, выразительный перевод в реальном времени и бинауральный рендеринг в единый поток, что является весьма впечатляющим достижением.
Что касается системы, то команда разработала модель перевода речи, которая может работать в режиме реального времени на Apple M2 silicon, обеспечивая вывод данных в режиме реального времени. За качество звука отвечали наушники Sony WH-1000XM4 с функцией шумоподавления и бинауральный USB-микрофон Sonic Presence SP15C.
А вот и самое интересное. “Код для проверки концепции устройства доступен для других разработчиков”, - говорится в пресс-релизе организации. Это означает, что научное сообщество и разработчики с открытым исходным кодом могут изучать и разрабатывать более продвинутые проекты на основе основ, заложенных командой UW.


Другие статьи






Наушники с искусственным интеллектом, управляемые Apple M2, могут переводить несколько динамиков одновременно
Команда из Вашингтонского университета создала наушники с искусственным интеллектом, которые могут переводить голоса нескольких людей, говорящих на разных языках.