Наушники с искусственным интеллектом, управляемые Apple M2, могут переводить несколько динамиков одновременно

Наушники с искусственным интеллектом, управляемые Apple M2, могут переводить несколько динамиков одновременно

      Беспроводные наушники Pixel Buds от Google уже давно предлагают фантастические возможности перевода в режиме реального времени. За последние несколько лет такие бренды, как Timkettle, предложили аналогичные наушники для бизнес-клиентов. Однако все эти решения могут обрабатывать только один аудиопоток одновременно для перевода. 

      Сотрудники Вашингтонского университета (UW) разработали нечто поистине замечательное в виде наушников, управляемых искусственным интеллектом, которые могут переводить голос нескольких говорящих одновременно. Представьте, что вы полиглот в переполненном баре, способный понимать речь окружающих людей, говорящих на разных языках одновременно. 

      Команда называет свое новшество пространственным переводом речи, и оно воплощается в жизнь благодаря бинауральным наушникам. Для тех, кто не знает, binaural audio пытается имитировать звуковые эффекты именно так, как их воспринимает человеческий слух. Для их записи микрофоны устанавливаются на голову манекена на расстоянии, равном расстоянию между ушами человека с каждой стороны. 

      

      

      Такой подход имеет решающее значение, поскольку наши уши не только слышат звук, но и помогают нам определить направление его происхождения. Главная цель - создать естественную звуковую сцену со стереоэффектом, которая может создать ощущение живого концерта. Или, в современном контексте, пространственное прослушивание. 

      Работа выполнена командой под руководством профессора Шайама Голлакоты, чей обширный репертуар включает в себя приложения, которые могут встроить подводный GPS-навигатор в умные часы, превращающие жуков в фотографов, мозговые имплантаты, которые могут взаимодействовать с электроникой, мобильное приложение, которое может распознавать инфекцию, и многое другое. 

      Как работает перевод с несколькими дикторами?

      “Впервые мы сохранили звучание голоса каждого человека и направление, с которого он доносится”, - объясняет Голлакота, в настоящее время профессор института Пола Дж. Школа компьютерных наук и инженерии Аллена.

      Репрезентативное изображение. A24

      Команда сравнивает свой стек с радаром, который начинает работать, определяя количество динамиков в окружении и обновляя это число в режиме реального времени по мере того, как люди приближаются к месту прослушивания и удаляются из него. Весь подход работает на устройстве и не требует отправки голосовых потоков пользователя на облачный сервер для перевода. Ура, конфиденциальность!

      В дополнение к переводу речи, набор также “поддерживает выразительность и громкость голоса каждого говорящего”. Более того, направление и интенсивность звука настраиваются по мере перемещения динамика по комнате. Интересно, что Apple также разрабатывает систему, которая позволяет AirPods транслировать звук в режиме реального времени.

      Как все это воплощается в жизнь?

      Команда UW протестировала возможности AI headphones по переводу почти в десятке мест на улице и в помещении. Что касается производительности, то система может воспринимать, обрабатывать и воспроизводить переведенный звук в течение 2-4 секунд. Участники тестирования, по-видимому, предпочли бы задержку в 3-4 секунды, но команда работает над ускорением процесса перевода.

      Фил Никинсон / Digital Trends

      Пока что команда тестировала переводы только на испанский, немецкий и французский языки, но надеется, что их количество будет увеличено. Технически они объединили слепое разделение источников, локализацию, выразительный перевод в реальном времени и бинауральный рендеринг в единый поток, что является весьма впечатляющим достижением.

      Что касается системы, то команда разработала модель перевода речи, которая может работать в режиме реального времени на Apple M2 silicon, обеспечивая вывод данных в режиме реального времени. За качество звука отвечали наушники Sony WH-1000XM4 с функцией шумоподавления и бинауральный USB-микрофон Sonic Presence SP15C.

      А вот и самое интересное. “Код для проверки концепции устройства доступен для других разработчиков”, - говорится в пресс-релизе организации. Это означает, что научное сообщество и разработчики с открытым исходным кодом могут изучать и разрабатывать более продвинутые проекты на основе основ, заложенных командой UW. 

Наушники с искусственным интеллектом, управляемые Apple M2, могут переводить несколько динамиков одновременно Наушники с искусственным интеллектом, управляемые Apple M2, могут переводить несколько динамиков одновременно

Другие статьи

Новости NYT сегодня: советы, афоризмы и ответы на вопросы в субботу, 10 мая Новости NYT сегодня: советы, афоризмы и ответы на вопросы в субботу, 10 мая Strands - это сложный вариант классического поиска слов из NYT Games. Если вы застряли и не можете решить сегодняшнюю головоломку, у нас есть для вас помощь и подсказки. Лучшие трейлеры к видеоиграм всех времен Лучшие трейлеры к видеоиграм всех времен Просмотр блестящего трейлера новой видеоигры - лучший способ получить удовольствие от новой игры. Даже у плохих игр могут быть хорошие трейлеры, и это лучшие трейлеры к видеоиграм, которые когда-либо создавались. Самый маленький игровой ПК HP с RTX 3050 поступил в продажу сегодня со скидкой 150 долларов Самый маленький игровой ПК HP с RTX 3050 поступил в продажу сегодня со скидкой 150 долларов Сегодня в продажу поступил HP Omen 16L, самый маленький игровой пк бренда, оснащенный видеокартой Nvidia GeForce RTX 3050, стоимость которой снизилась на 150 долларов. Сериал "Костюмы Лос-Анджелеса" был отменен после первого сезона на канале NBC Сериал "Костюмы Лос-Анджелеса" был отменен после первого сезона на канале NBC Шоу не смогло возродить интерес к оригинальному сериалу, который впервые вышел в эфир в США в 2010-х годах. Не упустите из виду эти 3 скрытые жемчужины потокового кино в мае 2025 года Не упустите из виду эти 3 скрытые жемчужины потокового кино в мае 2025 года Официально начался летний киносезон, и нет лучшего времени, чтобы насладиться этими недооцененными шедеврами кино - от криминальных драм до триллеров ужасов. У Whoop наконец-то появилось исправление для своего нарушенного обещания бесплатного обновления, что-то вроде У Whoop наконец-то появилось исправление для своего нарушенного обещания бесплатного обновления, что-то вроде Ранее на этой неделе компания Whoop представила два новых устройства для фитнеса, а также три тарифных плана подписки под брендами One, Peak и Life. Запуск, однако, оставил у многих давних поклонников устройств без экрана горький осадок, поскольку компания отказалась от замечательного обещания бесплатных обновлений. Whoop заставил [...]

Наушники с искусственным интеллектом, управляемые Apple M2, могут переводить несколько динамиков одновременно

Команда из Вашингтонского университета создала наушники с искусственным интеллектом, которые могут переводить голоса нескольких людей, говорящих на разных языках.