Наушники с искусственным интеллектом, управляемые Apple M2, могут переводить несколько динамиков одновременно

      Беспроводные наушники Pixel Buds от Google уже давно предлагают фантастические возможности перевода в режиме реального времени. За последние несколько лет такие бренды, как Timkettle, предложили аналогичные наушники для бизнес-клиентов. Однако все эти решения могут обрабатывать только один аудиопоток одновременно для перевода.

      Сотрудники Вашингтонского университета (UW) разработали нечто поистине замечательное в виде наушников, управляемых искусственным интеллектом, которые могут переводить голос нескольких говорящих одновременно. Представьте, что вы полиглот в переполненном баре, способный понимать речь окружающих людей, говорящих на разных языках одновременно.

      Команда называет свое новшество пространственным переводом речи, и оно воплощается в жизнь благодаря бинауральным наушникам. Для тех, кто не знает, binaural audio пытается имитировать звуковые эффекты именно так, как их воспринимает человеческий слух. Для их записи микрофоны устанавливаются на голову манекена на расстоянии, равном расстоянию между ушами человека с каждой стороны.





      Такой подход имеет решающее значение, поскольку наши уши не только слышат звук, но и помогают нам определить направление его происхождения. Главная цель - создать естественную звуковую сцену со стереоэффектом, которая может создать ощущение живого концерта. Или, в современном контексте, пространственное прослушивание.

      Работа выполнена командой под руководством профессора Шайама Голлакоты, чей обширный репертуар включает в себя приложения, которые могут встроить подводный GPS-навигатор в умные часы, превращающие жуков в фотографов, мозговые имплантаты, которые могут взаимодействовать с электроникой, мобильное приложение, которое может распознавать инфекцию, и многое другое.

      Как работает перевод с несколькими дикторами?

      “Впервые мы сохранили звучание голоса каждого человека и направление, с которого он доносится”, - объясняет Голлакота, в настоящее время профессор института Пола Дж. Школа компьютерных наук и инженерии Аллена.

      Репрезентативное изображение. A24

      Команда сравнивает свой стек с радаром, который начинает работать, определяя количество динамиков в окружении и обновляя это число в режиме реального времени по мере того, как люди приближаются к месту прослушивания и удаляются из него. Весь подход работает на устройстве и не требует отправки голосовых потоков пользователя на облачный сервер для перевода. Ура, конфиденциальность!

      В дополнение к переводу речи, набор также “поддерживает выразительность и громкость голоса каждого говорящего”. Более того, направление и интенсивность звука настраиваются по мере перемещения динамика по комнате. Интересно, что Apple также разрабатывает систему, которая позволяет AirPods транслировать звук в режиме реального времени.

      Как все это воплощается в жизнь?

      Команда UW протестировала возможности AI headphones по переводу почти в десятке мест на улице и в помещении. Что касается производительности, то система может воспринимать, обрабатывать и воспроизводить переведенный звук в течение 2-4 секунд. Участники тестирования, по-видимому, предпочли бы задержку в 3-4 секунды, но команда работает над ускорением процесса перевода.

      Фил Никинсон / Digital Trends

      Пока что команда тестировала переводы только на испанский, немецкий и французский языки, но надеется, что их количество будет увеличено. Технически они объединили слепое разделение источников, локализацию, выразительный перевод в реальном времени и бинауральный рендеринг в единый поток, что является весьма впечатляющим достижением.

      Что касается системы, то команда разработала модель перевода речи, которая может работать в режиме реального времени на Apple M2 silicon, обеспечивая вывод данных в режиме реального времени. За качество звука отвечали наушники Sony WH-1000XM4 с функцией шумоподавления и бинауральный USB-микрофон Sonic Presence SP15C.

      А вот и самое интересное. “Код для проверки концепции устройства доступен для других разработчиков”, - говорится в пресс-релизе организации. Это означает, что научное сообщество и разработчики с открытым исходным кодом могут изучать и разрабатывать более продвинутые проекты на основе основ, заложенных командой UW.

Другие статьи

Лучшие трейлеры к видеоиграм всех времен Просмотр блестящего трейлера новой видеоигры - лучший способ получить удовольствие от новой игры. Даже у плохих игр могут быть хорошие трейлеры, и это лучшие трейлеры к видеоиграм, которые когда-либо создавались.

Новости NYT сегодня: советы, афоризмы и ответы на вопросы в субботу, 10 мая Strands - это сложный вариант классического поиска слов из NYT Games. Если вы застряли и не можете решить сегодняшнюю головоломку, у нас есть для вас помощь и подсказки.

Сериал "Костюмы Лос-Анджелеса" был отменен после первого сезона на канале NBC Шоу не смогло возродить интерес к оригинальному сериалу, который впервые вышел в эфир в США в 2010-х годах.

Самый маленький игровой ПК HP с RTX 3050 поступил в продажу сегодня со скидкой 150 долларов Сегодня в продажу поступил HP Omen 16L, самый маленький игровой пк бренда, оснащенный видеокартой Nvidia GeForce RTX 3050, стоимость которой снизилась на 150 долларов.

Шарлиз Терон считает, что Ума Турман должна была получить "Оскар" за фильм "Убить Билла" Две актрисы встретятся лицом к лицу в фильме "Старая гвардия 2", который выйдет на Netflix в июле.

Сегодня этот 43-дюймовый телевизор Element продается в Walmart всего за 118 долларов Сегодня в Walmart 43-дюймовый телевизор Element XUMO 4K Smart TV продается со скидкой до 118 долларов, что на 40 долларов меньше первоначальной цены в 158 долларов.

Наушники с искусственным интеллектом, управляемые Apple M2, могут переводить несколько динамиков одновременно

Команда из Вашингтонского университета создала наушники с искусственным интеллектом, которые могут переводить голоса нескольких людей, говорящих на разных языках.