Ваши следующие наушники могут переводить текст и определять объекты для вас.
Исследователи Университета Вашингтона разработали новый прототип системы, который может изменить то, как люди взаимодействуют с искусственным интеллектом в повседневной жизни. Названная VueBuds, система интегрирует крошечные камеры в стандартные беспроводные наушники, позволяя пользователям задавать модели ИИ вопросы о мире вокруг них в почти реальном времени.
Концепция проста, но мощна. Пользователь может посмотреть на объект, например, упаковку еды на иностранном языке, и попросить ИИ перевести его. Примерно через секунду система отвечает через наушники, создавая бесшовное, безрукое взаимодействие.
Другой подход к носимым устройствам с ИИ
В отличие от смарт-очков, которые столкнулись с трудностями в принятии из-за проблем с конфиденциальностью и ограничениями дизайна, VueBuds применяет более тонкий подход. Система использует камеры низкого разрешения черно-белого цвета, встроенные в наушники, для захвата статических изображений, а не непрерывного видео.
Университет Вашингтона
Эти изображения передаются по Bluetooth на подключенное устройство, где небольшая модель ИИ обрабатывает их локально. Эта обработка на устройстве гарантирует, что данные не нужно отправлять в облако, что решает одну из самых больших проблем, связанных с носимыми камерами.
Чтобы дополнительно повысить конфиденциальность, наушники включают видимый индикаторный свет при записи и позволяют пользователям мгновенно удалять захваченные изображения.
Инженерия вокруг ограничений по мощности и производительности
Одной из самых больших проблем, с которыми столкнулась исследовательская группа, было потребление энергии. Камеры требуют значительно больше энергии, чем микрофоны, что делает использование датчиков высокого разрешения, таких как те, что используются в смарт-очках, непрактичным.
Чтобы решить эту проблему, команда использовала камеру примерно размером с зерно риса, захватывающую изображения в градациях серого низкого разрешения. Этот подход снижает потребление батареи и позволяет эффективно передавать данные по Bluetooth без ущерба для отзывчивости.
Расположение было еще одним ключевым моментом. Наклонив камеры немного наружу, система достигает угла обзора от 98 до 108 градусов. Хотя существует небольшая слепая зона для объектов, находящихся очень близко, исследователи обнаружили, что это не влияет на типичное использование.
Система также объединяет изображения с обоих наушников в одно кадр, улучшая скорость обработки. Это позволяет VueBuds отвечать примерно за одну секунду, по сравнению с двумя секундами при обработке изображений отдельно.
Производительность по сравнению со смарт-очками
В тестировании 74 участника сравнили VueBuds со смарт-очками, такими как модели Ray-Ban от Meta. Несмотря на использование изображений низкого разрешения и локальной обработки, VueBuds показали схожую производительность в целом.
Unsplash
Отчет показал, что участники предпочли VueBuds для задач перевода, в то время как смарт-очки лучше справлялись с подсчетом объектов. В отдельных испытаниях VueBuds достигли точности около 83–84% для перевода и идентификации объектов, и до 93% для определения названий книг и авторов.
Почему это важно и что будет дальше
Исследование подчеркивает потенциальный сдвиг в том, как проектируются носимые устройства с ИИ. Встраивая визуальный интеллект в устройство, которое люди уже используют, система избегает многих барьеров, с которыми сталкиваются смарт-очки.
Тем не менее, ограничения остаются. Текущая система не может интерпретировать цвет, и ее возможности все еще находятся на ранних стадиях. Команда планирует исследовать возможность добавления цветных датчиков и разработки специализированных моделей ИИ для задач, таких как перевод и поддержка доступности.
Исследователи представят свои результаты на Конференции Ассоциации вычислительной техники по человеческим факторам в вычислительных системах в Барселоне, предлагая взгляд на будущее, где повседневные устройства тихо становятся интеллектуальными помощниками.
Другие статьи
Ваши следующие наушники могут переводить текст и определять объекты для вас.
Исследователи Университета Вашингтона создали AI наушники с камерами, которые интерпретируют окружающую среду, придавая приоритет конфиденциальности и обработке данных на устройстве.
