AI-голосовые чаты все еще кажутся неловкими, потому что ассистенты не знают, когда говорить.
Лаборатория Thinking Machines сообщает, что она разрабатывает полно дуплексный ИИ, что означает, что ИИ-система может воспринимать то, что говорит человек, одновременно генерируя ответ. Проще говоря, это ближе к телефонному разговору, чем к рации.
Стартап, основанный в прошлом году бывшим техническим директором OpenAI Мирой Муратой, объявил о моделях взаимодействия, начиная с TML-Interaction-Small. Он утверждает, что система может отвечать за 0,40 секунды, что ставит её на уровень обычного человеческого общения.
Есть одно «но» для тех, кто надеется попробовать это сегодня. Это всё ещё предварительный просмотр исследования, с ограниченным доступом, запланированным на ближайшие несколько месяцев, и более широким релизом, ожидаемым позже в этом году.
Более быстрый обмен ИИ
Основная идея проста для понимания, и изменения имеют значение. Вместо того чтобы ждать, пока кто-то закончит говорить, прежде чем работать над ответом, модель обрабатывает входную речь, пока готовит свой ответ.
Unsplash
Эта задержка важна, потому что паузы заставляют ИИ-ассистентов звучать искусственно. Лаборатория Thinking Machines рассматривает время ответа TML-Interaction-Small в 0,40 секунды как близкое к естественной скорости разговора, что будет заметным изменением для голосовых инструментов.
Она также утверждает, что эта скорость быстрее, чем у сопоставимых моделей от OpenAI и Google. Этот ориентир придаёт объявлению вес, но пользователи всё равно должны протестировать, работает ли опыт так же гладко, как предполагает число.
Когда скорость становится поведением
Ассистент, который отвечает, пока всё ещё принимает информацию, меняет ожидания пользователей от голосового чата. Разговор может двигаться быстрее, но системе также нужно управлять временем с гораздо большей осторожностью.
Этот компромисс важен, когда кто-то хочет быстрое разъяснение, а не длинный сгенерированный ответ. Более быстрые ответы не помогут, если ассистент вмешивается слишком рано, неправильно понимает говорящего или нарушает поток, который он должен улучшить.
Gemini на смартфоне Unsplash
Пока что архитектура является новостью. Настоящее испытание продукта заключается в том, сможет ли модель взаимодействия сделать лучшее время отклика автоматическим.
На что обратить внимание перед запуском
Сроки выпуска — это ключевая деталь сейчас. Лаборатория Thinking Machines сообщает, что ограниченный предварительный просмотр исследования появится в ближайшие несколько месяцев, за которым последует более широкий доступ позже в этом году.
Доступность, цены, поддерживаемые платформы и производительность вне контролируемого тестирования всё ещё неясны. Эти недостающие элементы важны, потому что более быстрая модель поможет только в том случае, если люди смогут использовать её в повседневных голосовых инструментах.
Для всех, кто использует голосовых ассистентов ИИ, практическим шагом будет внимательно следить за предварительным просмотром. Полно дуплексный ИИ имеет потенциал, но практическое тестирование должно показать, действительно ли более быстрые ответы облегчают повседневные разговоры с ИИ.
Другие статьи
AI-голосовые чаты все еще кажутся неловкими, потому что ассистенты не знают, когда говорить.
Лаборатория мыслящих машин тестирует полный дуплекс ИИ, который может слушать и отвечать одновременно, но настоящим испытанием станет то, будут ли более быстрые голосовые чаты полезными, когда люди смогут их попробовать.
