DeepL запускает перевод голоса в реальном времени на более чем 40 языках
Переводческая компания из Кельна, наиболее известная своими текстовыми инструментами, представила полный набор голосовых продуктов, охватывающий встречи, разговоры, групповые настройки и API для интеграции в корпоративные системы. Живой демонстрационный показ в Сеуле продемонстрировал задержки в одну-две фразы, и директор по продуктам DeepL признал, что различия в порядке слов между языками остаются основной проблемой.
DeepL, компания по разработке языкового ИИ из Кельна, которая завоевала свою репутацию благодаря высококачественному текстовому переводу, запустила DeepL Voice-to-Voice: набор инструментов для устного перевода в реальном времени, предназначенный для живой бизнес-коммуникации.
Продукт охватывает четыре различных сценария использования: виртуальные встречи, мобильные и веб-разговоры, групповые настройки для работников на передовой и корпоративные приложения через API, и поддерживает более 40 языков, включая все 24 официальных языка ЕС, а также такие языки, как вьетнамский, тайский, арабский, норвежский, иврит, бенгальский и тагалог.
Четыре компонента набора находятся на разных стадиях доступности. Voice for Conversations, который позволяет осуществлять перевод в реальном времени через мобильные и веб-приложения без необходимости установки приложения, уже доступен для общего пользования.
Voice for Meetings, который интегрируется с Microsoft Teams и Zoom, чтобы участники могли говорить на своем родном языке, в то время как другие слышат одновременный перевод на своем, откроет программу раннего доступа в июне.
API Voice-to-Voice, который позволяет компаниям встраивать переводческий движок DeepL в свои собственные клиентские приложения, такие как колл-центры, находится на стадии раннего доступа. Функция настройки Spoken Terms, которая позволяет системе изучать специфическую для отрасли лексику, названия компаний и личные имена, запланирована к общему доступу 7 мая.
Ярек Кутыловский, основатель и генеральный директор DeepL, описал запуск как достижение «новой границы в переводе».
«DeepL Voice-to-Voice позволяет всем говорить естественно на своем языке без трения или затрат на переводчиков», — сказал он.
DeepL позиционирует продукт как корпоративный инструмент, а не потребительский: компания заявила, что ее голосовые технологии никогда не используют данные клиентов для обучения своих моделей и не сохраняют данные транскрипции или перевода после завершения звонка, что отличает ее от потребительских голосовых продуктов ИИ и направлено на регулируемые отрасли.
Текущая система работает через трехступенчатый процесс: речь преобразуется в текст, текст переводится с использованием установленного переводческого движка DeepL, а затем вывод снова преобразуется в речь.
Конкурентное преимущество DeepL основано на качестве среднего шага: компания утверждает, что ее модели текстового перевода превосходят альтернативы, и это преимущество распространяется на голосовой вывод.
В слепых оценках, заказанных DeepL и проведенных независимо компанией Slator, исследовательской фирмой в области языковой индустрии, 96% профессиональных лингвистов предпочли DeepL Voice нативным решениям перевода в Google Meet, Microsoft Teams и Zoom, указывая на превосходную беглость и контекстную точность. DeepL Voice набрал 96,4 из 100 для Zoom и 96,3 для Microsoft Teams.
Однако живая демонстрация, проведенная директором по продуктам Гонсало Гайоласом на мероприятии DeepL Connect в Сеуле, состоявшемся 15 апреля, выявила текущие ограничения системы: заметная задержка в одну-две фразы между завершением речи говорящего и доставкой перевода.
Гайолас прямо признал задержку. «Разные языки имеют разные порядки слов и структуры предложений, что вызывает задержки в интерпретации в реальном времени», — сказал он, согласно Seoul Economic Daily.
Компания планирует сократить задержки за счет дальнейшей разработки моделей. С точки зрения качества голоса текущая система переводит с использованием фиксированного синтетического голоса; DeepL заявила, что планирует выпустить функцию сохранения голоса, которая сохраняет оригинальные характеристики голоса говорящего в переведенном выводе, к концу 2026 года.
DeepL входит на рынок с несколькими хорошо финансируемыми конкурентами. Sanas, которая использует ИИ для изменения акцентов говорящих в реальном времени для приложений колл-центров, привлекла 65 миллионов долларов в раунде, возглавляемом Quadrille Capital.
Компания Camb.AI из Дубая сосредоточена на синтезе речи и переводе для дубляжа медиа. Palabra, поддерживаемая соучредителем Reddit Алексисом Оганяном и его Seven Seven Six, разрабатывает движок для перевода речи в реальном времени, сосредоточенный на сохранении характеристик голоса говорящего.
Google, Microsoft и Zoom предлагают свои собственные функции перевода встреч, с которыми DeepL одновременно конкурирует и интегрируется. Стратегическая ставка DeepL заключается в том, что качество перевода, его наиболее устоявшееся отличие, может перевесить структурные преимущества, которые имеют действующие игроки в распределении платформ.
Другие статьи
DeepL запускает перевод голоса в реальном времени на более чем 40 языках
DeepL запустил Voice-to-Voice, набор инструментов для синхронного устного перевода для встреч, бесед и корпоративного API.
