DeepL запускает перевод голоса в реальном времени более чем на 40 языках
Кёльнская переводческая компания, наиболее известная своими текстовыми инструментами, представила полный набор голосовых продуктов, охватывающий встречи, разговоры, групповые настройки и API для интеграции в корпоративные системы. Живой демонстрационный показ в Сеуле продемонстрировал задержки от одного до двух предложений, и директор по продуктам DeepL признал, что различия в порядке слов между языками остаются основной проблемой.
DeepL, кёльнская компания в области языкового ИИ, которая завоевала свою репутацию благодаря высококачественному текстовому переводу, запустила DeepL Voice-to-Voice: набор инструментов для устного перевода в реальном времени, предназначенный для живой бизнес-коммуникации.
Продукт охватывает четыре различных сценария использования: виртуальные встречи, мобильные и веб-разговоры, групповые настройки для работников на передовой и корпоративные приложения через API, и поддерживает более 40 языков, включая все 24 официальных языка ЕС и такие дополнения, как вьетнамский, тайский, арабский, норвежский, иврит, бенгальский и тагалог.
Четыре компонента набора находятся на разных стадиях доступности. Voice for Conversations, который позволяет осуществлять перевод в реальном времени через мобильные и веб-приложения без необходимости установки приложения, сейчас доступен для общего пользования.
Voice for Meetings, который интегрируется с Microsoft Teams и Zoom, чтобы участники могли говорить на своем родном языке, в то время как другие слышат синхронный перевод на своем, открывает программу раннего доступа в июне.
API Voice-to-Voice, который позволяет компаниям встраивать переводческий движок DeepL в свои собственные клиентские приложения, такие как колл-центры, находится на стадии раннего доступа. Функция настройки, Spoken Terms, которая позволяет системе изучать специализированную лексику, названия компаний и личные имена, планируется к общему доступу 7 мая.
Ярек Кутыловский, основатель и генеральный директор DeepL, описал запуск как достижение "новой границы в переводе".
"DeepL Voice-to-Voice позволяет всем говорить естественно на своем языке без трения или затрат на переводчиков," сказал он.
DeepL позиционирует продукт как корпоративный инструмент, а не потребительский: компания заявила, что ее голосовая технология никогда не использует данные клиентов для обучения своих моделей и не хранит постоянно данные транскрипции или перевода после завершения звонка, что отличает ее от потребительских голосовых продуктов ИИ и нацелено на регулируемые отрасли.
Текущая система работает через трехступенчатый процесс: речь преобразуется в текст, текст переводится с использованием установленного переводческого движка DeepL, а затем вывод преобразуется обратно в речь.
Конкурентное преимущество DeepL основывается на качестве среднего этапа: компания утверждает, что ее модели текстового перевода превосходят альтернативы, и это преимущество распространяется на голосовой вывод.
В слепых оценках, заказанных DeepL и проведенных независимо компанией Slator, исследовательской фирмой в области языковой индустрии, 96% профессиональных лингвистов предпочли DeepL Voice нативным решениям перевода в Google Meet, Microsoft Teams и Zoom, указывая на превосходную беглость и контекстную точность. DeepL Voice набрал 96,4 из 100 для Zoom и 96,3 для Microsoft Teams.
Однако живая демонстрация, проведенная директором по продуктам Гонсало Гайоласом на мероприятии DeepL Connect в Сеуле, состоявшемся 15 апреля, выявила текущие ограничения системы: заметная задержка от одного до двух предложений между завершением речи и доставкой перевода.
Гайолас прямо признал задержку. "Разные языки имеют разные порядки слов и структуры предложений, что вызывает задержки в интерпретации в реальном времени," сказал он, согласно Seoul Economic Daily.
Компания планирует сократить задержку за счет дальнейшей разработки моделей. Что касается качества голоса, текущая система переводит с использованием фиксированного синтетического голоса; DeepL заявила, что планирует выпустить функцию сохранения голоса, которая сохраняет оригинальные характеристики голоса говорящего в переведенном выводе, к концу 2026 года.
DeepL входит на рынок с несколькими хорошо финансируемыми конкурентами. Sanas, которая использует ИИ для изменения акцентов говорящих в реальном времени для приложений колл-центров, привлекла 65 миллионов долларов в раунде, возглавляемом Quadrille Capital.
Компания Camb.AI из Дубая сосредоточена на синтезе речи и переводе для дубляжа медиа. Palabra, поддерживаемая соучредителем Reddit Алексисом Оганяном и его Seven Seven Six, разрабатывает движок для перевода речи в реальном времени, сосредоточенный на сохранении характеристик голоса говорящего.
Google, Microsoft и Zoom предлагают свои собственные функции перевода встреч, с которыми DeepL одновременно конкурирует и интегрируется. Стратегическая ставка DeepL заключается в том, что качество перевода, его наиболее устоявшееся отличие, может перевесить структурные преимущества, которые имеют действующие игроки в распределении платформ.
Другие статьи
DeepL запускает перевод голоса в реальном времени более чем на 40 языках
DeepL запустил Voice-to-Voice, набор инструментов для синхронного устного перевода для встреч, бесед и корпоративного API.
