DeepL запускает перевод голоса в реальном времени более чем на 40 языках

      Кёльнская переводческая компания, наиболее известная своими текстовыми инструментами, представила полный набор голосовых продуктов, охватывающий встречи, разговоры, групповые настройки и API для интеграции в корпоративные системы. Живой демонстрационный показ в Сеуле продемонстрировал задержки от одного до двух предложений, и директор по продуктам DeepL признал, что различия в порядке слов между языками остаются основной проблемой.

      DeepL, кёльнская компания в области языкового ИИ, которая завоевала свою репутацию благодаря высококачественному текстовому переводу, запустила DeepL Voice-to-Voice: набор инструментов для устного перевода в реальном времени, предназначенный для живой бизнес-коммуникации.

      Продукт охватывает четыре различных сценария использования: виртуальные встречи, мобильные и веб-разговоры, групповые настройки для работников на передовой и корпоративные приложения через API, и поддерживает более 40 языков, включая все 24 официальных языка ЕС и такие дополнения, как вьетнамский, тайский, арабский, норвежский, иврит, бенгальский и тагалог.

      Четыре компонента набора находятся на разных стадиях доступности. Voice for Conversations, который позволяет осуществлять перевод в реальном времени через мобильные и веб-приложения без необходимости установки приложения, сейчас доступен для общего пользования.

      Voice for Meetings, который интегрируется с Microsoft Teams и Zoom, чтобы участники могли говорить на своем родном языке, в то время как другие слышат синхронный перевод на своем, открывает программу раннего доступа в июне.

      API Voice-to-Voice, который позволяет компаниям встраивать переводческий движок DeepL в свои собственные клиентские приложения, такие как колл-центры, находится на стадии раннего доступа. Функция настройки, Spoken Terms, которая позволяет системе изучать специализированную лексику, названия компаний и личные имена, планируется к общему доступу 7 мая.

      Ярек Кутыловский, основатель и генеральный директор DeepL, описал запуск как достижение "новой границы в переводе".

      "DeepL Voice-to-Voice позволяет всем говорить естественно на своем языке без трения или затрат на переводчиков," сказал он.

      DeepL позиционирует продукт как корпоративный инструмент, а не потребительский: компания заявила, что ее голосовая технология никогда не использует данные клиентов для обучения своих моделей и не хранит постоянно данные транскрипции или перевода после завершения звонка, что отличает ее от потребительских голосовых продуктов ИИ и нацелено на регулируемые отрасли.

      Текущая система работает через трехступенчатый процесс: речь преобразуется в текст, текст переводится с использованием установленного переводческого движка DeepL, а затем вывод преобразуется обратно в речь.

      Конкурентное преимущество DeepL основывается на качестве среднего этапа: компания утверждает, что ее модели текстового перевода превосходят альтернативы, и это преимущество распространяется на голосовой вывод.

      В слепых оценках, заказанных DeepL и проведенных независимо компанией Slator, исследовательской фирмой в области языковой индустрии, 96% профессиональных лингвистов предпочли DeepL Voice нативным решениям перевода в Google Meet, Microsoft Teams и Zoom, указывая на превосходную беглость и контекстную точность. DeepL Voice набрал 96,4 из 100 для Zoom и 96,3 для Microsoft Teams.

      Однако живая демонстрация, проведенная директором по продуктам Гонсало Гайоласом на мероприятии DeepL Connect в Сеуле, состоявшемся 15 апреля, выявила текущие ограничения системы: заметная задержка от одного до двух предложений между завершением речи и доставкой перевода.

      Гайолас прямо признал задержку. "Разные языки имеют разные порядки слов и структуры предложений, что вызывает задержки в интерпретации в реальном времени," сказал он, согласно Seoul Economic Daily.

      Компания планирует сократить задержку за счет дальнейшей разработки моделей. Что касается качества голоса, текущая система переводит с использованием фиксированного синтетического голоса; DeepL заявила, что планирует выпустить функцию сохранения голоса, которая сохраняет оригинальные характеристики голоса говорящего в переведенном выводе, к концу 2026 года.

      DeepL входит на рынок с несколькими хорошо финансируемыми конкурентами. Sanas, которая использует ИИ для изменения акцентов говорящих в реальном времени для приложений колл-центров, привлекла 65 миллионов долларов в раунде, возглавляемом Quadrille Capital.

      Компания Camb.AI из Дубая сосредоточена на синтезе речи и переводе для дубляжа медиа. Palabra, поддерживаемая соучредителем Reddit Алексисом Оганяном и его Seven Seven Six, разрабатывает движок для перевода речи в реальном времени, сосредоточенный на сохранении характеристик голоса говорящего.

      Google, Microsoft и Zoom предлагают свои собственные функции перевода встреч, с которыми DeepL одновременно конкурирует и интегрируется. Стратегическая ставка DeepL заключается в том, что качество перевода, его наиболее устоявшееся отличие, может перевесить структурные преимущества, которые имеют действующие игроки в распределении платформ.

Другие статьи

Режим ИИ в Chrome получил большое обновление, чтобы сократить количество переключений между вкладками. Обновление режима ИИ от Google для Chrome позволяет вам одновременно просматривать веб-сайты и искать информацию, так что вы можете задавать дополнительные вопросы, не теряя нить разговора и не открывая еще одну вкладку.

Зловещий постапокалиптический мир Metro 2039 выглядит темнее, страннее и более потусторонним этой зимой, и я уже в восторге. Метро 2039 выглядит меньше как еще один постапокалиптический шутер и больше как полное погружение обратно в странный, сверхъестественный ужас, который сделал серию особенной.

AlixLabs закрывает раунд финансирования серии A на сумму 15 миллионов евро AlixLabs закрывает раунд финансирования серии A на сумму 15 миллионов евро, поддержанный Navigare, Industrifonden, Global Brain и Stephen Industries для коммерциализации своей APS™.

Режим ИИ в Chrome получил большое обновление, чтобы сократить количество переключений между вкладками. Обновление режима ИИ Google для Chrome позволяет вам одновременно просматривать веб-сайты и искать информацию, так что вы можете задавать дополнительные вопросы, не теряя своего места и не открывая еще одну вкладку.

Эрикссон едва не достиг прогнозов по прибыли за первый квартал на фоне снижения в Северной Америке Скорректированная EBITA Ericsson за первый квартал 2026 года снизилась на 20% до 5,6 миллиарда шведских крон, так как Северная Америка показала отрицательную динамику, а затраты на полупроводники возросли. Генеральный директор Экхольм указывает на спрос на ИИ в связи с поставками чипов.

Режим ИИ в Chrome получает большое обновление, чтобы сэкономить вам время на переключении вкладок. Обновление режима ИИ Google для Chrome позволяет вам одновременно просматривать веб-сайты и искать информацию, так что вы можете задавать дополнительные вопросы, не теряя своего места и не открывая еще одну вкладку.

DeepL запускает перевод голоса в реальном времени более чем на 40 языках

DeepL запустил Voice-to-Voice, набор инструментов для синхронного устного перевода для встреч, бесед и корпоративного API.