DeepL запускает перевод голоса в реальном времени на более чем 40 языках

      Переводческая компания из Кельна, наиболее известная своими текстовыми инструментами, представила полный набор голосовых продуктов, охватывающий встречи, разговоры, групповые настройки и API для интеграции в корпоративные системы. Живой демонстрационный показ в Сеуле продемонстрировал задержки в одну-две фразы, и директор по продуктам DeepL признал, что различия в порядке слов между языками остаются основной проблемой.

      DeepL, компания по разработке языкового ИИ из Кельна, которая завоевала свою репутацию благодаря высококачественному текстовому переводу, запустила DeepL Voice-to-Voice: набор инструментов для устного перевода в реальном времени, предназначенный для живой бизнес-коммуникации.

      Продукт охватывает четыре различных сценария использования: виртуальные встречи, мобильные и веб-разговоры, групповые настройки для работников на передовой и корпоративные приложения через API, и поддерживает более 40 языков, включая все 24 официальных языка ЕС, а также такие языки, как вьетнамский, тайский, арабский, норвежский, иврит, бенгальский и тагалог.

      Четыре компонента набора находятся на разных стадиях доступности. Voice for Conversations, который позволяет осуществлять перевод в реальном времени через мобильные и веб-приложения без необходимости установки приложения, уже доступен для общего пользования.

      Voice for Meetings, который интегрируется с Microsoft Teams и Zoom, чтобы участники могли говорить на своем родном языке, в то время как другие слышат одновременный перевод на своем, откроет программу раннего доступа в июне.

      API Voice-to-Voice, который позволяет компаниям встраивать переводческий движок DeepL в свои собственные клиентские приложения, такие как колл-центры, находится на стадии раннего доступа. Функция настройки Spoken Terms, которая позволяет системе изучать специфическую для отрасли лексику, названия компаний и личные имена, запланирована к общему доступу 7 мая.

      Ярек Кутыловский, основатель и генеральный директор DeepL, описал запуск как достижение «новой границы в переводе».

      «DeepL Voice-to-Voice позволяет всем говорить естественно на своем языке без трения или затрат на переводчиков», — сказал он.

      DeepL позиционирует продукт как корпоративный инструмент, а не потребительский: компания заявила, что ее голосовые технологии никогда не используют данные клиентов для обучения своих моделей и не сохраняют данные транскрипции или перевода после завершения звонка, что отличает ее от потребительских голосовых продуктов ИИ и направлено на регулируемые отрасли.

      Текущая система работает через трехступенчатый процесс: речь преобразуется в текст, текст переводится с использованием установленного переводческого движка DeepL, а затем вывод снова преобразуется в речь.

      Конкурентное преимущество DeepL основано на качестве среднего шага: компания утверждает, что ее модели текстового перевода превосходят альтернативы, и это преимущество распространяется на голосовой вывод.

      В слепых оценках, заказанных DeepL и проведенных независимо компанией Slator, исследовательской фирмой в области языковой индустрии, 96% профессиональных лингвистов предпочли DeepL Voice нативным решениям перевода в Google Meet, Microsoft Teams и Zoom, указывая на превосходную беглость и контекстную точность. DeepL Voice набрал 96,4 из 100 для Zoom и 96,3 для Microsoft Teams.

      Однако живая демонстрация, проведенная директором по продуктам Гонсало Гайоласом на мероприятии DeepL Connect в Сеуле, состоявшемся 15 апреля, выявила текущие ограничения системы: заметная задержка в одну-две фразы между завершением речи говорящего и доставкой перевода.

      Гайолас прямо признал задержку. «Разные языки имеют разные порядки слов и структуры предложений, что вызывает задержки в интерпретации в реальном времени», — сказал он, согласно Seoul Economic Daily.

      Компания планирует сократить задержки за счет дальнейшей разработки моделей. С точки зрения качества голоса текущая система переводит с использованием фиксированного синтетического голоса; DeepL заявила, что планирует выпустить функцию сохранения голоса, которая сохраняет оригинальные характеристики голоса говорящего в переведенном выводе, к концу 2026 года.

      DeepL входит на рынок с несколькими хорошо финансируемыми конкурентами. Sanas, которая использует ИИ для изменения акцентов говорящих в реальном времени для приложений колл-центров, привлекла 65 миллионов долларов в раунде, возглавляемом Quadrille Capital.

      Компания Camb.AI из Дубая сосредоточена на синтезе речи и переводе для дубляжа медиа. Palabra, поддерживаемая соучредителем Reddit Алексисом Оганяном и его Seven Seven Six, разрабатывает движок для перевода речи в реальном времени, сосредоточенный на сохранении характеристик голоса говорящего.

      Google, Microsoft и Zoom предлагают свои собственные функции перевода встреч, с которыми DeepL одновременно конкурирует и интегрируется. Стратегическая ставка DeepL заключается в том, что качество перевода, его наиболее устоявшееся отличие, может перевесить структурные преимущества, которые имеют действующие игроки в распределении платформ.

Другие статьи

Режим ИИ в Chrome получил большое обновление, чтобы сократить количество переключений между вкладками. Обновление режима ИИ Google для Chrome позволяет вам одновременно просматривать веб-сайты и искать информацию, так что вы можете задавать дополнительные вопросы, не теряя своего места и не открывая еще одну вкладку.

DeepL запускает перевод голоса в реальном времени более чем на 40 языках DeepL запустил Voice-to-Voice, набор инструментов для синхронного устного перевода для встреч, бесед и корпоративного API.

Сэкономив $400 на Samsung Galaxy Z Fold7, самый амбициозный Android телефон 2025 года становится значительно более доступным. Samsung Galaxy Z Fold7 теперь стоит $1,719.99 в рамках ограниченного предложения, что на $400 меньше его розничной цены в $2,119.99, и это конфигурация на 512 ГБ, за которой стоит подождать. Складные телефоны значительно развились за последние два поколения, и Z Fold7 является самым убедительным аргументом в пользу того, что форма фактора […]

Следующий телефон Pixel может получить светящееся заднее покрытие, если судить по коду Android 17. Google работает над новой функцией под названием Pixel Glow, которая использует тонкие огни на задней панели вашего устройства, чтобы уведомлять вас, не включая экран.

Google разрабатывает умные очки с Gucci, и они появятся в следующем году. Сообщается, что Google и Gucci работают над умными очками класса люкс с поддержкой ИИ, при этом Kering теперь заявляет, что продукт может появиться уже в следующем году.

Секвойя привлекла 7 миллиардов долларов для своего крупнейшего фонда на поздних стадиях. Sequoia Capital собрала около 7 миллиардов долларов для своего фонда стратегии расширения, это первая крупная кампания по сбору средств под руководством новых соправителей Альфреда Лина и Пэта Грейди.

DeepL запускает перевод голоса в реальном времени на более чем 40 языках

DeepL запустил Voice-to-Voice, набор инструментов для синхронного устного перевода для встреч, бесед и корпоративного API.