DeepL lanza traducción de voz a voz en tiempo real en más de 40 idiomas

      La empresa de traducción con sede en Colonia, conocida por sus herramientas de texto, ha presentado una suite completa de productos de voz que cubre reuniones, conversaciones, entornos grupales y una API para integración empresarial. Una demostración en vivo en Seúl mostró retrasos de una a dos oraciones, y el CPO de DeepL reconoció que las diferencias en el orden de las palabras entre los idiomas siguen siendo un desafío fundamental.

      DeepL, la empresa de IA lingüística con sede en Colonia que construyó su reputación en la traducción de texto de alta calidad, ha lanzado DeepL Voice-to-Voice: una suite de traducción hablada en tiempo real diseñada para la comunicación empresarial en vivo.

      El producto cubre cuatro casos de uso distintos: reuniones virtuales, conversaciones móviles y web, entornos grupales para trabajadores de primera línea y aplicaciones empresariales a través de una API, y admite más de 40 idiomas, incluidos los 24 idiomas oficiales de la UE y adiciones como vietnamita, tailandés, árabe, noruego, hebreo, bengalí y tagalo.

      Los cuatro componentes de la suite están en diferentes etapas de disponibilidad. Voice for Conversations, que permite la traducción en tiempo real a través de móvil y web sin requerir instalación de aplicaciones, ya está disponible de forma general.

      Voice for Meetings, que se integra con Microsoft Teams y Zoom para que los participantes puedan hablar en su idioma nativo mientras otros escuchan la traducción simultánea en el suyo, abrirá un programa de acceso anticipado en junio.

      La API Voice-to-Voice, que permite a las empresas integrar el motor de traducción de DeepL en sus propias aplicaciones orientadas al cliente, como centros de llamadas, está en acceso anticipado continuo. Una función de personalización, Spoken Terms, que permite al sistema aprender vocabulario específico de la industria, nombres de empresas y nombres personales, está programada para estar disponible de forma general el 7 de mayo.

      Jarek Kutylowski, fundador y CEO de DeepL, describió el lanzamiento como alcanzar “otra frontera en la traducción”.

      “DeepL Voice-to-Voice permite a todos hablar de manera natural en su propio idioma sin la fricción o el costo de los intérpretes”, dijo.

      DeepL ha posicionado el producto como una herramienta empresarial en lugar de una de consumo: la empresa dijo que su tecnología de voz nunca utiliza datos de clientes para entrenar sus modelos y no almacena permanentemente datos de transcripción o traducción después de que finaliza una llamada, un marco de seguridad que lo distingue de los productos de voz de IA para consumidores y está dirigido a industrias reguladas.

      El sistema actual funciona a través de un pipeline de tres pasos: el habla se convierte en texto, el texto se traduce utilizando el motor de traducción establecido de DeepL, y la salida se convierte nuevamente en habla.

      El argumento competitivo de DeepL se basa en la calidad del paso intermedio: la empresa dice que sus modelos de traducción de texto superan a las alternativas, y esa ventaja se propaga a la salida de voz.

      En evaluaciones ciegas encargadas por DeepL y realizadas de forma independiente por Slator, una firma de investigación de la industria del lenguaje, el 96% de los lingüistas profesionales prefirió DeepL Voice sobre las soluciones de traducción nativas en Google Meet, Microsoft Teams y Zoom, citando una fluidez y precisión contextual superiores. DeepL Voice obtuvo 96.4 de 100 para Zoom y 96.3 para Microsoft Teams.

      Sin embargo, una demostración en vivo del Director de Producto Gonzalo Gaiolas en el evento DeepL Connect de la empresa, celebrado el 15 de abril, expuso la limitación actual del sistema: un retraso visible de una a dos oraciones entre el final de la intervención del hablante y la entrega de la traducción.

      Gaiolas reconoció directamente el retraso. “Los diferentes idiomas tienen diferentes órdenes de palabras y estructuras de oraciones, lo que causa retrasos en la interpretación en tiempo real”, dijo, según el Seoul Economic Daily.

      La empresa planea reducir la latencia a través del desarrollo continuo del modelo. En cuanto a la calidad de la voz, el sistema actual traduce utilizando una voz sintética fija; DeepL dijo que planea lanzar una función de preservación de voz, que mantiene las características de voz originales del hablante en la salida traducida, para finales de 2026.

      DeepL está ingresando a un mercado con múltiples competidores bien financiados. Sanas, que utiliza IA para modificar los acentos de los hablantes en tiempo real para aplicaciones de centros de llamadas, recaudó 65 millones de dólares en una ronda liderada por Quadrille Capital.

      Camb.AI, con sede en Dubái, se centra en la síntesis de voz y la traducción para el doblaje de medios. Palabra, respaldada por el cofundador de Reddit Alexis Ohanian y Seven Seven Six, está desarrollando un motor de traducción de voz en tiempo real centrado en preservar las características de voz del hablante.

      Google, Microsoft y Zoom ofrecen sus propias funciones de traducción de reuniones, las plataformas que DeepL está desafiando e integrando simultáneamente. La apuesta estratégica de DeepL es que la calidad de la traducción, su diferenciador más establecido, puede superar las ventajas estructurales que los incumbentes tienen en la distribución de plataformas.

Otros artículos

Google está fabricando gafas inteligentes con Gucci, y llegarán el próximo año. Google y Gucci están supuestamente trabajando en gafas inteligentes de lujo impulsadas por IA, y Kering ahora dice que el producto podría llegar tan pronto como el próximo año.

BioLamina de Estocolmo asegura un préstamo de 20 millones de euros del BEI BioLamina asegura un préstamo de 20 millones de euros del BEI para expandir sus tecnologías de proteínas de laminina utilizadas en terapias con células madre y pruebas de seguridad de medicamentos sin animales.

Un ahorro de $400 en el Samsung Galaxy Z Fold7 hace que el teléfono Android más ambicioso de 2025 sea considerablemente más accesible. El Samsung Galaxy Z Fold7 está a $1,719.99 en una oferta por tiempo limitado, un ahorro de $400 respecto a su precio de lista de $2,119.99, y esta es la configuración de 512GB que vale la pena esperar. Los teléfonos plegables han madurado considerablemente en las últimas dos generaciones, y el Z Fold7 es el argumento más claro hasta ahora de que el factor de forma ha […]

OpenAI lanza GPT-Rosalind, un modelo de IA para la investigación en ciencias de la vida. OpenAI lanza GPT-Rosalind, su primer modelo de IA en ciencias de la vida, para el descubrimiento de fármacos y la genómica. Nombrado en honor a Rosalind Franklin.

El modo de IA en Chrome recibe una gran actualización para ahorrarte algunos saltos entre pestañas. La actualización del modo de IA de Google para Chrome te permite navegar por sitios web y buscar al mismo tiempo, para que puedas hacer preguntas de seguimiento sin perder tu lugar o abrir otra pestaña más.

El modo de IA en Chrome recibe una gran actualización para ahorrarte algunos saltos entre pestañas. La actualización del Modo AI de Google para Chrome te permite navegar por sitios web y buscar al mismo tiempo, para que puedas hacer preguntas de seguimiento sin perder tu lugar ni abrir otra pestaña más.

DeepL lanza traducción de voz a voz en tiempo real en más de 40 idiomas

DeepL ha lanzado Voice-to-Voice, una suite de traducción hablada en tiempo real para reuniones, conversaciones y API empresarial.