DeepL lancia la traduzione vocale in tempo reale in oltre 40 lingue

      La società di traduzione con sede a Colonia, nota per i suoi strumenti testuali, ha svelato una suite completa di prodotti vocali che copre riunioni, conversazioni, ambienti di gruppo e un'API per l'integrazione aziendale. Una demo dal vivo a Seoul ha mostrato ritardi di una o due frasi, e il CPO di DeepL ha riconosciuto che le differenze nell'ordine delle parole tra le lingue rimangono una sfida fondamentale.

      DeepL, l'azienda di intelligenza artificiale linguistica con sede a Colonia che ha costruito la sua reputazione sulla traduzione testuale di alta qualità, ha lanciato DeepL Voice-to-Voice: una suite di traduzione vocale in tempo reale progettata per la comunicazione aziendale dal vivo.

      Il prodotto copre quattro casi d'uso distinti: riunioni virtuali, conversazioni mobili e web, ambienti di gruppo per lavoratori in prima linea e applicazioni aziendali tramite un'API, e supporta più di 40 lingue, comprese tutte le 24 lingue ufficiali dell'UE e aggiunte come vietnamita, tailandese, arabo, norvegese, ebraico, bengalese e tagalog.

      I quattro componenti della suite sono in diverse fasi di disponibilità. Voice for Conversations, che consente la traduzione in tempo reale su mobile e web senza richiedere l'installazione di app, è ora generalmente disponibile.

      Voice for Meetings, che si integra con Microsoft Teams e Zoom in modo che i partecipanti possano parlare nella propria lingua madre mentre gli altri sentono la traduzione simultanea nella loro, aprirà un programma di accesso anticipato a giugno.

      L'API Voice-to-Voice, che consente alle aziende di incorporare il motore di traduzione di DeepL nelle proprie applicazioni rivolte ai clienti, come i call center, è attualmente in accesso anticipato continuo. Una funzione di personalizzazione, Spoken Terms, che consente al sistema di apprendere il vocabolario specifico del settore, nomi di aziende e nomi personali, è prevista per diventare generalmente disponibile il 7 maggio.

      Jarek Kutylowski, fondatore e CEO di DeepL, ha descritto il lancio come il raggiungimento di "un'altra frontiera nella traduzione".

      “DeepL Voice-to-Voice consente a tutti di parlare naturalmente nella propria lingua senza l'attrito o il costo degli interpreti,” ha detto.

      DeepL ha posizionato il prodotto come uno strumento aziendale piuttosto che per i consumatori: l'azienda ha dichiarato che la sua tecnologia vocale non utilizza mai i dati dei clienti per addestrare i propri modelli e non memorizza permanentemente i dati di trascrizione o traduzione dopo la fine di una chiamata, un inquadramento di sicurezza che lo distingue dai prodotti vocali AI per consumatori ed è rivolto a settori regolamentati.

      Il sistema attuale funziona attraverso un pipeline in tre fasi: il parlato viene convertito in testo, il testo viene tradotto utilizzando il motore di traduzione consolidato di DeepL e l'output viene quindi riconvertito in parlato.

      L'argomento competitivo di DeepL si basa sulla qualità del passaggio intermedio: l'azienda afferma che i suoi modelli di traduzione testuale superano le alternative e che questo vantaggio si propaga all'output vocale.

      In valutazioni cieche commissionate da DeepL e condotte in modo indipendente da Slator, una società di ricerca nel settore linguistico, il 96% dei linguisti professionisti ha preferito DeepL Voice rispetto alle soluzioni di traduzione native in Google Meet, Microsoft Teams e Zoom, citando una superiorità in fluenza e accuratezza contestuale. DeepL Voice ha ottenuto 96,4 su 100 per Zoom e 96,3 per Microsoft Teams.

      Tuttavia, una dimostrazione dal vivo del Chief Product Officer Gonzalo Gaiolas durante l'evento DeepL Connect Seoul, tenutosi il 15 aprile, ha messo in luce la limitazione attuale del sistema: un ritardo visibile di una o due frasi tra la conclusione del parlante e la consegna della traduzione.

      Gaiolas ha riconosciuto direttamente il ritardo. “Le diverse lingue hanno ordini di parole e strutture di frase diversi, il che causa ritardi nell'interpretazione in tempo reale,” ha detto, secondo il Seoul Economic Daily.

      L'azienda prevede di ridurre la latenza attraverso lo sviluppo continuo del modello. Per quanto riguarda la qualità vocale, il sistema attuale traduce utilizzando una voce sintetica fissa; DeepL ha dichiarato che prevede di rilasciare una funzione di preservazione della voce, che mantiene le caratteristiche vocali originali del parlante nell'output tradotto, entro la fine del 2026.

      DeepL sta entrando in un mercato con più concorrenti ben finanziati. Sanas, che utilizza l'IA per modificare gli accenti dei parlanti in tempo reale per applicazioni di call center, ha raccolto 65 milioni di dollari in un round guidato da Quadrille Capital.

      Camb.AI, con sede a Dubai, si concentra sulla sintesi vocale e sulla traduzione per il doppiaggio dei media. Palabra, sostenuta dal co-fondatore di Reddit Alexis Ohanian con Seven Seven Six, sta sviluppando un motore di traduzione vocale in tempo reale focalizzato sulla preservazione delle caratteristiche vocali del parlante.

      Google, Microsoft e Zoom offrono tutti le proprie funzionalità di traduzione per riunioni, le piattaforme che DeepL sta sfidando e integrando simultaneamente. La scommessa strategica di DeepL è che la qualità della traduzione, il suo differenziatore più consolidato, possa superare i vantaggi strutturali che i concorrenti detengono nella distribuzione della piattaforma.

Altri articoli

La modalità AI in Chrome riceve un grande aggiornamento per farti risparmiare qualche salto tra le schede. L'aggiornamento della modalità AI di Google per Chrome ti consente di navigare su siti web e cercare allo stesso tempo, in modo da poter fare domande di follow-up senza perdere il tuo posto o aprire un'altra scheda.

Google sta realizzando occhiali smart con Gucci, e arriveranno l'anno prossimo. Google e Gucci stanno lavorando a occhiali smart di lusso alimentati da intelligenza artificiale, con Kering che ora afferma che il prodotto potrebbe arrivare già il prossimo anno.

DeepL lancia la traduzione vocale in tempo reale da voce a voce in oltre 40 lingue DeepL ha lanciato Voice-to-Voice, una suite di traduzione vocale in tempo reale per riunioni, conversazioni e API aziendali.

Un risparmio di $400 sul Samsung Galaxy Z Fold7 rende il telefono Android più ambizioso del 2025 notevolmente più accessibile. Il Samsung Galaxy Z Fold7 è sceso a $1,719.99 in un'offerta a tempo limitato, risparmiando $400 rispetto al prezzo di listino di $2,119.99, e questa è la configurazione da 512GB per cui vale la pena aspettare. I telefoni pieghevoli sono notevolmente maturati nelle ultime due generazioni, e lo Z Fold7 è l'argomento più chiaro finora che il fattore di forma ha […]

La modalità AI in Chrome riceve un grande aggiornamento per farti risparmiare qualche salto tra le schede. L'aggiornamento della modalità AI di Google per Chrome ti consente di navigare su siti web e cercare allo stesso tempo, così puoi fare domande di follow-up senza perdere il tuo posto o aprire un'altra scheda.

Ericsson sfiora le previsioni di profitto del Q1 mentre il Nord America si ritira L'EBITA rettificato di Ericsson per il primo trimestre del 2026 è diminuito del 20% a 5,6 miliardi di SEK, poiché il Nord America ha registrato un'inversione e i costi dei semiconduttori sono aumentati. Il CEO Ekholm cita la domanda di IA sulla fornitura di chip.

DeepL lancia la traduzione vocale in tempo reale in oltre 40 lingue

DeepL ha lanciato Voice-to-Voice, una suite di traduzione vocale in tempo reale per riunioni, conversazioni e API aziendali.