DeepL lancia la traduzione vocale in tempo reale da voce a voce in oltre 40 lingue

      La società di traduzione con sede a Colonia, nota per i suoi strumenti testuali, ha svelato una suite completa di prodotti vocali che copre riunioni, conversazioni, ambienti di gruppo e un'API per l'integrazione aziendale. Una demo dal vivo a Seoul ha mostrato ritardi di una o due frasi, e il CPO di DeepL ha riconosciuto che le differenze nell'ordine delle parole tra le lingue rimangono una sfida fondamentale.

      DeepL, l'azienda di intelligenza artificiale linguistica con sede a Colonia che ha costruito la sua reputazione su traduzioni testuali di alta qualità, ha lanciato DeepL Voice-to-Voice: una suite di traduzione vocale in tempo reale progettata per la comunicazione aziendale dal vivo.

      Il prodotto copre quattro casi d'uso distinti: riunioni virtuali, conversazioni mobili e web, ambienti di gruppo per lavoratori in prima linea e applicazioni aziendali tramite un'API, e supporta più di 40 lingue, comprese tutte le 24 lingue ufficiali dell'UE e aggiunte come vietnamita, tailandese, arabo, norvegese, ebraico, bengalese e tagalog.

      I quattro componenti della suite sono a diversi stadi di disponibilità. Voice for Conversations, che consente la traduzione in tempo reale su mobile e web senza richiedere l'installazione di app, è ora generalmente disponibile.

      Voice for Meetings, che si integra con Microsoft Teams e Zoom in modo che i partecipanti possano parlare nella propria lingua madre mentre gli altri sentono la traduzione simultanea nella loro, aprirà un programma di accesso anticipato a giugno.

      L'API Voice-to-Voice, che consente alle aziende di integrare il motore di traduzione di DeepL nelle proprie applicazioni rivolte ai clienti, come i call center, è attualmente in accesso anticipato. Una funzione di personalizzazione, Spoken Terms, che consente al sistema di apprendere il vocabolario specifico del settore, nomi di aziende e nomi personali, è programmata per diventare generalmente disponibile il 7 maggio.

      Jarek Kutylowski, fondatore e CEO di DeepL, ha descritto il lancio come il raggiungimento di "un'altra frontiera nella traduzione".

      “DeepL Voice-to-Voice consente a tutti di parlare naturalmente nella propria lingua senza l'attrito o il costo degli interpreti,” ha detto.

      DeepL ha posizionato il prodotto come uno strumento aziendale piuttosto che per i consumatori: l'azienda ha dichiarato che la sua tecnologia vocale non utilizza mai i dati dei clienti per addestrare i propri modelli e non memorizza permanentemente i dati di trascrizione o traduzione dopo la fine di una chiamata, un inquadramento di sicurezza che lo distingue dai prodotti vocali AI per consumatori ed è rivolto a settori regolamentati.

      Il sistema attuale funziona attraverso un pipeline a tre fasi: il parlato viene convertito in testo, il testo viene tradotto utilizzando il motore di traduzione consolidato di DeepL e l'output viene quindi riconvertito in parlato.

      L'argomento competitivo di DeepL si basa sulla qualità del passaggio intermedio: l'azienda afferma che i suoi modelli di traduzione testuale superano le alternative e che questo vantaggio si propaga all'output vocale.

      In valutazioni cieche commissionate da DeepL e condotte in modo indipendente da Slator, una società di ricerca nel settore linguistico, il 96% dei linguisti professionisti ha preferito DeepL Voice rispetto alle soluzioni di traduzione native in Google Meet, Microsoft Teams e Zoom, citando una superiorità in termini di fluidità e accuratezza contestuale. DeepL Voice ha ottenuto 96,4 su 100 per Zoom e 96,3 per Microsoft Teams.

      Tuttavia, una dimostrazione dal vivo del Chief Product Officer Gonzalo Gaiolas durante l'evento DeepL Connect Seoul, tenutosi il 15 aprile, ha messo in luce la limitazione attuale del sistema: un ritardo visibile di una o due frasi tra la conclusione del parlante e la consegna della traduzione.

      Gaiolas ha riconosciuto direttamente il ritardo. “Le diverse lingue hanno ordini di parole e strutture di frase differenti, il che causa ritardi nell'interpretazione in tempo reale,” ha detto, secondo il Seoul Economic Daily.

      L'azienda prevede di ridurre la latenza attraverso lo sviluppo continuo del modello. Per quanto riguarda la qualità vocale, il sistema attuale traduce utilizzando una voce sintetica fissa; DeepL ha dichiarato che prevede di rilasciare una funzione di preservazione della voce, che mantiene le caratteristiche vocali originali del parlante nell'output tradotto, entro la fine del 2026.

      DeepL sta entrando in un mercato con più concorrenti ben finanziati. Sanas, che utilizza l'IA per modificare gli accenti dei parlanti in tempo reale per le applicazioni dei call center, ha raccolto 65 milioni di dollari in un round guidato da Quadrille Capital.

      Camb.AI, con sede a Dubai, si concentra sulla sintesi vocale e sulla traduzione per il doppiaggio dei media. Palabra, sostenuta dal co-fondatore di Reddit Alexis Ohanian con Seven Seven Six, sta sviluppando un motore di traduzione vocale in tempo reale focalizzato sulla preservazione delle caratteristiche vocali del parlante.

      Google, Microsoft e Zoom offrono tutti le proprie funzionalità di traduzione per riunioni, le piattaforme con cui DeepL sta contemporaneamente sfidando e integrando. La scommessa strategica di DeepL è che la qualità della traduzione, il suo differenziatore più consolidato, possa superare i vantaggi strutturali che i concorrenti detengono nella distribuzione della piattaforma.

Altri articoli

Sequoia raccoglie 7 miliardi di dollari per il suo fondo di investimento in fase avanzata più grande di sempre Sequoia Capital ha raccolto circa 7 miliardi di dollari per il suo fondo strategico di espansione, il primo grande raccolto sotto i nuovi co-amministratori Alfred Lin e Pat Grady.

OpenAI lancia GPT-Rosalind, un modello di intelligenza artificiale per la ricerca nelle scienze della vita OpenAI lancia GPT-Rosalind, il suo primo modello di intelligenza artificiale per le scienze della vita, per la scoperta di farmaci e la genomica. Prende il nome da Rosalind Franklin.

La modalità AI in Chrome riceve un grande aggiornamento per farti risparmiare qualche salto tra le schede. L'aggiornamento della modalità AI di Google per Chrome ti consente di navigare su siti web e cercare allo stesso tempo, così puoi fare domande di follow-up senza perdere il tuo posto o aprire un'altra scheda.

DeepL lancia la traduzione vocale in tempo reale in oltre 40 lingue DeepL ha lanciato Voice-to-Voice, una suite di traduzione vocale in tempo reale per riunioni, conversazioni e API aziendali.

AlixLabs chiude un finanziamento di Serie A da 15 milioni di euro AlixLabs chiude un round di finanziamento di Serie A da 15 milioni di euro sostenuto da Navigare, Industrifonden, Global Brain e Stephen Industries per commercializzare il suo APS™.

Envision AESC sta considerando un'IPO a Hong Kong da 2 miliardi di dollari. Envision AESC, il produttore di batterie per veicoli elettrici sostenuto da GIC e controllato dal gruppo cinese Envision, sta valutando un'IPO a Hong Kong che potrebbe raccogliere fino a 2 miliardi di dollari.

DeepL lancia la traduzione vocale in tempo reale da voce a voce in oltre 40 lingue

DeepL ha lanciato Voice-to-Voice, una suite di traduzione vocale in tempo reale per riunioni, conversazioni e API aziendali.