Le cuffie AI guidate da Apple M2 possono tradurre più altoparlanti contemporaneamente

Le cuffie AI guidate da Apple M2 possono tradurre più altoparlanti contemporaneamente

      Gli auricolari wireless Pixel Buds di Google hanno offerto una fantastica funzione di traduzione in tempo reale per un po ' di tempo. Negli ultimi anni, marchi come Timkettle hanno offerto auricolari simili per i clienti aziendali. Tuttavia, tutte queste soluzioni possono gestire solo un flusso audio alla volta per la traduzione. 

      Le persone dell'Università di Washington (UW) hanno sviluppato qualcosa di veramente notevole sotto forma di cuffie guidate dall'intelligenza artificiale in grado di tradurre la voce di più altoparlanti contemporaneamente. Pensalo come un poliglotta in un bar affollato, in grado di capire il discorso delle persone intorno a lui, parlando in diverse lingue, tutto in una volta. 

      Il team si riferisce alla loro innovazione come una traduzione vocale spaziale, e prende vita per gentile concessione di cuffie binaurali. Per gli ignari, binaural audio cerca di simulare gli effetti sonori proprio come le orecchie umane li percepiscono naturalmente. Per registrarli, i microfoni sono posizionati su una testa fittizia, a parte alla stessa distanza delle orecchie umane su ciascun lato. 

      

      

      L'approccio è fondamentale perché le nostre orecchie non solo sentono il suono, ma ci aiutano anche a valutare la direzione della sua origine. L'obiettivo generale è quello di produrre un palcoscenico naturale con un effetto stereo in grado di fornire una sensazione simile a un concerto dal vivo. O, nel contesto moderno, l'ascolto spaziale. 

      Il lavoro arriva per gentile concessione di un team guidato dal professor Shyam Gollakota, il cui prolifico repertorio include app che possono mettere GPS subacquei su smartwatch, trasformando coleotteri in fotografi, impianti cerebrali che possono interagire con l'elettronica, un'app mobile che può sentire l'infezione e altro ancora. 

      Come funziona la traduzione multi-speaker?

      “Per la prima volta, abbiamo preservato il suono della voce di ogni persona e la direzione da cui proviene”, spiega Gollakota, attualmente professore presso la Paul G. Allen School of Computer Science & Engineering dell'istituto.

      Immagine rappresentativa. A24

      Il team paragona il loro stack a un radar, in quanto entra in azione identificando il numero di altoparlanti nei dintorni e aggiornando quel numero in tempo reale mentre le persone si muovono dentro e fuori dall'intervallo di ascolto. L'intero approccio funziona su dispositivo e non comporta l'invio di flussi vocali dell'utente a un server cloud per la traduzione. Evviva, privacy!

      Oltre alla traduzione vocale, il kit “mantiene anche le qualità espressive e il volume della voce di ciascun oratore."Inoltre, le regolazioni direzionali e di intensità audio vengono effettuate mentre l'altoparlante si muove attraverso la stanza. È interessante notare che Apple sta anche sviluppando un sistema che consente agli AirPods di tradurre l'audio in tempo reale.

      Come prende vita tutto questo?

      Il team UW ha testato le capacità di traduzione delle cuffie AI in quasi una dozzina di ambienti esterni e interni. Per quanto riguarda le prestazioni, il sistema può prendere, elaborare e produrre audio tradotto in 2-4 secondi. I partecipanti al test sembravano preferire un ritardo del valore di 3-4 secondi, ma il team sta lavorando per accelerare la pipeline di traduzione.

      Phil Nickinson / Tendenze digitali

      Finora, il team ha testato solo traduzioni in spagnolo, tedesco e francese, ma sperano di aggiungere altro al pool. Tecnicamente, hanno condensato la separazione cieca delle sorgenti, la localizzazione, la traduzione espressiva in tempo reale e il rendering binaurale in un unico flusso, il che è un'impresa piuttosto impressionante.

      Per quanto riguarda il sistema, il team ha sviluppato un modello di traduzione vocale in grado di funzionare in tempo reale su un silicio Apple M2, ottenendo inferenza in tempo reale. I compiti audio sono stati gestiti da un paio di cuffie Sony WH-1000XM4 a cancellazione di rumore e da un microfono USB binaurale Sonic Presence SP15C.

      Ed ecco la parte migliore. “Il codice per il dispositivo proof-of-concept è disponibile per altri su cui basarsi", afferma il comunicato stampa dell'istituzione. Ciò significa che la comunità scientifica e open-source può imparare e basare progetti più avanzati sulle basi stabilite dal team UW. 

Le cuffie AI guidate da Apple M2 possono tradurre più altoparlanti contemporaneamente Le cuffie AI guidate da Apple M2 possono tradurre più altoparlanti contemporaneamente

Altri articoli

Le cuffie AI guidate da Apple M2 possono tradurre più altoparlanti contemporaneamente

Un team dell'Università di Washington ha creato cuffie basate sull'intelligenza artificiale in grado di tradurre le voci di più persone che parlano lingue diverse.