Le cuffie AI guidate da Apple M2 possono tradurre più altoparlanti contemporaneamente

      Gli auricolari wireless Pixel Buds di Google hanno offerto una fantastica funzione di traduzione in tempo reale per un po ' di tempo. Negli ultimi anni, marchi come Timkettle hanno offerto auricolari simili per i clienti aziendali. Tuttavia, tutte queste soluzioni possono gestire solo un flusso audio alla volta per la traduzione.

      Le persone dell'Università di Washington (UW) hanno sviluppato qualcosa di veramente notevole sotto forma di cuffie guidate dall'intelligenza artificiale in grado di tradurre la voce di più altoparlanti contemporaneamente. Pensalo come un poliglotta in un bar affollato, in grado di capire il discorso delle persone intorno a lui, parlando in diverse lingue, tutto in una volta.

      Il team si riferisce alla loro innovazione come una traduzione vocale spaziale, e prende vita per gentile concessione di cuffie binaurali. Per gli ignari, binaural audio cerca di simulare gli effetti sonori proprio come le orecchie umane li percepiscono naturalmente. Per registrarli, i microfoni sono posizionati su una testa fittizia, a parte alla stessa distanza delle orecchie umane su ciascun lato.





      L'approccio è fondamentale perché le nostre orecchie non solo sentono il suono, ma ci aiutano anche a valutare la direzione della sua origine. L'obiettivo generale è quello di produrre un palcoscenico naturale con un effetto stereo in grado di fornire una sensazione simile a un concerto dal vivo. O, nel contesto moderno, l'ascolto spaziale.

      Il lavoro arriva per gentile concessione di un team guidato dal professor Shyam Gollakota, il cui prolifico repertorio include app che possono mettere GPS subacquei su smartwatch, trasformando coleotteri in fotografi, impianti cerebrali che possono interagire con l'elettronica, un'app mobile che può sentire l'infezione e altro ancora.

      Come funziona la traduzione multi-speaker?

      “Per la prima volta, abbiamo preservato il suono della voce di ogni persona e la direzione da cui proviene”, spiega Gollakota, attualmente professore presso la Paul G. Allen School of Computer Science & Engineering dell'istituto.

      Immagine rappresentativa. A24

      Il team paragona il loro stack a un radar, in quanto entra in azione identificando il numero di altoparlanti nei dintorni e aggiornando quel numero in tempo reale mentre le persone si muovono dentro e fuori dall'intervallo di ascolto. L'intero approccio funziona su dispositivo e non comporta l'invio di flussi vocali dell'utente a un server cloud per la traduzione. Evviva, privacy!

      Oltre alla traduzione vocale, il kit “mantiene anche le qualità espressive e il volume della voce di ciascun oratore."Inoltre, le regolazioni direzionali e di intensità audio vengono effettuate mentre l'altoparlante si muove attraverso la stanza. È interessante notare che Apple sta anche sviluppando un sistema che consente agli AirPods di tradurre l'audio in tempo reale.

      Come prende vita tutto questo?

      Il team UW ha testato le capacità di traduzione delle cuffie AI in quasi una dozzina di ambienti esterni e interni. Per quanto riguarda le prestazioni, il sistema può prendere, elaborare e produrre audio tradotto in 2-4 secondi. I partecipanti al test sembravano preferire un ritardo del valore di 3-4 secondi, ma il team sta lavorando per accelerare la pipeline di traduzione.

      Phil Nickinson / Tendenze digitali

      Finora, il team ha testato solo traduzioni in spagnolo, tedesco e francese, ma sperano di aggiungere altro al pool. Tecnicamente, hanno condensato la separazione cieca delle sorgenti, la localizzazione, la traduzione espressiva in tempo reale e il rendering binaurale in un unico flusso, il che è un'impresa piuttosto impressionante.

      Per quanto riguarda il sistema, il team ha sviluppato un modello di traduzione vocale in grado di funzionare in tempo reale su un silicio Apple M2, ottenendo inferenza in tempo reale. I compiti audio sono stati gestiti da un paio di cuffie Sony WH-1000XM4 a cancellazione di rumore e da un microfono USB binaurale Sonic Presence SP15C.

      Ed ecco la parte migliore. “Il codice per il dispositivo proof-of-concept è disponibile per altri su cui basarsi", afferma il comunicato stampa dell'istituzione. Ciò significa che la comunità scientifica e open-source può imparare e basare progetti più avanzati sulle basi stabilite dal team UW.

Altri articoli

Charlize Theron: Uma Thurman avrebbe dovuto vincere l'Oscar per Kill Bill Le due attrici si affronteranno in The Old Guard 2, che arriverà su Netflix a luglio.

Suits LA cancellata dopo una sola stagione alla NBC Lo show non è riuscito a riconquistare il rinnovato interesse per la serie originale, che è andata in onda per la prima volta su USA negli anni 2010.

EVE Fanfest 2025 ha dimostrato che l'influenza di EVE Online è innegabile Un viaggio all'EVE Fanfest 2025 in Islanda ci ha mostrato quanto sia davvero d'impatto il leggendario gioco.

Whoop ha finalmente una correzione per la sua promessa di aggiornamento gratuito rotto, una sorta di Whoop ha introdotto due nuovi indossabili per il fitness all'inizio di questa settimana e, per andare con esso, un trio di piani di abbonamento sotto le etichette One, Peak e Life. Il lancio, tuttavia, ha lasciato molti fan a lungo termine del indossabile senza schermo con un sapore amaro in quanto la società ha rinnegato una notevole promessa di aggiornamenti gratuiti. Whoop ha fatto il [[]

Il PC da gioco più piccolo di HP con RTX 3050 è in vendita oggi a off 150 di sconto L'HP Omen 16L, il più piccolo PC da gioco del marchio, è in vendita oggi, con questa configurazione con la scheda grafica Nvidia GeForce RTX 3050 in calo di $150.

NYT Mini Cruciverba oggi: risposte puzzle per Sabato, maggio 10 Il NYT Mini cruciverba potrebbe essere molto più piccolo di un normale cruciverba, ma non è facile. Se sei bloccato con il cruciverba di oggi, abbiamo le risposte per te.

Le cuffie AI guidate da Apple M2 possono tradurre più altoparlanti contemporaneamente

Un team dell'Università di Washington ha creato cuffie basate sull'intelligenza artificiale in grado di tradurre le voci di più persone che parlano lingue diverse.