Le chat vocali AI sembrano ancora imbarazzanti perché gli assistenti non sanno quando parlare.
Thinking Machines Lab afferma di stare costruendo un'IA full duplex, il che significa che un sistema di IA può ascoltare ciò che qualcuno sta dicendo mentre genera una risposta. In parole semplici, è più simile a una telefonata che a un walkie-talkie.
La startup, fondata l'anno scorso dall'ex CTO di OpenAI Mira Murati, ha annunciato modelli di interazione, a partire da TML-Interaction-Small. Affermano che il sistema può rispondere in 0,40 secondi, un ritmo che lo avvicina a un normale scambio umano.
C'è un problema per chi spera di provarlo oggi. Questo rimane un'anteprima di ricerca, con accesso limitato previsto nei prossimi mesi e un rilascio più ampio atteso entro la fine di quest'anno.
Un tipo di scambio di IA più veloce
L'idea centrale è facile da capire e il cambiamento è significativo. Invece di aspettare che qualcuno finisca di parlare prima di lavorare a una risposta, il modello elabora il discorso in arrivo mentre prepara la sua risposta.
Unsplash
Quel ritardo è importante perché le pause fanno sembrare gli assistenti IA artificiali. Thinking Machines Lab inquadra il tempo di risposta di 0,40 secondi di TML-Interaction-Small come vicino alla velocità di conversazione naturale, il che rappresenterebbe un cambiamento notevole per gli strumenti vocali.
Affermano anche che quel ritmo è più veloce rispetto ai modelli comparabili di OpenAI e Google. Il benchmark conferisce peso all'annuncio, ma gli utenti esterni devono comunque testare se l'esperienza funziona senza intoppi come suggerisce il numero.
Quando la velocità diventa comportamento
Un assistente che risponde mentre sta ancora raccogliendo informazioni cambia ciò che gli utenti si aspettano da una chat vocale. La conversazione può muoversi più velocemente, ma il sistema deve anche gestire il tempo con molta più attenzione.
Questo compromesso è importante quando qualcuno desidera una rapida chiarificazione invece di una lunga risposta generata. Risposte più veloci non aiuteranno molto se l'assistente interviene troppo presto, fraintende il parlante o interrompe il flusso che dovrebbe migliorare.
Gemini su uno smartphone Unsplash
Per ora, l'architettura è la notizia. Il vero test del prodotto è se il modello di interazione può far sentire il miglior tempismo automatico.
Cosa osservare prima del lancio
La tempistica di rilascio è il dettaglio chiave ora. Thinking Machines Lab afferma che un'anteprima di ricerca limitata arriverà nei prossimi mesi, seguita da un accesso più ampio entro la fine di quest'anno.
Disponibilità, prezzi, piattaforme supportate e prestazioni al di fuori dei test controllati sono ancora poco chiari. Quei pezzi mancanti sono importanti perché un modello più veloce aiuta solo se le persone possono usarlo negli strumenti vocali quotidiani.
Per chiunque utilizzi assistenti vocali IA, la mossa pratica è osservare attentamente l'anteprima. L'IA full duplex ha potenzialità, ma i test pratici dovrebbero dimostrare se risposte più veloci rendono effettivamente più facili le conversazioni quotidiane con l'IA.
Altri articoli
Le chat vocali AI sembrano ancora imbarazzanti perché gli assistenti non sanno quando parlare.
Il Thinking Machines Lab sta testando un'IA a pieno duplex che può ascoltare e rispondere contemporaneamente, ma la vera prova è se le chat vocali più veloci sembrano utili una volta che le persone possono provarle.
