OpenAI lancia GPT-Realtime-2 e due nuovi modelli di API vocali
GPT-Realtime-2 porta il ragionamento di classe GPT-5 alla voce in tempo reale. Un modello di traduzione separato copre oltre 70 lingue di input. Una variante di Whisper in streaming gestisce la trascrizione. I prezzi sono abbastanza aggressivi da rendere il confronto inevitabile.
OpenAI ha rilasciato tre nuovi modelli vocali nella sua API, ampliando la gamma di superfici dove gli sviluppatori possono integrare il ragionamento di classe GPT nell'audio dal vivo.
I tre modelli sono GPT-Realtime-2, un successore del modello vocale in tempo reale esistente dell'azienda con quello che OpenAI descrive come ragionamento di classe GPT-5; GPT-Realtime-Translate, un modello di traduzione in tempo reale con oltre 70 lingue di input e 13 lingue di output; e GPT-Realtime-Whisper, un modello di riconoscimento vocale in streaming costruito per la trascrizione a bassa latenza.
Il rilascio arriva nel mezzo di un'espansione dell'IA vocale che il resto dell'industria ha trascorso l'ultimo anno a preparare. Le aziende che hanno lanciato agenti vocali lo hanno fatto su una pila di componenti assemblati: Whisper o Deepgram per la trascrizione, ElevenLabs o Cartesia per il testo in voce, GPT-4 o Claude per il passo di ragionamento, e logiche personalizzate di turn-taking e barge-in nel mezzo.
Il 💜 della tecnologia UE Gli ultimi rumori dalla scena tecnologica dell'UE, una storia dal nostro saggio fondatore Boris e alcune opere d'arte AI discutibili. È gratuito, ogni settimana, nella tua casella di posta. Iscriviti ora! Ciò che OpenAI offre con GPT-Realtime-2 è un modello unico che gestisce audio in entrata e in uscita, con il ragionamento che avviene all'interno del ciclo audio piuttosto che tra i passaggi di trascrizione e sintesi.
Cosa c'è di nuovo?
GPT-Realtime-2 acquisisce diverse capacità che i team vocali di produzione hanno simulato con impalcature di prompt. Le preamboli consentono a un agente di dire "fammi controllare" mentre chiama gli strumenti, in modo che gli utenti non debbano subire il silenzio.
Le chiamate agli strumenti in parallelo consentono al modello di inviare più richieste back-end simultaneamente e narrare quale sia in volo. Il comportamento di recupero cattura i fallimenti e li rende visibili piuttosto che congelare la conversazione.
Il modello può regolare deliberatamente il tono, più calmo per i casi di supporto, più vivace per le conferme.
Due numeri sottostanti portano il peso maggiore. La finestra di contesto è ora di 128K, rispetto a 32K, il che rende fattibili sessioni più lunghe e flussi agentici complessi senza cucire stati esterni.
Lo sforzo di ragionamento è esposto come una manopola: minimo, basso, medio, alto e xalto, con il basso impostato come predefinito per mantenere la latenza ridotta.
Sui benchmark di OpenAI, GPT-Realtime-2 a sforzo alto ottiene un punteggio del 15,2% superiore a GPT-Realtime-1.5 su Big Bench Audio, il benchmark di ragionamento audio dell'azienda, e del 13,8% superiore su Audio MultiChallenge per il seguire le istruzioni a sforzo xalto. I benchmark dei clienti sono più incisivi.
Zillow riporta un aumento di 26 punti nel tasso di successo delle chiamate sul suo benchmark avversariale più difficile, dal 69% sul modello precedente al 95% su GPT-Realtime-2. BolnaAI, un'azienda di IA vocale che sviluppa per le lingue indiane, riporta tassi di errore delle parole inferiori del 12,5% su Hindi, Tamil e Telugu utilizzando il modello di traduzione.
GPT-Realtime-2 è prezzato a $32 per milione di token audio in input, $0,40 per token di input memorizzati e $64 per milione di token audio in output. GPT-Realtime-Translate è prezzato a $0,034 al minuto. GPT-Realtime-Whisper è prezzato a $0,017 al minuto.
Il prezzo della traduzione è la linea che mette in allerta il resto dell'industria. A un terzo di centesimo al minuto, GPT-Realtime-Translate sottocosta il prezzo al minuto della maggior parte delle pipeline di traduzione aziendale di un ampio margine, e combina latenza e copertura linguistica su cui le implementazioni attente ai costi hanno storicamente dovuto compromettere. Lo streaming Whisper a metà di quel prezzo è altrettanto aggressivo.
ElevenLabs, l'azienda di voce puramente finanziata più sostenuta nel mercato e un recente partecipante ai round di finanziamento per l'aumento delle entrate di voce-AI di Twilio nel Q1, e altre infrastrutture adiacenti alla voce, prezzano i loro agenti vocali su un modello al minuto che combina sintesi con inferenza del modello.
L'aritmetica per gli acquirenti diventa più difficile quando il modello integrato di OpenAI sta anche facendo il ragionamento. Deepgram, che vende il primitivo di trascrizione in streaming direttamente, affronta una pressione simile sul lato dello streaming Whisper.
La lista di lancio di OpenAI sembra una versione di marketing del prodotto del panorama clienti degli agenti vocali: Zillow, Glean, Genspark, Bluejay, Intercom, Priceline e Foundation Health per il modello in tempo reale; BolnaAI, Vimeo e Deutsche Telekom per la traduzione.
Nessuno dei tre modelli rimuove il lavoro di costruzione attorno a guardrail, valutazione, escalation e analisi di cui gli agenti vocali hanno bisogno prima di andare in diretta.
OpenAI fornisce classificatori attivi e residenza dei dati UE, ma il carico di integrazione della conformità , della voce del marchio e dell'osservabilità delle chiamate agli strumenti rimane con lo sviluppatore.
La questione competitiva è quale piattaforma riduce quel carico più rapidamente, e la scommessa di OpenAI è che fare il ragionamento audio all'interno di un modello sia più difendibile che cucire insieme tre fornitori.
Se ElevenLabs, Deepgram e gli altri possono mantenere il loro cuneo dipende da quanto rapidamente spingono le proprie pile integrate. Il Series D di ElevenLabs a febbraio a una valutazione di 11 miliardi di dollari è stato raccolto esplicitamente sulla tesi dell'agente; Deepgram si sta muovendo nella stessa direzione.
Il prossimo trimestre sarà la prima volta che il confronto sarà fatto su carichi di lavoro di produzione piuttosto che su dimostrazioni.
Per ora, il test immediato è a un tab di Playground e a una chiamata SDK di distanza. La scheda dei prezzi e i benchmark suggeriscono che OpenAI non sta aspettando.
Altri articoli
OpenAI lancia GPT-Realtime-2 e due nuovi modelli di API vocali
OpenAI ha rilasciato tre nuovi modelli vocali, GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper.
