OpenAI lancia GPT-Realtime-2 e due nuovi modelli API vocali
GPT-Realtime-2 porta il ragionamento di classe GPT-5 alla voce dal vivo. Un modello di traduzione separato copre oltre 70 lingue di input. Una variante di Whisper in streaming gestisce la trascrizione. I prezzi sono abbastanza aggressivi da rendere il confronto inevitabile.
OpenAI ha rilasciato tre nuovi modelli vocali nella sua API, ampliando la gamma di superfici in cui gli sviluppatori possono integrare il ragionamento di classe GPT nell'audio dal vivo.
I tre sono GPT-Realtime-2, un successore del modello vocale in tempo reale esistente dell'azienda con quello che OpenAI descrive come ragionamento di classe GPT-5; GPT-Realtime-Translate, un modello di traduzione dal vivo con oltre 70 lingue di input e 13 lingue di output; e GPT-Realtime-Whisper, un modello di riconoscimento vocale in streaming costruito per la trascrizione a bassa latenza.
Il rilascio arriva nel mezzo di un'espansione dell'IA vocale che il resto dell'industria ha trascorso l'ultimo anno a preparare. Le aziende che hanno lanciato agenti vocali lo hanno fatto su un insieme di componenti assemblati: Whisper o Deepgram per la trascrizione, ElevenLabs o Cartesia per il testo in voce, GPT-4 o Claude per il passaggio di ragionamento e logiche personalizzate di turn-taking e barge-in nel mezzo.
Il 💜 della tecnologia UE Gli ultimi rumori dalla scena tecnologica dell'UE, una storia dal nostro saggio fondatore Boris e alcune opere d'arte AI discutibili. È gratuito, ogni settimana, nella tua casella di posta. Iscriviti ora! Ciò che OpenAI offre con GPT-Realtime-2 è un modello unico che gestisce audio in entrata e in uscita, con il ragionamento che avviene all'interno del ciclo audio piuttosto che tra i passaggi di trascrizione e sintesi.
Cosa c'è di nuovo?
GPT-Realtime-2 acquisisce diverse capacità che i team vocali di produzione hanno simulato con impalcature di prompt. Le premesse consentono a un agente di dire "fammi controllare" mentre chiama gli strumenti, in modo che gli utenti non debbano subire il silenzio.
Le chiamate agli strumenti in parallelo consentono al modello di inviare più richieste back-end simultaneamente e narrare quale sia in volo. Il comportamento di recupero cattura i fallimenti e li rende visibili piuttosto che congelare la conversazione.
Il modello può regolare il tono deliberatamente, più calmo per i casi di supporto, più vivace per le conferme.
Due numeri sottostanti portano la maggior parte del peso. La finestra di contesto è ora di 128K, rispetto a 32K, il che rende fattibili sessioni più lunghe e flussi agentici complessi senza cucire stati esterni.
Lo sforzo di ragionamento è esposto come una manopola: minimo, basso, medio, alto e xalto, con basso impostato come predefinito per mantenere la latenza ridotta.
Sui benchmark di OpenAI, GPT-Realtime-2 con alto sforzo ottiene punteggi superiori del 15,2% rispetto a GPT-Realtime-1.5 su Big Bench Audio, il benchmark di ragionamento audio dell'azienda, e del 13,8% superiore su Audio MultiChallenge per il seguire istruzioni a sforzo xalto. I benchmark dei clienti sono più incisivi.
Zillow riporta un aumento di 26 punti nel tasso di successo delle chiamate sul suo benchmark avversario più difficile, dal 69% sul modello precedente al 95% su GPT-Realtime-2. BolnaAI, un'azienda di IA vocale che sviluppa per le lingue indiane, riporta tassi di errore delle parole inferiori del 12,5% su Hindi, Tamil e Telugu utilizzando il modello di traduzione.
GPT-Realtime-2 è prezzato a $32 per milione di token audio in input, $0,40 per token di input memorizzati e $64 per milione di token audio in output. GPT-Realtime-Translate è prezzato a $0,034 al minuto. GPT-Realtime-Whisper è prezzato a $0,017 al minuto.
Il prezzo della traduzione è la linea che mette in allerta il resto dell'industria. A un terzo di centesimo al minuto, GPT-Realtime-Translate sottocosta il prezzo al minuto della maggior parte delle pipeline di traduzione aziendale di un ampio margine, e raggruppa latenza e copertura linguistica su cui le implementazioni attente ai costi hanno storicamente dovuto compromettere. Lo streaming Whisper a metà di quel prezzo è altrettanto aggressivo.
ElevenLabs, l'azienda di voce con il maggior finanziamento sul mercato e un recente partecipante ai round di seed per l'aumento dei ricavi di voce-AI di Twilio nel primo trimestre, e altre infrastrutture adiacenti alla voce, prezzano i loro agenti vocali su un modello al minuto che raggruppa sintesi con inferenza del modello.
L'aritmetica per gli acquirenti diventa più difficile quando il modello raggruppato di OpenAI sta anche facendo il ragionamento. Deepgram, che vende il primitivo di trascrizione in streaming direttamente, affronta una pressione simile sul lato dello streaming Whisper.
La lista di lancio di OpenAI sembra una versione di marketing del prodotto del panorama dei clienti degli agenti vocali: Zillow, Glean, Genspark, Bluejay, Intercom, Priceline e Foundation Health per il modello in tempo reale; BolnaAI, Vimeo e Deutsche Telekom per la traduzione.
Nessuno dei tre modelli rimuove il lavoro di costruzione attorno a guardrail, valutazione, escalation e analisi di cui gli agenti vocali hanno bisogno prima di andare in diretta.
OpenAI fornisce classificatori attivi e residenza dei dati UE, ma il carico di integrazione della conformità, della voce del marchio e dell'osservabilità delle chiamate agli strumenti rimane con lo sviluppatore.
La questione competitiva è quale piattaforma riduce quel carico più rapidamente, e la scommessa di OpenAI è che fare il ragionamento audio all'interno di un modello sia più difendibile che cucire insieme tre fornitori.
Se ElevenLabs, Deepgram e gli altri possono mantenere la loro posizione dipende da quanto rapidamente spingono i propri stack integrati. Il Series D di ElevenLabs a febbraio a una valutazione di 11 miliardi di dollari è stato raccolto esplicitamente sulla tesi degli agenti; Deepgram si sta muovendo nella stessa direzione.
Il prossimo trimestre è la prima volta che il confronto sarà fatto su carichi di lavoro di produzione piuttosto che su dimostrazioni.
Per ora, il test immediato è a un tab di Playground e a una chiamata SDK di distanza. La scheda dei prezzi e i benchmark suggeriscono che OpenAI non sta aspettando.
Altri articoli
OpenAI lancia GPT-Realtime-2 e due nuovi modelli API vocali
OpenAI ha rilasciato tre nuovi modelli vocali, GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper.
