OpenAI lancia GPT-Realtime-2 e due nuovi modelli di API vocali

      GPT-Realtime-2 porta il ragionamento di classe GPT-5 alla voce in tempo reale. Un modello di traduzione separato copre oltre 70 lingue di input. Una variante di Whisper in streaming gestisce la trascrizione. I prezzi sono abbastanza aggressivi da rendere il confronto inevitabile.

      OpenAI ha rilasciato tre nuovi modelli vocali nella sua API, ampliando la gamma di superfici dove gli sviluppatori possono integrare il ragionamento di classe GPT nell'audio dal vivo.

      I tre modelli sono GPT-Realtime-2, un successore del modello vocale in tempo reale esistente dell'azienda con quello che OpenAI descrive come ragionamento di classe GPT-5; GPT-Realtime-Translate, un modello di traduzione in tempo reale con oltre 70 lingue di input e 13 lingue di output; e GPT-Realtime-Whisper, un modello di riconoscimento vocale in streaming costruito per la trascrizione a bassa latenza.

      Il rilascio arriva nel mezzo di un'espansione dell'IA vocale che il resto dell'industria ha trascorso l'ultimo anno a preparare. Le aziende che hanno lanciato agenti vocali lo hanno fatto su una pila di componenti assemblati: Whisper o Deepgram per la trascrizione, ElevenLabs o Cartesia per il testo in voce, GPT-4 o Claude per il passo di ragionamento, e logiche personalizzate di turn-taking e barge-in nel mezzo.

      Il 💜 della tecnologia UE Gli ultimi rumori dalla scena tecnologica dell'UE, una storia dal nostro saggio fondatore Boris e alcune opere d'arte AI discutibili. È gratuito, ogni settimana, nella tua casella di posta. Iscriviti ora! Ciò che OpenAI offre con GPT-Realtime-2 è un modello unico che gestisce audio in entrata e in uscita, con il ragionamento che avviene all'interno del ciclo audio piuttosto che tra i passaggi di trascrizione e sintesi.

      Cosa c'è di nuovo?

      GPT-Realtime-2 acquisisce diverse capacità che i team vocali di produzione hanno simulato con impalcature di prompt. Le preamboli consentono a un agente di dire "fammi controllare" mentre chiama gli strumenti, in modo che gli utenti non debbano subire il silenzio.

      Le chiamate agli strumenti in parallelo consentono al modello di inviare più richieste back-end simultaneamente e narrare quale sia in volo. Il comportamento di recupero cattura i fallimenti e li rende visibili piuttosto che congelare la conversazione.

      Il modello può regolare deliberatamente il tono, più calmo per i casi di supporto, più vivace per le conferme.

      Due numeri sottostanti portano il peso maggiore. La finestra di contesto è ora di 128K, rispetto a 32K, il che rende fattibili sessioni più lunghe e flussi agentici complessi senza cucire stati esterni.

      Lo sforzo di ragionamento è esposto come una manopola: minimo, basso, medio, alto e xalto, con il basso impostato come predefinito per mantenere la latenza ridotta.

      Sui benchmark di OpenAI, GPT-Realtime-2 a sforzo alto ottiene un punteggio del 15,2% superiore a GPT-Realtime-1.5 su Big Bench Audio, il benchmark di ragionamento audio dell'azienda, e del 13,8% superiore su Audio MultiChallenge per il seguire le istruzioni a sforzo xalto. I benchmark dei clienti sono più incisivi.

      Zillow riporta un aumento di 26 punti nel tasso di successo delle chiamate sul suo benchmark avversariale più difficile, dal 69% sul modello precedente al 95% su GPT-Realtime-2. BolnaAI, un'azienda di IA vocale che sviluppa per le lingue indiane, riporta tassi di errore delle parole inferiori del 12,5% su Hindi, Tamil e Telugu utilizzando il modello di traduzione.

      GPT-Realtime-2 è prezzato a $32 per milione di token audio in input, $0,40 per token di input memorizzati e $64 per milione di token audio in output. GPT-Realtime-Translate è prezzato a $0,034 al minuto. GPT-Realtime-Whisper è prezzato a $0,017 al minuto.

      Il prezzo della traduzione è la linea che mette in allerta il resto dell'industria. A un terzo di centesimo al minuto, GPT-Realtime-Translate sottocosta il prezzo al minuto della maggior parte delle pipeline di traduzione aziendale di un ampio margine, e combina latenza e copertura linguistica su cui le implementazioni attente ai costi hanno storicamente dovuto compromettere. Lo streaming Whisper a metà di quel prezzo è altrettanto aggressivo.

      ElevenLabs, l'azienda di voce puramente finanziata più sostenuta nel mercato e un recente partecipante ai round di finanziamento per l'aumento delle entrate di voce-AI di Twilio nel Q1, e altre infrastrutture adiacenti alla voce, prezzano i loro agenti vocali su un modello al minuto che combina sintesi con inferenza del modello.

      L'aritmetica per gli acquirenti diventa più difficile quando il modello integrato di OpenAI sta anche facendo il ragionamento. Deepgram, che vende il primitivo di trascrizione in streaming direttamente, affronta una pressione simile sul lato dello streaming Whisper.

      La lista di lancio di OpenAI sembra una versione di marketing del prodotto del panorama clienti degli agenti vocali: Zillow, Glean, Genspark, Bluejay, Intercom, Priceline e Foundation Health per il modello in tempo reale; BolnaAI, Vimeo e Deutsche Telekom per la traduzione.

      Nessuno dei tre modelli rimuove il lavoro di costruzione attorno a guardrail, valutazione, escalation e analisi di cui gli agenti vocali hanno bisogno prima di andare in diretta.

      OpenAI fornisce classificatori attivi e residenza dei dati UE, ma il carico di integrazione della conformità, della voce del marchio e dell'osservabilità delle chiamate agli strumenti rimane con lo sviluppatore.

      La questione competitiva è quale piattaforma riduce quel carico più rapidamente, e la scommessa di OpenAI è che fare il ragionamento audio all'interno di un modello sia più difendibile che cucire insieme tre fornitori.

      Se ElevenLabs, Deepgram e gli altri possono mantenere il loro cuneo dipende da quanto rapidamente spingono le proprie pile integrate. Il Series D di ElevenLabs a febbraio a una valutazione di 11 miliardi di dollari è stato raccolto esplicitamente sulla tesi dell'agente; Deepgram si sta muovendo nella stessa direzione.

      Il prossimo trimestre sarà la prima volta che il confronto sarà fatto su carichi di lavoro di produzione piuttosto che su dimostrazioni.

      Per ora, il test immediato è a un tab di Playground e a una chiamata SDK di distanza. La scheda dei prezzi e i benchmark suggeriscono che OpenAI non sta aspettando.

Altri articoli

ChatGPT ora ti consente di nominare qualcuno da contattare se le cose si fanno difficili. ChatGPT può ora avvisare qualcuno di cui ti fidi se le cose si fanno serie. È una funzione semplice, ma potrebbe essere una delle cose più umane che OpenAI abbia mai integrato nel suo chatbot.

NVIDIA prende un warrant da 2,1 miliardi di dollari in IREN come parte di un accordo per un data center AI da 5GW NVIDIA investirà fino a 2,1 miliardi di dollari nell'operatore di data center IREN attraverso un warrant di cinque anni su 30 milioni di azioni.

I prossimi AirPods di Apple potrebbero dare a Siri degli occhi, e sono già in fase di test. AirPods con telecamere sembrano pazzeschi, ma potrebbero essere esattamente ciò di cui Siri ha bisogno per smettere di sentirsi bloccata nel passato.

I prossimi AirPods di Apple potrebbero dare a Siri la vista, e sono già in fase di test. AirPods con telecamere sembrano incredibili, ma potrebbero essere esattamente ciò di cui Siri ha bisogno per smettere di sentirsi bloccata nel passato.

SoftBank riduce l'obiettivo del prestito con margine sostenuto da OpenAI del 40% a 6 miliardi di dollari SoftBank ha ridotto il suo obiettivo di prestito con margine sostenuto da OpenAI da 10 miliardi di dollari a soli 6 miliardi di dollari a causa delle preoccupazioni dei finanziatori riguardo alla valutazione delle azioni di OpenAI come garanzia.

OpenAI lancia GPT-Realtime-2 e due nuovi modelli API vocali OpenAI ha rilasciato tre nuovi modelli vocali, GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper.

OpenAI lancia GPT-Realtime-2 e due nuovi modelli di API vocali

OpenAI ha rilasciato tre nuovi modelli vocali, GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper.