OpenAI lanza GPT-Realtime-2 y dos nuevos modelos de API de voz
GPT-Realtime-2 trae razonamiento de clase GPT-5 a la voz en vivo. Un modelo de traducción separado cubre más de 70 idiomas de entrada. Una variante de Whisper en streaming maneja la transcripción. Los precios son lo suficientemente agresivos como para hacer que la comparación sea inevitable.
OpenAI lanzó tres nuevos modelos de voz en su API, ampliando el rango de superficies donde los desarrolladores pueden integrar el razonamiento de clase GPT en audio en vivo.
Los tres son GPT-Realtime-2, un sucesor del modelo de voz en tiempo real existente de la compañía con lo que OpenAI describe como razonamiento de clase GPT-5; GPT-Realtime-Translate, un modelo de traducción en vivo con más de 70 idiomas de entrada y 13 de salida; y GPT-Realtime-Whisper, un modelo de conversión de voz a texto en streaming construido para transcripciones de baja latencia.
El lanzamiento se produce en medio de una expansión de la IA de voz que el resto de la industria ha estado preparando durante el último año. Las empresas que han lanzado agentes de voz lo han hecho sobre una pila de componentes ensamblados: Whisper o Deepgram para transcripción, ElevenLabs o Cartesia para texto a voz, GPT-4 o Claude para el paso de razonamiento, y lógica personalizada de turnos y de interrupción en el medio.
El 💜 de la tecnología de la UE Las últimas novedades de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris y un arte de IA cuestionable. Es gratis, cada semana, en tu bandeja de entrada. ¡Regístrate ahora! Lo que OpenAI ofrece con GPT-Realtime-2 es un modelo único que maneja audio de entrada y salida, con razonamiento que ocurre dentro del bucle de audio en lugar de entre los pasos de transcripción y síntesis.
¿Qué es realmente nuevo?
GPT-Realtime-2 incorpora varias capacidades que los equipos de voz en producción han estado simulando con andamiaje de indicaciones. Los preámbulos permiten que un agente diga "déjame verificar eso" mientras llama a herramientas, para que los usuarios no se queden en silencio.
Las llamadas a herramientas en paralelo permiten que el modelo realice múltiples solicitudes de backend simultáneamente y narre cuál está en vuelo. El comportamiento de recuperación captura fallos y los presenta en lugar de congelar la conversación.
El modelo puede ajustar el tono deliberadamente, más calmado para casos de soporte, más animado para confirmaciones.
Dos números subyacentes llevan la mayor parte del peso. La ventana de contexto ahora es de 128K, frente a 32K, lo que hace que sesiones más largas y flujos complejos de agentes sean factibles sin ensamblar estados externos.
El esfuerzo de razonamiento se expone como un control: mínimo, bajo, medio, alto y xalto, con bajo establecido como el valor predeterminado para mantener la latencia ajustada.
En los propios benchmarks de OpenAI, GPT-Realtime-2 con alto esfuerzo obtiene una puntuación 15.2% más alta que GPT-Realtime-1.5 en Big Bench Audio, el benchmark de razonamiento de audio de la compañía, y 13.8% más alto en Audio MultiChallenge para seguimiento de instrucciones con esfuerzo xalto. Los benchmarks de clientes son más agudos.
Zillow informa un aumento de 26 puntos en la tasa de éxito de llamadas en su benchmark adversarial más difícil, del 69% en el modelo anterior al 95% en GPT-Realtime-2. BolnaAI, una empresa de IA de voz que desarrolla para idiomas indios, informa tasas de error de palabras un 12.5% más bajas en hindi, tamil y telugu utilizando el modelo de traducción.
GPT-Realtime-2 tiene un precio de $32 por millón de tokens de audio de entrada, $0.40 por tokens de entrada en caché y $64 por millón de tokens de audio de salida. GPT-Realtime-Translate tiene un precio de $0.034 por minuto. GPT-Realtime-Whisper tiene un precio de $0.017 por minuto.
El precio de la traducción es la línea que pone al resto de la industria en alerta. A un tercio de centavo por minuto, GPT-Realtime-Translate sube el precio por minuto en la mayoría de las tuberías de traducción empresarial por un amplio margen, y agrupa latencia y cobertura de idiomas que las implementaciones conscientes de costos históricamente han tenido que comprometer. El streaming de Whisper a la mitad de ese precio es igualmente agresivo.
ElevenLabs, la empresa de voz pura más financiada en el mercado y un participante reciente en rondas de semillas para el aumento de ingresos de voz-AI de Q1 de Twilio, y otra infraestructura adyacente a la voz, fija el precio de sus agentes de voz en un modelo por minuto que agrupa la síntesis con la inferencia del modelo.
La aritmética para los compradores se vuelve más difícil cuando el modelo empaquetado de OpenAI también está haciendo el razonamiento. Deepgram, que vende el primitivo de transcripción en streaming directamente, enfrenta una presión similar en el lado de streaming de Whisper.
La lista de lanzamientos de OpenAI se lee como una versión de marketing de productos del paisaje de clientes de agentes de voz: Zillow, Glean, Genspark, Bluejay, Intercom, Priceline y Foundation Health para el modelo en tiempo real; BolnaAI, Vimeo y Deutsche Telekom para traducción.
Ninguno de los tres modelos elimina el trabajo de construcción en torno a las salvaguardias, evaluación, escalación y análisis que los agentes de voz necesitan antes de salir al aire.
OpenAI envía clasificadores activos y residencia de datos de la UE, pero la carga de integración de cumplimiento, voz de marca y observabilidad de llamadas a herramientas queda con el desarrollador.
La pregunta competitiva es qué plataforma reduce esa carga más rápido, y la apuesta de OpenAI es que hacer el razonamiento de audio dentro de un modelo es más defendible que ensamblar tres proveedores.
Si ElevenLabs, Deepgram y el resto pueden mantener su cuña depende de qué tan rápido empujen sus propias pilas integradas. La Serie D de ElevenLabs en febrero a una valoración de $11 mil millones se recaudó explícitamente sobre la tesis del agente; Deepgram ha estado avanzando en la misma dirección.
El próximo trimestre es la primera vez que se hará la comparación en cargas de trabajo de producción en lugar de en demostraciones.
Por ahora, la prueba inmediata está a un clic de la pestaña Playground y una llamada SDK. La tarjeta de precios y los benchmarks sugieren que OpenAI no está esperando.
Otros artículos
OpenAI lanza GPT-Realtime-2 y dos nuevos modelos de API de voz
OpenAI lanzó tres nuevos modelos de voz, GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper.
