Perplexity divide la inferencia de IA entre PCs y la nube para reducir costos.
TL;DRPerplexity AI anunció una plataforma en Computex que enruta dinámicamente la inferencia de IA entre PCs y servidores en la nube en tiempo real, actuando como un “controlador de tráfico aéreo” para tareas de IA. El sistema, que no depende de chips específicos, aborda la crisis de costos de la inferencia centralizada mientras los ingresos de Perplexity alcanzan los 500 millones de dólares.
Perplexity AI ha desarrollado una plataforma que divide dinámicamente las cargas de trabajo de IA entre computadoras personales y servidores en la nube, decidiendo en tiempo real qué tareas pueden ejecutarse localmente en el procesador de una PC y cuáles necesitan la potencia del hardware de un centro de datos. El CEO Aravind Srinivas anunció el sistema en Computex en Taipei el martes, describiéndolo como un “controlador de tráfico aéreo para tareas de IA” diseñado para reducir el costo de la inferencia, el proceso de ejecutar modelos de IA entrenados para generar respuestas.
“No quieres que toda tu computación esté centralizada en servidores y que todo funcione a través de los modelos más grandes”, dijo Srinivas en una entrevista con Bloomberg Television. “Ya estás leyendo informes sobre cómo la gente se está asustando por sus costos. Algunas personas están gastando medio billón de dólares al mes. Lo que realmente quieres es un valor eficiente por vatio por usuario.”
Cómo funciona
El sistema evalúa cada tarea de IA y la enruta a la capa de computación más eficiente. Operaciones simples que los procesadores de PC modernos pueden manejar, como la resumición, el formateo o la clasificación ligera, se ejecutan localmente sin tocar la nube. Las tareas más complejas que requieren inferencia de grandes modelos, como el razonamiento de múltiples pasos o la generación aumentada por recuperación a través de grandes conjuntos de datos, se envían a servidores en la nube. La decisión de enrutamiento ocurre en tiempo real, invisible para el usuario.
El 💜 de la tecnología de la UE
Los últimos rumores de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris, y un arte de IA cuestionable. Es gratis, cada semana, en tu bandeja de entrada. ¡Regístrate ahora!
El efecto práctico es que Perplexity puede atender a más usuarios a un costo menor al descargar una parte del trabajo de inferencia a los miles de millones de PCs que ya están en circulación. A medida que la demanda de inferencia de IA presiona la capacidad de los centros de datos y obliga a las empresas de servicios públicos a planificar 1.4 billones de dólares en actualizaciones de la red, distribuir la computación al borde es tanto una necesidad económica como de infraestructura.
Srinivas hizo el anuncio junto al CEO de Intel, Lip-Bu Tan, cuya empresa lidera el mercado de procesadores para PC y tiene un interés comercial en hacer de las PC una capa de computación de IA significativa. Sin embargo, Srinivas dijo que la plataforma es “agnóstica a los chips” y también funciona con procesadores de Nvidia. Nvidia destacó la misma tendencia de inferencia en el borde en Computex con su nueva plataforma RTX Spark para laptops y desktops impulsados por IA.
El problema de costos
La referencia de Srinivas a empresas que “gastan medio billón de dólares al mes” en computación de IA no es una hipérbole. Los costos de infraestructura de OpenAI se han informado ampliamente a esa escala, y los proyectados 10.9 mil millones de dólares en ingresos de Anthropic para el segundo trimestre vienen con gastos de computación sustanciales que comprimen márgenes. La carga energética y de costos de la inferencia de IA centralizada es una de las limitaciones definitorias del actual auge de la IA.
El enfoque de Perplexity invierte la suposición de que la inferencia de IA debe ocurrir en la nube. Al tratar la PC como un nodo de computación de primera clase en lugar de un cliente ligero, la empresa puede reducir sus propios costos de servidor mientras potencialmente entrega respuestas más rápidas para tareas que se ejecutan localmente. La compensación es la complejidad: el sistema de enrutamiento debe evaluar con precisión la dificultad de la tarea en milisegundos, y la calidad de la inferencia local depende de las capacidades de hardware del usuario.
Eficiencia de ingresos
La trayectoria financiera de Perplexity subraya por qué la eficiencia de costos es importante. Srinivas publicó en X en abril que los ingresos de la empresa crecieron cinco veces, de 100 millones a 500 millones de dólares, mientras que el número de empleados aumentó solo un 34%. Esa proporción, aproximadamente 15 veces el crecimiento de ingresos por empleado agregado, refleja tanto el apalancamiento de los modelos de negocio nativos de IA como la posición de Perplexity como un agregador que enruta consultas a través de múltiples proveedores de IA en lugar de entrenar sus propios modelos de frontera.
“Cada vez que cualquiera de las IA mejora, nuestro sistema unificado también mejora porque enrutamos a través de todos ellos”, dijo Srinivas. Las tasas de crecimiento nativas de IA que están atrayendo capital lejos de las empresas SaaS tradicionales se habilitan en parte por este tipo de eficiencia arquitectónica, donde el producto mejora a medida que sus proveedores subyacentes mejoran, sin aumentos de costos proporcionales.
La plataforma de computación híbrida extiende esa lógica al hardware. Si Perplexity puede usar la computación que ya está en los escritorios de los usuarios para manejar una parte significativa del trabajo de inferencia, reduce el costo marginal por consulta y mejora la latencia de respuesta para tareas ligeras. A medida que la IA se adentra más en los flujos de trabajo empresariales, la economía de quién paga por la computación, el proveedor de la nube, la empresa de IA o el hardware propio del usuario, se convertirá en una variable competitiva crítica.
Otros artículos
Perplexity divide la inferencia de IA entre PCs y la nube para reducir costos.
Perplexity AI construyó un sistema de enrutamiento en tiempo real que divide las cargas de trabajo de IA entre PCs y servidores en la nube, anunciado en Computex junto a Intel mientras los ingresos alcanzan los $500 millones.
