Perplexity divide la inferencia de IA entre PCs y la nube para reducir costos.

      TL;DRPerplexity AI anunció una plataforma en Computex que enruta dinámicamente la inferencia de IA entre PCs y servidores en la nube en tiempo real, actuando como un “controlador de tráfico aéreo” para tareas de IA. El sistema, que no depende de chips específicos, aborda la crisis de costos de la inferencia centralizada mientras los ingresos de Perplexity alcanzan los 500 millones de dólares.

      Perplexity AI ha desarrollado una plataforma que divide dinámicamente las cargas de trabajo de IA entre computadoras personales y servidores en la nube, decidiendo en tiempo real qué tareas pueden ejecutarse localmente en el procesador de una PC y cuáles necesitan la potencia del hardware de un centro de datos. El CEO Aravind Srinivas anunció el sistema en Computex en Taipei el martes, describiéndolo como un “controlador de tráfico aéreo para tareas de IA” diseñado para reducir el costo de la inferencia, el proceso de ejecutar modelos de IA entrenados para generar respuestas.

      “No quieres que toda tu computación esté centralizada en servidores y que todo funcione a través de los modelos más grandes”, dijo Srinivas en una entrevista con Bloomberg Television. “Ya estás leyendo informes sobre cómo la gente se está asustando por sus costos. Algunas personas están gastando medio billón de dólares al mes. Lo que realmente quieres es un valor eficiente por vatio por usuario.”

      Cómo funciona

      El sistema evalúa cada tarea de IA y la enruta a la capa de computación más eficiente. Operaciones simples que los procesadores de PC modernos pueden manejar, como la resumición, el formateo o la clasificación ligera, se ejecutan localmente sin tocar la nube. Las tareas más complejas que requieren inferencia de grandes modelos, como el razonamiento de múltiples pasos o la generación aumentada por recuperación a través de grandes conjuntos de datos, se envían a servidores en la nube. La decisión de enrutamiento ocurre en tiempo real, invisible para el usuario.

      El 💜 de la tecnología de la UE

      Los últimos rumores de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris, y un arte de IA cuestionable. Es gratis, cada semana, en tu bandeja de entrada. ¡Regístrate ahora!

      El efecto práctico es que Perplexity puede atender a más usuarios a un costo menor al descargar una parte del trabajo de inferencia a los miles de millones de PCs que ya están en circulación. A medida que la demanda de inferencia de IA presiona la capacidad de los centros de datos y obliga a las empresas de servicios públicos a planificar 1.4 billones de dólares en actualizaciones de la red, distribuir la computación al borde es tanto una necesidad económica como de infraestructura.

      Srinivas hizo el anuncio junto al CEO de Intel, Lip-Bu Tan, cuya empresa lidera el mercado de procesadores para PC y tiene un interés comercial en hacer de las PC una capa de computación de IA significativa. Sin embargo, Srinivas dijo que la plataforma es “agnóstica a los chips” y también funciona con procesadores de Nvidia. Nvidia destacó la misma tendencia de inferencia en el borde en Computex con su nueva plataforma RTX Spark para laptops y desktops impulsados por IA.

      El problema de costos

      La referencia de Srinivas a empresas que “gastan medio billón de dólares al mes” en computación de IA no es una hipérbole. Los costos de infraestructura de OpenAI se han informado ampliamente a esa escala, y los proyectados 10.9 mil millones de dólares en ingresos de Anthropic para el segundo trimestre vienen con gastos de computación sustanciales que comprimen márgenes. La carga energética y de costos de la inferencia de IA centralizada es una de las limitaciones definitorias del actual auge de la IA.

      El enfoque de Perplexity invierte la suposición de que la inferencia de IA debe ocurrir en la nube. Al tratar la PC como un nodo de computación de primera clase en lugar de un cliente ligero, la empresa puede reducir sus propios costos de servidor mientras potencialmente entrega respuestas más rápidas para tareas que se ejecutan localmente. La compensación es la complejidad: el sistema de enrutamiento debe evaluar con precisión la dificultad de la tarea en milisegundos, y la calidad de la inferencia local depende de las capacidades de hardware del usuario.

      Eficiencia de ingresos

      La trayectoria financiera de Perplexity subraya por qué la eficiencia de costos es importante. Srinivas publicó en X en abril que los ingresos de la empresa crecieron cinco veces, de 100 millones a 500 millones de dólares, mientras que el número de empleados aumentó solo un 34%. Esa proporción, aproximadamente 15 veces el crecimiento de ingresos por empleado agregado, refleja tanto el apalancamiento de los modelos de negocio nativos de IA como la posición de Perplexity como un agregador que enruta consultas a través de múltiples proveedores de IA en lugar de entrenar sus propios modelos de frontera.

      “Cada vez que cualquiera de las IA mejora, nuestro sistema unificado también mejora porque enrutamos a través de todos ellos”, dijo Srinivas. Las tasas de crecimiento nativas de IA que están atrayendo capital lejos de las empresas SaaS tradicionales se habilitan en parte por este tipo de eficiencia arquitectónica, donde el producto mejora a medida que sus proveedores subyacentes mejoran, sin aumentos de costos proporcionales.

      La plataforma de computación híbrida extiende esa lógica al hardware. Si Perplexity puede usar la computación que ya está en los escritorios de los usuarios para manejar una parte significativa del trabajo de inferencia, reduce el costo marginal por consulta y mejora la latencia de respuesta para tareas ligeras. A medida que la IA se adentra más en los flujos de trabajo empresariales, la economía de quién paga por la computación, el proveedor de la nube, la empresa de IA o el hardware propio del usuario, se convertirá en una variable competitiva crítica.

Otros artículos

Perplexity divide la inferencia de IA entre PCs y la nube para reducir costos. Perplexity AI construyó un sistema de enrutamiento en tiempo real que divide las cargas de trabajo de IA entre PCs y servidores en la nube, anunciado en Computex junto a Intel mientras los ingresos alcanzan los $500 millones.

Los coches eléctricos se están volviendo más asequibles a nivel mundial, excepto para los compradores de EE. UU. En todas partes del mundo, los vehículos eléctricos se volvieron más baratos, pero en EE. UU., los créditos fiscales desaparecieron y las ventas de vehículos eléctricos en el cuarto trimestre cayeron un 45% interanual.

Los hackers forzaron el 2FA de Dashlane, descargaron bóvedas encriptadas. Los atacantes eludieron la autenticación de dos factores de Dashlane en menos de 20 cuentas al forzar códigos numéricos y descargar bóvedas de contraseñas encriptadas. La encriptación de conocimiento cero protege los datos si las contraseñas maestras son fuertes.

El próximo Apple Watch de nueva generación podría obtener una pantalla OLED mejorada con un aumento en la duración de la batería. Apple está evaluando supuestamente una nueva tecnología de pantalla OLED llamada HMO que promete mejor duración de la batería y menores costos de fabricación.

Focused Energy recauda $240 millones para comercializar la tecnología de fusión láser NIF. La startup alemana de fusión Focused Energy recaudó $240 millones en una ronda de financiación Serie A liderada por la empresa de servicios públicos RWE para construir un reactor impulsado por láser basado en el avance de ganancia neta de energía del NIF.

Microsoft presenta Project Solara: un sistema operativo para dispositivos centrados en agentes El Proyecto Solara de Microsoft es una nueva plataforma para dispositivos que ejecutan agentes de IA en lugar de aplicaciones. Dos diseños conceptuales, un dispositivo de insignia y un dispositivo de escritorio, están en fase de prueba con Best Buy, CVS, Levi's y Target.

Perplexity divide la inferencia de IA entre PCs y la nube para reducir costos.

Perplexity AI construyó un sistema de enrutamiento en tiempo real que divide las cargas de trabajo de IA entre PCs y servidores en la nube, anunciado en Computex junto a Intel mientras los ingresos alcanzan los $500 millones.