Perplexity divide la inferencia de IA entre PCs y la nube para reducir costos.

      TL;DRPerplexity AI anunció una plataforma en Computex que enruta dinámicamente la inferencia de IA entre PCs y servidores en la nube en tiempo real, actuando como un “controlador de tráfico aéreo” para tareas de IA. El sistema, que no depende de chips específicos, aborda la crisis de costos de la inferencia centralizada mientras los ingresos de Perplexity alcanzan los 500 millones de dólares.

      Perplexity AI ha desarrollado una plataforma que divide dinámicamente las cargas de trabajo de IA entre computadoras personales y servidores en la nube, decidiendo en tiempo real qué tareas pueden ejecutarse localmente en el procesador de una PC y cuáles necesitan la potencia del hardware de un centro de datos. El CEO Aravind Srinivas anunció el sistema en Computex en Taipei el martes, describiéndolo como un “controlador de tráfico aéreo para tareas de IA” diseñado para reducir el costo de la inferencia, el proceso de ejecutar modelos de IA entrenados para generar respuestas.

      “No quieres que toda tu computación esté centralizada en servidores y que todo funcione a través de los modelos más grandes”, dijo Srinivas en una entrevista con Bloomberg Television. “Ya estás leyendo informes sobre cómo la gente se está asustando por sus costos. Algunas personas están gastando medio billón de dólares al mes. Lo que realmente quieres es un valor eficiente por vatio por usuario.”

      Cómo funciona

      El sistema evalúa cada tarea de IA y la enruta a la capa de computación más eficiente. Operaciones simples que los procesadores de PC modernos pueden manejar, como la resumición, el formateo o la clasificación ligera, se ejecutan localmente sin tocar la nube. Las tareas más complejas que requieren inferencia de grandes modelos, como el razonamiento de múltiples pasos o la generación aumentada por recuperación a través de grandes conjuntos de datos, se envían a servidores en la nube. La decisión de enrutamiento ocurre en tiempo real, invisible para el usuario.

      El 💜 de la tecnología de la UE

      Los últimos rumores de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris, y un arte de IA cuestionable. Es gratis, cada semana, en tu bandeja de entrada. ¡Regístrate ahora!

      El efecto práctico es que Perplexity puede atender a más usuarios a un costo menor al descargar una parte del trabajo de inferencia a los miles de millones de PCs que ya están en circulación. A medida que la demanda de inferencia de IA presiona la capacidad de los centros de datos y obliga a las empresas de servicios públicos a planificar 1.4 billones de dólares en actualizaciones de la red, distribuir la computación al borde es tanto una necesidad económica como de infraestructura.

      Srinivas hizo el anuncio junto al CEO de Intel, Lip-Bu Tan, cuya empresa lidera el mercado de procesadores para PC y tiene un interés comercial en hacer de las PC una capa de computación de IA significativa. Sin embargo, Srinivas dijo que la plataforma es “agnóstica a los chips” y también funciona con procesadores de Nvidia. Nvidia destacó la misma tendencia de inferencia en el borde en Computex con su nueva plataforma RTX Spark para laptops y desktops impulsados por IA.

      El problema de costos

      La referencia de Srinivas a empresas que “gastan medio billón de dólares al mes” en computación de IA no es una hipérbole. Los costos de infraestructura de OpenAI se han informado ampliamente a esa escala, y los proyectados 10.9 mil millones de dólares en ingresos de Anthropic para el segundo trimestre vienen con gastos de computación sustanciales que comprimen márgenes. La carga energética y de costos de la inferencia de IA centralizada es una de las limitaciones definitorias del actual auge de la IA.

      El enfoque de Perplexity invierte la suposición de que la inferencia de IA debe ocurrir en la nube. Al tratar la PC como un nodo de computación de primera clase en lugar de un cliente ligero, la empresa puede reducir sus propios costos de servidor mientras potencialmente entrega respuestas más rápidas para tareas que se ejecutan localmente. La compensación es la complejidad: el sistema de enrutamiento debe evaluar con precisión la dificultad de la tarea en milisegundos, y la calidad de la inferencia local depende de las capacidades de hardware del usuario.

      Eficiencia de ingresos

      La trayectoria financiera de Perplexity subraya por qué la eficiencia de costos es importante. Srinivas publicó en X en abril que los ingresos de la empresa crecieron cinco veces, de 100 millones a 500 millones de dólares, mientras que el número de empleados aumentó solo un 34%. Esa proporción, aproximadamente 15 veces el crecimiento de ingresos por empleado agregado, refleja tanto el apalancamiento de los modelos de negocio nativos de IA como la posición de Perplexity como un agregador que enruta consultas a través de múltiples proveedores de IA en lugar de entrenar sus propios modelos de frontera.

      “Cada vez que cualquiera de las IA mejora, nuestro sistema unificado también mejora porque enrutamos a través de todos ellos”, dijo Srinivas. Las tasas de crecimiento nativas de IA que están atrayendo capital lejos de las empresas SaaS tradicionales se habilitan en parte por este tipo de eficiencia arquitectónica, donde el producto mejora a medida que sus proveedores subyacentes mejoran, sin aumentos de costos proporcionales.

      La plataforma de computación híbrida extiende esa lógica al hardware. Si Perplexity puede usar la computación que ya está en los escritorios de los usuarios para manejar una parte significativa del trabajo de inferencia, reduce el costo marginal por consulta y mejora la latencia de respuesta para tareas ligeras. A medida que la IA se adentra más en los flujos de trabajo empresariales, la economía de quién paga por la computación, el proveedor de la nube, la empresa de IA o el hardware propio del usuario, se convertirá en una variable competitiva crítica.

Altri articoli

Polonia introduce Polonia introduce El primer ministro polaco Tusk anuncia una prueba de soberanía para la adquisición de tecnología estatal y informes anuales de independencia en TI, advirtiendo que la dependencia de la IA extranjera amenaza la seguridad y la economía. Focused Energy recauda $240 millones para comercializar la tecnología de fusión láser NIF. Focused Energy recauda $240 millones para comercializar la tecnología de fusión láser NIF. La startup alemana de fusión Focused Energy recaudó $240 millones en una ronda de financiación Serie A liderada por la empresa de servicios públicos RWE para construir un reactor impulsado por láser basado en el avance de ganancia neta de energía del NIF. Perplexity divide la inferencia de IA entre PCs y la nube para reducir costos. Perplexity AI construyó un sistema de enrutamiento en tiempo real que divide las cargas de trabajo de IA entre PCs y servidores en la nube, anunciado en Computex junto a Intel mientras los ingresos alcanzan los $500 millones. RogueDB presenta una plataforma de base de datos simplificada diseñada para reducir el trabajo de infraestructura para startups y equipos de TI. RogueDB presenta una plataforma de base de datos simplificada diseñada para reducir el trabajo de infraestructura para startups y equipos de TI. RogueDB ofrece una base de datos completamente gestionada, impulsada por API, que elimina la sobrecarga de configuración y ajuste, con el objetivo de dar a los equipos de ingeniería de startups más tiempo para construir productos en lugar de mantener la infraestructura. El chip cuántico Majorana 2 de Microsoft es 1,000 veces más confiable, con un objetivo para 2029. El chip cuántico Majorana 2 de Microsoft es 1,000 veces más confiable, con un objetivo para 2029. Los qubits Majorana 2 de Microsoft duran 20 segundos frente a microsegundos para los rivales, construidos con IA agente. La compañía ahora tiene como objetivo una computadora cuántica escalable para 2029. Polonia introduce Polonia introduce El primer ministro polaco Tusk anuncia una prueba de soberanía para la adquisición de tecnología estatal y informes anuales de independencia en TI, advirtiendo que la dependencia de la IA extranjera amenaza la seguridad y la economía.

Perplexity divide la inferencia de IA entre PCs y la nube para reducir costos.

Perplexity AI construyó un sistema de enrutamiento en tiempo real que divide las cargas de trabajo de IA entre PCs y servidores en la nube, anunciado en Computex junto a Intel mientras los ingresos alcanzan los $500 millones.