Perplexity divide l'inferenza AI tra PC e cloud per ridurre i costi

      TL;DRPerplexity AI ha annunciato una piattaforma al Computex che instrada dinamicamente l'inferenza AI tra PC e server cloud in tempo reale, fungendo da “controllore del traffico aereo” per i compiti di AI. Il sistema indipendente dal chip mira alla crisi dei costi dell'inferenza centralizzata mentre i ricavi di Perplexity raggiungono i 500 milioni di dollari.

      Perplexity AI ha sviluppato una piattaforma che divide dinamicamente i carichi di lavoro AI tra computer personali e server cloud, decidendo in tempo reale quali compiti possono essere eseguiti localmente sul processore di un PC e quali necessitano della potenza dell'hardware dei data center. Il CEO Aravind Srinivas ha annunciato il sistema al Computex di Taipei martedì, descrivendolo come un “controllore del traffico aereo per i compiti di AI” progettato per ridurre il costo dell'inferenza, il processo di esecuzione di modelli AI addestrati per generare risposte.

      “Non vuoi che tutto il tuo calcolo sia centralizzato nei server e che tutto venga eseguito attraverso i modelli più grandi,” ha detto Srinivas in un'intervista a Bloomberg Television. “Stai già leggendo rapporti su come le persone siano in preda al panico per i loro costi. Alcune persone stanno spendendo mezzo miliardo di dollari al mese. Ciò che vuoi realmente è un valore efficiente per watt per utente.”

      Come funziona

      Il sistema valuta ogni compito AI e lo instrada al livello di calcolo più efficiente. Operazioni semplici che i moderni processori PC possono gestire, come la sintesi, la formattazione o la classificazione leggera, vengono eseguite localmente senza toccare il cloud. Compiti più complessi che richiedono inferenza di grandi modelli, come il ragionamento a più passaggi o la generazione aumentata da recupero su grandi set di dati, vengono instradati ai server cloud. La decisione di instradamento avviene in tempo reale, invisibile all'utente.

      Il 💜 della tecnologia UE

      Le ultime novità dalla scena tecnologica dell'UE, una storia dal nostro saggio fondatore Boris e alcune opere d'arte AI discutibili. È gratuito, ogni settimana, nella tua casella di posta. Iscriviti ora!

      L'effetto pratico è che Perplexity può servire più utenti a un costo inferiore trasferendo una parte del lavoro di inferenza ai miliardi di PC già in circolazione. Poiché la domanda di inferenza AI mette a dura prova la capacità dei data center e spinge le utility a pianificare 1,4 trilioni di dollari in aggiornamenti della rete, distribuire il calcolo al bordo è sia una necessità economica che infrastrutturale.

      Srinivas ha fatto l'annuncio insieme al CEO di Intel Lip-Bu Tan, la cui azienda guida il mercato dei processori PC e ha un interesse commerciale nel rendere i PC un livello di calcolo AI significativo. Tuttavia, Srinivas ha affermato che la piattaforma è “indipendente dal chip” e funziona anche con i processori Nvidia. Nvidia ha evidenziato la stessa tendenza all'inferenza edge al Computex con la sua nuova piattaforma RTX Spark per laptop e desktop alimentati da AI.

      Il problema dei costi

      Il riferimento di Srinivas alle aziende che “spendono mezzo miliardo di dollari al mese” per il calcolo AI non è iperbole. I costi dell'infrastruttura di OpenAI sono stati ampiamente riportati a quella scala, e i 10,9 miliardi di dollari previsti da Anthropic per i ricavi del secondo trimestre comportano spese di calcolo sostanziali che comprimono i margini. Il carico energetico e di costo dell'inferenza AI centralizzata è uno dei vincoli definitivi del boom attuale dell'AI.

      L'approccio di Perplexity inverte l'assunzione che l'inferenza AI debba avvenire nel cloud. Trattando il PC come un nodo di calcolo di prima classe piuttosto che come un client leggero, l'azienda può ridurre i propri costi server mentre potenzialmente fornisce risposte più rapide per i compiti che vengono eseguiti localmente. Il compromesso è la complessità: il sistema di instradamento deve valutare con precisione la difficoltà del compito in millisecondi, e la qualità dell'inferenza locale dipende dalle capacità hardware dell'utente.

      Efficienza dei ricavi

      La traiettoria finanziaria di Perplexity sottolinea perché l'efficienza dei costi sia importante. Srinivas ha pubblicato su X ad aprile che i ricavi dell'azienda sono cresciuti cinque volte, da 100 milioni a 500 milioni di dollari, mentre il numero di dipendenti è aumentato solo del 34%. Quel rapporto, circa 15 volte la crescita dei ricavi per dipendente aggiunto, riflette sia il leverage dei modelli di business nativi dell'AI sia la posizione di Perplexity come aggregatore che instrada le query attraverso più fornitori di AI piuttosto che addestrare i propri modelli all'avanguardia.

      “Ogni volta che l'AI migliora, il nostro sistema unificato migliora anche perché instradiamo attraverso tutti loro,” ha detto Srinivas. I tassi di crescita nativi dell'AI che stanno attirando capitali lontano dalle tradizionali aziende SaaS sono in parte abilitati da questo tipo di efficienza architettonica, dove il prodotto migliora man mano che i suoi fornitori sottostanti migliorano, senza aumenti di costo proporzionali.

      La piattaforma di calcolo ibrido estende quella logica all'hardware. Se Perplexity può utilizzare il calcolo già presente sulle scrivanie degli utenti per gestire una quota significativa del lavoro di inferenza, riduce il costo marginale per query e migliora la latenza di risposta per compiti leggeri. Man mano che l'AI si integra più profondamente nei flussi di lavoro aziendali, l'economia di chi paga per il calcolo, il fornitore di cloud, l'azienda AI o l'hardware dell'utente, diventerà una variabile competitiva critica.

Altri articoli

Microsoft svela Project Solara: un sistema operativo per dispositivi agent-first Il Project Solara di Microsoft è una nuova piattaforma per dispositivi che eseguono agenti AI invece di app. Due design concettuali, un dispositivo badge e un dispositivo da scrivania, sono in fase di prova con Best Buy, CVS, Levi's e Target.

Gli hacker hanno forzato il 2FA di Dashlane, scaricando i vault crittografati. Gli aggressori hanno eluso il 2FA di Dashlane su meno di 20 account forzando i codici numerici e scaricando i vault delle password crittografati. La crittografia a conoscenza zero protegge i dati se le password master sono forti.

Asus Vivowatch 6 Plus arriva con funzionalità di misurazione della pressione sanguigna e ECG insieme a un coach per il benessere. ASUS ha lanciato il VivoWatch 6 con monitoraggio ECG, tracciamento della pressione sanguigna, coaching al benessere basato sull'IA e funzionalità indossabili avanzate focalizzate sulla salute.

Le auto elettriche stanno diventando più accessibili a livello globale, tranne che per gli acquirenti statunitensi. Ovunque nel mondo, i veicoli elettrici sono diventati più economici, ma negli Stati Uniti, i crediti d'imposta sono scomparsi e le vendite di veicoli elettrici nel quarto trimestre sono diminuite del 45% rispetto all'anno precedente.

La Polonia introduce Il PM polacco Tusk annuncia un test di sovranità per gli acquisti tecnologici statali e rapporti annuali sull'indipendenza IT, avvertendo che la dipendenza dall'IA straniera minaccia la sicurezza e l'economia.

Il piano della gigafactory AI dell'UE inciampa mentre i ritardi allontanano i partner Il piano da 20 miliardi di euro dell'UE per cinque centri dati di intelligenza artificiale affronta ritardi e lacune di finanziamento, con le offerte posticipate a luglio, l'interesse ridotto da 70 aziende a 10 e i consorzi che stanno riconsiderando.

Perplexity divide l'inferenza AI tra PC e cloud per ridurre i costi

Perplexity AI ha costruito un sistema di routing in tempo reale che suddivide i carichi di lavoro dell'IA tra PC e server cloud, annunciato al Computex insieme a Intel mentre i ricavi raggiungono i 500 milioni di dollari.