Perplexity разделяет ИИ-инференс между ПК и облаком, чтобы сократить затраты

      TL;DRPerplexity AI объявила о платформе на Computex, которая динамически направляет ИИ-инференс между ПК и облачными серверами в реальном времени, действуя как «диспетчер воздушного движения» для ИИ-задач. Чип-независимая система нацелена на кризис стоимости централизованного инференса, поскольку доходы Perplexity достигают 500 миллионов долларов.

      Perplexity AI разработала платформу, которая динамически распределяет ИИ-нагрузки между персональными компьютерами и облачными серверами, решая в реальном времени, какие задачи могут выполняться локально на процессоре ПК, а какие требуют мощности оборудования дата-центра. Генеральный директор Аравинд Шринивас объявил о системе на Computex в Тайбэе во вторник, описав ее как «диспетчер воздушного движения для ИИ-задач», предназначенный для снижения стоимости инференса, процесса выполнения обученных ИИ-моделей для генерации ответов.

      «Вы не хотите, чтобы все ваши вычисления были централизованы на серверах и все выполнялось через самые большие модели», — сказал Шринивас в интервью Bloomberg Television. «Вы уже читаете отчеты о том, как люди беспокоятся о своих расходах. Некоторые люди тратят полмиллиарда долларов в месяц. На самом деле, вы хотите эффективного значения за ватт на пользователя».

      Как это работает

      Система оценивает каждую ИИ-задачу и направляет ее на самый эффективный уровень вычислений. Простые операции, которые могут обрабатывать современные процессоры ПК, такие как суммирование, форматирование или легкая классификация, выполняются локально без обращения к облаку. Более сложные задачи, требующие инференса больших моделей, такие как многопроцессное рассуждение или генерация с использованием извлечения по большим наборам данных, направляются на облачные серверы. Решение о маршрутизации происходит в реальном времени, невидимо для пользователя.

      💜 технологий ЕСПоследние новости из технологической сцены ЕС, история от нашего мудрого основателя Бориса и немного сомнительного ИИ-искусства. Это бесплатно, каждую неделю, в вашем почтовом ящике. Подпишитесь сейчас!Практический эффект заключается в том, что Perplexity может обслуживать больше пользователей с меньшими затратами, перераспределяя часть работы по инференсу на миллиарды ПК, уже находящихся в обращении. Поскольку спрос на ИИ-инференс нагружает мощность дата-центров и заставляет коммунальные службы планировать 1,4 триллиона долларов на модернизацию сетей, распределение вычислений на край является как экономической, так и инфраструктурной необходимостью.

      Шринивас сделал объявление вместе с генеральным директором Intel Лип-Бу Таном, чья компания занимает лидирующие позиции на рынке процессоров ПК и имеет коммерческий интерес в том, чтобы сделать ПК значимым уровнем вычислений для ИИ. Однако Шринивас отметил, что платформа «независима от чипов» и работает также с процессорами Nvidia. Nvidia подчеркнула ту же тенденцию к инференсу на краю на Computex с помощью своей новой платформы RTX Spark для ИИ-ноутбуков и настольных ПК.

      Проблема стоимости

      Ссылка Шриниваса на компании, «тратящие полмиллиарда долларов в месяц» на вычисления ИИ, не является гиперболой. Инфраструктурные расходы OpenAI широко сообщались на таком уровне, а прогнозируемые 10,9 миллиарда долларов дохода Anthropic во втором квартале сопровождаются значительными расходами на вычисления, которые сжимают маржи. Энергетическая и финансовая нагрузка централизованного ИИ-инференса является одним из определяющих ограничений текущего бума ИИ.

      Подход Perplexity переворачивает предположение о том, что ИИ-инференс должен происходить в облаке. Обращаясь к ПК как к узлу вычислений первого класса, а не к тонкому клиенту, компания может снизить свои собственные серверные затраты, одновременно потенциально обеспечивая более быстрые ответы для задач, выполняемых локально. Компромисс заключается в сложности: система маршрутизации должна точно оценивать сложность задачи за миллисекунды, а качество локального инференса зависит от возможностей аппаратного обеспечения пользователя.

      Эффективность доходов

      Финансовая траектория Perplexity подчеркивает, почему важна стоимость эффективности. Шринивас опубликовал в X в апреле, что доход компании увеличился в пять раз, с 100 миллионов до 500 миллионов долларов, в то время как численность персонала увеличилась всего на 34%. Это соотношение, примерно 15-кратный рост доходов на добавленного сотрудника, отражает как рычаги бизнес-моделей, основанных на ИИ, так и позицию Perplexity как агрегатора, который маршрутизирует запросы через несколько поставщиков ИИ, а не обучает свои собственные передовые модели.

      «Каждый раз, когда какой-либо из ИИ становится лучше, наша унифицированная система также становится лучше, потому что мы маршрутизируем по всем ним», — сказал Шринивас. Темпы роста, основанные на ИИ, которые отвлекают капитал от традиционных компаний SaaS, отчасти обусловлены такой архитектурной эффективностью, когда продукт улучшается по мере улучшения его основных поставщиков, без пропорционального увеличения затрат.

      Гибридная вычислительная платформа расширяет эту логику на аппаратное обеспечение. Если Perplexity сможет использовать вычисления, уже находящиеся на столах пользователей, для обработки значительной доли работы по инференсу, это снизит предельные затраты на запрос и улучшит задержку ответа для легких задач. Поскольку ИИ проникает глубже в рабочие процессы предприятий, экономика того, кто платит за вычисления — облачный провайдер, ИИ-компания или собственное оборудование пользователя — станет критически важной конкурентной переменной.

Другие статьи

Focused Energy привлекла 240 миллионов долларов для коммерциализации технологии лазерного термоядерного синтеза NIF Немецкий стартап в области термоядерного синтеза Focused Energy привлек 240 миллионов долларов в рамках раунда финансирования Series A, возглавляемого энергетической компанией RWE, для создания реактора на лазерной основе, основанного на прорыве в получении чистой энергии NIF.

Электромобили становятся более доступными по цене по всему миру, за исключением покупателей в США. Везде в мире электромобили стали дешевле, но в США налоговые кредиты исчезли, и продажи электромобилей в четвертом квартале упали на 45% по сравнению с прошлым годом.

Хакеры взломали двухфакторную аутентификацию Dashlane, скачали зашифрованные хранилища. Злоумышленники обошли двухфакторную аутентификацию Dashlane на менее чем 20 аккаунтах, используя метод перебора числовых кодов и скачивая зашифрованные хранилища паролей. Шифрование с нулевым знанием защищает данные, если мастер-пароли надежны.

Польша вводит Премьер-министр Польши Туск объявил о тестировании суверенитета для государственных закупок технологий и ежегодных отчетах о независимости в ИТ, предупреждая, что зависимость от иностранного ИИ угрожает безопасности и экономике.

OpenAI Codex расширяется для предприятий с помощью сайтов, плагинов и пользователей, не являющихся разработчиками. OpenAI превращает Codex в корпоративную платформу с размещенными веб-приложениями, 62 плагинами бизнес-приложений и 110 навыками. Неразработчики составляют 20% из 5 миллионов еженедельных пользователей, растущих в 3 раза быстрее.

Focused Energy привлекла 240 миллионов долларов для коммерциализации технологии лазерного синтеза NIF Немецкий стартап в области термоядерного синтеза Focused Energy привлек 240 миллионов долларов в рамках раунда Series A, который возглавила энергетическая компания RWE, для создания реактора на лазерной основе, основанного на прорыве в области чистой энергетической отдачи NIF.

Perplexity разделяет ИИ-инференс между ПК и облаком, чтобы сократить затраты

Perplexity AI разработала систему маршрутизации в реальном времени, которая распределяет нагрузки ИИ между ПК и облачными серверами, объявленная на Computex вместе с Intel, когда доходы достигли 500 миллионов долларов.