Проблема инфраструктуры ИИ стоимостью 2 триллиона долларов, о которой никто не говорит, и инженер, решающий ее
Заработки от инфраструктуры ИИ за последние восемь кварталов предоставили общественности точный словарь для описания затрат на капитальные вложения. Закупка GPU у гипермасштабируемых компаний. Соглашения о покупке электроэнергии. Недвижимость. Словарь, который они не предоставили общественности, касается того, сколько стоит поддерживать кластеры в здоровом состоянии на постоянной основе после того, как капитальные вложения сделаны. Эта статья расходов, при тщательном рассмотрении, стала одной из крупнейших скрытых центров затрат во всей инфраструктуре. Она растет быстрее, чем капитальные вложения выше по списку.
Видимые цифры в разговоре об инфраструктуре ИИ описывают капитальную историю. Закупка GPU у гипермасштабируемых компаний на пути к преодолению многотриллионных совокупных затрат за текущий цикл. Соглашения о покупке электроэнергии перешли в диапазон, который исторически описывал тяжелую промышленность. Обязательства по недвижимости последовали за этим. Капитальная нарратив была подробно изложена за два года обновлений для инвесторов.
Операционная история менее видима. Она описывает, сколько стоит поддерживать кластеры в здоровом состоянии. Работа не гламурная и в основном ручная. Необходима диагностика, сортировка и устранение сбоев узлов GPU. Поды должны быть перенастроены вокруг деградировавшего оборудования. Необходимо контролировать, балансировать и отчитываться о использовании ресурсов в парке ускорителей. Каждая из этих задач в текущих производственных условиях выполняется классом инженеров, чья зарплата одна из самых высоких в отрасли.
Масштаб счета огромен. Отраслевые аналитики, отслеживающие использование GPU в парках гипермасштабируемых компаний, в течение нескольких лет сообщали о рутинных простоях выше тридцати процентов на производственных ускорителях. Численность персонала, необходимая для поддержания работы кластеров, увеличивалась с размером кластера, пропорционально, а не субпропорционально, в средах, где явной целью каждой инфраструктурной команды является разрыв этой пропорциональности. Операционный уровень в совокупности является одной из статей расходов, которая превращает тезис об инфраструктуре ИИ из сильной инвестиционной истории в структурную проблему маржи.
💜 Технологии ЕС Последние слухи из технологической сцены ЕС, история от нашего мудрого основателя Бориса и немного сомнительного ИИ-арта. Это бесплатно, каждую неделю, в вашем почтовом ящике. Подпишитесь сейчас! Работа по решению этой проблемы до недавнего времени находилась внутри индивидуальных автоматизированных инструментов крупнейших операторов, доступных только инженерам, которые их создали. Это начинает меняться. Шашидхар Бхат, инженер-программист в организации инфраструктуры больших данных в ByteDance, провел последние два года, создавая объем работ, который напрямую соответствует операционному уровню, который остальная часть отрасли описывала как проблему.
Элементы, по отдельности, выглядят как обычные компоненты инфраструктуры. Пользовательские плагины для более тонкой настройки ускорителей. Инструменты наблюдаемости, построенные на основе GPU-менеджера центров обработки данных NVIDIA. Логика автономной перенастройки подов, которая реагирует на деградацию оборудования без человеческой эскалации. Каждый из них - это то, что тихо отправляется внутри внутренней инфраструктурной команды. В совокупности они описывают операционный уровень, который отрасль аутсорсила инженерам по надежности сайтов, перенесенным в программное обеспечение и защищенным от производственной нагрузки.
Масштаб работы Бхата является частью того, что делает его работу достоверной в качестве эталонной архитектуры. ByteDance, родитель TikTok, управляет одним из крупнейших развертываний Kubernetes в мире. Его кластеры работают на сотнях узлов GPU, обрабатывающих примерно один петабайт данных каждый месяц. Внутренний фреймворк Бхата, основанная на агентах автоматизированная система под названием OpenSkill, сократила время простоя GPU на тридцать пять процентов в этой среде, по сравнению с базовым уровнем, который включал всплески использования, характерные для обучения рекомендательных систем и распространения контента.
Фигура в тридцать пять процентов является, по операционным стандартам области, значительной. Операторы класса гипермасштабирования в течение многих лет стремились к улучшениям в одноцифровых процентах в уровнях простоя, исходя из того, что одноцифровые улучшения при объемах гипермасштабирования окупаются в восьмизначных цифрах. Снижение на уровне, о котором сообщает Бхат, является результатом, который, когда он появляется в производстве в компании-сопернике, держится в секрете. Тот факт, что это было вообще сообщено, является частью того, почему более широкое сообщество операторов начало обращать внимание.
Вторая половина недавней работы Бхата появилась на стороне открытого кода. Он был участником проекта Kubewharf Katalyst, фреймворка управления ресурсами, который совместно поддерживается ByteDance и более широким сообществом Kubernetes. Проект Katalyst является одним из немногих в экосистеме облачных технологий, который решает совместное планирование ресурсов CPU и GPU под нагрузкой. Предложения по дизайну, которые Бхат подал в рамках проекта, переместили обсуждение в направления, которые близки к его внутренней работе. Слияние внутренней производственной работы инженера и внешних открытых вкладов является редким типом паттерна, который сообщество поддерживающих признает как существенный, а не рекламный.
Третья часть работы - это Carbon-Kube, открытый планировщик Kubernetes, который Бхат выпустил в декабре прошлого года вместе с статьей IEEE, соавтором которой является Сатвик Рао Сириконда, также из ByteDance. Планировщик является отдельным проектом от его внутренней работы в ByteDance и касается измерения углеродных выбросов в операциях кластера, а не численности персонала. Проект поставляется с файлом цитирования, опубликованной методологией бенчмаркинга и воспроизводимыми скриптами. Вклад является методологически строгим таким образом, что большинство внутренних инструментов инфраструктуры никогда не утруждают себя.
Совместная картина делает дело стоящим на уровне отрасли. Операционный уровень инфраструктуры ИИ является центром затрат размером со среднюю экономику. Работа по его решению происходила тихо внутри крупнейших компаний, доступная только их внутренним командам. Это меняется, отчасти благодаря работе таких операторов, как Бхат, чьи вклады охватывают внутренние производственные развертывания, внешнее обслуживание открытого кода и публикации научного уровня под его собственным именем.
Аргумент о том, что операционный уровень является следующим крупным рубежом маржи в инфраструктуре ИИ, на основе работы, которая была выпущена в прошлом году, трудно отвергнуть. Операторы кластеров в следующие два-три года должны будут решить, строить ли собственный ответ или принять один из открытых, которые теперь становятся доступными. Состав этого ответа изменит операционную маржу каждой команды, работающей с производственными рабочими нагрузками ИИ.
Другие статьи
Проблема инфраструктуры ИИ стоимостью 2 триллиона долларов, о которой никто не говорит, и инженер, решающий ее
Уровни простоя GPU выше 30%, количество сотрудников, работающих в операциях, увеличивается линейно с размером кластера, и нет видимости в повторяющиеся расходы. Разработка инфраструктуры ИИ имеет проблему с маржой, и решение начинает поставляться как открытый исходный код.
