AWS столкнулся с отключением из-за перегрева в северной Вирджинии, что нарушило работу Coinbase
Система охлаждения одного из дата-центров оказалась недостаточной. AWS перенаправила трафик из затронутой зоны и предупредила, что полное восстановление оставшихся услуг займет больше времени, чем ожидалось.
Amazon Web Services сообщила в четверг, что один из ее дата-центров в северной Вирджинии работал с такой высокой температурой, что это нарушило рабочие нагрузки клиентов, и что инженеры все еще восстанавливали работу сайта, когда большинство пользователей уже легли спать.
Причина была прозаичной: повышенные температуры внутри одного дата-центра, вызванные недостатком системы охлаждения, заставили AWS ограничить и частично перенаправить трафик из затронутой зоны доступности.
По словам компании, дополнительная мощность охлаждения начала поступать в работу через пару часов после первых отчетов о проблемах, и «первые признаки восстановления» появились вскоре после этого.
💜 технологий ЕС Последние новости из технологической сцены ЕС, история от нашего мудрого основателя Бориса и немного сомнительного ИИ-арта. Это бесплатно, каждую неделю, в вашем почтовом ящике. Подпишитесь сейчас! Позднее обновление было менее обнадеживающим: обеспечение достаточного дополнительного охлаждения для безопасного перезапуска оставшихся систем заняло больше времени, чем ожидалось, и AWS не была готова установить срок полного восстановления.
Coinbase подтвердила, что проблемы с ее торговой платформой были вызваны событием AWS. После нескольких часов ухудшения работы рынков биржа сообщила, что все рынки были повторно включены, и торговля вернулась в норму.
CME Group, крупнейшая в мире площадка для производных финансовых инструментов, также сообщила о проблемах с платформой CME Direct в тот же период, хотя и описала причину только как «необходимое обслуживание» и не уточнила, было ли событие AWS фактором. Обе компании отказались от дальнейших комментариев вне рабочего времени.
Кластер северной Вирджинии, US-East-1 в терминологии AWS, является самым старым, загруженным и концентрированным регионом компании.
Зона доступности в этом регионе объединяет один или несколько физических дата-центров, которые предназначены для работы независимо, а официальные рекомендации AWS во время восстановления были стандартными: клиенты, работающие в затронутой зоне, должны переключиться на одну из других. Это хорошо работает для инженерных команд, которые к этому подготовились. Это работает хуже для тех, кто не подготовился.
Ситуация становится знакомой. AWS пережила гораздо более крупный сбой в прошлом октябре, когда сбой разрешения DNS в DynamoDB вызвал каскадную реакцию более чем в ста сервисах и вывел из строя платформы, начиная от Snapchat и Reddit до United Airlines и Coinbase. Это событие длилось примерно четырнадцать часов и стало крупнейшим интернет-сбоем с момента сбоя программного обеспечения CrowdStrike в 2024 году.
Через месяц CME пережила один из своих самых длительных торговых сбоев за последние годы, который был связан с отказом системы охлаждения в дата-центре CyrusOne в районе Чикаго.
Повторение имеет значение. Отказы системы охлаждения, ошибки конфигурации и сбои DNS — это разные технические события, но они имеют общий результат: одно физическое или логическое место становится узким местом для чрезмерной доли трафика, обращенного к общественности. Регион северной Вирджинии несет эту нагрузку больше по историческому совпадению, чем по замыслу.
AWS запустила этот регион в 2006 году, и US-East-1 с тех пор накопил рабочие нагрузки, регуляторные зависимости и инерцию клиентов. Гипермасштаберы тратят десятки миллиардов на расширение других регионов, но концентрация клиентов в US-East-1 вряд ли быстро изменится.
Воздействие Coinbase на облако находится в рамках более длинной арки. Сбой, вызванный Cloudflare, который вывел из строя Coinbase и другие биржи в 2019 году, был другим режимом сбоя, но с тем же уроком, и это часть того, почему криптобиржи потратили годы на проектирование многоуровневого переключения.
Инцидент в четверг демонстрирует, что даже с этой работой, отключение одной теплой комнаты все еще вызывает волны в рынке, который должен быть открыт круглосуточно.
Ситуация CME более деликатна. Рынки производных финансовых инструментов располагаются на сложных маржинальных и клиринговых каналах, которые не деградируют плавно; сбой в часы пик в Азии, как это было в четверг, нарушает сроки клирингового цикла, которые перемещают деньги на следующее утро.
Будет ли проблема CME напрямую связана с событием AWS, определит, как разговор о торговой устойчивости будет восприниматься регуляторами.
AWS не оценивала количество затронутых рабочих нагрузок, и Amazon еще не сообщила, почему система охлаждения оказалась недостаточной, было ли это связано с оборудованием, окружающими условиями или их комбинацией.
Регион северной Вирджинии в течение последнего года поглощал волну новых мощностей для обучения и вывода ИИ, которые работают с большей нагрузкой и плотностью, чем традиционные облачные рабочие нагрузки; является ли это случайно актуальным для сбоя в четверг или существенно частью причины — это вопрос, который необходимо будет рассмотреть в отчете после инцидента.
Для большинства клиентов решение — это то, что AWS рекомендовала в своем первом обновлении: прекратить запуск всего в одной зоне доступности в одном регионе. Этот совет уже много лет находится на странице лучших практик архитектуры AWS. Каждый сбой такого рода увеличивает стоимость игнорирования этого совета.
Другие статьи
AWS столкнулся с отключением из-за перегрева в северной Вирджинии, что нарушило работу Coinbase
Недостаток системы охлаждения в одном из дата-центров AWS на севере Вирджинии нарушил работу сервисов в четверг.
