AWS столкнулся с отключением из-за перегрева в северной Вирджинии, что нарушило работу Coinbase

AWS столкнулся с отключением из-за перегрева в северной Вирджинии, что нарушило работу Coinbase

      Система охлаждения одного из дата-центров оказалась недостаточной. AWS перенаправила трафик из затронутой зоны и предупредила, что полное восстановление оставшихся услуг займет больше времени, чем ожидалось.

      Amazon Web Services сообщила в четверг, что один из ее дата-центров в северной Вирджинии работал с такой высокой температурой, что это нарушило рабочие нагрузки клиентов, и что инженеры все еще восстанавливали работу сайта, когда большинство пользователей уже легли спать.

      Причина была прозаичной: повышенные температуры внутри одного дата-центра, вызванные недостатком системы охлаждения, заставили AWS ограничить и частично перенаправить трафик из затронутой зоны доступности.

      По словам компании, дополнительная мощность охлаждения начала поступать в работу через пару часов после первых отчетов о проблемах, и «первые признаки восстановления» появились вскоре после этого.

      💜 технологий ЕС Последние новости из технологической сцены ЕС, история от нашего мудрого основателя Бориса и немного сомнительного ИИ-арта. Это бесплатно, каждую неделю, в вашем почтовом ящике. Подпишитесь сейчас! Позднее обновление было менее обнадеживающим: обеспечение достаточного дополнительного охлаждения для безопасного перезапуска оставшихся систем заняло больше времени, чем ожидалось, и AWS не была готова установить срок полного восстановления.

      Coinbase подтвердила, что проблемы с ее торговой платформой были вызваны событием AWS. После нескольких часов ухудшения работы рынков биржа сообщила, что все рынки были повторно включены, и торговля вернулась в норму.

      CME Group, крупнейшая в мире площадка для производных финансовых инструментов, также сообщила о проблемах с платформой CME Direct в тот же период, хотя и описала причину только как «необходимое обслуживание» и не уточнила, было ли событие AWS фактором. Обе компании отказались от дальнейших комментариев вне рабочего времени.

      Кластер северной Вирджинии, US-East-1 в терминологии AWS, является самым старым, загруженным и концентрированным регионом компании.

      Зона доступности в этом регионе объединяет один или несколько физических дата-центров, которые предназначены для работы независимо, а официальные рекомендации AWS во время восстановления были стандартными: клиенты, работающие в затронутой зоне, должны переключиться на одну из других. Это хорошо работает для инженерных команд, которые к этому подготовились. Это работает хуже для тех, кто не подготовился.

      Ситуация становится знакомой. AWS пережила гораздо более крупный сбой в прошлом октябре, когда сбой разрешения DNS в DynamoDB вызвал каскадную реакцию более чем в ста сервисах и вывел из строя платформы, начиная от Snapchat и Reddit до United Airlines и Coinbase. Это событие длилось примерно четырнадцать часов и стало крупнейшим интернет-сбоем с момента сбоя программного обеспечения CrowdStrike в 2024 году.

      Через месяц CME пережила один из своих самых длительных торговых сбоев за последние годы, который был связан с отказом системы охлаждения в дата-центре CyrusOne в районе Чикаго.

      Повторение имеет значение. Отказы системы охлаждения, ошибки конфигурации и сбои DNS — это разные технические события, но они имеют общий результат: одно физическое или логическое место становится узким местом для чрезмерной доли трафика, обращенного к общественности. Регион северной Вирджинии несет эту нагрузку больше по историческому совпадению, чем по замыслу.

      AWS запустила этот регион в 2006 году, и US-East-1 с тех пор накопил рабочие нагрузки, регуляторные зависимости и инерцию клиентов. Гипермасштаберы тратят десятки миллиардов на расширение других регионов, но концентрация клиентов в US-East-1 вряд ли быстро изменится.

      Воздействие Coinbase на облако находится в рамках более длинной арки. Сбой, вызванный Cloudflare, который вывел из строя Coinbase и другие биржи в 2019 году, был другим режимом сбоя, но с тем же уроком, и это часть того, почему криптобиржи потратили годы на проектирование многоуровневого переключения.

      Инцидент в четверг демонстрирует, что даже с этой работой, отключение одной теплой комнаты все еще вызывает волны в рынке, который должен быть открыт круглосуточно.

      Ситуация CME более деликатна. Рынки производных финансовых инструментов располагаются на сложных маржинальных и клиринговых каналах, которые не деградируют плавно; сбой в часы пик в Азии, как это было в четверг, нарушает сроки клирингового цикла, которые перемещают деньги на следующее утро.

      Будет ли проблема CME напрямую связана с событием AWS, определит, как разговор о торговой устойчивости будет восприниматься регуляторами.

      AWS не оценивала количество затронутых рабочих нагрузок, и Amazon еще не сообщила, почему система охлаждения оказалась недостаточной, было ли это связано с оборудованием, окружающими условиями или их комбинацией.

      Регион северной Вирджинии в течение последнего года поглощал волну новых мощностей для обучения и вывода ИИ, которые работают с большей нагрузкой и плотностью, чем традиционные облачные рабочие нагрузки; является ли это случайно актуальным для сбоя в четверг или существенно частью причины — это вопрос, который необходимо будет рассмотреть в отчете после инцидента.

      Для большинства клиентов решение — это то, что AWS рекомендовала в своем первом обновлении: прекратить запуск всего в одной зоне доступности в одном регионе. Этот совет уже много лет находится на странице лучших практик архитектуры AWS. Каждый сбой такого рода увеличивает стоимость игнорирования этого совета.

Другие статьи

AWS столкнулся с отключением из-за перегрева на севере Вирджинии, что нарушило работу Coinbase AWS столкнулся с отключением из-за перегрева на севере Вирджинии, что нарушило работу Coinbase Недостаток системы охлаждения в одном из дата-центров AWS в северной Вирджинии нарушил услуги в четверг. AI DJ Spotify теперь говорит на французском, немецком, итальянском и бразильском португальском. AI DJ Spotify теперь говорит на французском, немецком, итальянском и бразильском португальском. Spotify только что выпустил расширение своей премиум функции AI DJ, которое обещает улучшить опыт пользователей в Европе и Бразилии. MacBook Neo стал таким успешным продуктом для Apple, что вскоре он может порадовать вас повышением цены. MacBook Neo стал таким успешным продуктом для Apple, что вскоре он может порадовать вас повышением цены. Удвоение производства до 10 миллионов единиц требует новых чипов A18 Pro от TSMC по полной цене, а не отобранных браков, в то время как стоимость DRAM увеличивается на 57%, а мощность 3 нм становится ограниченной. Носимые устройства — это не просто риски для конфиденциальности. Исследования предупреждают о их взломе как о угрозе «вымогательства для тела». Носимые устройства — это не просто риски для конфиденциальности. Исследования предупреждают о их взломе как о угрозе «вымогательства для тела». Устройства носимой электроники делают больше, чем просто отслеживают ваши шаги. Новое исследование предупреждает, что хакеры могут использовать их, чтобы причинить вам физический вред, манипулировать вашими эмоциями или полностью вымогать у вас деньги.

AWS столкнулся с отключением из-за перегрева в северной Вирджинии, что нарушило работу Coinbase

Недостаток системы охлаждения в одном из дата-центров AWS на севере Вирджинии нарушил работу сервисов в четверг.