AWS столкнулся с отключением из-за перегрева на севере Вирджинии, что нарушило работу Coinbase

AWS столкнулся с отключением из-за перегрева на севере Вирджинии, что нарушило работу Coinbase

      Система охлаждения одного из дата-центров оказалась недостаточной. AWS перенаправила трафик из затронутой зоны и предупредила, что полное восстановление оставшихся услуг займет больше времени, чем ожидалось.

      Amazon Web Services заявила в четверг, что один из ее дата-центров в северной Вирджинии работал с такой высокой температурой, что это нарушало рабочие нагрузки клиентов, и что инженеры все еще восстанавливали сайт, когда большинство пользователей уже легли спать.

      Причина была банальной: повышенные температуры внутри одного дата-центра, вызванные недостатком системы охлаждения, заставили AWS ограничить и частично перенаправить трафик из затронутой зоны доступности.

      По словам компании, дополнительная мощность охлаждения начала поступать в работу через пару часов после первых отчетов о проблемах, и «первые признаки восстановления» появились вскоре после этого.

      💜 технологий ЕС Последние события на технологической сцене ЕС, история от нашего мудрого основателя Бориса и несколько сомнительных произведений ИИ. Это бесплатно, каждую неделю, в вашем почтовом ящике. Подпишитесь сейчас! Позднее обновление было менее обнадеживающим: ввод достаточного количества дополнительного охлаждения для безопасного перезапуска оставшихся систем заняло больше времени, чем ожидалось, и AWS не захотела устанавливать сроки полного восстановления.

      Coinbase подтвердила, что проблемы с ее торговой платформой были вызваны событием AWS. После нескольких часов ухудшения работы рынков биржа сообщила, что все рынки были повторно включены, и торговля вернулась к норме.

      CME Group, крупнейшая в мире площадка для торговли деривативами, также сообщила о проблемах с платформой CME Direct в тот же период, хотя и описала причину только как «необходимое обслуживание» и не уточнила, было ли событие AWS фактором. Обе компании отказались от дальнейших комментариев вне рабочего времени.

      Кластер северной Вирджинии, US-East-1 в терминологии AWS, является самым старым, загруженным и концентрированным регионом компании.

      Зона доступности в этом регионе объединяет один или несколько физических дата-центров, которые предназначены для независимой работы, и официальные рекомендации AWS во время восстановления были стандартными: клиенты, работающие в затронутой зоне, должны переключиться на одну из других. Это хорошо работает для инженерных команд, которые к этому подготовились. Это работает хуже для тех, кто этого не сделал.

      Шаблон становится знакомым. AWS испытала гораздо более крупный сбой в прошлом октябре, когда сбой разрешения DNS в DynamoDB вызвал каскадную реакцию более чем в ста сервисах и отключил платформы, начиная от Snapchat и Reddit до United Airlines и Coinbase. Это событие длилось примерно четырнадцать часов и стало крупнейшим интернет-сбоем с момента сбоя программного обеспечения CrowdStrike в 2024 году.

      Через месяц CME испытала один из своих самых длительных торговых сбоев за последние годы, который был связан с сбоем охлаждения в дата-центре CyrusOne в районе Чикаго.

      Повторение имеет значение. Сбои в системе охлаждения, ошибки конфигурации и сбои DNS — это разные технические события, но они имеют общий результат: одно физическое или логическое место становится узким местом для чрезмерной доли трафика, обращенного к общественности. Регион северной Вирджинии несет эту нагрузку больше по историческому совпадению, чем по замыслу.

      AWS запустила этот регион в 2006 году, и US-East-1 с тех пор накопил рабочие нагрузки, регуляторные зависимости и инерцию клиентов. Гипермасштаберы тратят десятки миллиардов на расширение других регионов, но концентрация клиентов в US-East-1 вряд ли быстро изменится.

      Воздействие Coinbase на облако находится в рамках более длинной линии. Сбой, вызванный Cloudflare, который отключил Coinbase и другие биржи в 2019 году, был другим режимом сбоя, но с тем же уроком, и это часть того, почему криптобиржи потратили годы на проектирование многоуровневого переключения.

      Инцидент в четверг демонстрирует, что даже с этой работой одно отключение теплой комнаты все еще вызывает волны на рынке, который должен быть открытым круглосуточно.

      Ситуация CME более деликатна. Рынки деривативов основаны на сложных маржинальных и клиринговых процессах, которые не деградируют плавно; сбой в часы пик в Азии, как это было в четверг, нарушает сроки клирингового цикла, которые перемещают деньги на следующее утро.

      Будет ли проблема CME напрямую связана с событием AWS, определит, как разговор о торговой устойчивости будет восприниматься регуляторами.

      AWS не оценивала количество затронутых рабочих нагрузок, и Amazon еще не сообщила, почему система охлаждения оказалась недостаточной, была ли проблема в оборудовании, окружающих условиях или их комбинации.

      Регион северной Вирджинии в течение последнего года поглощал волну новых мощностей для обучения и вывода ИИ, которые работают горячее и плотнее, чем традиционные облачные рабочие нагрузки; является ли это случайно актуальным для сбоя в четверг или существенно частью причины — это вопрос, который отчет после инцидента должен будет рассмотреть.

      Для большинства клиентов решение — это то, что AWS рекомендовала в своем первом обновлении: прекратить запуск всего в одной зоне доступности в одном регионе. Этот совет уже много лет находится на странице лучших практик архитектуры AWS. Каждый сбой такого рода увеличивает стоимость игнорирования этого совета.

Другие статьи

Носимые устройства — это не просто риски для конфиденциальности. Исследования предупреждают о их взломе как о угрозе «вымогательства для тела». Носимые устройства — это не просто риски для конфиденциальности. Исследования предупреждают о их взломе как о угрозе «вымогательства для тела». Устройства носимой электроники делают больше, чем просто отслеживают ваши шаги. Новое исследование предупреждает, что хакеры могут использовать их, чтобы причинить вам физический вред, манипулировать вашими эмоциями или полностью вымогать у вас деньги. MacBook Neo стал таким успешным продуктом для Apple, что вскоре он может порадовать вас повышением цены. MacBook Neo стал таким успешным продуктом для Apple, что вскоре он может порадовать вас повышением цены. Удвоение производства до 10 миллионов единиц требует новых чипов A18 Pro от TSMC по полной цене, а не отобранных браков, в то время как стоимость DRAM увеличивается на 57%, а мощность 3 нм становится ограниченной. AWS столкнулся с отключением из-за перегрева в северной Вирджинии, что нарушило работу Coinbase AWS столкнулся с отключением из-за перегрева в северной Вирджинии, что нарушило работу Coinbase Недостаток системы охлаждения в одном из дата-центров AWS на севере Вирджинии нарушил работу сервисов в четверг. AI DJ Spotify теперь говорит на французском, немецком, итальянском и бразильском португальском. AI DJ Spotify теперь говорит на французском, немецком, итальянском и бразильском португальском. Spotify только что выпустил расширение своей премиум функции AI DJ, которое обещает улучшить опыт пользователей в Европе и Бразилии.

AWS столкнулся с отключением из-за перегрева на севере Вирджинии, что нарушило работу Coinbase

Недостаток системы охлаждения в одном из дата-центров AWS в северной Вирджинии нарушил услуги в четверг.