AWS colpita da un'interruzione per surriscaldamento in Virginia del Nord, che ha interrotto Coinbase

AWS colpita da un'interruzione per surriscaldamento in Virginia del Nord, che ha interrotto Coinbase

      Un singolo sistema di raffreddamento di un data center è rimasto indietro. AWS ha spostato il traffico lontano dalla zona interessata e ha avvertito che il ripristino completo dei servizi rimanenti avrebbe richiesto più tempo del previsto. Amazon Web Services ha dichiarato giovedì che uno dei suoi data center nella Virginia settentrionale stava funzionando a temperature sufficientemente elevate da interrompere i carichi di lavoro dei clienti, e che gli ingegneri stavano ancora riportando il sito completamente online quando la maggior parte degli utenti era andata a letto per la notte. Il fattore scatenante era prosaico: temperature elevate all'interno di un singolo data center, attribuite a una carenza del sistema di raffreddamento, hanno costretto AWS a limitare e poi parzialmente reindirizzare il traffico lontano dalla Zona di Disponibilità interessata. Secondo il racconto dell'azienda, una capacità di raffreddamento aggiuntiva ha iniziato a essere attivata un paio d'ore dopo i primi rapporti di impatto, e "i primi segnali di recupero" sono apparsi poco dopo. Il 💜 della tecnologia dell'UE Gli ultimi rumori dalla scena tecnologica dell'UE, una storia del nostro saggio fondatore Boris e alcune opere d'arte AI discutibili. È gratuito, ogni settimana, nella tua casella di posta. Iscriviti ora! Un aggiornamento successivo è stato meno rassicurante: portare abbastanza raffreddamento extra per riavviare in sicurezza i sistemi rimanenti stava richiedendo più tempo del previsto, e AWS non era disposto a mettere un tempo sul ripristino completo. Coinbase ha confermato che i problemi della sua piattaforma di trading erano causati dall'evento AWS. Dopo diverse ore di mercati degradati, l'exchange ha dichiarato che tutti i mercati erano stati riattivati e il trading era tornato alla normalità. CME Group, il più grande mercato di derivati al mondo, ha anche segnalato problemi con la sua piattaforma CME Direct durante la stessa finestra, anche se ha descritto la causa solo come "manutenzione essenziale" e non ha detto se l'evento AWS fosse un fattore. Entrambe le aziende hanno rifiutato ulteriori commenti al di fuori dell'orario lavorativo. Il cluster della Virginia settentrionale, US-East-1 nella terminologia AWS, è la regione più antica, trafficata e concentrata dell'azienda. Una Zona di Disponibilità in quella regione raggruppa uno o più data center fisici progettati per operare in modo indipendente, e le linee guida ufficiali di AWS durante il recupero erano la raccomandazione standard: i clienti che operano nella zona interessata dovrebbero passare a una delle altre. Questo funziona bene per i team di ingegneria che si sono preparati per questo. Funziona meno bene per coloro che non lo hanno fatto. Il modello sta diventando familiare. AWS ha subito un'interruzione molto più grande lo scorso ottobre quando un guasto nella risoluzione DNS in DynamoDB si è propagato a più di cento servizi e ha disattivato piattaforme che vanno da Snapchat e Reddit a United Airlines e Coinbase. Quel evento è durato circa quattordici ore ed è stata la più grande interruzione a livello di internet dalla malfunzione del software CrowdStrike del 2024. Un mese dopo, CME ha subito una delle sue interruzioni di trading più lunghe in anni, risalente a un guasto del raffreddamento in un data center CyrusOne nell'area di Chicago. La ripetizione è importante. I guasti di raffreddamento, gli errori di configurazione e i malfunzionamenti DNS sono eventi tecnici diversi, ma condividono un risultato: un singolo sito fisico o logico diventa il collo di bottiglia per una quota sproporzionata di traffico rivolto al pubblico. La regione della Virginia settentrionale porta quel carico più per caso storico che per progettazione. AWS ha lanciato la regione nel 2006 e US-East-1 ha accumulato carichi di lavoro, dipendenze normative e inerzia dei clienti da allora. Gli hyperscalers stanno spendendo decine di miliardi per espandere altre regioni, ma la concentrazione dei clienti in US-East-1 è improbabile che cambi rapidamente. L'esposizione di Coinbase al cloud si inserisce all'interno di un arco più lungo. L'interruzione guidata da Cloudflare che ha bloccato Coinbase e altri exchange nel 2019 era un modo di guasto diverso, ma la stessa lezione, ed è parte del motivo per cui gli exchange di criptovalute hanno trascorso gli anni successivi a progettare per il failover multi-regione. L'incidente di giovedì dimostra che anche con quel lavoro, un singolo arresto in una sala calda si ripercuote ancora su un mercato che dovrebbe essere aperto 24 ore su 24. La situazione di CME è più delicata. I mercati dei derivati si trovano sopra complessi pipeline di margine e clearing che non degradano facilmente; un'interruzione durante le ore di punta in Asia, come quella di giovedì, colpisce le scadenze del ciclo di clearing che muovono denaro la mattina successiva. Se il problema di CME fosse direttamente legato all'evento AWS determinerà come la conversazione sulla resilienza del trading si svolgerà con i regolatori. AWS non ha stimato il numero di carichi di lavoro interessati, e Amazon non ha ancora detto perché il sistema di raffreddamento sia rimasto indietro, se il problema fosse di attrezzature, condizioni ambientali o una combinazione. La regione della Virginia settentrionale ha trascorso l'ultimo anno assorbendo un'ondata di nuova capacità di addestramento e inferenza AI, che funziona a temperature più elevate e densamente rispetto ai carichi di lavoro cloud tradizionali; se ciò sia incidentalmente rilevante per il guasto di giovedì o parte sostanziale della causa è la domanda a cui il rapporto post-incidente dovrà rispondere. Per la maggior parte dei clienti, la soluzione è quella raccomandata da AWS nel suo primo aggiornamento: smettere di eseguire tutto in una singola Zona di Disponibilità in una singola regione. Quel consiglio è presente nella pagina delle migliori pratiche architettoniche di AWS da anni. Ogni guasto di questo tipo aumenta il costo di averlo ignorato.

Altri articoli

AWS colpita da un'interruzione per surriscaldamento in Virginia del Nord, che ha interrotto Coinbase

Un'insufficienza del sistema di raffreddamento in un singolo data center AWS nel Virginia settentrionale ha interrotto i servizi giovedì.