AWS afectado por una interrupción por sobrecalentamiento en el norte de Virginia, interrumpiendo Coinbase

AWS afectado por una interrupción por sobrecalentamiento en el norte de Virginia, interrumpiendo Coinbase

      Un solo sistema de refrigeración de un centro de datos se quedó atrás. AWS desvió el tráfico de la zona afectada y advirtió que restaurar completamente los servicios restantes tomaría más tiempo del esperado.

      Amazon Web Services dijo el jueves que uno de sus centros de datos en el norte de Virginia estaba funcionando a una temperatura lo suficientemente alta como para interrumpir las cargas de trabajo de los clientes, y que los ingenieros aún estaban llevando el sitio completamente en línea cuando la mayoría de los usuarios se había ido a la cama por la noche.

      El desencadenante fue prosaico: el aumento de las temperaturas dentro de un solo centro de datos, atribuido a una insuficiencia del sistema de refrigeración, obligó a AWS a limitar y luego redirigir parcialmente el tráfico fuera de la Zona de Disponibilidad afectada.

      Según la empresa, la capacidad de refrigeración adicional comenzó a estar disponible un par de horas después de los primeros informes de impacto, y aparecieron "primeros signos de recuperación" poco después.

      El 💜 de la tecnología de la UE Las últimas novedades de la escena tecnológica de la UE, una historia de nuestro sabio fundador Boris y un arte de IA cuestionable. Es gratis, cada semana, en tu bandeja de entrada. ¡Suscríbete ahora! Una actualización posterior fue menos tranquilizadora: traer suficiente refrigeración adicional para reiniciar de manera segura los sistemas restantes estaba tomando más tiempo del esperado, y AWS no estaba dispuesto a poner un reloj sobre la restauración completa.

      Coinbase confirmó que los problemas de su plataforma de trading fueron causados por el evento de AWS. Después de varias horas de mercados degradados, el intercambio dijo que todos los mercados habían sido reactivados y que el trading había vuelto a la normalidad.

      CME Group, el mercado de derivados más grande del mundo, también reportó problemas con su plataforma CME Direct durante la misma ventana, aunque describió la causa solo como "mantenimiento esencial" y no dijo si el evento de AWS fue un factor. Ambas compañías declinaron hacer más comentarios fuera del horario laboral.

      El clúster del norte de Virginia, US-East-1 en la terminología de AWS, es la región más antigua, ocupada y concentrada de la empresa.

      Una Zona de Disponibilidad en esa región agrupa uno o más centros de datos físicos que están diseñados para operar de manera independiente, y la guía oficial de AWS durante la recuperación fue la recomendación estándar: los clientes que operan en la zona afectada deberían cambiar a una de las otras. Eso funciona bien para los equipos de ingeniería que han construido para ello. Funciona menos bien para aquellos que no lo han hecho.

      El patrón se está volviendo familiar. AWS sufrió una interrupción mucho mayor el octubre pasado cuando una falla en la resolución de DNS en DynamoDB se propagó a más de cien servicios y desconectó plataformas que iban desde Snapchat y Reddit hasta United Airlines y Coinbase. Ese evento duró aproximadamente catorce horas y fue la mayor interrupción a nivel de internet desde el mal funcionamiento del software de CrowdStrike en 2024.

      Un mes después, CME sufrió una de sus interrupciones de trading más largas en años, rastreada hasta una falla de refrigeración en un centro de datos de CyrusOne en el área de Chicago.

      La repetición importa. Las fallas de refrigeración, los errores de configuración y los fallos de DNS son eventos técnicos diferentes, pero comparten un resultado: un solo sitio físico o lógico se convierte en el cuello de botella para una parte desproporcionada del tráfico de cara al público. La región del norte de Virginia lleva esa carga más por accidente histórico que por diseño.

      AWS lanzó la región en 2006 y US-East-1 ha acumulado cargas de trabajo, dependencias regulatorias e inercia de clientes desde entonces. Los hiperescaladores están gastando decenas de miles de millones para expandir otras regiones, pero la concentración de clientes en US-East-1 es poco probable que cambie rápidamente.

      La exposición de Coinbase a la nube se sitúa dentro de un arco más largo. La interrupción impulsada por Cloudflare que afectó a Coinbase y otros intercambios en 2019 fue un modo de falla diferente, pero la misma lección, y es parte de por qué los intercambios de criptomonedas han pasado los años desde entonces arquitectando para la conmutación por error en múltiples regiones.

      El incidente del jueves demuestra que incluso con ese trabajo, un solo cierre de sala caliente aún repercute en un mercado que se supone que debe estar abierto las 24 horas.

      La situación de CME es más delicada. Los mercados de derivados se basan en complejas tuberías de margen y compensación que no se degradan fácilmente; una interrupción en las horas pico de Asia, como la del jueves, afecta los plazos del ciclo de compensación que mueven dinero a la mañana siguiente.

      Si el problema de CME estuvo directamente relacionado con el evento de AWS determinará cómo se desarrolla la conversación sobre la resiliencia del trading con los reguladores.

      AWS no ha estimado la cantidad de cargas de trabajo afectadas, y Amazon aún no ha dicho por qué el sistema de refrigeración se quedó atrás, si el problema fue de equipo, condiciones ambientales o una combinación.

      La región del norte de Virginia ha pasado el último año absorbiendo una ola de nueva capacidad de entrenamiento e inferencia de IA, que funciona a temperaturas más altas y más densas que las cargas de trabajo de nube tradicionales; si eso es incidentalmente relevante para la falla del jueves o parte sustantiva de la causa es la pregunta que el informe posterior al incidente deberá abordar.

      Para la mayoría de los clientes, la solución es la que AWS recomendó en su primera actualización: dejar de ejecutar todo en una sola Zona de Disponibilidad en una sola región. Ese consejo ha estado en la propia página de mejores prácticas de arquitectura de AWS durante años. Cada falla de este tipo aumenta el costo de haberlo ignorado.

Otros artículos

AWS afectado por una interrupción por sobrecalentamiento en Virginia del Norte, interrumpiendo Coinbase AWS afectado por una interrupción por sobrecalentamiento en Virginia del Norte, interrumpiendo Coinbase Una falta de sistema de refrigeración en un solo centro de datos de AWS en el norte de Virginia interrumpió los servicios el jueves. MacBook Neo fue un gran éxito para Apple, por lo que podría pronto ofrecerte un aumento de precio. MacBook Neo fue un gran éxito para Apple, por lo que podría pronto ofrecerte un aumento de precio. Duplicar la producción a 10 millones de unidades requiere nuevos chips A18 Pro de TSMC al precio completo en lugar de rechazos seleccionados, mientras que los costos de DRAM aumentan un 57% y la capacidad de 3nm se ajusta. El increíblemente elegante ExpertBook Ultra de Asus llega a EE. UU. con un precio absolutamente desconcertante. El increíblemente elegante ExpertBook Ultra de Asus llega a EE. UU. con un precio absolutamente desconcertante. El Asus ExpertBook Ultra trae una pantalla OLED tándem de 14 pulgadas, potencia de la serie Intel Core Ultra 3 y seguridad empresarial a EE. UU. por un precio impresionante de $3,599.99. Lecciones de PR y medios del EU-Startups Summit 2026: qué funciona, qué no funciona Lecciones de PR y medios del EU-Startups Summit 2026: qué funciona, qué no funciona Los fundadores que buscan cobertura mediática en la cumbre EU-Startups de este año en La Valeta recibieron un briefing bastante directo de las personas que deciden qué se publica. Los dispositivos portátiles no son meros riesgos de privacidad. La investigación advierte sobre su piratería como una amenaza de “ransomware para el cuerpo”. Los dispositivos portátiles no son meros riesgos de privacidad. La investigación advierte sobre su piratería como una amenaza de “ransomware para el cuerpo”. Los dispositivos portátiles hacen más que rastrear tus pasos. Nuevas investigaciones advierten que los hackers podrían explotarlos para hacerte daño físico, manipular tus emociones o extorsionarte por completo. El DJ de IA de Spotify ahora habla francés, alemán, italiano y portugués brasileño. El DJ de IA de Spotify ahora habla francés, alemán, italiano y portugués brasileño. Spotify acaba de lanzar una expansión de su función de DJ de IA premium que promete mejorar la experiencia para los usuarios en Europa y Brasil.

AWS afectado por una interrupción por sobrecalentamiento en el norte de Virginia, interrumpiendo Coinbase

Una falla en el sistema de refrigeración en un solo centro de datos de AWS en el norte de Virginia interrumpió los servicios el jueves.