Cloud

Aws ci spiega perché può capitare che il cloud si fermi

14 Dicembre 2021

Il 7 dicembre 2021 si è verificata un’interruzione dei servizi cloud di Amazon Web Services nella cloud region Northern Virginia (US-EAST-1): è la stessa Aws a spiegare cosa è successo.

Amazon ha infatti offerto pubblicamente delle informazioni su come si sia verificata tale interruzione.

Benché la maggior parte dei servizi e tutte le applicazioni dei clienti siano eseguite all’interno della rete principale di Amazon Web Services – ha spiegato l’azienda – Aws fa uso di una rete interna per ospitare servizi fondamentali.

Tra questi: il monitoraggio, il DNS interno, i servizi di autorizzazione e parti del control plane di EC2.

A causa dell’importanza di questi servizi, questa rete interna è connessa con più dispositivi di networking geograficamente isolati. Inoltre, Aws scala la capacità di questa rete in modo significativo per garantire l’alta disponibilità della connessione.

I dispositivi di networking forniscono ulteriore routing e network address translation che permettono ai servizi Aws di comunicare tra la rete interna e la rete principale di Amazon Web Services.

Alle 7:30 AM PST, un’attività automatizzata per scalare la capacità di uno dei servizi Aws ospitati nella rete principale di Amazon Web Services ha innescato un comportamento inaspettato da parte di un gran numero di client all’interno della rete interna.

Ciò ha portato a un grande picco di attività di connessione che ha sopraffatto i dispositivi di networking tra la rete interna e la rete principale Aws, con conseguenti ritardi nella comunicazione tra queste reti.

Tali ritardi hanno aumentato la latenza e gli errori per i servizi che comunicano tra queste reti, causando ancora più tentativi di connessione. Questo ha a sua volta portato a una congestione persistente e a problemi di prestazioni sui dispositivi che collegano le due reti.

La congestione ha avuto un impatto immediato sulla disponibilità di dati di monitoraggio in tempo reale per i team operativi interni di Aws, il che ha compromesso la loro capacità di trovare la fonte della congestione e risolverla.

Gli operatori – ha condiviso Amazon – si sono invece affidati ai log per capire cosa stava succedendo e inizialmente hanno identificato elevati errori DNS interni.

Poiché il DNS interno è fondamentale per tutti i servizi e si credeva che questo traffico contribuisse alla congestione, i team si sono concentrati sullo spostamento del traffico DNS interno dai percorsi di rete congestionati.

Alle 9:28 AM PST, il team ha completato questo lavoro e gli errori di risoluzione DNS sono stati completamente recuperati. Questo cambiamento ha migliorato la disponibilità di diversi servizi colpiti riducendo il carico sui dispositivi di rete, ma non ha risolto completamente l’impatto o eliminato la congestione.

Aws sottolinea che a quel punto i dati di monitoraggio non erano ancora visibili al team operativo, che ha quindi dovuto continuare a risolvere il problema con una visibilità ridotta del sistema.

Gli operatori hanno continuato a lavorare su una serie di azioni di rimedio per ridurre la congestione sulla rete interna, che è migliorata significativamente entro le 1:34 PM PST, e tutti i dispositivi di rete hanno recuperato completamente entro le 2:22 PM PST.

Amazon Web Services ha sottolineato di aver intrapreso diverse azioni per prevenire il ripetersi di questo evento.

L’azienda ha immediatamente disabilitato le attività di scaling che hanno innescato questo evento e non le ripristinerà finché non avrà implementato tutti i rimedi.

I sistemi sono scalati adeguatamente in modo che non ci sia bisogno di riprendere queste attività a breve termine.

Aws fa sapere che sta anche sviluppando alcune correzioni a un problema del codice dei client di rete che ha fatto sì che l’attività di scaling abbia innescato comportamenti precedentemente non osservati.

E ha anche implementato una configurazione di rete aggiuntiva che protegge i dispositivi di networking potenzialmente colpiti anche di fronte a un evento di congestione simile.

Secondo Amazon Web Services, questi rimedi danno la certezza che questo problema non si ripeterà.

La descrizione completa dell’interruzione e dell’impatto che essa ha avuto sui servizi cloud è consultabile sul sito di Aws.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter

LASCIA UN COMMENTO Cancella la risposta

Intelligenza artificiale

Qwen3.8-Max ha 2.400 miliardi di parametri e diventerà open weight

Il modello Astra di OpenAI ottiene dieci avanzamenti in matematica e informatica teorica

UniCredit, Accenture e IBM uniscono le forze per costruire la piattaforma bancaria europea di...

Trend

AI Gateway: perché le piattaforme AI hanno bisogno di un nuovo livello di controllo

Google DeepMind: il Nobel Demis Hassabis propone un organismo per valutare i modelli AI...

Forward Deployed Engineering, perché le big tech mandano gli ingegneri dentro le aziende