La legge di Murphy colpisce ancora: post-mortem di un black-out di Amazon
La Legge di Murphy, la conosciamo tutti, recita che se qualcosa può andar storto lo farà: mai affermazione potrebbe essere più vera nel caso del recente black-out su una porzione del cloud Amazon.
Premetto che non provo alcun piacere nel parlare dei problemi degli altri, anzi, ai tecnici di Amazon va tutta la mia stima.
Mi sembra tuttavia interessante riportare le ragioni tecniche del down perchè evidenziano come qualsiasi sistema, per quanto sicuro, non è infallibile: neppure il cloud.
Anatomia di un black-out
Da premettere che Amazon protegge i propri datacenter con tre (3) sistemi elettrici in ridondanza fra di loro. Un primario, un backup ed un backup secondario.
Stante questo fatto, la probabilità di un down elettrico dovrebbe essere remota, eppure è proprio quello che è successo ad uno dei datacenter della “zona di availability” US Est.
In pratica, a seguito di un problema elettrico che ha impattato un’alimentazione primaria, si sono attivati i generatori di backup: fin qui tutto bene.
Sfortunatamente, uno dei generatori ha avuto problemi di raffreddamento, si è surriscaldato e si è spento: e fin qui uno penserebbe “ok, c’è il dispositivo di alimentazione di backup secondario!”.
Ma, sfortunatamente, uno dei breaker dell’alimentazione di backup secondaria era stato configurato male e ha interrotto il circuito.
Oops! E due ore di down!
Di buono c’è che Amazon è strutturata per consentire alle varie istanze di essere ridondate fra più availability zones e che i clienti che avevano optato per questa configurazione non si sono praticamente accorti del problema. Tutti gli altri, invece, hanno dovuto pazientare.
La morale è che non esiste un datacenter oppure un cloud infallibile. Sia che tu scegli di effettuare il tuo hosting in Italia che all’estero, su un server dedicato oppure su di un cloud pubblico, i problemi prima o poi ci sono.
Cose di questo tipo, perquanto rare, possono capitare a qualsiasi datacenter.
Se pensi che questa o quella soluzione sia inerentemente più sicura, ti stai soltanto facendo delle pie illusioni. L’unica sicurezza la puoi costruire a livello applicativo, se strutturi correttamente la tua applicazione web per la ridondanza multi sito e questo a prescindere dal fornitore oppure dai fornitori di hosting dedicato.
