Si vis pacem para bellum: Panne du cloud d'Amazon : explications et transparence ?

lundi 2 mai 2011

Panne du cloud d'Amazon : explications et transparence ?

Le 21 avril 2011, le Cloud connaissait probablement SON incident technique et historique le plus sérieux jusqu'à lors. La plateforme EC2 d'Amazon (Elastic Compute Cloud - l'offre de service "en nuage" d'Amazone) subissait une interruption de service de plusieurs heures. Puis de sérieux aléas techniques jusqu'au 25 avril. Ce qui représente un préjudice financier non-négligeable puisque ses clients à l'est des USA ont été touchés, clients d'envergure nationale et parfois internationale, qui offrent certains services web via EC2 (Quorra, Redit, Foursquare).

Pour autant, on peut s'interroger sur l'explication apportée : l'infrastructure de stockage des données repose sur ce qui s'appelle l'EBS (Elastic Block Store). Ce système permet de se créer une instance de travail sur un ou plusieurs volumes (disques). La solution est donnée comme novatrice et très sûre (snapshot personnalisable) : la preuve ! (je sais elle était facile :)

L'explication donnée est qu'une opération de maintenance a mal tourné : l'un des opérateurs (?) a détourné le trafic de l'une des sections géographiques (le Nord de la Virginie en l'occurrence) du réseau primaire de l'EBS vers un réseau de secours doté de moindres de capacités de traitement des flux de données (un routeur moins performant en fait). Et l'ensemble du réseau Est des USA de l'EC2 a subi de grandes perturbations avant que l'origine de la panne ne soit identifiée et résolue.

L'étonnement est grand de s'apercevoir que ce type de routage, d'une importance opérationnelle non-négligeable, ne dispose pas de garde-fous via l'IHM comme des messages d'avertissement voire des autorisations spécifiques de validation. C'est ce point qui m'intrigue et me fait planer en tête le fameux "1% de doute". Ou alors les concepteurs système sont gravement incompétents !

Quoiqu'il en soit, Amazon dédommagera ses clients lésés et aura eu le mérite de communiquer hier dans le détail (en anglais), avec une transparence quasi-didactique. Encore heureux cependant que l'on ait cette fois-ci eu affaire à une erreur humaine, pas à une malveillance ! Et de cela, je suis sûr à 100% !

Aucun commentaire:

Enregistrer un commentaire