Pour gérer vos consentements :
Categories: Cloud

Amazon Web Services : autopsie d’un pépin dans le cloud

A ses clients plus ou moins connus (Foursquare, Quora…), mais tous situés dans l’est des Etats-Unis, Amazon a donc présenté ses excuses et avait déjà expliqué techniquement le concours de circonstances qui a abouti aux pannes affectant le bon fonctionnement de ses services cloud EC2 dans un document de 25 pages.

Un crédit de dix jours d’utilisation est également offert à tous les clients qui sollicitaient les serveurs touchés par ces pannes. Ce sont les serveurs situés dans l’EBS (Elastic Block Stores) qui ont été touchés.

Les choses sont rentrées dans l’ordre dès le 24 avril, et le 25 avril, tout était à nouveau fonctionnel à presque 100%, même si certaines données ont été définitivement perdues.

Amazon profitera de l’incident pour en tirer des leçons et fiabiliser ses équipements. Mais on notera justement que l’élément déclencheur a été « une modification de la configuration du réseau » .

L’erreur est apparemment humaine et elle s’est traduite par une boucle sans fin : « a re-mirroring storm », littéralement une tempête liée à la réplication des données sur d’autres serveurs ou du moins à son impossibilité à le faire, d’où la boucle sans fin.

Cette erreur humaine serait intervenue lorsqu’il s’est agit de rediriger le trafic du réseau primaire qui était visé par une augmentation de sa capacité.

Le trafic ne l’a pas été vers un serveur redondant équivalent en capacité du réseau primaire, mais vers un réseau redondant de moindre capacité. S’en est suivie une impossibilité pour certains utilisateurs à accéder aux services.

En filigrane, c’est toute la question des services délocalisés dans le cloud qui se pose ou ne se pose pas, puisque tous les utilisateurs savent parfaitement que le risque 0 n’existe pas.

AWS garantit une disponibilité à 99.95% (SLA : Satisfaction Level Agreement) de ses niveaux de service d’Amazon EC2 pour chacune des régions Amazon EC2 (dont la région de l’est des Etats-Unis touchée cette fois-ci).

La redondance est là pour palier aux pannes mais Amazon se rend compte que l’erreur est presque systématiquement humaine que ce soit dans le cloud ou ailleurs et dans d’autres domaines.

De nouveaux garde-fous pourraient donc être mis en place pour vérifier que les commandes de redirection d’un serveur vers un autre dans le cloud ne restent pas lettre morte.

Recent Posts

Avec Phi-3-mini, Microsoft va-t-il convertir les PME à la GenAI ?

Microsoft lance Phi-3-mini, un petit modèle de langage (SLM) qui s'adresse aux entreprises ne disposant…

4 jours ago

IA et RGPD : sont-ils compatibles ?

Quelle part d’incertitude faut-il accepter dans la mise en conformité des IA avec le RGPD…

3 semaines ago

Windows 10 : quel coût pour le support étendu ?

Microsoft a dévoilé les prix des mises à jour de sécurité étendues pour Windows 10.…

4 semaines ago

Cybersécurité : la plan de Docaposte pour convaincre les PME

Docaposte a sélectionné une douzaine de spécialistes français pour créer un Pack cybersécurité spécialement étudié…

1 mois ago

Surface Pro 10 : plus autonome et un peu plus réparable

La Surface Pro 10 sera disponible le 9 avril en France. Passage en revue de…

1 mois ago

Office 2024 : ce qu’on sait de la prochaine version

Que réserve Office 2024 ? Une première version de test officielle sera disponible en avril.…

1 mois ago