L’année bissextile fait planter Windows Azure dans le monde entier

Cloud

Hier (29 février), les services cloud de Microsoft ont connu une panne au niveau mondial. Cedexis (« aiguilleur du Net ») considère que l’incident est clos, graphe à l’appui.

Le 29 février, Windows Azure de Microsoft a connu une panne mondiale sur la gestion des services cloud.

« Nous avons rencontré un problème avec la gestion du service Windows Azure. Les clients ne seront pas en mesure d’effectuer des opérations de gestion des services. »

De nombreux sites web et services hébergés sur Azure sont tombés toute la journée, avant d’être en grande partie restaurés en fin de journée .

Le problème n’a été totalement résolu que ce matin.

Selon Bill Laing, vice-Président « serveurs et cloud » de Microsoft, la cause de la panne est un bug logiciel :

« Bien que la cause finale ne soit pas connue et est en cours d’analyse, le problème semble venir d’un calcul de date incorrect en raison de l’année 2012 qui est bissextile. »

La panne aurait débuté à 1 heure 45 GMT. À 5 heures GMT, Microsoft aurait pris les mesures nécessaires pour bloquer la panne et éviter qu’elle ne « se propage à travers l’environnement de production« .

Elle n’aurait affecté que 3,8% des services hébergés sur Azure, selon Microsoft, mais ce chiffre n’a pu être validé, car le phénomène pourrait bien avoir pris une ampleur non maîtrisée.

En effet, si les services touchés sont officiellement peu nombreux, la panne a quand même affecté et ralenti le trafic sur et vers Azure, en particulier aux États-Unis et dans le nord de l’Europe. Ce que Microsoft a confirmé à 10 heures 55 GMT.

Par ailleurs, plusieurs services ont également rencontré des problèmes de disponibilité dans six régions du monde – réparties entre l’Amérique du Nord, l’Asie et l’Europe – dont SQL Azure Data Sync, Access Control 2.0, Azure Reporting, Azure Marketplace et Azure Service Bus.

À 13 heures 30 GMT, Microsoft confirmait être « toujours en dépannage« , mais le déploiement d’un correctif avait déjà permis de restaurer le service pour « la majorité des clients« .

Et à 19 heures 30 GMT, Microsoft indiquait s’être lancé dans la récupération des services affectés, déclarant que « de plus en plus d’applications de clients devraient être sauvegardées et s’exécuter, même si les fonctionnalités de gestion n’ont pas encore été restaurées« .

Ce matin, alors que la panne s’est prolongée tard dans la nuit, le service était enfin presque entièrement dans le vert sur le tableau de bord d’Azure.

Microsoft n’est pas le seul à rencontrer des problèmes avec son cloud.

Amazon Web Service a déjà affiché en plusieurs occasions des indisponibilités sérieuses, dernière en date en aout 2011 suite à un orage à Dublin.

Mais la stratégie d’AWS et ses engagements contractuels ne sont pas les mêmes, rappelle Silicon.fr.

Et le volume des clients serait mieux installés chez Amazon que sur Microsoft.

Logo : © James Thew – Fotolia.com

 Le point sur Azure avec Cedexis, « l’aiguilleur du Net »
Cedexis nous transmis un graphe disponible ci-dessous et un court commentaire sur l’état du réseau Azure jeudi matin. « Nous voyons que sur 24h, plusieurs des régions Azure ont été touchés par un incident ce qui conduit à une baisse immédiate et significative de la disponibilité des services entrainant des répercussions pour les utilisateurs de ce Cloud. Ce nouvel incident démontre qu’il est judicieux pour les DSI de mettre en place des stratégies dites de multi-sourcing (usage de multiples prestataires) pour bypasser ce genre d’incident, qui plus est lorsqu’il est d’une telle ampleur. Le graphique issu de notre outil “Radar” permet de visualiser en temps réel l’état de l’incident. Ce matin vers 09h (heure de Paris), nous pouvions constater que les services Azure étaient remontés. » Dans le status « dashboard » de Azure, il y a encore un petit message sur deux zones aux Etats-Unis. Mais on peut considérer que l’incident est clos.

 

 

 


Lire aussi :