Gmail fournit des explications à la panne mondiale survenue mardi soir

Cloud

Une partie des routeurs du service Gmail a été trop sollicitée. L’impact de la surcharge s’est ressenti ensuite sur l’ensemble du réseau, entraînant une inaccessibilité du webmail de Google.

Gmail a connu une nouvelle interruption de service dans la soirée de mardi 1er septembre selon des constats effectués vers 22h00 en France.

La panne, qui a affecté une grande partie des utilisateurs monde du service webmail de Google, aurait duré environ deux heures.

Dans une contribution sur un blog officiel de Gmail, Ben Treynor, qui occupe de le poste de Vice-President en charge de l’Engineering (et « Site Reliability Czar » s’il vous plaît) chez Google, estime que le service de messagerie électronique a été altéré pendant 100 minutes.

« La panne du jour est un ‘Big Deal’ et nous la traitons comme tel », explique le représentant de Google, tout en prenant le soin de présenter ses excuses à la communauté des utilisateurs Gmail.

Selon les explications fournies par Ben Treynor, la panne proviendrait de la sous-estimation de la charge constatée sur des serveurs routeurs assurant le lien entre les requêtes des utilisateurs de Gmail et les serveurs adéquats.

« Une petite fraction des serveurs Gmaill est tombée vers 12h30 (Pacific Time) au cours d’une opération de routine d’upgrade », a constaté l’équipe de maintenance en charge du webmail.

La surcharge a été transférée vers les autres serveurs qui restaient disponibles. Mais, en quelques minutes, c’est l’ensemble du réseau de routeurs qui s’est retrouvé encombré. D’où l’inaccessibilité du service Gmail par ses utilisateurs.

Néanmoins, les accès IMAP et POP, qui permet de faire la jonction entre Gmail et les clients de messagerie comme Microsoft Outlook, n’auraient pas été affectés (les routeurs sont différents).

Flexibilité du réseau

Du coup, l’équipe de maintenance de Gmail a choisi de rajouter des routeurs de requêtes pour revenir à un niveau de service convenable. « Les capacités de flexibilité de l’architecture du réseau Google le permettent », assure Ben Treynor.

Tout en précisant qu’il faudra améliorer les process d’isolation des routeurs en cas de défaillance pour éviter que les soucis ne se propagent pas dans les autres data centers et d’empêcher la grosse panne.

Des gros pépins techniques de Gmail avaient également été recensés en mai et en février. Il est possible de suivre le niveau d’accessibilité des services Google à partir de tableaux de bord (Apps Status Dashboards) que le groupe Internet met à disposition des utilisateurs.

Lire aussi :