Feedback sur l'interruption de service de jeudi 28/11
Ecrit par Jerome Granados le
Les services de GoodBarber et de WMaker ont été perturbés au cours de la journée du 28 novembre à cause d'un incident électrique. Cet incident s'est produit sur l'alimentation générale d'une baie située dans l'un des datacenter qui héberge une partie de notre infrastructure technique.
Le service a été momentanément interrompu, perturbant ainsi nos membres, et partiellement dégradé lors de la remise en service, mais aucune donnée n'a été perdue.
Cela fait maintenant plus de 24 heures que les services fonctionnement parfaitement et normalement. C'est le moment des explications, du bilan et des enseignements, que nous partageons avec vous dans cette note.
Le service a été momentanément interrompu, perturbant ainsi nos membres, et partiellement dégradé lors de la remise en service, mais aucune donnée n'a été perdue.
Cela fait maintenant plus de 24 heures que les services fonctionnement parfaitement et normalement. C'est le moment des explications, du bilan et des enseignements, que nous partageons avec vous dans cette note.
Détails des évènements
Hier matin, vers 8h30 heure de Paris, un défaut électrique sur l'alimentation d’une baie hébergeant une vingtaine de nos serveurs de calcul s'est produit. Cet incident est apparu sur un équipement d'alimentation électrique mis à notre disposition par notre hébergeur OVH, dans le cadre d'un de nos contrats d'hébergements dans un datacenter parisien.
Nous avons demandé en urgence au technicien OVH d'intervenir pour rétablir le courant dans la baie, ce qui nous a permis de remonter la totalité des services impacté (25% de notre installation) dans l'heure. A 9h30, tout était revenu dans l'ordre et les services fonctionnaient de nouveau normalement.
En première hypothèse, OVH a pensé que l'incident était consécutif à une problème survenu sur l'un de leur onduleurs, quasiment au même moment.
La panne a engendré une interruption de service. En revanche, aucune donnée n'a été perdue. Nous dupliquons les données plusieurs fois, de manière persistante et dans des lieux différents. Néanmoins, le service n’aurait pas dû s'interrompre totalement. Il l'a été car nous avons un service de gestion de session qui n'a pas basculé correctement sur une machine dans une autre baie. Si la bascule avait correctement fonctionné, nous aurions évité de downtime.
A 11h30 nous étions entrain de déplacer certains services dans une autre baie quand un second problème d'alimentation est survenu sur la première baie. Ce problème a de nouveau entraîné un downtime de 30 min. Dans l'urgence, le technicien d'OVH est ré-intervenu une nouvelle fois et à partir de 12h00, l'ensemble des services ont été rétabli.
Par précaution, deux membres de l'équipe se sont rendues physiquement dans le datacenter où nous avons la baie qui a été impactée par le problème électrique. Elles ont passé 6 heures sur place pour analyser in situ l'ensemble de notre matériel. Tous les équipements concernés ont moins d'un an, leur renouvellement se fait régulièrement en fonction des besoins. Nous avons pris la décision d'utiliser exclusivement du matériel HP, Cisco et APC, dont la fiabilité est éprouvée.
Ne constatant aucune anomalie sur notre matériel, nous avons convenu avec notre hébergeur qu'il procède au remplacement préventif de son équipement électrique qui alimente notre baie.
Une intervention conjointe avec notre hébergeur a eu lieu entre 19h et 21h pour remplacer cet équipement. Cela a pu provoquer des perturbations de très courte durée, sans interruption du service.
Notre équipe continue a monitorer de près le service mais plus aucune instabilité n'a été relevée depuis 24h, tout est de nouveau dans l'ordre.
Ce type de panne fait partie des scénarios les plus compliqués à gérer. Notre objectif est que notre architecture soit capable de tolérer ce type d'incidents et ce genre de situations sans interruption du service. C'est l'occasion pour nous de réévaluer, à froid, nos systèmes pour garder le service up même en cas de défaut d’alimentation sur 50% de l'architecture et éviter de futures situations semblables.
Nous avons demandé en urgence au technicien OVH d'intervenir pour rétablir le courant dans la baie, ce qui nous a permis de remonter la totalité des services impacté (25% de notre installation) dans l'heure. A 9h30, tout était revenu dans l'ordre et les services fonctionnaient de nouveau normalement.
En première hypothèse, OVH a pensé que l'incident était consécutif à une problème survenu sur l'un de leur onduleurs, quasiment au même moment.
La panne a engendré une interruption de service. En revanche, aucune donnée n'a été perdue. Nous dupliquons les données plusieurs fois, de manière persistante et dans des lieux différents. Néanmoins, le service n’aurait pas dû s'interrompre totalement. Il l'a été car nous avons un service de gestion de session qui n'a pas basculé correctement sur une machine dans une autre baie. Si la bascule avait correctement fonctionné, nous aurions évité de downtime.
A 11h30 nous étions entrain de déplacer certains services dans une autre baie quand un second problème d'alimentation est survenu sur la première baie. Ce problème a de nouveau entraîné un downtime de 30 min. Dans l'urgence, le technicien d'OVH est ré-intervenu une nouvelle fois et à partir de 12h00, l'ensemble des services ont été rétabli.
Par précaution, deux membres de l'équipe se sont rendues physiquement dans le datacenter où nous avons la baie qui a été impactée par le problème électrique. Elles ont passé 6 heures sur place pour analyser in situ l'ensemble de notre matériel. Tous les équipements concernés ont moins d'un an, leur renouvellement se fait régulièrement en fonction des besoins. Nous avons pris la décision d'utiliser exclusivement du matériel HP, Cisco et APC, dont la fiabilité est éprouvée.
Ne constatant aucune anomalie sur notre matériel, nous avons convenu avec notre hébergeur qu'il procède au remplacement préventif de son équipement électrique qui alimente notre baie.
Une intervention conjointe avec notre hébergeur a eu lieu entre 19h et 21h pour remplacer cet équipement. Cela a pu provoquer des perturbations de très courte durée, sans interruption du service.
Notre équipe continue a monitorer de près le service mais plus aucune instabilité n'a été relevée depuis 24h, tout est de nouveau dans l'ordre.
Ce type de panne fait partie des scénarios les plus compliqués à gérer. Notre objectif est que notre architecture soit capable de tolérer ce type d'incidents et ce genre de situations sans interruption du service. C'est l'occasion pour nous de réévaluer, à froid, nos systèmes pour garder le service up même en cas de défaut d’alimentation sur 50% de l'architecture et éviter de futures situations semblables.
POUR ALLER PLUS LOIN :
- A la recherche d'un titre plus positif ? Un nouveau vent latin souffle dans les couloirs de GoodBarber . Découvrez notre nouvelle collaboratrice, Laura ! En fonction au service marketing, notre nouvelle recrue saura mettre à votre disposition ses connaissances et son savoir-faire pour vous aider dans votre travail. Son parcours atypiques a fait rêver les grands enfants que nous sommes, alors un conseil: vous-aussi, découvrez son histoire !
- Tout comme trouver le titre d'un livre que l'on écrit, savoir quoi écrire en couverture de presse n'est pas toujours facile. Pourtant, faire la promotion de son travail en hors ligne est indispensable. Suivez notre conseil, consultez notre article promotion : les couvertures de presse , il vous apportera une préciseuse aide en fonction de vos questions.
- L'objet de vos recherches concerne les préjugés sur les applications natives ? C'est l'occasion pour vous de découvrir les 4 fausses vérités sur les applications natives . Tout est dans le titre ! Vous verrez que créer une app en ligne est en fait un jeu d'enfants.
- En fonction de vos paramétrages, GoodBarber propose à vos clients de payer en ligne directement via votre application, de différentes manières. Consultez notre titre GoodBarber Shopping App : monnaies et passerelles de paiement pour en savoir plus, vous verrez que c'est si simple que même les enfants peuvent le faire !
- Votre dossier d'entrepreneur est en cours mais vous vous demandez qui vient en premier : le business ou l'app ? Découvrez pourquoi la création d'app est un objet essentiel de la création d'entreprise, vous comprendrez ainsi qu'il est possible de lancer son business en ligne avant de lancer son commerce physique. Un conseil : n'hésitez plus, lancez-vous !