Partial down
Incident Report for blgCloud
Postmortem

Il y a eu un problème électrique chez OVH, qui a coupé l'alimentation en énergie sur des baies entières.
Le problème se situait sur des barres conductrices dans une armoire électrique. Ce composant n'est pas redondé car passif (il ne s'agit que de conducteurs). Côté blg, le stockage de données se fait sur des NAS redondés 3 fois (3 serveurs différents avec une réplication de données).
Ce système nous permet de gérer sans impact / avec un rapide temps de bascule la perte d'un serveur, et peut aussi fonctionner avec une remise en route manuelle en cas de perte de deux serveurs sur les 3.Malheureusement, le problème technique OVH a impacté ces 3 machines, impactant les instances dont les données étaient stockées dessus.Si le problème avait perduré, nous aurions restauré des sauvegardes sur d'autres clusters.Une fois l'alimentation électrique rétablie par OVH, vers 21h40, les services impactés ont redémarré sans encombre.Informations publiques OVH : https://network.status-ovhcloud.com/incidents/8mq79l7wcx8p

Point d'amélioration :

  • Nous avons eu très peu de détails de la part d'OVH sur le problème, nous leur avons remonté notre mécontentement à ce sujet. Avoir une information plus rapidement sur l'origine du problème - et donc sur le délai de remise en service - aurait impacté nos prises de décision (nous aurions proposé la restauration de sauvegardes pour ne pas attendre la remise en route).
  • La grappe de serveur impactée se situe dans la même pièce chez OVH, nous allons voir pour déplacer l'une de ces 3 machines, pour limiter les risques en cas de problèmes électriques localisés.
Posted Sep 11, 2024 - 10:51 UTC

Resolved
Le problème, d'origine éclectique, a été résolu par OVH.
Les services affectés sont de nouveau opérationnels.
https://network.status-ovhcloud.com/incidents/8mq79l7wcx8p
Posted Sep 10, 2024 - 19:58 UTC
Identified
Certaines de nos instances sont inaccessibles suite à un incident sur l'infrastructure de notre hébergeur.
Le problème est identifié et en cours de résolution.
https://network.status-ovhcloud.com/incidents/8mq79l7wcx8p
Posted Sep 10, 2024 - 12:40 UTC
This incident affected: Instances (API, Document generation, Web app, Mobile app).