Partial down
Incident Report for blgCloud
Postmortem

Vers 9h30, nos services sont devenus partiellement inaccessibles suite à un incident sur l’un de nos serveurs.

Un serveur du cluster a rencontré des soucis de réseau et ne pouvait plus communiquer avec les services des autres serveurs. Après plusieurs tentatives pour remettre le service en marche, le serveur a été complètement redémarré à 9h45, les services sont alors repartis.

Le problème était lié à une limitation de l’agent de notification du système de fichier, provoquant des erreurs dans le module de gestion des conteneurs qui, une fois la limite modifiée, n’a pas pu reprendre un fonctionnement normal sans un redémarrage.Cette limite est à présent relevée pour tous nos serveurs, celà ne devrait pas se reproduire.

Une partie des clients a été touchée (ceux qui avaient leur processus api ou base de données sur le node7), il n’y a eu aucun impact pour les autres.

Rétablissement total du service à 10h00

Posted Jul 03, 2023 - 08:03 UTC

Resolved
This incident has been resolved.
Posted Jun 30, 2023 - 07:08 UTC