Monitoring simplicité

fabrice · October 8, 2019, 5:21am

Bonjour,

Nous souhaitons mettre en place un monitoring (au niveau des logs) Simplicité - Nagios. Avez-vous des conseils et/ou des retours d’expérience qui pourraient nous aider?

Merci d’avance.

Fabrice

david · October 8, 2019, 7:50am

Ça dépend, quel est la nature et les objectifs de la supervision que vous souhaitez effectuer ?

fabrice · October 8, 2019, 9:29am

L’idée serait de remonter les logs “error” en temps réel.

Francois · October 8, 2019, 9:48am

Quand on parle d’erreur c’est risqué de “tout” remonter, car il y a des erreurs “normales” car applicative, je pense que vous parlez d’erreur FATAL = pb grave qui indique que la plateforme ne fonctionne plus.

Les logs sont émises via un appender Log4j standard

vous pouvez ajouter votre propre appender dans la config tomcat dédié à Nagios, il doit exister un NagiosAppender
ou alors Nagios peut scanner le repertoire des logs tomcat (catalina) ou simplicité, en prenant garde de ne pas polluer les performances de la machine avec un polling à distance couteux.

Pour monitorer la plateforme en niveau 1), il faut donc plutôt exploiter le health check qui remonte des infos sur la santé de la plateforme. Analyser les logs internes de tomcat et simplicité est plus complexe et demandera toujours votre/notre analyse en niveau 2/3.

La supervision est donc la suivante :

Niveau 1) GET /health doit répondre 200 sinon c’est qu’il y a problème à regarder sur l’infra (base de données HS…) voir en support niveau 2) si pb applicatif
Niveau 2) analyse des logs par la MOE = pb applicatif
Niveau 3) support éditeur si ce n’est pas un pb applicatif ou d’infra = pb du moteur Simplicité

david · October 8, 2019, 10:12am

Sachant que certaines erreur système graves (out of memory, file system full, base de données inaccessible, etc.) induisent en général une “avalanche” d’erreurs plateforme et/ou applicative sans forcément de lien visible avec la cause primaire (la saturation de la mémoire ou du disque par exemple).

Superviser le health check comme le recommande @Francois est une manière de mettre en place une supervision prédictive de ce genre de dérives système fatales. En effet le health check remonte entre autres la consommation mémoire actuelle de l’instance, la place sur disque, la connectivité à la base de données, etc.), il est alors possible d’anticiper des dérives (ex: mémoire utilisée > 90%) avant qu’elles n’aies des conséquences plus graves.

Dans ce doc https://docs.simplicite.io/documentation/90-operation/tomcat-operation.md il y a quelques infos sur la manière de superviser le health check

Superviser les logs Tomcat et/ou Simplicité c’est juste constater les incidents une fois que ceux-ci se sont produits pour réagir au plus vite.