Monitoring simplicité

Bonjour,

Nous souhaitons mettre en place un monitoring (au niveau des logs) Simplicité - Nagios. Avez-vous des conseils et/ou des retours d’expérience qui pourraient nous aider?

Merci d’avance.

Fabrice

Ça dépend, quel est la nature et les objectifs de la supervision que vous souhaitez effectuer ?

L’idée serait de remonter les logs “error” en temps réel.

Quand on parle d’erreur c’est risqué de “tout” remonter, car il y a des erreurs “normales” car applicative, je pense que vous parlez d’erreur FATAL = pb grave qui indique que la plateforme ne fonctionne plus.

Les logs sont émises via un appender Log4j standard

  • vous pouvez ajouter votre propre appender dans la config tomcat dédié à Nagios, il doit exister un NagiosAppender
  • ou alors Nagios peut scanner le repertoire des logs tomcat (catalina) ou simplicité, en prenant garde de ne pas polluer les performances de la machine avec un polling à distance couteux.

Pour monitorer la plateforme en niveau 1), il faut donc plutôt exploiter le health check qui remonte des infos sur la santé de la plateforme. Analyser les logs internes de tomcat et simplicité est plus complexe et demandera toujours votre/notre analyse en niveau 2/3.

La supervision est donc la suivante :

  • Niveau 1) GET /health doit répondre 200 sinon c’est qu’il y a problème à regarder sur l’infra (base de données HS…) voir en support niveau 2) si pb applicatif
  • Niveau 2) analyse des logs par la MOE = pb applicatif
  • Niveau 3) support éditeur si ce n’est pas un pb applicatif ou d’infra = pb du moteur Simplicité
1 Like

Sachant que certaines erreur système graves (out of memory, file system full, base de données inaccessible, etc.) induisent en général une “avalanche” d’erreurs plateforme et/ou applicative sans forcément de lien visible avec la cause primaire (la saturation de la mémoire ou du disque par exemple).

Superviser le health check comme le recommande @Francois est une manière de mettre en place une supervision prédictive de ce genre de dérives système fatales. En effet le health check remonte entre autres la consommation mémoire actuelle de l’instance, la place sur disque, la connectivité à la base de données, etc.), il est alors possible d’anticiper des dérives (ex: mémoire utilisée > 90%) avant qu’elles n’aies des conséquences plus graves.

Dans ce doc https://docs.simplicite.io/documentation/90-operation/tomcat-operation.md il y a quelques infos sur la manière de superviser le health check

Superviser les logs Tomcat et/ou Simplicité c’est juste constater les incidents une fois que ceux-ci se sont produits pour réagir au plus vite.