Système de monitoring pour l'infrastructure

  • Initiateur de la discussion Valfunde
  • Date de début
  • Initiateur de la discussion
  • #1
Valfunde

Valfunde

Helpeur Divin
Messages
4 301
Score réaction
1 389
Points
450
Salut,

Je propose d'ajouter un système de monitoring pour les différentes machines, etc... Comme ça si il y a un pb sur un serveur, on peut voir d'où vient la panne et être au courant de l'avancée.

Il y a un système qui est dispo pour cette fonctionnalitée : https://systemstatus.fr/
 
Yoh Sambre ♪

Yoh Sambre ♪

Shaman Fou
Messages
15 547
Score réaction
10 026
Points
1 840
Mhum il me semble que cela est déjà présent non ?

@Snk
 
  • Initiateur de la discussion
  • #3
Valfunde

Valfunde

Helpeur Divin
Messages
4 301
Score réaction
1 389
Points
450
Yoh Sambre ♪ à dit:
Mhum il me semble que cela est déjà présent non ?

@Snk
J'ai jamais vu ^^
 
Snk

Snk

El Dictator
Membre du Staff
Messages
4 391
Score réaction
2 934
Points
790
On a ça en interne, c'est notre boulot d'avoir ces informations et de les traiter. On va éviter de vous embrouiller l'esprit avec ça, c'est d'ailleurs pas l'objectif d'un système simple. On vous a déjà mis le CPU / RAM / FPS niveau panel pour le monitoring individuel pour que vous ayez de quoi faire ^^
 
Yoh Sambre ♪

Yoh Sambre ♪

Shaman Fou
Messages
15 547
Score réaction
10 026
Points
1 840
Entre les logs et les compléments ( cité plus haut ) j'ai du mal a voir de toute manière ce qu'un joueur fonda lambda ferait de ce que mtx garde en interne..dans tous les cas il faut contacté le support en cas de problèmes :p
 
Taink

Taink

El Magnifico
Messages
5 919
Score réaction
3 205
Points
965
Yoh Sambre ♪ à dit:
Entre les logs et les compléments ( cité plus haut ) j'ai du mal a voir de toute manière ce qu'un joueur fonda lambda ferait de ce que mtx garde en interne..dans tous les cas il faut contacté le support en cas de problèmes :p
Ouais si besoin de plus d'infos tu demande au support.
Puis clairement le but d'mtx c'est de pas t'embêter avec le cambouis, t'as plus une boîte opaque dont t'as pas à savoir le fonctionnement.
 
  • Initiateur de la discussion
  • #9
Valfunde

Valfunde

Helpeur Divin
Messages
4 301
Score réaction
1 389
Points
450
D'accord je vois, C'est dommage pour les curieux :p
 
Snk

Snk

El Dictator
Membre du Staff
Messages
4 391
Score réaction
2 934
Points
790
C'est quoi qui vous ferait plaisir ? :D
 
  • Initiateur de la discussion
  • #12
Valfunde

Valfunde

Helpeur Divin
Messages
4 301
Score réaction
1 389
Points
450
Ou au moins voir l'avancée des travaux, on peut créer des incidents avec le cms par exemple et voir les incidents règlés etc... Ça peut etre sympa de voir les pbs des machines :)
 
Snk

Snk

El Dictator
Membre du Staff
Messages
4 391
Score réaction
2 934
Points
790
FalkioGMR à dit:
Voir plus de détails sur nos serveurs comme l'a proposé @Valfunde la disponibilité etc... pour pouvoir gérer mieux ses services sans forcément vous faire appel via le support
Il vous faudrait quoi de + que nombre de joueurs / % CPU / quantité RAM (pour Minecraft) / FPS (pour les jeux Steam) ? C'est ça que je comprends pas trop, à moins que vous parliez du monitoring global machine par machine mais ça c'est autre chose :|

Valfunde à dit:
Ou au moins voir l'avancée des travaux, on peut créer des incidents avec le cms par exemple et voir les incidents règlés etc... Ça peut etre sympa de voir les pbs des machines :)
On a eu un portail travaux fût une époque lointaine mais les gens ne le regardaient pas vraiment non plus. Si ça pouvait éviter des tickets support "inutiles" lorsqu'il y a un incident un peu global (ex : bug d'une machine) pourquoi pas mais dans les faits c'était kif-kif.

Aussi ce qu'il faut comprendre c'est que des problèmes nets ou des machines qui partent en freestyle, c'est relativement rare. Mais avec le nombre de machines qu'on a ça peut faire du nombre en incidents (aussi minimes soient-ils), ça pourrait une psychose en mode "oh la la tous ces bugs omg !"

Et puis il faut garder à l'esprit que 99% des gens ne comprennent rien aux données de monitoring ou de disponibilité, tout ce que veut savoir un client qui a un souci, c'est si ça vient de lui ou de nous. Bon évidemment dans la majorité des cas on y est strictement pour rien, d'ailleurs vous seriez étonnés du nombres de tweaks custom qu'on a en place pour corriger les innombrables erreurs de configuration (à commencer par l'ID de collection Workshop dans le panel, des gens mettent l'URL entier, un bout d'URL, etc...).
 
  • Initiateur de la discussion
  • #14
Valfunde

Valfunde

Helpeur Divin
Messages
4 301
Score réaction
1 389
Points
450
Snk à dit:
Il vous faudrait quoi de + que nombre de joueurs / % CPU / quantité RAM (pour Minecraft) / FPS (pour les jeux Steam) ? C'est ça que je comprends pas trop, à moins que vous parliez du monitoring global machine par machine mais ça c'est autre chose :|



On a eu un portail travaux fût une époque lointaine mais les gens ne le regardaient pas vraiment non plus. Si ça pouvait éviter des tickets support "inutiles" lorsqu'il y a un incident un peu global (ex : bug d'une machine) pourquoi pas mais dans les faits c'était kif-kif.

Aussi ce qu'il faut comprendre c'est que des problèmes nets ou des machines qui partent en freestyle, c'est relativement rare. Mais avec le nombre de machines qu'on a ça peut faire du nombre en incidents (aussi minimes soient-ils), ça pourrait une psychose en mode "oh la la tous ces bugs omg !"

Et puis il faut garder à l'esprit que 99% des gens ne comprennent rien aux données de monitoring ou de disponibilité, tout ce que veut savoir un client qui a un souci, c'est si ça vient de lui ou de nous. Bon évidemment dans la majorité des cas on y est strictement pour rien, d'ailleurs vous seriez étonnés du nombres de tweaks custom qu'on a en place pour corriger les innombrables erreurs de configuration (à commencer par l'ID de collection Workshop dans le panel, des gens mettent l'URL entier, un bout d'URL, etc...).
Ouais moi c'est le monitoring que je trouve intéressant.
Et pour les incidents plus quelque chose genre : problème de ssl sur le domaine jsp quoi par exemple, pas des micros bugs qui sont la souvent et presque normaux ^^

Et si comme tu dis en bas moi ça m'étonne pas des erreurs des gens, des serveurs j'en ai configuré, et j'en ai vu un nombre infini de conneries x)
 
Snk

Snk

El Dictator
Membre du Staff
Messages
4 391
Score réaction
2 934
Points
790
Valfunde à dit:
Ouais moi c'est le monitoring que je trouve intéressant.
Monitoring individuel par serveur (avec éventuellement des infos en +, si oui lesquelles ?) ou monitoring machine ?
 
  • Initiateur de la discussion
  • #16
Valfunde

Valfunde

Helpeur Divin
Messages
4 301
Score réaction
1 389
Points
450
Snk à dit:
Monitoring individuel par serveur (avec éventuellement des infos en +, si oui lesquelles ?) ou monitoring machine ?
Je sais pas comment linfra fonctionne mais par exemple monitoring par serveur de jeux ( gmod01, gmod02, gmod03,... minecraft01, minecraft02,... csgo01, csgo02 et ainsi de suite )
Puis par serveur vocaux ( ts01, stp, ts03, mumble01,mumble02 etc )
Serveur web, puis les serveurs pour mTx directement
 
Snk

Snk

El Dictator
Membre du Staff
Messages
4 391
Score réaction
2 934
Points
790
Yup, pour être tout à fait concret voici l'exemple avec gmod01 :


Note : j'ai flouté quelques éléments, soit par sécurité, soit parce qu'ils ne réprésentent pas une information intéressante :)
Note2 : bon pour les backups y'a marqué NFS mais en vrai c'est plus via NFS depuis l'été dernier et la super infra de backup.
Note3 : SOAP = Webservice pour la communication panel<->machine, SocketIO c'est pour les logs en temps réel

Bon là on voit gmod01 qui est une machine généralement bien active, niveau CPU ça monte pourtant pas bien haut. La moyenne des machines gmod c'est 25-30% de pic de consommation, preuve qu'on ne fait pas n'importe quoi hihi.

Après en soi donner quelques une de ses infos ça peut mais avec juste des voyants de couleurs car quoi qu'il arrive rares sont ceux qui auront les clés pour analyser quoi que ce soit. Dans l'exemple ci-dessus, j'en connais bien quelques uns qui ne comprendraient pas le % de CPU_Load en mettant à côté celui de leur serveur...
 
  • Initiateur de la discussion
  • #18
Valfunde

Valfunde

Helpeur Divin
Messages
4 301
Score réaction
1 389
Points
450
Snk à dit:
Yup, pour être tout à fait concret voici l'exemple avec gmod01 :


Note : j'ai flouté quelques éléments, soit par sécurité, soit parce qu'ils ne réprésentent pas une information intéressante :)
Note2 : bon pour les backups y'a marqué NFS mais en vrai c'est plus via NFS depuis l'été dernier et la super infra de backup.
Note3 : SOAP = Webservice pour la communication panel<->machine, SocketIO c'est pour les logs en temps réel

Bon là on voit gmod01 qui est une machine généralement bien active, niveau CPU ça monte pourtant pas bien haut. La moyenne des machines gmod c'est 25-30% de pic de consommation, preuve qu'on ne fait pas n'importe quoi hihi.

Après en soi donner quelques une de ses infos ça peut mais avec juste des voyants de couleurs car quoi qu'il arrive rares sont ceux qui auront les clés pour analyser quoi que ce soit. Dans l'exemple ci-dessus, j'en connais bien quelques uns qui ne comprendraient pas le % de CPU_Load en mettant à côté celui de leur serveur...
La je trouve ça trop détaillé mais regarde les fonctionnalités que ça représente le cms, je les trouves justement sympa, la on rentre sur du gros monitoring avec ce que tu nous montre mais quelque chose de plus simple avec juste le status de la machine serait plutôt cool a tester
 
  • Initiateur de la discussion
  • #19
Valfunde

Valfunde

Helpeur Divin
Messages
4 301
Score réaction
1 389
Points
450
Snk à dit:
Yup, pour être tout à fait concret voici l'exemple avec gmod01 :


Note : j'ai flouté quelques éléments, soit par sécurité, soit parce qu'ils ne réprésentent pas une information intéressante :)
Note2 : bon pour les backups y'a marqué NFS mais en vrai c'est plus via NFS depuis l'été dernier et la super infra de backup.
Note3 : SOAP = Webservice pour la communication panel<->machine, SocketIO c'est pour les logs en temps réel

Bon là on voit gmod01 qui est une machine généralement bien active, niveau CPU ça monte pourtant pas bien haut. La moyenne des machines gmod c'est 25-30% de pic de consommation, preuve qu'on ne fait pas n'importe quoi hihi.

Après en soi donner quelques une de ses infos ça peut mais avec juste des voyants de couleurs car quoi qu'il arrive rares sont ceux qui auront les clés pour analyser quoi que ce soit. Dans l'exemple ci-dessus, j'en connais bien quelques uns qui ne comprendraient pas le % de CPU_Load en mettant à côté celui de leur serveur...
En lisant de plus près ça prends pas grand chose en network au moment du screen si ? Je suis plutôt étonné
 
Snk

Snk

El Dictator
Membre du Staff
Messages
4 391
Score réaction
2 934
Points
790
Ça peut grimper à 300M/400M en out pendant les périodes de backup mais en temps normal c'est dans les proportions du screen oui.

Là c'était juste pour donner l'éventail des infos qu'on récupère, après niveau affichage c'est sûr que ce serait un code couleur pour dire tout va bien, ça va pas trop bien ou ça va pas du tout.
Maintenant des fois certains soucis affectent par exemple la liaison panel <-> serveurs mais les joueurs peuvent jouer tranquille ou inversement donc pas évident de sortir l'info la plus parlante qui soit sur ces seules bases ^^

Valfunde à dit:
La je trouve ça trop détaillé mais regarde les fonctionnalités que ça représente le cms
Quel CMS ?
 
  • Initiateur de la discussion
  • #21
Valfunde

Valfunde

Helpeur Divin
Messages
4 301
Score réaction
1 389
Points
450
Snk à dit:
Ça peut grimper à 300M/400M en out pendant les périodes de backup mais en temps normal c'est dans les proportions du screen oui.

Là c'était juste pour donner l'éventail des infos qu'on récupère, après niveau affichage c'est sûr que ce serait un code couleur pour dire tout va bien, ça va pas trop bien ou ça va pas du tout.
Maintenant des fois certains soucis affectent par exemple la liaison panel <-> serveurs mais les joueurs peuvent jouer tranquille ou inversement donc pas évident de sortir l'info la plus parlante qui soit sur ces seules bases ^^



Quel CMS ?
Regarde mon premier message, j'ai appelé ça un "système" mais c'est simplement un cms, et sur Twitter ils ont annoncé une grosse update ( https://twitter.com/AP_SystemStatus/status/893501791589064704 )
Valfunde à dit:
Voilà ^^

Et pour ce qui est de la connexion je pensais que quand il y avait des joueurs c'était autour des 80/150M ^^ je suis surpris

Pour ce qui est des soucis qui n'empêche pas de jouer / utiliser le serveur il y a sur le cms un status de panne partielle par exemple ^^

Je te laisse regarder ça et surtout suivre l'info sur Twitter ils sont assez actifs ^^
 
Snk

Snk

El Dictator
Membre du Staff
Messages
4 391
Score réaction
2 934
Points
790
Ah j'étais tombé dessus, c'est pas trop mal présenté mais à part la présentation il n'y a rien à reprendre ^^

Notre système a + de 1000 services à monitorer et c'est pas juste des pings pour le coup. Après un truc manuel où on met un statut avec un descriptif, ça peut être mal. Sinon à voir ce qu'on peut automatiser, pour un autre projet on push les alertes monitoring vers une API pour faire du traitement derrière mais là ça ne sera pas applicable (trop de faux positifs inutiles, en gros).
 
  • Initiateur de la discussion
  • #24
Valfunde

Valfunde

Helpeur Divin
Messages
4 301
Score réaction
1 389
Points
450
Snk à dit:
Ah j'étais tombé dessus, c'est pas trop mal présenté mais à part la présentation il n'y a rien à reprendre ^^

Notre système a + de 1000 services à monitorer et c'est pas juste des pings pour le coup. Après un truc manuel où on met un statut avec un descriptif, ça peut être mal. Sinon à voir ce qu'on peut automatiser, pour un autre projet on push les alertes monitoring vers une API pour faire du traitement derrière mais là ça ne sera pas applicable (trop de faux positifs inutiles, en gros).
Y'a une api avec le cms^^ en tout cas tiens nous au courant ^^
 
Snk

Snk

El Dictator
Membre du Staff
Messages
4 391
Score réaction
2 934
Points
790
Ça n'aurait pas d'intérêt pour nous de nous appuyer sur quelque chose d'externe pour ça, ça nous ferait même perdre du temps je pense.

Bref on regarde mais niveau priorité faut avouer que c'est pas spécialement prioritaire, rares sont les clients à demander des infos de ce type :(

Et puis "cé toujour la fote de l'ébergeur oemmegé !"
 
Snk

Snk

El Dictator
Membre du Staff
Messages
4 391
Score réaction
2 934
Points
790
FalkioGMR à dit:
Par contre pour rebondire sur

normal que le serveur SCP de Coopa lag pas mal?
C'est quoi ce hors sujet ? :|

Aux dernières nouvelles c'était de nouveau fluide hier après-midi... Mais bon c'est pas le sujet...
 
Haut