Hallo,
ich habe eine neue Icinga2-Installation (CentOS 7.1, Icinga 2.4.1 per yum von packages.icinga.org installiert, nagios-plugin-all 2.0.3 von epel), und es funktioniert bis auf die Services load und procs sehr gut. Auf den Clients läuft der icinga2-Client in der gleichen Version, und ich habe die Verbindung zum Server mittels "icinga node wizard" auf dem Client hergestellt und die Clients in zones.conf auf dem Server eingetragen (wie in der Doku unter "Master Configuration for Clients as Command Execution Bridge" beschrieben:
object Endpoint NodeName {
}
object Zone ZoneName {
endpoints = [ NodeName ];
}
object Endpoint "node208.local" {
host = "node208.local"
}
object Zone "node208.local" {
parent = "master03.local"
endpoints = [ "node208.local" ]
}
Bei den 2 Services wechselt der Status für alle Clients ca. einmal pro Minute zwischen kritisch und ok, und es sieht für mich so aus, als wechselten die Grenzwerte zwischen den Defaults und meinen konfigurierten Werten, also z.B. (per copy/paste aus dem Web-GUI):
OK
seit 0m 33s
Service: load
Ausgabe des Plugins
OK - load average: 17.00, 17.00, 17.00
Performancedaten
Label Wert Warnung Kritisch
load15 17.00 24.00 25.00
load5 17.00 24.00 25.00
load1 17.00 24.00 25.00
KRITISCH
seit 0m 17s
Soft 1/5
Service: load
Ausgabe des Plugins
CRITICAL - load average: 17.00, 17.00, 17.00
Performancedaten
Label Wert Warnung Kritisch
load15 17.00 3.00 4.00
load5 17.00 4.00 6.00
load1 17.00 5.00 10.00
Die Historie sieht dann z.B. so aus:
OK
vor 0m 20s
node208.local: procs
[ 1/5 ] PROCS OK: 997 processes
OK
vor 0m 29s
node208.local: load
[ 1/5 ] OK - load average: 17.00, 17.00, 17.00
KRITISCH
vor 0m 48s
node208.local: load
[ 1/5 ] CRITICAL - load average: 17.00, 17.00, 17.00
KRITISCH
vor 0m 48s
node208.local: procs
[ 1/5 ] PROCS CRITICAL: 1003 processes
OK
vor 0m 50s
node208.local: procs
[ 1/5 ] PROCS OK: 997 processes
OK
vor 0m 59s
node208.local: load
[ 1/5 ] OK - load average: 17.00, 17.00, 17.00
OK
vor 1m 20s
node208.local: procs
[ 1/5 ] PROCS OK: 997 processes
OK
vor 1m 29s
node208.local: load
[ 1/5 ] OK - load average: 17.00, 17.00, 17.00
KRITISCH
vor 1m 48s
node208.local: load
[ 1/5 ] CRITICAL - load average: 17.00, 17.00, 17.00
KRITISCH
vor 1m 48s
node208.local: procs
[ 1/5 ] PROCS CRITICAL: 1003 processes
Der Messwert selbst ist absolut ok, und ich kann den Status auf Grund des Vergleichs mit den Grenzwerten auch nachvollziehen, aber warum wechseln die Grenzwerte jede Minute einmal kurz zurück auf die Default-Werte?
Meine Host-Konfiguration enthält:
address = "node208.local"
vars.os = "Linux"
vars.load_wload1 = 24
vars.load_wload5 = 24
vars.load_wload15 = 24
vars.load_cload1 = 25
vars.load_cload5 = 25
vars.load_cload15 = 25
vars.procs_warning = 1100
vars.procs_critical = 1500
vars.remote_client = "node208.local"
Die Service-Konfiguration ist:
apply Service "load" {
import "generic-service"
check_command = "load"
if (host.vars.remote_client) {
command_endpoint = host.vars.remote_client
}
assign where host.address && host.vars.os == "Linux"
}
Ich sehe das jetzt für 2 Testclients, und wenn ich nur die beiden hätte, dann wäre das nicht so tragisch, aber wenn ich für mehrere Dutzend Clients jeweils 2 Statuswechsel pro Minute habe, dann verwässert mir das den Blick auf die "echten" Probleme.
Ich bin für jede Hilfe dankbar, was ich zum Beheben des Problems anschauen und verändern könnte.
ich habe eine neue Icinga2-Installation (CentOS 7.1, Icinga 2.4.1 per yum von packages.icinga.org installiert, nagios-plugin-all 2.0.3 von epel), und es funktioniert bis auf die Services load und procs sehr gut. Auf den Clients läuft der icinga2-Client in der gleichen Version, und ich habe die Verbindung zum Server mittels "icinga node wizard" auf dem Client hergestellt und die Clients in zones.conf auf dem Server eingetragen (wie in der Doku unter "Master Configuration for Clients as Command Execution Bridge" beschrieben:
object Endpoint NodeName {
}
object Zone ZoneName {
endpoints = [ NodeName ];
}
object Endpoint "node208.local" {
host = "node208.local"
}
object Zone "node208.local" {
parent = "master03.local"
endpoints = [ "node208.local" ]
}
Bei den 2 Services wechselt der Status für alle Clients ca. einmal pro Minute zwischen kritisch und ok, und es sieht für mich so aus, als wechselten die Grenzwerte zwischen den Defaults und meinen konfigurierten Werten, also z.B. (per copy/paste aus dem Web-GUI):
OK
seit 0m 33s
Service: load
Ausgabe des Plugins
OK - load average: 17.00, 17.00, 17.00
Performancedaten
Label Wert Warnung Kritisch
load15 17.00 24.00 25.00
load5 17.00 24.00 25.00
load1 17.00 24.00 25.00
KRITISCH
seit 0m 17s
Soft 1/5
Service: load
Ausgabe des Plugins
CRITICAL - load average: 17.00, 17.00, 17.00
Performancedaten
Label Wert Warnung Kritisch
load15 17.00 3.00 4.00
load5 17.00 4.00 6.00
load1 17.00 5.00 10.00
Die Historie sieht dann z.B. so aus:
OK
vor 0m 20s
node208.local: procs
[ 1/5 ] PROCS OK: 997 processes
OK
vor 0m 29s
node208.local: load
[ 1/5 ] OK - load average: 17.00, 17.00, 17.00
KRITISCH
vor 0m 48s
node208.local: load
[ 1/5 ] CRITICAL - load average: 17.00, 17.00, 17.00
KRITISCH
vor 0m 48s
node208.local: procs
[ 1/5 ] PROCS CRITICAL: 1003 processes
OK
vor 0m 50s
node208.local: procs
[ 1/5 ] PROCS OK: 997 processes
OK
vor 0m 59s
node208.local: load
[ 1/5 ] OK - load average: 17.00, 17.00, 17.00
OK
vor 1m 20s
node208.local: procs
[ 1/5 ] PROCS OK: 997 processes
OK
vor 1m 29s
node208.local: load
[ 1/5 ] OK - load average: 17.00, 17.00, 17.00
KRITISCH
vor 1m 48s
node208.local: load
[ 1/5 ] CRITICAL - load average: 17.00, 17.00, 17.00
KRITISCH
vor 1m 48s
node208.local: procs
[ 1/5 ] PROCS CRITICAL: 1003 processes
Der Messwert selbst ist absolut ok, und ich kann den Status auf Grund des Vergleichs mit den Grenzwerten auch nachvollziehen, aber warum wechseln die Grenzwerte jede Minute einmal kurz zurück auf die Default-Werte?
Meine Host-Konfiguration enthält:
address = "node208.local"
vars.os = "Linux"
vars.load_wload1 = 24
vars.load_wload5 = 24
vars.load_wload15 = 24
vars.load_cload1 = 25
vars.load_cload5 = 25
vars.load_cload15 = 25
vars.procs_warning = 1100
vars.procs_critical = 1500
vars.remote_client = "node208.local"
Die Service-Konfiguration ist:
apply Service "load" {
import "generic-service"
check_command = "load"
if (host.vars.remote_client) {
command_endpoint = host.vars.remote_client
}
assign where host.address && host.vars.os == "Linux"
}
Ich sehe das jetzt für 2 Testclients, und wenn ich nur die beiden hätte, dann wäre das nicht so tragisch, aber wenn ich für mehrere Dutzend Clients jeweils 2 Statuswechsel pro Minute habe, dann verwässert mir das den Blick auf die "echten" Probleme.
Ich bin für jede Hilfe dankbar, was ich zum Beheben des Problems anschauen und verändern könnte.