Fallstudie Nagios bei MIT MAN IT Services GmbH Tobias Mucke Fallstudie Nagios bei MIT 21.09.2006 1
Vorstellung - MAN IT Services GmbH IT Dienstleister für die MAN Gruppe Gründung als eigenständige GmbH in 2005, Betrieb ab Januar 2006 10 Standorte 320 Mitarbeiter Geschäftsfelder RZ Infrastruktur und Betrieb Entwicklung teilkonzernübergreifender Anwendungen Beratung Fallstudie Nagios bei MIT 21.09.2006 2
Vorstellung - Referent MIT Enterprise Engineering Linux Systemadministration derzeit etwa 200 Linux basierte Systeme Projekte Standardisierung der Linux Enterprise Server Umgebung Zentrales und automatisiertes Deployment für die Systeminstallation, -konfiguration und -wartung Hochverfügbarkeit Hardware- und Systemmonitoring mit Nagios Fallstudie Nagios bei MIT 21.09.2006 3
Gliederung (1) I. Begriffsabgrenzung II. Einführung in das Spannungsverhältnis zwischen der 1. Heterogenität der Monitoring Infrastruktur vor Nagios 2. Homogenität der Linux Infrastruktur III. Projektziele und -rahmen Fallstudie Nagios bei MIT 21.09.2006 4
Gliederung (2) IV. Nagios Monitoring Infrastruktur 1. Grundlegende Entscheidungen und Konfigurationsansätze 2. Infrastrukturüberblick 3. In Zahlen V. Plugins VI. Auswertung der Performancedaten VII. Rückblick - Ein Jahr Nagios Fallstudie Nagios bei MIT 21.09.2006 5
Begriffsabgrenzung - Monitoring Hardwaremonitoring Lüfter, Netzteile, HDDs, Memorymodule, Temperaturen usw. Systemmonitoring Dateisysteme, Prozesse, Arbeitsspeicher usw. Netzwerk- und Basisdienstemonitoring Netzwerkkomponenten, DNS, Webserver, Oracle Datenbanken Status: GRÜN, GELB oder ROT z.b. zur Alarmierung / Eskalation Fallstudie Nagios bei MIT 21.09.2006 6
Begriffsabgrenzung Messung von Performancedaten Kurz-, mittel- und langfristige Aufzeichnung von Messwerten Einsatz unterschiedlicher Messmethoden (Pegelstände, Zähler, Differenzen usw. ) Einheit des Messergebnisses (Sekunden, Grad, Bytes usw.) Geeignete Verdichtung über die Zeit Messwerte: Grafische Darstellung in Diagrammen z.b. zur Trendanalyse / Planung Fallstudie Nagios bei MIT 21.09.2006 7
Monitoring Infrastruktur vor Nagios Intranet DMZ Internet Messwerte HW Alarme Messwerte Skripte HW Alarme Cacti Firewall Bigbrother Firewall Bigbrother Cacti Fallstudie Nagios bei MIT 21.09.2006 8
Homogenität der Linux Infrastruktur Hoher Standardisierungsgrad der Systeme Drei- bis vierschichtige Infrastrukturkonzepte Hoher Anteil von in Farmen (60%) / Clustern (20%) organisierter Systeme Starke Homogenität der Systeme, kaum (< 10%) Einzelsysteme Fallstudie Nagios bei MIT 21.09.2006 9
Spannungsverhältnis Heterogenität der Monitoring Infrastruktur vs. Homogentität der Linux Infrastruktur Neukonzeptionierung der Monitoring Infrastruktur Fallstudie Nagios bei MIT 21.09.2006 10
Primäre Projektziele 1. Konsolidierung 2. Zentralisierung 3. Verfügbarkeit 4. Kostensenkung Fallstudie Nagios bei MIT 21.09.2006 11
Sekundäre Projektziele 1. Skalierbarkeit 2. Integration 3. Flexibilisierung 4. Paradigmenwechsel 5. Standardisierung Fallstudie Nagios bei MIT 21.09.2006 12
Projektrahmen Zeit Implementierung der Basisinfrastruktur durch Michael Frank im Rahmen des ersten Praxissemester FH Augsburg (20 Wochen) Budget Nutzung bereits vorhandener Ressourcen, kein eigenes Budget Fallstudie Nagios bei MIT 21.09.2006 13
Entscheidungsfindung Nagios Szenarien Zentrales Network Monitoring System Distributed Monitoring Server HA Network Monitoring Skalierbarkeit Konsolidierung und Integration Flexibilität Weiche Faktoren Fallstudie Nagios bei MIT 21.09.2006 14
Nagios Infrastruktur Intranet DMZ Internet Messwerte NRPE Messwerte Config Deploy NRPE Firewall SSH Firewall NMS NSCA Mailserver / Ticketsystem Fallstudie Nagios bei MIT 21.09.2006 15
In Zahlen HA NMS mit jeweils 2 CPUs à 3.00 GHz und 2 GB Memory 3x DMS mit jeweils 2 CPUs à 3.00 GHz und 2 GB Memory Etwa 200 Systeme Knapp 5500 Checks Knapp 5300 RRD Datenbanken Fallstudie Nagios bei MIT 21.09.2006 16
Plugins - Überblick Standardplugins aus dem Nagios Plugin Development Projekt Ergänzende Plugins von Nagios Exchange Einige selbst geschriebene Plugins Fallstudie Nagios bei MIT 21.09.2006 17
Plugins - Hardwaremonitoring Herstellerspezifische Agenten SNMP Traps an SNMPTRAPD SNMPTRAPD übergibt Traps an SNMP Trap Translator Weitermeldung an NMS durch passiven Check Fallstudie Nagios bei MIT 21.09.2006 18
Plugins - Systemmonitoring (1) Monitoring für MD und DRBD check_md check_drbd Statistiken interner Kernelcaches (Slabinfo) check_slabstat Fallstudie Nagios bei MIT 21.09.2006 19
Plugins - Systemmonitoring (2) Monitoring der NRPE daemons check_nrpe Monitoring der Systemzeit check_ntp DNS Einträge in der Vorwärts- und Rückwärtsauflösung check_dns Fallstudie Nagios bei MIT 21.09.2006 20
Plugins - Nagios Monitoring des Nagios Systems: check_nagios Statistiken: check_nagios_stats Fallstudie Nagios bei MIT 21.09.2006 21
Plugins - Sonstiges RPC und NFS Statistiken (Server / Client) check_rpcstat check_nfsstat Monitoring HTTP Server und SSL Zertifikate check_http Fallstudie Nagios bei MIT 21.09.2006 22
Performancedaten mit RRD Auswertung der Plugin Performancedaten Kurz-, Mittel- und Langfristig Nutzung des bestehenden RRDTool Know Hows Umgehung des Flaschenhals beim Weitergeben der Performancedaten Maximale Flexibilität beim Erstellen und Anzeigen der Daten Fallstudie Nagios bei MIT 21.09.2006 23
Sammlung und Auswertung der Performancedaten Übergabe der Performancedaten durch Nagios mittels einer Datei Regelmäßiger Aufruf von Nagiosgraph Nagiosgraph zur Erstellung und Pflege der RRDs Nagiostat und Drraw zur Anzeige / Dashboards Fallstudie Nagios bei MIT 21.09.2006 24
Rückblick nach einem Jahr Nagios Einteilung der Zeitrechnung in eine Zeit vor und nach Nagios Projektziele Konsolidierung und Zentralisierung Skalierbarkeit und Verfügbarkeit Integration Kostensenkung Standardisierung Fallstudie Nagios bei MIT 21.09.2006 25