Exemplarische Nagios Einführung oder es ist eigentlich viel mehr als nur download und installieren. Business Track Nagios Konferenz, 21. September 2006 Michael Kienle, Geschäftsführer it-novum GmbH
Agenda Systemmanagement: Warum? Ziele Systemmanagement Systemmanagement: Preis-/Leistungs-Vergleich und kommerzielle Alternativen Systemmanagment mit OpenSource am Beispiel Nagios Die Systemmanagement-Strategie Make or Buy? Vorarbeiten zur Überwachung Integration von anderen Systemen Incident Management und Performance Management Benachrichtigungskonzept Service Level Agreement Nach der Einführung: Best Practises Grenzen von Nagios & Fazit
IT-Kompetenz-Zentrum eines Konzerns IT-Lösungen für den Mittelstand Sichere, zuverlässige und wirtschaftliche IT Komplette Wertschöpfungskette Beratung, Planung, Umsetzung, Betrieb Am externen Markt seit 1999 Überwiegend Regional (FD + 150 km, ~ von KS bis F) Ca. 50% externer Umsatz, Trend: steigend Synergieeffekte & Innovationen durch Konzernzugehörigkeit (>2 Mrd ) Partnerschaften und Zertifizierungen Schwerpunkte & Kompetenzen: Systemmanagement ServerBasedComputing Outsourcing/Datacenter/SAP Konzepte, Analysen und Betrieb Storage- und Servervirtualisierung, Konsolidierung IT-Sicherheit, Datenschutz, Datensicherheit
Spannungsfeld IT Stetiger Wandel Kostendruck managen IT-Sicherheit Sichere, zuverlässige und wirtschaftliche Unterstützung von Geschäftsprozessen Altlasten & IT-Stabilität garantieren Gesetzl. Auflagen Herausforderungen in der modernen IT Serviceprozesse verbessern Integration & neue Anwendungen Altlasten IT-Infrastruktur Quelle: Ernst & Young Studie
Moderne IT: Service Management Die IT-Organisation auf dem Weg vom Monopolisten zum Dienstleister Vom Bauchgefühl zum Vertrag: Definierte und vereinbarte IT-Services und SLAs Früherkennung aufkommender Probleme Steigerung der Kundenzufriedenheit Werkzeuge & Prozesse?
Probleme rechtzeitig erkennen ohne Systemmanagement Problem entsteht Kunde meldet den Fehler Techniker meldet dem Kunden, dass das Problem behoben ist Problem weitet sich aus Techniker behebt unter Druck den Fehler mit Systemmanagement Problem entsteht Techniker wird umgehend informiert Werkzeuge & Prozesse? itcockpit erkennt Problem proaktiv Gründliche Problembehebung
Systemmanagement, theoretisch Zwingend notwendig für größere IT! Wald vor lauter Bäumen : OSI 7498-4, ITIL/ITSM, MOF,... Frameworks/Functional Areas: Fault/Incident Performance Configuration Security Accounting
ITIL
Systemmanagement, pragmatisch Automatische Erkennung von Fehlern und Engpässen Wegfall von Routine-Kontrollen Schnelle Fehleridentifikation und proaktive Fehlerbehebung Performance Management (Erkennung von Trends) Umfassende und intelligente Überwachung aller Anwendungen (z.b. ERP/SAP, Exchange, SQL) Infrastruktur (z.b. LAN/WAN, Server, Rechenzentrum) Einbindung in Organisation & Prozesse (Benachrichtigungen, TicketSystem) Objektive Dokumentation & SLA-Reporting Steigerung der Stabilität & Senkung der Kosten Großer Markt an Herstellern/Produkten Ist OpenSource eine Alternative?
Preis-/Leistungs-Vergleich 2x Basisdienste 1x SAP-Zusatz 3x 3x - CPU-Auslastung - Speicher-Auslastung - Festplatten-Auslastung - Status von Diensten - Status von Prozessen - SAP interne Speicher - Anzahl angemeldeter Benutzer - HitRatio der Buffer - Swap der Buffer - Auslastung der Buffer - SAP interne Reaktionszeiten 1x 1x USV - prozentuale Auslastung - Auslastung der Phasen - Eingehende Spannung - Ausgehende Spannung HP ProCurve - CPU Auslastung - Speicher Auslastung - Status der Netzteile - Temperatur Exchange-Zusatz - Warteschlangen - Anzahl angemeldeter Benutzer - Anzahl der RPC Anfragen - Anzahl der RPC Operationen 10x
Preis-/Leistungs-Vergleich NetIQ HP OpenView Nagios Kaufpreis ca. 35.000,00 ca. 60.500,00 Basis: 0 Lizenzen Es müssen Lizensen erworben werden für das Kern-Programm und sämtlichen Erweiterungen Es müssen Lizensen erworben werden für das Kern-Programm und sämtlichen Erweiterungen Support & Wartung Funktionsumfang Einführungsaufwand Support & Wartung zwingend nötig - ca. 7.000 p.a. Der Funktionsumfang ist sehr groß und umfasst alle gängigen Betriebssysteme und Anwendungen Support & Wartung zwingend nötig - ca. 12.000 p.a. Der Funktionsumfang ist sehr groß und umfasst alle gängigen Betriebssysteme und Anwendungen Kernsoftware und fast alle Plugins sind unter der GPL verfügbar Professioneller Support & Wartung empfehlenswert Der Funktionsumfang ist groß und umfasst alle gängigen Betriebssysteme und einen großteil der Anwendungen. Viele Erweiterungen aber nicht "plug&play" 10.000-25.000 15.000-35.000 5.000-20.000 Gesamtkosten "++" "+++" O
Systemmanagement-Strategie Unser Projekterfahrungen: Viele Einführungen scheitern! Kundenzitat: mal eben Nagios downloaden und installieren. Notwendig: Entwicklung einer Systemmanagement-Strategie (Workshop) Ziel der Einführung eines Systemmanagements Incident Management / Performance Management (SLA-)Reporting Make or Buy? Vorarbeiten: Welche Parameter und Schwellwerte sind sinnvoll? Integration Vorsysteme/andere Systemmanagement-Tools Benachrichtigungskonzept: Problem gemeldet was jetzt? Incident Management: Probleme rechtzeitig erkennen und effizient lösen Performance Management: Proaktiv Situationen vermeiden Service Level Agreement: Erkennen und Reporten
Ziele Warum wollen Sie Systemmanagement einführen? Können Sie Ihre Ziele und Erwartungen beschreiben?
Das wollen Sie alles alleine machen (Auszug)? NSCA Graphgenerator WMI Perfmon NS-Agent Plugins CACTI Zoom Gruppen Downtime NRPE-NT Windows Plugins Benachrichtigungsskripte Sensorphalanx Oberfläche (Apache + PHP) Plugins Telefon NRPE Mail-Client
Make or Buy? OpenSource Defizite bei ernsthaften Anwendungen Support & Service Unterstützung bei der Einführung (Dauer Projekteinführung) Auswahl, Anpassung, Integration vieler OpenSource Tools Sind OpenSource Entwicklungen umfassend? Buy : Auswahl Dienstleister Wie bleibe ich auf dem aktuellen Stand (Community etc.)? Präferenz Make : Für einfache Standard-Überprüfungen reicht Standard -Nagios vollkommen. Präferenz Buy : Aufwändigere Überwachungen, wie z.b. SAP oder verteilte komplexe Infrastrukturen mit SLAs, erfordern viel KnowHow. Der Aufwand dieses KnowHow selbst zu erlangen und auch aufrecht zu halten (!) ist nicht zu unterschätzen.
Was sollte man überwachen? Generell: Möglichst umfassend, d.h. die komplette IT-Landschaft über alle Standorte Infrastruktur (WAN/LAN, RZ, Backup, Viren, Server, OS, Storage,...) Middleware (SQL, Oracle, ActiveDirectory, ) Applikationen (SAP, Exchange, Navision, ) Aber: Komplexität; > n-tausend Services If you can not measure it you can not control it If you can not control it you can not manage it BUT do not measure what you will not change Abfragefrequenz (Pull/Push: active/passive tests) Schnelligkeit der Erkennung von Fehlern Risiko der ungenügenden Meldung von Fehler (passive tests)
Filtern der wichtigen Werte > 10.000 Werte SNMP Dienste u. Prozesse > 1.000 Werte Perfmon Relevante Werte??? > 1.000 Werte CCMS PROC-Filesystem > 1.000 Werte > 10.000 Werte
Schwellwerte Mittelfristige Definition der Schwellwerte (Ampel) Historie? (Bsp.: LDAP-Request ist 1,5s gut? ) Kontinuierliche Anpassung Keine Überflutung mit Nachrichten Kein Verlust der Meldung kritischer Zustände
Benachrichtigungskonzept PopUp Meldungen direkt auf den Bildschirm Akustischer Alarm zum Beispiel über den internen Lautsprecher einer Mobotix IP-Kamera E-Mail zum Beispiel auf das Blackberry Mittel der Benachrichtigung SMS Meldungen direkt aufs Handy optischer Alarm zum Beispiel über ein Blinklicht Sprachbenachrichtigung Umgesetzt durch Asterisk
Benachrichtigungskonzept Wer muss benachrichtigt werden? TvD, NOC, Gruppen, Kunden, Wann muss benachrichtigt werden? Schwellwerte, Wartungsfenster, Wie muss benachrichtigt werden? Erreicht die Benachrichtigung den Mitarbeiter? Wann und an wen sollen Probleme eskaliert werden? Problem nicht nach x Stunden gelöst -> 2nd level Einsatz TvD / NOC? Organisatorische Auswirkungen Outsourcing (NOC, 1st, 2nd, 3rd level) Von der Problemerkennung zur Bearbeitung Workflow (TicketSystem, KnowledgeBase)
Alternative-Meldelinie Benachrichtigung beim Ausfall der E-Mail Meldelinie z.b. Ausfall der Internetgateways Exchange- Server Firewall Internet- Router Internet ISDN oder DSL Benachrichtigung inkl. Bestätigung SMS Blackberry SMS-Gateway GSM
Kausale Abhängigkeiten Relation zwischen Fehlern N-fache Fehlermeldungen bei einer Fehlerursache Umsetzung in Nagios aufwändig Host/Services über Parent/Child Geschäftsprozesse über Serviceabhängigkeiten?
Performance Management Erkennen von Resourcenauslastungen zur Kapazitätsplanung zur Beschaffungsplanung Objektive Dokumentation Erkennen von Auffälligkeiten, z.b.: IT-Sicherheit: Viren, Downloads Accounting
Überwachung von Standorten Überwachungsmethode bei verteilten Standorten, insb. unter Berücksichtigung der Anzahl der zu überwachenden Komponenten und Services: Direkte Überwachung Hierarchisch verteilte Überwachung Hierarchische Verteilung: Dedizierter Unter- Server VorOrt auftretende Ereignisse werden mittels NSCA zum Mastersystem gemeldet. Master muss überwachten Dienste im Passiv- Modus konfigurieren Vorteil: nur Host-Checks und die Status- Änderungen werden übertragen (Entlastung Master) Nachteile: Passiv-Checks können verloren gehen.
Mandantenfähigkeit Mandantenfähigkeit: Kunden Self Service Der Kunde bekommt über das Kundenportal jederzeit und von überall den aktuellen Zustand seiner Server und Dienste angezeigt.
Integration von physikalischen Gegebenheiten Integration des Gebäudemanagement und baulicher Kriterien (Rechenzentrum, Racks, etc.) um eine möglichst umfassende Überwachung zu haben SecMaster Temperatur Luftfeuchtigkeit Rauch Erschütterung Wechselstrom Zugriff Rack mittels RFID/Tastatur Türkontakt Glasbruch Bewegung ALL3000 EM01b Sensorprobe 8 Digitale Eingänge (Integration) Digitale Ausgänge (Steuerung)
Integration von anderen Systemen Systemmanagement als Insellösung? Integration: Eine Meldelinie ein Prozess, oder: Nagios als Framework Hardware (FSC ServerView ) Netzwerk (HP ProCurve Manager ) Backup (Veritas ) Virenscan (TrendMicro ) Storage (NetApp ) vmware (vmware controlcenter) Trotzdem: Nutzung für Problembehebung?
FSC ServerView Integration über SNMP Nutzung einer erweiterte Version von Nagvis um eine möglichst gleiche Übersichtskarte zu generieren
Veritas Datensicherung Realisierung über Passiv-Checks/SNMP-Traps Zuordnung über Trap-IDs /Skript
HP ProCurve Manager Überwachung der wichtigsten Daten aller Switche über SNMP Zusätzliche Integration der SNMP-Traps über den ProCurve Manager
Probleme rechtzeitig beheben Auslastung der Festplatte eines Fileservers (rrdtool) Technikereingriffe der Festplatte-Bereinigung, jedoch: immer weniger Wirkung Notwendig: Baldige Erweiterung des Plattenplatzes Vorteil: Objektive Dokumentation für den Kunden! Techniker Eingriffe
Resourcen-Management Bandbreitenmessung WAN (mrtg): wird eine neue Leitung/Upgrade benötigt? Vorteil: Objektive Dokumentation für den Kunden!
Leitungsüberlastung I Nagios meldet um 08:15 hohe Reaktionszeiten (smokeping) auf einer der MPLS-Leitungen, die ein angemessenes Arbeiten unmöglich macht.
Leitungsüberlastung II Kontrolle des zugehörigen Traffikgraphs (mrtg) zeigte als Ursache einen großen Ausgangs-Datentransfer
Leitungsüberlastung III Traffic-Auswertung (IPaudit): Busiest Remote Hosts IP Incoming Outgoing Total 150.1.132.47 35,759,991 818,31 36,578,299 Detailanalyse (IPaudit): Local IP Remote IP Protocol Local Port Incoming Bytes 128.1.1.19 150.1.132.50 TCP 25 32.02M 128.1.1.19 150.1.132.50 TCP 25 31.91M 128.1.1.19 150.1.132.50 TCP 25 29,62M
Fazit OpenSource kann grundsätzlich den Vergleich mit kommerziellen Lösungen standhalten sofortiger und konkreter Mehrwert bei Einführung Grenzen: Skripte und Plugins Auswahl was überwacht wird Bestimmen der Schwellwerte Einfache und intuitive Nutzbarkeit (Oberfläche) Integration in Arbeitsprozesse Business Process Monitoring Mangelndes KnowHow (technisch und organisatorisch) Aufwand (einmalig/laufend) wird unterschätzt! Professioneller Support & Service ratsam!
Danke für Ihre Aufmerksamkeit! Michael Kienle Geschäftsführer m.kienle@itnovum.de www.itcockpit.de