Netzwerkmonitoring mit Nagios und RRDtool



Ähnliche Dokumente
Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Guide DynDNS und Portforwarding

PHPNuke Quick & Dirty

OP-LOG

Lizenzen auschecken. Was ist zu tun?

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

Adminer: Installationsanleitung

Installation SQL- Server 2012 Single Node

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Leitfaden zur Installation von Bitbyters.WinShutdown

Datenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware

Folgende Einstellungen sind notwendig, damit die Kommunikation zwischen Server und Client funktioniert:

SolarWinds Engineer s Toolset

Benutzerhandbuch. Leitfaden zur Benutzung der Anwendung für sicheren Dateitransfer.

Installation und Inbetriebnahme von SolidWorks

GeoPilot (Android) die App

Patch Management mit

Wo finde ich die Software? - Jedem ProLiant Server liegt eine Management CD bei. - Über die Internetseite

Tutorial -

Anti-Botnet-Beratungszentrum. Windows XP in fünf Schritten absichern

FTP-Server einrichten mit automatischem Datenupload für

Konfiguration eines DNS-Servers

Task: Nmap Skripte ausführen

Formular»Fragenkatalog BIM-Server«

CMS.R. Bedienungsanleitung. Modul Cron. Copyright CMS.R Revision 1

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

Einrichtung des WS_FTP95 LE

ANYWHERE Zugriff von externen Arbeitsplätzen

Avira Management Console Optimierung für großes Netzwerk. Kurzanleitung

Handbuch B4000+ Preset Manager

Leitfaden zur ersten Nutzung der R FOM Portable-Version für Windows (Version 1.0)

Wichtige Hinweise zu den neuen Orientierungshilfen der Architekten-/Objektplanerverträge

-Konten für Studierende und Zugriffswege auf die Mail-Systeme der Hochschule Rhein-Waal

Lieber SPAMRobin -Kunde!

Ablaufbeschreibung für das neu Aufsetzen von Firebird und Interbase Datenbanken mit der IBOConsole

1. Einführung. 2. Archivierung alter Datensätze

Icinga Teil 2. Andreas Teuchert. 25. Juli 2014

Stammdaten Auftragserfassung Produktionsbearbeitung Bestellwesen Cloud Computing

1 Mathematische Grundlagen

Dokumentation IBIS Monitor

HANDBUCH PHOENIX II - DOKUMENTENVERWALTUNG

Lizenz-Server überwachen

Step by Step Webserver unter Windows Server von Christian Bartl

I N F O R M A T I O N V I R T U A L I S I E R U N G. Wir schützen Ihre Unternehmenswerte

Anleitung: Confixx auf virtuellem Server installieren

Drucken aus der Anwendung

DOKUMENTATION VOGELZUCHT 2015 PLUS

EasyWk DAS Schwimmwettkampfprogramm

GFAhnen Datensicherung und Datenaustausch

Informations- und Kommunikationsinstitut der Landeshauptstadt Saarbrücken. Upload- / Download-Arbeitsbereich

Anleitung Captain Logfex 2013

Was ist neu in Sage CRM 6.1

PC-Kaufmann Supportinformation - Proxy Konfiguration für Elster

Zur Bestätigung wird je nach Anmeldung (Benutzer oder Administrator) eine Meldung angezeigt:

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Einrichtung des Cisco VPN Clients (IPSEC) in Windows7

FTP-Leitfaden RZ. Benutzerleitfaden

Durchführung der Datenübernahme nach Reisekosten 2011

Übersicht. Was ist FTP? Übertragungsmodi. Sicherheit. Öffentliche FTP-Server. FTP-Software

Eine Anwendung mit InstantRails 1.7

Tips, Tricks und HOWTOs Virtualisierung für Profis und Einsteiger Serverkonsolidierung, Testumgebung, mobile Demo

Microsoft Update Windows Update

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

MSXFORUM - Exchange Server 2003 > Konfiguration NNTP unter Exchange 2003

TechNote. Produkt: TWINFAX 7.0 (ab CD_24), TWINFAX 6.0 Modul: SMTP, T611, R3 Kurzbeschreibung: Briefpapier- und Mailbodyunterstützung

Update von Campus-Datenbanken (FireBird) mit einer Version kleiner 9.6 auf eine Version größer 9.6

Anleitungen zum Publizieren Ihrer Homepage

robotron*e count robotron*e sales robotron*e collect Anmeldung Webkomponente Anwenderdokumentation Version: 2.0 Stand:

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Matrix42. Use Case - Sicherung und Rücksicherung persönlicher Einstellungen über Personal Backup. Version September

Upgrade auf die Standalone Editionen von Acronis Backup & Recovery 10. Technische Informationen (White Paper)

EASYINSTALLER Ⅲ SuSE Linux Installation

Tipps und Tricks zu den Updates

Administrator-Anleitung

Zugriff auf OWA Auf OWA kann über folgende URLs zugegriffen werden:

1. Zuerst muss der Artikel angelegt werden, damit später die Produktvarianten hinzugefügt werden können.

2 Die Terminaldienste Prüfungsanforderungen von Microsoft: Lernziele:

FrogSure Installation und Konfiguration

Facebook I-Frame Tabs mit Papoo Plugin erstellen und verwalten

Installation des Authorware Webplayers für den Internet Explorer unter Windows Vista

Datensicherung. Beschreibung der Datensicherung

Updatehinweise für die Version forma 5.5.5

Daten Sichern mit dem QNAP NetBak Replicator 4.0

Anleitung zur Daten zur Datensicherung und Datenrücksicherung. Datensicherung

Anleitung zum Online-Monitoring für Installateure

Firmware-Update, CAPI Update

NetStream Helpdesk-Online. Verwalten und erstellen Sie Ihre eigenen Tickets

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Eigenen WSUS Server mit dem UNI WSUS Server Synchronisieren

ASA Schnittstelle zu Endian Firewall Hotspot aktivieren. Konfiguration ASA jhotel

Version smarter mobile(zu finden unter Einstellungen, Siehe Bild) : Gerät/Typ(z.B. Panasonic Toughbook, Ipad Air, Handy Samsung S1):

Powermanager Server- Client- Installation

Umgang mit der Software ebuddy Ändern von IP Adresse, Firmware und erstellen von Backups von ewon Geräten.

Um über FTP Dateien auf Ihren Public Space Server - Zugang laden zu können benötigen Sie folgende Angaben:

Internet online Update (Internet Explorer)

EDI Connect goes BusinessContact V2.1

Kurzanleitung. MEYTON Aufbau einer Internetverbindung. 1 Von 11

Update und Konfiguraton mit dem ANTLOG Konfigurations-Assistenten

Transkript:

Netzwerkmonitoring mit Nagios und RRDtool Monitoring networks with Nagios and RRDtool Bernhard Kuhlen WetterOnline Meteorologische Dienstleistungen GmbH Am Rheindorfer Ufer 2 53117 Bonn Tel.: +49 228 5593773 E-Mail.: bkuhlen@wetteronline.de Diplomarbeit Betreuer: Prof. Dr. Andreas Künkler Bonn, August 2007

Vorwort Die WetterOnline GmbH mit Sitz in Bonn ist eine mittelständische, meteorologische Dienstleistungs-Firma mit einer Palette an Produkten für Privat- und Geschäftskunden. Große Bekanntheit hat das Unternehmen durch den Internetauftritt unter http://www.wetteronline.de erlangt, ein Online-Angebot mit vielen Informationen zum Wetter weltweit, das seit 1997 abrufbar ist. Neben der Aufbereitung und Präsentation meteorologischer Daten im Internet sind Programmierung meteorologischer Webportale, Lieferung von Wetterdaten an Kunden und ein Programm zur Schadensregulierung für Versicherungen einige weitere Beispiele der angebotenen Produktpalette. Eine ausführliche Vorstellung des Unternehmens ist abrufbar unter http://www.wetteronline-gmbh.de. Die vorliegende Arbeit ist im Rahmen eines Projektes zur Verbesserung der Überwachung des IT-Systems entstanden, ein Projekt das über diese Arbeit hinaus weitergeführt wird. Danken möchte ich insbesondere Herrn Prof. Dr. Künkler, der meine Arbeit betreut hat und stets ein offenes Ohr für meine Fragen hatte, meiner Freundin Annika Götze für ihre Geduld und Unterstützung während meiner Arbeit und insbesondere auch dafür, dass sie sich die Zeit nahm, dieses Dokument auf sprachliche Schwachstellen und Tippfehler zu untersuchen. Ebenfalls danke ich meinem Kollegen Thorsten Schlich für das Aufnden von Tippfehlern. Mein weiterer Dank gilt den Geschäftsführern von WetterOnline, Herrn Dr. Ulrich Römer und Herrn Dr. Joachim Klaßen für ihren Beitrag zur Förderung meines berufsbegleitenden Fernstudiums.

Kurzfassung Die Anforderung an ein IT-System im professionellen Umfeld ist neben der ordnungsgemäßen Funktionsweise die möglichst zeitnah erfolgende Problembehebung bei temporären Störungen. Dem für das System zuständigen Personal müssen Probleme schnellstmöglich und automatisiert mitgeteilt werden, im besten Falle, bevor ein Kunde den Mangel bemerkt oder ein langer Systemausfall einen hohen wirtschaftlichen Schaden zur Folge hat. Zudem werden Hilfsmittel benötigt, die die Transparenz der zum Teil komplexen Vorgänge in einem Netzwerk erhöhen und Analysewerkzeuge zur Problembehebung oder Systemverbesserung bereitstellen. Die vorliegende Arbeit hat das Ziel, diesen Anforderungen im Falle des IT-Systems der WetterOnline GmbH gerecht zu werden. Das IT-System der Firma WetterOnline besteht aus einem Intranet am Firmenstandort in Bonn und einem Servernetz in Frankfurt. Während das Intranet in Bonn ausschließlich Dienste (wie Mailserver und Nameserver) für die Mitarbeiter bereitstellt, benden sich am Standort Frankfurt die Server, die Dienste für die Kunden bereitstellen. Für diese beiden Netze soll im Rahmen der vorliegenden Arbeit ein Monitoring-System implementiert werden, bestehend aus der Aufzeichnung von Performancedaten wie CPU-Auslastung und Trafc und einer zentralen Überwachung von Diensten wie Webserver, FTP-Server und anderen Diensten. Bei der Aufzeichnung der Performancedaten geht es im wesentlichen um eine graphische Aufbereitung der für die System-Performance wichtigen Einflussgrößen, die einen Überblick über die Auslastung des Systems geben soll und damit u.a. ein objektives Hilfsmittel zur Bedarfsanalyse beim Kauf zukünftiger Hardware ist oder bei der Analyse von (zeitlich korrelierten) Problemen im Netzwerk hilft. Bei der Überwachung des Systems hingegen steht die Auflistung von Fehlern und Problemen im Netzwerk, sowie die Benachrichtigung der verantwortlichen Personen (per E-Mail oder SMS) im Bedarfsfalle und wenn möglich, eine automatisierte Problembehebung im Vordergrund. Zentrales Ziel ist dabei die schnelle Problemerfassung und Behebung. Zur Aufzeichnung von Performancedaten wird im Rahmen dieser Arbeit die freie Software RRDtool genutzt (siehe [6]). Als Monitoring-Software für die Netzwerküberwachung kommt Nagios zum Einsatz. Neben der Online-Dokumentation unter http://www.nagios.org sind hierzu auch Lehrbücher (siehe [2] und [3]) erschienen.

Inhaltsverzeichnis 1 Einleitung..................................................... 1 1.1 Ziele dieser Arbeit........................................... 2 1.1.1 Ziel: Darstellung der System-Performance.................. 2 1.1.2 Ziel: Systemüberwachung................................ 2 1.2 Die verwendete Software...................................... 3 1.3 Aufbau dieser Arbeit......................................... 4 1.4 Vorbemerkung............................................... 5 2 Grundlagen................................................... 7 2.1 Das Simple Network Management Protocol SNMP............... 7 2.1.1 Sicherheitsaspekte bei SNMP............................. 8 2.1.2 Funktionsweise von SNMP............................... 9 2.2 Visualisierung von Zeitreihen: RRDtool......................... 11 2.2.1 Die Notwendigkeit der Datenaufzeichnung.................. 11 2.2.2 RRDtool.............................................. 13 2.3 Systemüberwachung mit Nagios................................ 22 2.3.1 Einführung in Nagios.................................... 22 2.3.2 Installation und Konguration von Nagios unter FreeBSD.... 25 2.3.3 Zusammenfassung der wesentlichen Eigenschaften von Nagios. 36 3 Netztopologie bei WetterOnline............................... 39 3.1 Übersicht des WetterOnline-Netzes............................. 39 3.1.1 Die Netzkomponenten................................... 40 3.2 Das Netzwerk in Bonn........................................ 42 3.3 Das Netzwerk in Frankfurt.................................... 43 4 Aufzeichnung von Performancedaten........................... 47 4.1 Implementierung der Aufzeichnung mit RRDtool................. 48 4.1.1 Performanceparameter................................... 48 4.1.2 Skripte und Verzeichnisse zur Aufzeichnung der Daten....... 51 4.2 Diskussion einzelner Ergebnisse der Performanceanalyse........... 59

VIII Inhaltsverzeichnis 5 Systemüberwachung mit Nagios............................... 73 5.1 Die Weboberfläche und die Bedienung von Nagios................ 74 5.2 Überwachung der Hosts....................................... 76 5.2.1 Der Ausfall von Servern................................. 76 5.2.2 Serverausfall und Reboot durch Nagios-Eventhandler........ 77 5.2.3 Notikation per SMS.................................... 84 5.3 Überwachung der Services..................................... 89 5.3.1 Service-Checks......................................... 90 5.3.2 Remote-Checks mit NRPE............................... 105 5.3.3 Eventhandler für Service-Checks.......................... 111 5.3.4 Verteiltes Monitoring mit NSCA.......................... 112 5.3.5 Service-Dependencies.................................... 116 5.3.6 Eskalationsmanagement................................. 119 5.4 Überwachung des Nagios-Prozesses............................. 120 5.5 Erhöhung der Netzwerk-Transparenz mit Nagios................. 122 6 Zusammenfassung............................................. 129 7 Ausblick....................................................... 133 8 Anhang....................................................... 135 9 Glossar........................................................ 153 Index............................................................. 163 Literatur......................................................... 167

Abbildungsverzeichnis 2.1 Der MIB-Tree von SNMP-Geräten............................. 10 2.2 Darstellung des Round-Robin-Verfahrens....................... 15 2.3 Darstellung der CPU-Auslastung eines Servers................... 21 2.4 Systemüberwachung mit Nagios............................... 25 2.5 Abhängigkeiten im Netzwerk.................................. 35 3.1 Netztopologie im IT-System von WetterOnline.................. 41 3.2 Intranet von WetterOnline in Bonn............................ 44 3.3 Netzwerk von WetterOnline in Frankfurt........................ 45 4.1 Verzeichnisstruktur und Skripte für Performancediagramme....... 55 4.2 Trafc-Analyse www-de-1..................................... 62 4.3 Analyse der CPU-Load aktuell-2............................. 63 4.4 Analyse der zeitlichen CPU-Auslastung aktuell-2............... 64 4.5 Trafc-Analyse aktuell-2.................................... 65 4.6 Speicher-Analyse aktuell-2.................................. 66 4.7 RTT-Analyse ns1............................................ 67 4.8 RTT-Analyse city-2........................................ 68 4.9 Prozessanalyse von www-cn-1................................. 69 4.10 Plattendurchsatz-Analyse von mail............................ 70 4.11 Trafc-Analyse der Uplink-Ports............................... 71 5.1 Startseite der Nagios-Weboberfläche............................ 75 5.2 APC-Weboberfläche......................................... 78 5.3 Überwachung der Hosts bei Nagios............................. 87 5.4 Statusinformationen eines Hosts............................... 88 5.5 Benachrichtigung bei Systemausfall per E-Mail.................. 89 5.6 Service-Checks eines Hosts.................................... 90 5.7 Benachrichtigung bei Service-Problemen durch E-Mail............ 106 5.8 NRPE und Firewalls......................................... 110 5.9 Nagios Service Check Acceptor (NSCA)........................ 114 5.10 Service-Check-Meldungen ohne Abhängigkeit.................... 118 5.11 Service-Check-Meldungen mit Abhängigkeit..................... 118 5.12 Server-Status des WetterOnline-Netzes......................... 123

X Abbildungsverzeichnis 5.13 Beispiel 1 eines Serverproblems................................ 124 5.14 Beispiel 2 eines Serverproblems................................ 124 5.15 Kommentare bei Problemen................................... 125 5.16 Problemübernahme.......................................... 125 5.17 Statistische Problemanalyse 1................................. 125 5.18 Statistische Problemanalyse 2................................. 126 5.19 Statistische Problemanalyse gw-1.............................. 127 5.20 Verzögerungen im KKF-Netz nach Mitternacht.................. 127 5.21 Auflistung von Netzwerkproblemen mit Nagios.................. 128

Tabellenverzeichnis 2.1 Rückgabewerte der Nagios-Plugins............................. 24 2.2 Verzeichnisse und Dateien für Nagios unter FreeBSD............. 28 4.1 Verzeichnisstruktur für Performancedaten....................... 53 6.1 Eckdaten des IT-Systems bei WetterOnline..................... 131

1 Einleitung In dieser Arbeit wird die Implementierung und Konguration eines Netzwerk- Monitoring-Systems in der IT-Umgebung der WetterOnline GmbH beschrieben. In diesem einleitenden Kapitel werden die wesentlichen Ziele und Ideen skizziert, der Aufbau des vorliegenden Dokuments erläutert, sowie das zu untersuchende IT-System kurz vorgestellt. WetterOnline versteht sich als IT-basierte, meteorologische Dienstleistungsrma, deren höchstes Gut (Daten und Programme) auf einem Pool von Servern gehalten und verwaltet wird. Dieser Pool umfasst derzeit (Frühling 2007) 60 Server. Die enorme Bedeutung, die das IT-System für WetterOnline hat, führt zu der Notwendigkeit, das System darzustellen, transparent zu machen und zu überwachen und somit direkt zu den Zielen, die im Rahmen dieser Arbeit erreicht werden sollen. Das Netzwerk der Firma WetterOnline (siehe hierzu auch Kapitel 3) besteht, wenn man mobile Notebooks einmal außer Acht lässt, aus einem Intranet in Bonn und einem Pool von Servern an einem Standort in Frankfurt mit sehr hoher Verfügbarkeit 1. Auf Betriebssystem-Ebene wird auf Serverseite das UNIX-Derivat FreeBSD (siehe [5]) in den Versionen 4, 5 und 6 verwendet. Die Server stellen meteorologische Informationen in vielfältiger Ausführung für Internetnutzer und Geschäftskunden bereit. Zu erwähnen seien beispielhaft ein FTP-Server, den Geschäftskunden zum Erhalt von Daten kontaktieren können, ein Versicherungstool für Versicherungsnehmer und -geber oder die frei abrufbare Webapplikation unter www.wetteronline.de. Neben diesen Servern, die aufbereitete Daten darstellen (bei dem in der Informatik bekannten EVA-Prinzip (Eingabe, Verarbeitung, Ausgabe) wird hier die Ausgabe oder Präsentation der fertigen Ergebnisse (Produkte) durchgeführt), gibt es noch solche Server, die die Veredelung der meteorologischen Rohdaten durchführen und diese Daten auch beziehen (Eingabe, Verarbeitung). Diese Produktionsserver übernehmen die Verarbeitung der meteorologischen Daten hin zu fertigen Produkten. 1 Seitens des Dienstleisters vor Ort wird eine Erreichbarkeit des Standortes zu 99,85% garantiert.

2 1 Einleitung 1.1 Ziele dieser Arbeit 1.1.1 Ziel: Darstellung der System-Performance Ständig werden neue Produkte entwickelt, neue Kunden gewonnen und neue Anforderungen an Hard- und Software gestellt. Kaufentscheidungen für neue Hardware müssen objektive Analysemechanismen zum Auslastungszustand des Systems vorausgehen, was bedeutet, dass man zuerst ein Bild vom aktuellen Auslastungszustand darstellen muss. Dieses Ziel wird in Kapitel 4 verfolgt, indem die systemkritischen Parameter wie Servertrafc, CPU-Auslastung oder die Anzahl der laufenden Prozesse graphisch dargestellt werden. Künftige Kaufentscheidungen für mehr oder andere Hardware 2 werden durch Studium der Performancedaten auf eine objektive Basis gestellt, während sie bislang eher nach subjektiven Gesichtspunkten getroffen wurden. 1.1.2 Ziel: Systemüberwachung Kunden, die Dienste beziehen und bezahlen, erwarten eine hohe Verfügbarkeit der Daten und Programme. Ausfälle der Dienste oder Komplettausfälle der Server müssen schnell behoben werden. Eine zeitnahe Problembehebung kann nur funktionieren, wenn der zuständige Mitarbeiter (je nach Dringlichkeit) per E-Mail oder SMS automatisiert eine Nachricht über das Problem erhält, sobald das Problem von einer Kontrollinstanz festgestellt wurde. Die Betonung des Wortes automatisiert soll an dieser Stelle klarstellen, dass diese Kontrollinstanz nach Möglichkeit nicht ein Mitarbeiter (der zufällig auf das Problem stößt) und keinesfalls der Kunde sein soll, sondern dass es ein System auf Software-Ebene geben muss, das diese Überprüfungen regelmäßig durchführt und somit die Zeit zwischen dem Auftreten eines Problems und der Benachrichtigung minimiert. Einige solcher Prüfungen werden bei WetterOnline bislang auf der Basis von Bash-Skripten durchgeführt. So werden SMS und/oder E-Mails bei Serverausfall, Plattenplatzproblemen auf Servern sowie fehlgeschlagenen Dateiaktualisierungen generiert und versandt. Diese Methodik hat aber entscheidende Nachteile. Zum einen werden die Probleme mit vielen verschiedenen Programmen (Skripten) gelöst, was die Wartung der Kontrollmechanismen verkompliziert und immer wieder die Notwendigkeit beinhaltet, die selbstprogrammierten Softwarelösungen ausgiebig zu testen. Zum anderen sind diese Lösungen oftmals nicht flexibel, wenn man z.b. neue Dienste 3 testen (man neigt dann dazu, wieder ein neues Kontrollprogramm zu schreiben) oder aber die Benachrichtigungen von zuständigen Personen bei Problemen kaskadiert durchführen will. So ist es beispielsweise sinnvoll, bei einem Ausfall eines Dienstes erst den Systemadministrator zu informieren. Kann 2 Meistens sind mit dem Begriff Hardware Server gemeint, also die Rechenmaschinen, auf denen die Daten verarbeitet werden. Manchmal geht es aber auch um andere Dinge, z.b. die Entscheidung, beim Provider einen anderen Bandbreiten-Tarif zu bestellen, wenn im Rahmen der Analyse der Bandbreite festgestellt wird, dass diese nicht mehr ausreicht. 3 Mit Diensten sind im Rahmen dieser Arbeit immer Netzwerkdienste wie HTTP, FTP und SNMP gemeint.

1.2 Die verwendete Software 3 dieser das Problem nicht nach einer bestimmten Zeit lösen, so ist dann evtl. auch ein Mitarbeiter aus dem Vertrieb zu verständigen, der bei kurzzeitigen Störungen in der Regel nicht informiert werden muss. Man sieht an dieser kurzen Ausführung schnell, dass es besser wäre, ein komplexeres Software-Paket zu haben, das diese Punkte miteinander verbindet und flexibel bei Neuerungen und transparent bei der Wartung ist. Neben der Warnung bei Netzwerkproblemen wie z.b. Ausfall von Servern, soll als weiteres wesentliches Ziel eine weitgehend automatisierte Problemlösung durchgeführt werden. Etwa 75% der derzeitigen Routinearbeit bei den Bereitschaftsdiensten der Systemadministration bei WetterOnline besteht daraus, stehengebliebene Server wieder neu zu starten. Sofern möglich, sollen diese Routineschritte bei einem entsprechenden Ausfall automatisiert erfolgen. Dadurch wird die Zeitspanne bis zur Problembehebung weiter verkürzt und der zuständige Mitarbeiter (vor allem nachts) nur in dringenden, nicht automatisiert lösbaren Notfällen informiert. Nebenbei spart die Firma hierdurch Nachtzuschläge für entsprechende Bereitschaftsdienste. Schließlich sollen die Instrumente des Systemmonitorings die Transparenz von Vorgängen im Netz erhöhen, indem beispielsweise durch Analyse von Systemmeldungen, Performancediagrammen und statistischen Auswertungen der gesammelten Daten Netzwerkprobleme offenkundig gemacht werden. Wünschenswert ist eine Oberfläche, die das Netz mit seinen Komponenten übersichtlich und umfassend darstellt und Probleme mit geeigneten Werkzeugen schnell aufdeckt. Die Ziele dieser Arbeit lassen sich so zusammenfassen: Schaffung eines zentralen Warnsystems bei Ausfall von Diensten / Servern (möglichst inklusive automatischer Problembehebung) oder kritischen Systemzuständen (z.b. hohe CPU-Last) Bereitstellung eines objektiven Hilfsmittels zur Unterstützung bei der Hardware- Bedarfs-Analyse sowie zur Erkennung / Analyse von Netzwerkproblemen und Erhöhung der Transparenz von Vorgängen im Netzwerk 1.2 Die verwendete Software Das im Rahmen dieser Arbeit durchgeführte Netzwerkmonitoring beinhaltet die wesentlichen Punkte der Systemüberwachung zum einen und der Aufzeichnung von Performancedaten zum anderen. Software zur Durchführung eines Netzwerkmonitorings gibt es in vielfältiger Ausführung, insbesondere auf Windows-Plattformen. Von der theoretischen Möglichkeit als Monitoring-Software ein fertiges Windows- Produkt zu wählen, wurde aus verschiedenen Gründen Abstand genommen, wie im Folgenden noch erläutert wird. Vielmehr wurde entschieden, freie UNIX-Software für den Bedarf zu implementieren und zu kongurieren. Bei der Recherche nach der richtigen Software stand im Vordergrund, dass die in Kapitel 1.1 denierten Ziele erreicht werden können und das Softwarepaket möglichst gut in das IT-System von WetterOnline integrierbar ist.

4 1 Einleitung Zum einen soll insbesondere der Serverstandort in Frankfurt überwacht werden, in dem nur UNIX-Server zum Einsatz kommen. Ausschlaggebend war hier, dass die UNIX-Server die Daten zur System-Performance selbst (lokal) aufzeichnen sollen, um unnötigen Netzwerkverkehr zu vermeiden. Das Aufzeichnen der Performancedaten stellt dabei ein dezentrales Monitoring dar, das auf jedem Server durchgeführt wird. Die Prüfung der Verfügbarkeit der Dienste (die Systemüberwachung) hingegen muss zentral auf einem Kontroll-Server durchgeführt werden, da ein ausgefallener Server das Problem in der Regel nicht mehr melden kann. Damit die UNIX-Server ihre Daten der System-Performance selbst aufzeichnen, musste die Aufzeichnung folglich mit einem UNIX-Tool erfolgen. Eine Wahl für ein Windows-Produkt, das parallel zur UNIX-gestützten Performanceanalyse, die zentrale Systemüberwachung übernimmt, hätte also eines besonderen Grundes bedurft. Zum anderen bietet die im Rahmen dieser Arbeit aufgezeigte Methode der Konguration freier Software-Tools wie Nagios oder RRDtool die maximale Freiheit, das Monitoring nach den Bedürfnissen der Firma WetterOnline anzupassen und höchste Flexibilität bei der Umsetzung oder anstehenden Änderungen. Die Administration bleibt komplett in eigener Hand, eine Abhängigkeit von proprietären Softwarelösungen oder Formaten wird vermieden. Die verwendeten Softwareprodukte stehen unter der General Public License (GPL) und sind somit kostenfrei, während vergleichbare Produkte auf Windows-Plattformen oftmals mit Lizenzund Anschaffungskosten verbunden sind. Schliesslich verrät eine Recherche im Internet, dass sich Nagios in den letzten Jahren als Monitoring-Tool etabliert hat und von großen Firmen eingesetzt wird. Hiervon konnte sich der Autor bei einer Nagios-Schulung (siehe [31]) überzeugen. 1.3 Aufbau dieser Arbeit Das Kapitel 2 wird die wesentlichen theoretischen Hintergründe der verwendeten Software und Protokolle beleuchten. Dabei handelt es sich selbstverständlich nicht um komplette, umfassende Darstellungen, die der Fachliteratur oder den jeweiligen Online-Referenzen zu entnehmen sind. Vielmehr soll dieses Kapitel den erfahrenen Leser in die Lage versetzen, die Ideen und Konzepte in dieser Arbeit ohne Lektüre der Fachliteratur nachvollziehen zu können. Das Simple Network Management Protocol ist das zentrale, verwendete Protokoll zur Informationsgewinnung in TCP/IP-Netzwerken und wird in Kapitel 2.1 kurz beschrieben. Die Darstellung der Performancedaten wird mit Hilfe der freien Software RRDtool erstellt, was in Kapitel 2.2.2 skizziert ist. Die Software zur Überwachung von Servern und Diensten Nagios wird in Kapitel 2.3 beschrieben. Das im Rahmen dieser Arbeit implementierte Netzwerk-Monitoring beschreibt die

1.4 Vorbemerkung 5 Analyse des IT-Netzwerkes 4 bei WetterOnline. Die Struktur dieses zu überwachenden Netzwerks wird in Kapitel 3 erklärt. Die kurzen Theorie-Kapitel 2.2 und 2.3 stehen im unmittelbaren Zusammenhang mit den Kapiteln 4 und 5, in denen die Konguration und Implementierung im Praxisfall bei WetterOnline beschrieben und die wesentlichen Ergebnisse dargestellt sind. Wie im Vorwort erwähnt, stellt diese Arbeit die erste Stufe eines größer angelegten Projektes bei WetterOnline dar, wobei Monitoring im strengen Sinne kein Projekt ist (mit Projektabschluss), sondern ein zyklischer Prozess, der ständig beobachtet, gepflegt und weiter fortgeführt werden muss. Kapitel 6 fasst die wesentlichen Ergebnisse dieser Arbeit kurz zusammen. Im Kapitel 7 werden die Punkte skizziert, die im Anschluss an diese Arbeit fortzuführen, zu verbessern oder generell zu lösen sind. Ein Anhang listet die wichtigsten, im Rahmen dieser Arbeit verfassten (Bash-)Skripte auf. 1.4 Vorbemerkung Dieser Arbeit ist eine CD mit Online-Referenzen, Quellcodes und Kongurationsdateien beigefügt. Auf der CD bendet sich eine README-Datei, die den weiteren Aufbau beschreibt. Die meisten als Referenz angegebenen Links sind auch als PDF beigefügt, falls ein Link beim Lesen nicht mehr verfügbar sein sollte. Im Rahmen dieser Arbeit verwendete IP-Adressen, SNMP-Community-Strings oder Passwörter werden (insbesondere auch auf der CD) verfälscht, da es sich hierbei um sensible Daten handelt und diese schriftliche Ausarbeitung als Diplomarbeit das Firmenumfeld verlässt. Dem Autor ist bewusst, dass es im Falle der IP-Adressen dennoch sehr einfach ist, diese zu ermitteln. Die Serverlandschaft von WetterOnline ist in ständiger Bewegung. Durch einen Umzug der Firma zum 01.07.2007 wird sich das hier beschriebene Intranet stark ändern. Diese Arbeit nimmt nur auf das Intranet bis Juni 2007 Bezug. Auch sind im Rahmen der kommenden Ausführungen die Angaben zu den Serverbeständen nicht immer gleich, da im Laufe der Niederschrift weitere Server in das Netz integriert wurden. So ist beispielsweise an einzelnen Stellen von 66, an anderen von 68 Servern die Rede. Die Gesamtzahl der Server ist für diese Ausarbeitung unerheblich, so dass diese Ungenauigkeiten nicht wesentlich sind. Die wichtigsten, im Rahmen dieser schriftlichen Ausarbeitung verwendeten Begriffe stellt ein Glossar in einer Übersicht zusammen. 4 Zum IT-Netzwerk gehören auch Arbeitsplatzrechner, Drucker und andere Komponenten eines Bürostandorts. Im Rahmen dieser Arbeit wird nur das Server-Netzwerk betrachtet. Dennoch wird der Begriff IT-Netzwerk verwendet.

2 Grundlagen Die wesentlichen, im Rahmen der vorliegenden Arbeit verwendeten Protokolle und Softwarepakete sind das Simple Network Management Protocol SNMP, zum Auslesen (und ggf. auch Manipulieren) der Werten von Netzwerkkomponenten, wie Router, Switches oder UNIX-Server, das Programm rrdtool zum Visualisieren von Zeitreihen, welches im Rahmen dieser Arbeit zum Darstellen von Performancedaten wie der CPU-Last verwendet wird und die Systemüberwachungs-Software Nagios, die eine automatisierte Überwachung von Diensten, Servern und Netzwerken ermöglicht. Ziel dieses Kapitels ist es, die wesentliche Funktionsweise dieser Instrumente so darzustellen, dass ein Verständnis der in Kapitel 4 und 5 gezeigten Implementierung und Konguration ohne Sekundärliteratur möglich ist. Eine komplette Darstellung würde den Rahmen dieser Arbeit bei weitem sprengen und kann sowohl online als auch in entsprechenden Fachbüchern nachgeschlagen werden (siehe Literaturangaben). 2.1 Das Simple Network Management Protocol SNMP Das Simple Network Management Protocol SNMP wurde deniert, um Netzwerkgeräte zu überwachen und zu verwalten. Viele im Netzwerk eingesetzte Geräte wie Switches oder Router verfügen über eine SNMP-Schnittstelle. UNIX-Server (und auch Windows-Server) können nach Installation von entsprechenden Softwarepaketen ebenfalls per SNMP kommunizieren. Im Falle der FreeBSD-Server von WetterOnline ist dazu der Port 1 net-snmp4 zu installieren. Selbstverständlich kann dieses Kapitel nur eine kurze Einführung zu SNMP geben. Ausführliche Informationen können beispielsweise aus [10] oder einer Vielzahl von RFCs (Request for Comments) entnommen werden. Einen guten Einstieg zum Thema SNMP ermöglicht z.b. [19]. Hier ndet man insbesondere eine Auflistung der für SNMP relevanten RFCs. 1 Im Sprachgebrauch von FreeBSD-Softwareinstallationen bezeichnen so genannte Ports eine Verzeichnisstruktur, die es ermöglicht, Softwarequellen herunterzuladen, zu kompilieren und zu übersetzen. Im Gegensatz zu vorkompilierten Softwarepaketen dauert dieser Vorgang länger, ermöglicht aber eine für die jeweilige Hardwareplattform optimierte Softwareinstallation.

8 2 Grundlagen 2.1.1 Sicherheitsaspekte bei SNMP Wer SNMP einsetzt, kann damit je nach Konguration Werte von Netzwerkgeräten auslesen aber auch setzen. So kann man beispielsweise den Datentransfer eines Cisco-Switches auslesen. Bei WetterOnline werden so genannte Power Distribution Units der Firma APC eingesetzt (siehe [9]). Diese Units versorgen die einzelnen Server und Switches im Netzwerk mit Strom. Per SNMP kann ausgelesen werden, welcher Port an oder aus ist und insbesondere können Komponenten gezielt ausund wieder angestellt werden, indem man den APC-Port 2, mit dem der Server verbunden ist, aus- und wieder einschaltet (siehe Abbildung 5.2). Dies kommt einem Hard-Reset gleich, den man anwenden muss, wenn ein Server stehen gelieben ist und nur noch auf diese Weise neu gestartet werden kann. Dieses Einsatzbeispiel macht bereits deutlich, dass bei der Verwendung von SNMP Sicherheitsaspekte eine wesentliche Rolle spielen. Weder möchte man, dass Unbefugte Daten von Netzkomponenten auslesen können, noch dass Serverkongurationen durch Unbefugte verändert oder Server per APC gar abgeschaltet werden können. Aus diesem Grund werden in den verschiedenen Versionen von SNMP so genannte Communities benutzt. Unterschieden wird 3 zwischen der öffentlichen Community public, so genannten Read Only Communities und Read-Write Communities. Der Name der Community stellt eine Art Passwortschutz dar, da man bei SNMP-Abfragen diesen Namen verwenden muss. Wer Kongurationen verändern will, muss beispielsweise den Namen der Read-Write Community kennen. Geräte wie Switches oder Power Distribution Units haben häug bei Auslieferung fest vorgegebene, bekannte Community-Bezeichner, die man vor Inbetriebnahme im Netzwerk dringend ändern sollte. SNMP ist bislang in den Versionen 1, 2 und 3 erschienen. Bei den Versionen 1 und 2 liefern die so genannten Community Strings aber nicht ausreichend Schutz, da diese Strings bei SNMP-Zugriffen im Klartext übertragen werden. Im Rahmen der Systemadministration von WetterOnline wird mit Ausnahme des oben beschriebenen Zugriffs auf APC-Geräte nur lesend auf Netzkomponenten zugegriffen. Zudem wird der Zugriff nur Servern und Netzkomponenten aus dem IP-Bereich von WetterOnline erlaubt. Um einen FreeBSD-Server beispielsweise vor SNMP-Zugriffen von nicht autorisierten IP-Bereichen zu schützen, kann man TCP-Wrapper einsetzen (siehe PDF der beigefügten CD oder [29]). Hierzu ist unter FreeBSD die Systemdatei /etc/hosts.allow folgendermaßen für SNMP zu kongurieren:... snmpd : 117.210.117.0/255.255.255.128 : allow snmpd : 89.20.81.0/255.255.255.128 : allow snmpd : ALL : deny... 2 Hiermit ist eine Art Steckdose gemeint, mit der die Server über Netzstecker mit der APC verbunden werden. Diese Steckdosen (Ports) können dann per SNMP-Anweisungen gezielt an- und ausgeschaltet werden. 3 Bei SNMP in den Versionen 1 und 2c

2.1 Das Simple Network Management Protocol SNMP 9 Diese Konguration gibt an, dass nur Netzwerkgeräte aus den beiden IP-Subnetzen in Frankfurt (siehe Kapitel 3) per SNMP Anfragen stellen dürfen. Die APCs sind ähnlich konguriert 4. 2.1.2 Funktionsweise von SNMP Agenten, Manager und MIB Geräte wie Server, Switches oder Router, die per SNMP angesprochen werden, um Statusinformationen zu ermitteln oder auch zur Fernsteuerung (wie im Fall der APC) nennt man Agenten. Bei der Kommunikation via SNMP verhalten sich diese Geräte passiv, indem sie Anfragen beantworten oder Aufgaben ausführen. Da Anfragen von mindestens einer Stelle aus erfolgen müssen, gibt es auch mindestens einen aktiven Kommunikationspartner, der die Anfragen stellt. Diese aktiven Kommunikationspartner nennt man Manager. Im Rahmen des Netzwerkmonitorings werden Performancedaten von den Servern selbst aufgezeichnet. Die Server stellen damit Anfragen an sich selbst und sind somit gleichzeitig Agent und Manager (siehe Kapitel 4). Bei der Systemüberwachung mit Nagios (siehe Kapitel 5) ist dies anders. Hier übernimmt der Nagios-Server, der Anfragen stellt, die Rolle des Managers, der abgefragte Server ist der Agent. Zur Standardisierung des Protokolls SNMP wurde eine wohldenierte Informationsstruktur, die so genannte Management Information Base (MIB) deniert, die es ermöglicht, dass sich beliebige Manager mit beliebigen Agenten verständigen können. Bei der Organisation der MIB handelt es sich um eine Baumstruktur, deren einzelne Knoten aus Zahlen bestehen. Diese Zahlen sind zur besseren Lesbarkeit mit Namen assoziiert, die die Bedeutung der einzelnen Knoten andeuten. Die Wurzel der MIB besteht aus einem Knoten 1 und ist mit dem Namen ISO assoziiert für International Organization for Standardization. Die darunterliegende Ebene bietet Raum für verschiedene Organisationen. Auf eine tiefgreifende Diskussion der Organisation der Baumstruktur soll an dieser Stelle verzichtet und auf die Literatur verwiesen werden. Ein konkretes Beispiel sei an dieser Stelle durch Abbildung 2.1 gezeigt. SNMP kennt zwei Anweisungen zum Auslesen von Daten der Netzwerkkomponenten: snmpget und snmpwalk. Während man per snmpget konkrete Werte eines Endknotens 5 abfragen kann, beispielsweise den Counter eines Netzwerkinterfaces, ermöglicht snmpwalk, wie der Name schon andeutet, ein Durchlaufen von Knoten und davon abhängigen Knoten unterer Ebenen, wenn der angegebene Knoten kein Endknoten ist. Um die in Abbildung 2.1 gezeigten Informationen über die Netzwerkschnittstellen eines Servers zu erhalten, ist in der Kommandozeile eines autorisierten Servers (also eines Servers, der per /etc/hosts.allow SNMP-Abfragen 4 Ein Angreifer könnte durch IP-Spoong (siehe CD) seine Identität verbergen und dennoch Zugriff auf die Server bekommen. Allerdings muss er die erforderlichen IP-Adressen (die zur Sicherheit verfälscht wurden) in Erfahrung bringen und kann darüberhinaus nicht ohne weiteres Antwortpakete mitlesen (es sei denn, er bedient sich auch des ARP-Spoongs (siehe CD)), da diese an den richtigen Kommunikationspartner gesendet werden. 5 Endknoten bei Baumstrukturen werden auch Blätter genannt.