talk@ Verfügbarkeit und Monitoring von Websystemen und Umgebungen Armin Pech Dirk Röder Babiel GmbH check_http!talk.babiel.com!/3?d=20160901
Agenda Verfügbarkeit Pause Monitoring Q&A, Diskussion 2
Verfügbarkeit Hallo, ist da wer? 3
Agenda Verfügbarkeit Definitionen Messen und Bewerten Service Level Agreement Erreichbarkeit sicherstellen 4
Unser Service Mehrwert für Kunde Ohne Verantwortung für Kosten und Risiken Beispiel: Webseite Zuverlässigkeit + Stabilität Verfügbarkeit 5
Unser Service Architektur bestimmt Komponenten Service Komponente Sub-Komponente 6
Was ist Verfügbarkeit? % = Erwartung Ausfall Erwartung Welche Einheit? Zeit: Uptime, Response Time Anzahl: Systeme, Sessions / Hits Welcher Zeitraum? 24x7, 12x5 7
Verfügbarkeit in Zahlen 8
Messen: Planung Was: Antwort Wie: Protokoll Wo: Stationen Wann: Intervall, Zeitraum Intern: Komponenten / Systeme Extern: Service / Umgebung 9
Messen: Sichtweise User Kunde Webseite Webserver Applikation Dev/Admin Betreiber 10
Messen: Sichtweise externes Monitoring internes Monitoring 11
Messen: Beispiel Webseite Messung von Webseiten: Intern + Extern (3 Standorte) Verbindung (Layer 3 + 4) HTTP Status Inhaltsprüfung Antwortzeit Connections / Sessions 12
Messen: Beispiel Webseite Überwachung wird komplex! DNS-Auflösung integrieren Anwendungsverhalten (Redirects, Cookies) HTTP und HTTPS Inhalte aus Caches Services mit vielen Endpunkten (CDNs) 13
Messen und Bewerten Wie die Verfügbarkeit überwachen? 1. Normalzustand ermitteln 2. Schwellwerte definieren 3. Aufzeichnungen erstellen 4. Ereignisse und Entwicklung bewerten 5. Reports generieren 6. Trends vorhersagen 14
Messen und Bewerten Response Time einer Webseite intern Loadbalancer 15
Messen und Bewerten intern Loadbalancer extern FRA extern DUS#1 extern DUS#2 16
Messen und Bewerten intern Loadbalancer extern FRA extern DUS#1 extern DUS#2 17
Messen und Bewerten 18
SLA: Service Level Agreement Vereinbarung zwischen Kunde und Betreiber Anforderungen und Ziele Richtlinien zur Bewertung & Korrektur Geplante Wartung / ungeplanter Ausfall Kommunikation und Reporting Beeinflusst Systemumgebung 19
SLA Organisation ITIL definiert unsere Prozesse Monitoring Reporting Dispatching & Escalation Incident Management Problem Management 20
SLA Organisation ITIL definiert unsere Prozesse Monitoring Reporting Dispatching & Escalation Incident Management Problem Management Nachvollziehbarer Informationsfluss Probleme schnell korrigieren Nachhaltige Lösung suchen Dokumentation (Knowledge Base) 21
SLA Reaktionen Escalation: Alarmierungen Zeit bis Bearbeitung Kommunikation: Anbieter & Kunde Incident: Wiederherstellung des Service Zeit bis Reparatur Mean Time To Recover Problem: Anpassung der Umgebung Zeit bis Korrektur Mean Time Between Failure 22
Erreichbarkeit sicherstellen Gesamte Infrastruktur betrachten Abhängigkeiten prüfen Verfügbarkeit von Drittanbietern https://talk.babiel.com/2/lb-ddos Dokumentation / Notfallplan Schulung / Testing Backup? 23
Erreichbarkeit sicherstellen User Internet / Autonome Systeme Router Firewalls Loadbalancer / Caches Webserver Backends Applikationen Datenbanken / Storage 24
Pause Gleich geht's weiter 25
Monitoring Was tun unsere Systeme eigentlich den ganzen Tag so? 26
Agenda Definition von Monitoring Anforderungen im Monitoring Entwicklung der Plattformen Stand Heute Anregungen 27
Definition von Monitoring Kein Monitoring Überzeugung in Stabilität User basiertes Monitoring Benutzer sind schneller 28
Definition von Monitoring Manuelles Monitoring Skript basiert Zeitgesteuerte Skripte die Emails versenden 29
Definition von Monitoring Reaktives Monitoring Störung tritt ein (bemerkt durch User/Skript) Entstörung erfolgt durch Personal Merkmal der Störung wird überwacht 30
Definition von Monitoring Proaktives Monitoring (Alle) Kennzahlen eines Systems erheben Durch (zentrales) System ausgewertet Via Datenbank/Log langfristig nachgehalten 31
Schlagworte TSDB Time Series Database Datenbank für Messwerte Metrik / Performance Data 10 packets transmitted, 10 received, 0% packet loss, time 9013ms rtt min/avg/max/mdev = 8.334/8.716/10.168/0.534 ms Dashboard Grafische Darstellung von Metriken 32
Anforderungen Was will ich erreichen? Sicherstellung meines Dienstes Benachrichtigung bei Störungen Datenhistorie Automatische Problembehebung 33
Entwicklung der Plattformen 1988 SNMP 1995 MRTG 34
Entwicklung der Plattformen 1988 SNMP 1995 MRTG 1999 Nagios / OpenNMS / RRD Tool 35
Entwicklung der Plattformen 36
Entwicklung der Plattformen 1988 SNMP 1995 MRTG 1999 Nagios / OpenNMS / RRD Tool 2000 Ganglia 2001 Cacti / Zabbix 37
Entwicklung der Plattformen 38
Entwicklung der Plattformen 1988 SNMP 1995 MRTG 1999 Nagios / OpenNMS / RRD Tool 2000 Ganglia 2001 Cacti / Zabbix 2003 Munin 2006 Observium (LibreNMS) / HP OpenView / (IBM) Tivoli 39
Entwicklung der Plattformen 40
Entwicklung der Plattformen 1988 SNMP 1995 MRTG 1999 Nagios / OpenNMS / RRD Tool 2000 Ganglia 2001 Cacti / Zabbix 2003 Munin 2006 Observium (LibreNMS) / HP OpenView / (IBM) Tivoli 2011 #monitoringsucks 41
Entwicklung der Plattformen 1988 SNMP 1995 MRTG 1999 Nagios / OpenNMS / RRD Tool 2000 Ganglia 2001 Cacti / Zabbix 2003 Munin 2006 Observium (LibreNMS) / HP OpenView / (IBM) Tivoli 2011 #monitoringsucks 2012 Sensu / Riemann / Prometheus 2014 Grafana / Icinga2 42
Die Rolle von Nagios 1999 Nagios Daraus resultierte Entwicklungen 2004 OpsView mit Nagios Core 2008 CheckMK 2009 Icinga Fork 2009 Shinken als Python Implementation 2012 Op5 Monitor mit Nagios Core 2013 Naemon als Fork 43
Stand Heute Einige neue Möglichkeiten im Angebot All in One Lösungen Baukasten-Prinzip 44
All in One Lösungen Icinga2 45
All in One Lösungen Prometheus 46
All in One Lösungen TICK Stack 47
Baukasten-Prinzip Erhebung Auswertung Speicherung Darstellung collectd sysdb Diamond ffwd-java 48
Baukasten-Prinzip Erhebung Auswertung Speicherung Darstellung Riemann Sensu Prometheus 49
Baukasten-Prinzip Erhebung Auswertung Speicherung Darstellung Graphite InfluxDB OpenTSDB RRD 50
Baukasten-Prinzip Erhebung Auswertung Speicherung Darstellung Grafana Dashing 51
Anregungen Automatisierung Überwacht alles! Abhängigkeiten! Wer überwacht euer Monitoring? 52
Q & A Fragen? Anregungen? 53
Vielen Dank für euer Interesse! talk.babiel.com/3 (Folien) Verbunden bleiben: talk@babiel.com twitter.com/babiel facebook.com/babiel.gmbh 54