EVENT MANAGEMENT 2.0 QUALIFIZIERTE INCIDENTS DURCH CMDB-GESTÜTZTE EVENTKORRELATION 27.09.2016, Thomas Kresalek
AGENDA 1. Vorstellung 2. Ausgangslage 3. Event Management 2.0 4. Aufwand & Nutzen 04.10.2016 Seite 2
1. VORSTELLUNG
BEIERSDORF We are Skin Care. 6.686 Mio. Konzernumsatz im Jahr 2015 1882 in Hamburg gegründet Starke Marken Über 150 Tochtergesellschaften Über 130 Jahre Erfahrung in Forschung und Entwicklung Über 17.000 Mitarbeiter weltweit 04.10.2016 Seite 4 Seit 2008 im DAX notiert
BSS Wir sind strategischer Partner für IT und Accounting von Beiersdorf das Nervenzentrum, das die Mitarbeiter weltweit vernetzt. 100%ige Tochtergesellschaft der Beiersdorf AG Mehr als 400 Mitarbeiter weltweit 1,3 Petabytes in 2 Rechenzentren 260 Standorte verbinden und 21.000 Benutzerrechte verwalten 1.138.000 ausgehende Rechnungen für 33.000 Kunden bearbeiten Jährlich wird an über 250 Projekten gearbeitet 04.10.2016 Seite 5 Full Service Accounting für 41 Gesellschaften 2003 gegründet
ZU MEINER PERSON Thomas Kresalek (M.Sc.) Manager IT Service Processes Beiersdorf Shared Services Verantwortlich für ITSM Processes & HPE Tools: Project and Portfolio Management Service Manager, Asset Manager Universal CMDB, Connect-IT Operations Manager 04.10.2016 Page 6
2. AUSGANGSLAGE
HERAUSFORDERUNGEN Viele verschiedene Monitoring Tools Je technische Ebene Ohne inhaltliche Zusammenführung Duplikate Ein Ausfall, viele automatische Meldungen Strukturierte Einbeziehung der Eventbearbeitung in die ITSM Prozesse Ursachenfindung Information aller Betroffenen
MONITORING TOWER Business Services Applikationen Betriebssystem Virtualisierung SAP Solution Manager, SQL Server, SAP Batchman, MS SCOM, MS SCOM, Nagios VMWare vcenter Hardware HPE SIM, VMWare vcenter Netzwerk HPE NNMi 04.10.2016 Page 9
INFORMATIONSFLUSS Überwachungstools IT SM Tools HPE SIM MS SCOM SAP HPE NNM vcenter Service Manager CMDB 04.10.2016 Page 10
ANZAHL AUTOMATISCHER INCIDENTS Teams NNM SCOM Grand Total Monitoring 93 42 135 Network 22 22 Storage & Backup 168 168 Database 60 60 Infrastructure Application 40 40 Clients 73 73 Server 416 416 Unified Communication 332 332 SAP Infrastructure 13 13 Grand Total 115 1144 1259 Start unseres Projektes 1259 automatische Incidents im Januar 2016 50% Symptome Jeweils notwendig: Analyse & Dokumentation 04.10.2016 Page 11
3. EVENT MANAGEMENT 2.0
IDEE Automatisches Zusammenführen von Event Automatische Ursachenanalyse Automatische Incident Erstellung
KONZEPT BLACKBOX KORRELATION Überwachungstools IT SM Tools HPE SIM MS SCOM HPE NNM vcenter Auto- Korrelation Service Manager SAP CMDB
VORBEDINGUNGEN Gepflegte CMDB & techn. Discovery Definierte Korrelationsregeln Die richtigen Events (Positiv & Negativ; z.b: Node Up - Node Down) Richtige Repräsentation der technischen Gegebenheiten 04.10.2016 Page 15
ANFORDERUNGEN Basierend auf dem CMDB Wissen Automatische Ursachenermittlung Ermittlung von betroffenem Service Incident Erstellung Regelbasierte automatische Weiterleitung an den Incident Prozess Aktualisierungen an bestehenden Incidents dokumentieren Quellsysteme steuern Eventfilterung Eventkritikalität Können Bearbeitungsteam vorgeben / Failover angeben 04.10.2016 Page 16
USE CASES 1. Duplikate 2. Standort nicht erreichbar (WAN Carrier) 3. Stromausfall (ggf. Teile mit USV versorgt) 4. Netzwerkausfall (einzelne Geräte / Bereiche) 5. Serverausfall 04.10.2016 Page 17
USE CASE: DUPLIKATE Automatische Erkennung von doppelten Alerts Erstellung von nur einem Incident Ggf. Updates 04.10.2016 Page 18
USE CASE: STANDORT NICHT ERREICHBAR Auslöster: Ausfall redundanter WAN Carrier LIS Symptome Abhängige Server, Abhängige Applikationen Korrelation auf Ursache PAR HAM SYD Information an abhängige Teams 04.10.2016 Page 19 SHA
USE CASE: STROMAUSFALL Auslöser: Teile einer Site (ohne USV) fallen aus Prozentualer Ausfall Symptome: Abhängige Server Abhängige Applikationen Melden Ausfälle/Einschränkungen 04.10.2016 Page 20
USE CASE: NETZWERKAUSFALL Auslöser: Netzwerkgerät fällt aus Symptome: ESX Host nicht erreichbar VMs fallen aus bdfdehamcs01rz01 Applikationen fallen aus 04.10.2016 Page 21
USE CASE: SERVERAUSFALL Auslöser: Server fällt aus Symptome: ESX Host nicht erreichbar VMs fallen aus Applikationen fallen aus (IIS, Exchange, Lync, AD, SQL, etc.) Abhängige Applikationen fallen aus/ sind eingeschränkt 04.10.2016 Page 22
WEITERE USE CASES Platte voll Eingeschränkte Serverfunktionalität Datenbank ausgefallen Applikation funktioniert nicht, Job Abbrüche Webserver ausgefallen Website nicht verfügbar AD gestört Anmeldung nicht möglich 04.10.2016 Page 23
3. AUFWAND & NUTZEN
NUTZEN Weniger automatische Incidents 20% Duplikate / 30% Symptome Reduziert Analyse & Dokumentationszeit für Incidents Aufwand in Stunden Analyse Dokumentation Gesamt # 1259 0,12 0,03 0,15 Duplikate 20% 251 0 8,4 8,4 Symptome 30% 377 44 12,6 56,6 Gesamt 50% 628 44 21 65 SAVED 7150 Fokussierung auf Ursachen 6 Mitarbeiter nachts weniger rausgeklingelt SAVED 6000 Systeme bei Störung schneller wiederhergestellt Unbezahlbar! 04.10.2016 Page 25
AUFWAND & NUTZEN (5 JAHRE) Kosten/Nutzen Kosten/Nutzen 1. Jahr* 2.Jahr 3.Jahr 4.Jahr 5.Jahr Lizenzen (300T ) Lizenzen - 60,000 (300T ) - 60,000-60,000-60,000-60,000 Wartung (10%) Wartung - 30,000 (10%) - 30,000-30,000-30,000-30,000 Serverbetrieb Serverbetrieb - 21,000-21,000-21,000-21,000-21,000 Einführungsprojekt Einführungsprojekt - 20,000 Reduzierter 78,650 85,800 Arbeitsaufwand Reduzierter Arbeitsaufwand 85,800 85,800 85,800 Ausfall durch Ausfall durch 66,000 Nachtbereitschaft 72,000 Nachtbereitschaft 72,000 72,000 72,000 Gesamt 13,650 46,800 46,800 46,800 46,800 Ab dem 6. Jahr: 106,800 permanente Einsparung * Dauer des Einführungsprojekts 1 Monat 04.10.2016 Page 26
AUSBLICK Step by step Einführung Infrastruktur ( Backup, Storage, vcenter) Applikationen (Active Directory, Exchange, Skype ) Business Anwendungen ( SAP, Business Intelligence ) 04.10.2016 Page 27
DANKE FÜR DIE AUFMERKSAMKEIT!