PLA - Proactive Log Analysis for z/os Rudi Kramer
PLA - Proactive Log Analysis für z/os IBM MTS TSCC Mainz, PLA Team: Rudi Kramer Michael Kaiser Torsten Müller Karl-Heinz Becker (Idee, Konzept und Design) (Programmentwicklung) (Programmtest und Pilot) (Entwicklung, Test, Design)
Disclaimer Copyright 2008 by International Business Machines Corporation. No part of this document may be reproduced or transmitted in any form without written permission from IBM Corporation. Product information and data has been reviewed for accuracy as of the date of initial publication. Product information and data is subject to change without notice. This document could include technical inaccuracies or typographical errors. IBM may make improvements and/or changes in the product(s) and/or programs(s) described herein at any time without notice. References in this document to IBM products, programs, or services does not imply that IBM intends to make such products, programs or services available in all countries in which IBM operates or does business. Consult your local IBM representative or IBM Business Partner for information about the product and services available in your area. Any reference to an IBM Program Product in this document is not intended to state or imply that only that program product may be used. Any functionally equivalent program, that does not infringe IBM's intellectually property rights, may be used instead. It is the user's responsibility to evaluate and verify the operati on of any non-ibm product, program or service. THE INFORMATION PROVIDED IN THIS DOCUMENT IS DISTRIBUTED "AS IS" WITHOUT ANY WARRANTY, EITHER EXPRESS OR IMPLIED. IBM EXPRESSLY DISCLAIMS ANY WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE OR NONINFRINGEMENT. IBM shall have no responsibility to update this information. IBM products are warranted according to the terms and conditions of the agreements (e.g., IBM Customer Agreement, Statement of Limited Warranty, International Program License Agreement, etc.) under which they are provided. IBM is not responsible for the performance or interoperability of any non-ibm products discussed herein. 3 z/os Guide Lahnstein 12.03.2009
Proactive Log Analysis Proactive Log Analysis (PLA) Ist ein z/os Service, der dem Kunden Expertenempfehlungen für aktuelle, wichtige ERROR EVENTS seiner SYSTEMe gibt. Ziel: Vermeidung von SUBSYSTEM und SYSTEM Ausfällen. 4 z/os Guide Lahnstein 12.03.2009
Agenda Gründe für Proactive Log Analysis (PLA) Service Nutzen für Kunden Erfahrungen aus PILOT Projekt Prozessbeschreibung Beispiel einer PLA Ausgabe (HTML Format) 5 z/os Guide Lahnstein 12.03.2009
Gründe für Proactive Log Analysis (PLA) Service LOGREC: Aufzeichnung der System Error Reports (recovered + nicht recovered Errors) Recovered Error Events bleiben Kunden ohne LOGREC Analyse verborgen Durch DAE unterdrückte ABENDs führen zu keinem DUMP Problem vieler heutiger z/os Kunden: Keine Analyse der LOGREC Keine Mitteilung potentieller Probleme Kunden berichten weniger Fehler an IBM (nur Fehler mit gravierenden Anwendungs-/System Einflüssen) Warum werden LOGRECs heute nicht mehr analysiert: LOGREC ist nur schwer zu analysieren 1.Häufig Tausende SW Events pro SYSPLEX pro Tag 2.Hohe Komplexität der Information 3.Schwierigkeit: Wichtige Einträge von den Unwichtigen zu unterscheiden 6 z/os Guide Lahnstein 12.03.2009
Nutzen für Kunden Vermeidung von Anwendungs- / System Ausfällen 1.durch Monitoring and Analyse der LOGREC Information 2.durch Agieren auf wichtige Fehler aus der LOGREC Analyse Beispiele: 1.ABEND0C4 in einem nicht USER KEY (nicht KEY8 / KEY9) Adressierungsproblem in Autorisierten Programmen - Kann zu Storage Overlays in systemkritischen Bereichen führen 2.ABEND00C RC020F0006 XCF SYSPLEX Member antwortet nicht in der erwarteten Zeit - Auftreten kann Ressourcen Problem in einem Subsystem anzeigen 3.ABEND0F4 Fehler in VSAM RLS oder PDSE internen Kontrollstrukturen - Kann zu Daten Zerstörung/Verlust führen 7 z/os Guide Lahnstein 12.03.2009
Erfahrungen aus PILOT Projekt Kunden Feedback: PILOT Kunden sind sehr interessiert auf verborgene Fehler zu reagieren Unsere Empfehlungen wurden anerkannt und umgesetzt Pilot Resultate: Durchschnitt: ca. 30 gefundene LOGREC Events für 16 way Sysplex pro wöchentlichem PLA Lauf (etwa 20 Aktionspläne) Ausnahme: 1.3 Mio zu bearbeitende LOGREC Einträge (Exessives Recording eines Fehlerhaften Subsystems) resultierten ca. 300 gefundene LOGREC Events Beispiele für Erfolgreiche Aktionspläne: 2 Wochen vor Ausfall wurde ein neuer IBM Fehler an IBM LAB adressiert Vorteil: FIX wurde schneller verfügbar OEM Gefahr von Storage Overlay Fehler festgestellt Vorteil: Kunde konnte ohne Ausfall Problem bei OEM adressieren und Lösung erhalten 8 z/os Guide Lahnstein 12.03.2009
Prozessbeschreibung PLA nutzt einen automatisierten und intelligenten SW LOGREC Scanner: 1. Verwendet standardisierte, komprimierte, einzeilige LOGREC Events (Informationsverdichtung > 99 %) 2. Isoliert wichtige LOGREC Events von Unwichtigen (Reduzierung der Events um> 90 %) 3. Eliminiert Duplikate (Reduzierung der Events in Summe um mehr als 99 %) TSCC SW Expertenanalyse und Aktivitäten: 1. Alle als kritisch indentifizierte LOGREC Events werden manuell in der jeweiligen Fachgruppe analysiert 2. Für jedes dieser potentiellen Highimpact Events wird ein kundenspezifischer ACTION PLAN erstellt 3. Optimierung der PLA Wirksamkeit durch stetige Aktualisierung + Erweiterung der Isolations- FILTER PLA Implementierungsziele waren: Für Kunden: Optimierung zur Vermeidung von SYSTEM/SUBSYSTEM Ausfällen Für Kunden: Optimierung der PLA Darstellung: EASY to READ and HANDLE Für TSCC Experten: Optimierung des PLA Prozesses: EASY to USE 9 z/os Guide Lahnstein 12.03.2009
Prozessbeschreibung 1) Client LOG DATA LOGREC 2) TSCC maintained IGNORE LIST IGNORE 3) TSCC maintained ALERT LIST PLA Program 4) PLA OUTPUT are 3 lists: Alert Result List Ignore List No Match List LISTS 5) Manual step: TSSC SW specialists perform detailed analysis and provide ACTION PLAN in HTML on WEB Server ALERT HTML WEBSERVER 10 z/os Guide Lahnstein 12.03.2009
Detailed Processdescription Process trigger = new LOGREC from Client on EcuRep FTP server During night: PLA Program auto started as Batch JOB FTP TSCC maintened LISTs IGNORE ALERT Client IGNORE 9 7 8 9 1 LOGREC Customer Input via FTP Input 2 3 4 PLA Program: Notification for PLA data arrival, triggers automation to submit Erep Formatter job Filters LOGREC to minize ALERT EVENTS Create ALERT event LISTS for TSCC review Obtain feedback from WEBSERVER to update client ignore list 8b Customer actions after notification via mail: implements ACTION PLAN provides feedback on WEBSERVER provides New LOGREC via FTP Output 5 6 ALERT events HTML WEBSERVER TSCC expert In the morning: PLA responsible SW specialist: creates 1 PMR per team to trigger SW Team At certain time (need to be defined): triggered SW Team (e.g. DB2, IMS, etc.): performs detailed analysis provide ACTION PLAN on WEBSERVER notify customer via mail: 11 z/os Guide Lahnstein 12.03.2009
Prozessbeschreibung Customer sendet LOGREC via FTP an EcuRep FTP-Server: Name: ftp.emea.ibm.com IP Adresse: 192.109.81.7 Directory: /toibm/projects/pla/ Namenskonvention für PLA LOGREC Dataset : PLA.CnnnBmmm.Pxxxxx.Dyyddd.LOGREC.trs 12 z/os Guide Lahnstein 12.03.2009
PLA Ausgabe für Kunden 1/4 PLA stellt Ergebnis auf nach IBM Normen geschützten WEB Server: Selektionsmöglichkeit: Produkt / LPAR oder PLA Event 13 z/os Guide Lahnstein 12.03.2009
PLA Ausgabe für Kunden 2/4 Selektion PLA data per LPAR: Selektion des events Tag/Zeit 315/10:30:58 zeigt die TSCC Experten Empfehlung... 14 z/os Guide Lahnstein 12.03.2009
PLA Ausgabe für Kunden 3/4 TSCC Experten Empfehlung: Antwort des Kunden mit solved oder delay activity wird rechts summiert delay activity: event wird für x Wochen bei PLA nicht berücksichtigt Selektion von Show details führt zur Ausgabe des LOGREC entries... Abschluss mit: Submit Feedback 15 z/os Guide Lahnstein 12.03.2009
PLA Ausgabe für Kunden 4/4 Show Details führt zur Darstellung des LOGREC entry: 16 z/os Guide Lahnstein 12.03.2009
Das PLA Team freut sich auf Ihre Anregungen und Fragen Rudi Kramer Mail: rkramer@de.ibm.com Tel. 06131/845351 Michael Kaiser Mail: michael.kaiser@de.ibm.com Tel. 06131/842643 Torsten Mueller Mail: Torsten.T.Mueller@de.ibm.com Tel. 06131/843663 Karl-Heinz Becker Mail: kbecker@de.ibm.com Tel. 06131/845319 17 z/os Guide Lahnstein 12.03.2009
Vielen Dank für ihre Aufmerksamkeit 18 z/os Guide Lahnstein 12.03.2009
Kontakt Peter Berlinghoff Manager System z HW & SW Support MTS TSCC Software Email: berlinghoff@de.ibm.com Phone: 06131-84-3303 Rudi Kramer Teamleiter z/os Software Support MTS TSCC Software Email: rkramer@de.ibm.com Phone: 06131-84-5351 19 z/os Guide Lahnstein 12.03.2009