make connections share ideas be inspired Nutzen einer SAS GRID Umgebung für IT und Fachbereich POC Erfahrungen der Erste Bank Group Manuel Nitschinger SAS Platform Manager sit Solutions Austria
Erste Group sit Solutions Erste Group Beschäftigt 50.000 Mitarbeiter Vertreten mit 3.100 Filialen in 8 Ländern Betreut 17 Mio. Kunden Marktführer in AT, CZ, RO und SK sit Solutions Austria IT Provider der Erste Group Beschäftigt 1.296 Mitarbeiter 9 Niederlassungen in Österreich
Herausforderungen Veraltete & unflexible Hardware Ineffiziente Nutzung der verfügbaren HW-Ressourcen / Hardwareausfälle Performance-Anforderungen (Legal/Business) Batch-Betrieb Simulations-Betrieb (Validierungen / Stress Test Szenarien / ) Datentransfer zwischen Batch- und Simulationsclustern Vervielfachung der Datenmenge Unterschiedliche Accounting Standards (IFRS / UGB) Unterschiedliche Kalkulationsvarianten (Pillar I & II) Wachsender Solution Cluster (Useranzahl & Solutions) Explodierende Wartungskosten (SW / HW)
Derzeitige Infrastruktur PRODUCTION PRODUCTION DEVELOPMENT / TEST BATCH 1 acrm BATCH 2 SIMULATION DEV TEST 2 I 1 I 2 I 1 I 2 S 1 S 2 TEST TEST 1 BATCH SIM Sun SPARC Enterprise M5000 8 cores / 64GB RAM 7,5TB NAS Sun SPARC Enterprise M5000 8 cores / 64GB RAM 10,5TB NAS Sun SPARC Enterprise M5000 16 cores / 64GB RAM 21TB NAS SAS Exposure Calc. (sit Solution) SAS CVA Calc. (sit Solution) SAS Liquidity RIsk (SAS Solution) Legende: SAS Collateral Alloc. (sit Solution) SAS PD/LGD Calc. (sit Solution) SAS Analytical CRM (SAS Solution) Infrastructure and Solution SAS RWA Engine (SAS Solution) SAS RRR (sit Solution) SAS Simulation (sit Solution) Infrastructure only
Phase 1 Evaluierung einer Langzeitlösung Evaluierung von alternativen Lösungen Architekturänderungen Umstieg auf x86-serververbunde / SSD / Flash-Karten Software Tuning und Ablaufoptimierungen Kundenbefragung mit folgenden Schwerpunkten: Performance Flexibilität und Skalierbarkeit Ausfallsicherheit / Verfügbarkeit Kosten Identifizierung zweier möglicher Szenarien POC: Non-GRID Solution vs. SAS GRID Computing
Phase 2 Systemvergleich Performance: RWA Berechnung einzelner Institute (CS Sporitelna, EB Croatia) Vergleichstestst parallelisierbarer ETL-Jobs RWA Konzernsimulationen Flexibilität und Skalierbarkeit Deaktivierung von Nodes Hinzuschalten von Nodes Ausfallsicherheit / Verfügbarkeit (High Availability) Monitoring, Prioritätssteuerung und Loadbalancing mit RTM / LSF Ausfall des GRID Control Servers Ausfall einer GRID Node Restart-Verhalten von Jobs bei HW-Ausfall
Phase 2 Systemvergleich Performance RWA Berechnung: Non-GRID Solution SAS GRID Computing Reduktion Laufzeit EB Croatia 01:10 00:45 35% Ceska Sporitelna 05:28 02:40 51% Konzernsimulation 40:00 10:00 75% Dauer für die Simulation eines Stress-Test Szenarios Möglichkeit mehrere Simulationen gleichzeitig laufen zu lassen
Phase 2 Systemvergleich Flexibilität & Skalierbarkeit Innerhalb von Minuten können folgende Tasks abgehandelt werden: Aktivierung und Deaktivierung von Nodes Erweiterung um zusätzliche, vorkonfigurierte Nodes (Node-Images) Benutzerfreundlich über RTM GUI möglich Wartungsarbeiten können ohne User-Beeinträchtigung durchgeführt werden GRID Control Server leitet automatisch alle Queues um Kein Service muss je wieder offline gehen, da der Control Server das Service automatisch umleitet!
Phase 2 Systemvergleich Ausfallsicherheit / Verfügbarkeit Monitoring, Prioritätssteuerung & Loadbalancing: Vielzahl an Monitoring-Möglichkeiten (Auslastung, Storage, Priority-List, ) Nach Ausfall des GRID Control Servers übernimmt der Failover-Server das Service Bei Ausfall einer GRID Node erkennt der GRID Control Server dies sofort und leitet die laufenden und weiteren Anfragen auf andere Nodes um: Jobs werden auf einem anderen Server automatisch neu gestartet Bei definierten Wiederaufsetzpunkten kein Neustart erforderlich
Phase 3 Auswertung und Erkenntnisse Sämtliche Tests aufgezeichnet und dokumentiert Virtualisierung verursachte Probleme bei den Tests NFS als Filesystem für hohe Performanceansprüche ungeeignet GFS2 od. GPFS als Filesystem vielfach bewährt Hardware Auslastung um ein vielfaches höher Volles Potential der Solution erst nach ca. 1 Jahr abrufbar Business Case Kalkulation erfordert genaue Gegenüberstellung
Phase 4 Business Case Non-GRID Solution Instanzentrennung 16 virtuelle Server 6 cores, 64GB RAM, 400GB internal SSD (Work) Shared Filesystem Anpassungen im Jobsystem First in First serve Eingeschränktes Loadbalancing Keine Hochverfügbarkeit SAS GRID Computing 1 GRID Control Server (VM) 4 cores, 32GB RAM, 100GB Storage 1 GRID RTM Server (VM) 2 cores, 8GB RAM 100GB Storage 5 GRID Nodes 6 cores, 64GB RAM, 1,2TB internal SSD (Work) GFS2 Filesystem
Phase 4 Business Case Business Case über 5 Jahre kumuliert Hardware-, Software- und Implementierungs- und Betreuungskosten einbezogen SAS GRID Benefits wurden separat bewertet Kostengegenüberstellung exkl. GRID Benefits: SAS GRID Computing Kosten um 20% niedriger als Alternativ-Solution SAS GRID Computing Kosten / Jahr um 10% niedriger als aktuelle Kosten
Nutzen für IT & Fachbereich Hohe Verfügbarkeit Schnelleres Prozessieren durch Parallelisierung möglich Time to Market Workload Balancer Unzählige Möglichkeiten für die Steuerung des Loadbalancers Webbasierte Oberfläche zur Konfiguration und Steuerung des Systems durch Admin Geschützte Workflows aufgrund permanenter Überwachung Wichtige technische Komponenten hoch verfügbar Flexibel und schnell erweiterbar inkrementelles Wachstum möglich Effiziente Nutzung aller verfügbaren Ressourcen
Nutzen für IT & Fachbereich Enterprise Guide- / Miner-User kommen in den Genuss aller Vorteile ETL Jobs laufen automatisch parallel Überwachungsmöglichkeiten zeigen Optimierungspotentiale auf Reduktion der Hardware-, Implementierungs- und Wartungskosten Business User werden nicht in ihrer Arbeit gestört
Ausblick Case Study Cloud burst : Beteiligung von sit Solutions, SAS Austria und SAS R&D US Ziele Erweiterung des GRID Systems in eine externe Cloud Zeithorizont Evaluierung Ende 2013 Mögliche Umsetzung Ende 2014
make connections share ideas be inspired Manuel Nitschinger SAS Platform Manager sit Solutions Austria A-1110 Wien Geiselbergstraße 21-25 manuel.nitschinger@s-itsolutions.at
Appendix
Phase 2 POC Systemaufbau 1 GRID Control Server (VM-ware) Grid Control & RTM Server 4 cores 32GB RAM NAS Storage (NFS) 4 GRID Nodes (VM-ware) GRID Work Nodes Failover für Grid Control Server 4 cores 32GB RAM, NAS Storage (NFS)
Phase 2 Systemvergleich Performance ETL Jobs Non-GRID Solution SAS GRID Computing Reduktion Laufzeit Ceska Sporitelna 10:14 07:25 27% EB Croatia 02:05 01:41 19%