Side Recovery Manager Stephan Ring Technical Consultant stephan.ring@dns-gmbh.de
Disaster Recovery Der Begriff Disaster Recovery (englisch für Notfallwiederherstellung) bezeichnet Maßnahmen, die nach einem Unglücksfall in der Informationstechnologie eingeleitet werden. Dazu zählt sowohl die Datenwiederherstellung als auch das Ersetzen nicht mehr benutzbarer Infrastruktur und Hardware. Bei einer Disaster Recovery Lösung sind folgende Punkte zu beachten: Wie lange darf ein System ausfallen, wie lange dauert der Wiederanlauf (Recovery Time Objective)? Bei der RTO handelt es sich um die Zeit, die vom Zeitpunkt des Schadens bis zur vollständigen Wiederherstellung der (EDV-) Systeme vergehen darf. Wie konsistent ist der Datenbestand, wieviel Datenverlust kann in Kauf genommen werden (Recovery Point Objective)? Bei der RPO handelt es sich um den Zeitpunkt, wann (wie oft) die Datensicherung erfolgen soll, d.h. wieviel Daten/Transaktionen können zwischen den einzelnen Sicherungen verloren gehen. Quelle: Wikipedia
Verfügbarkeit Für ein System, das 24 Stunden am Tag, an 7 Wochentagen, 365 Jahrestagen (24*365) zur Verfügung steht (8760 Stunden), bedeutet dies: Verfügbarkeit Minimale erwartete Betriebszeit Maximale erlaubte Ausfallzeit 99% 8672 Std. 88 Std. 99,5 % 8716 Std. 44 Std. 99,95 % 8755 Std. 5 Std. 100 % 0 Std. 0 Std.
Herausforderungen eines traditionellen DR Prod DR Boot & Pray Application OS WAN CD, Tape oder Ghost Image Application OS x86 OS files local storage x86 OS files local storage Storage Storage Viele Prozesse um die Daten auf die DR Seite zu transferieren (Betriebssystem, Applikationen, Configurationen, Daten) Es wird eine Teuer 1:1 Umgebung und Komplex benötigt (Anzahl und Hardware der Server) Komplexe und teure DR Strategie
DR mit VMware: Array-Based Replication Protected Site Recovery Site VirtualCenter VirtualCenter Array Replication Datastore Groups Datastore Groups
VMware Disaster Recovery Vision Schnell > Automatisierter DR Prozess > Eliminierung von komplexen tratitionellen DR Prozessen Sicher > Einfache und mehrmals durchführbare DR Tests > Garantierte und korrekte Durchführung eines DR Plans Überschaubar Kostengünstig > Zentrales und einfaches Management eines DR Plans > Desaster Recovery wird zu einem Teil der virtuellen Infrastrukture > Nutzbare Recovery Seite (Entwicklung, Test usw.) > Reduzierung der Management-Kosten > Reduzierung der Hardware und Nebenkosten ( Green- IT )
Site Recovery Manager Der Site Recovery Manager verwandelt die VMware Infrastructure in eine Disaster Recovery Infrastruktur Was ist der SRM: Der Site Recovery Manager ist ein neues VMware Produkt konzipiert für Disaster Recovery Funktionen des SRM: Einfache und automatisierte Disaster Recovery Prozesse Setup Failover Failback Test
Komponenten VirtualCenter Virtual Machines VMware Infrastructure VMware Infrastructure 3 Servers Storage
Komponenten VirtualCenter Virtual Machines Site Recovery Manager Site Recovery Manager > Regelt und überwacht den Recovery Plan > Fest integriert in das VirtualCenter > Eigene physikalische Maschine VMware Infrastructure Servers 3 rd -Party Replication Storage Storage Replication
Komponenten Produktion Disaster Recovery VirtualCenter Virtual Machines VMware Infrastructure Servers Site Recovery Manager Site Recovery Manager Geschützte virtuelle Maschinen Site Recovery Manager VirtualCenter Virtual Machines VMware Infrastructure Servers Storage Storage Replication Storage
Komponenten Site 1 Site 2 VC Server 1 VC Server 2 VCMS 1 DB VCMS 2 DB SRM Server 1 SRM Server 2 SRM 1 DB Storage Replication Adapter Storage Replication Adapter SRM 2 DB Block Replication SW Array 1 Array 2 Block Replication SW
Failover Erstellen eines DR Plans Für virtuelle Maschinen, Applikationen, Business Units Integration der Replikation Identifizierung der virtuellen Maschinen die durch Replikation geschützt werden müssen Abbilden der Resourcen die wiederhergestellt werden müssen Server, Netzwerk (vswitch, VPN), Resourcepools usw. Festlegen des Recovery Prozesses
Testing Replikation Management Vor dem Test: Erstellen eines Snapshots von den replizierten LUN s Nach dem Test: Löschen des Snapshots Netzwerk Management Vor dem einschalten werden alle virtuellen Maschinen in eine Test Portgruppe übernommen Anpassung/Erweiterbarkeit Funktionstest des Failover Szenarios Testen von Erweiterungen im Failover Szenario
Failback SRM 1.0: Kein automatisierter Failback Prozess über die SRM Gui Ohne SRM (keine definierte Startreihenfolge, keine Failback Reports) 1. Replikationsaufbau in Zusammenarbeit mit dem Storage Team 2. Manuelle reinventarisierung und manuelles starten der VMs 3. Wiederholen von Schritt 1 Mit SRM (Startreihenfolge im Recovery-Plan mit Failback Reports) 1. Replikationsaufbau in Zusammenarbeit mit dem Storage Team 2. Ausführen eines Failovers zur Produktionsseite 3. Wiederholen von Schritt 1
Site Recovery Manager Management Interface Disaster Recovery Management ist eine weitere Ansicht in Ihrer Gesamtumgebung Wird im VirtualCenter Management Client angezeigt Zentrales Management der Virtual Infrastructure und des Disaster Recovery VirtualCenter Client VirtualCenter Site Recovery Manager
Setup: Building Recovery Plans Verwandeln Sie ihr Runbook in einen automatisierten Prozess Die Schritt für Schritt Anleitung wandert in das VirtualCenter Erweiterbares Framework Skripte für spezielle Aufgaben Überwachungspunkte für manuelle Schritte Integration von physikalischen Recovery möglich
Key Concepts im Site Recovery Manager Recovery Plan A (Array Fehler) Recovery Plan B (Site Fehler) Recovery Plan Schritt für Schritt Anleitung um ein Recovery der VM zu gewährleisten die sich in einer oder mehreren Protections Group befinden VMFS VMFS Protection Groups Eine nach bestimment Kriterien getroffene Auswahl von VMs die entsprechend geschützt werden müssen LUN Groups Gruppen von replizierten LUNs die eine oder mehrere VM s beinhaltet
Szenario 1: Kompletter Ausfall VMFS1 VMFS2 VMFS3 Lun Group 1 Lun Group 2 Lun Group 3 Exchange1 Protection Group 1 SQL2 SAP Exchange2 Protection Group 2 SQL1 AD IIS Protection Group 3 Recovery Plan: Big Red Button Protection Groups: Section: High Priority Section: Medium Priority Section: Lowest Priority 1. AD 2. SQL1 3. SQL2 1. SAP 2. Exchange1 3. Exchange2 1. IIS
Szenario 2: Ausfall eines Storage VMFS1 Exchange1 SQL2 SAP Recovery Plan: Array Dies Protection Groups: Section: High Priority 1. AD X VMFS2 VMFS3 Exchange2 SQL1 Protection Group 3 AD IIS Section: Medium Priority 1. IIS Section: Lowest Priority
SRM Recovery Plan VM Shutdown High Priority VM Shutdown Attach Virtual Disks High Priority VM Recovery Normal Priority VM Recovery
SRM Recovery Plan - Forts. Low Priority VM Recovery Post Test Cleanup Virtual Disk Reset
DR mit VMware: Array-Based Replication Protected Site Recovery Site VirtualCenter VirtualCenter Array Replication Datastore Groups Datastore Groups
DR mit VMware: Side Recovery Manager Protected Site Recovery Site VirtualCenter Site Recovery Manager VirtualCenter Site Recovery Manager Array Replication Datastore Groups Datastore Groups
SRM Alarms und Site Status Monitoring SRM unterstützt folgende Alarm- und Benachrichtigungsdienste: E-Mail SNMP trap an VC trap Receiver Ausführen bestimmter Kommandos auf dem VC Host Empfehlungen zur Überwachung der Produktionsseite und Recovery Seite: Ausfall einer Seite Ping Replikationsgruppe gelöscht Recovery Plan nicht mehr vorhanden Lizenzserver nicht mehr erreichbar
Zusammenfassung Schnell > Automatisierter DR Prozess > Eliminierung von komplexen tratitionellen DR Prozessen Sicher Überschaubar Kostengünstig > Einfache und mehrmals durchführbare DR Tests > Garantierte und korrekte Durchführung eines DR Plans > Zentrales und einfaches Management eines DR Plans > Desaster Recovery wird zu einem Teil der virtuellen Infrastrukture > Nutzbare Recovery Seite (Entwicklung, Test usw.) > Reduzierung der Management-Kosten > Reduzierung der Hardware und Nebenkosten ( Green-IT )
Availability: Maximizing Application Uptime Planned Downtime Unplanned Downtime Fault Tolerance Server VMotion HA Storage Storage VMotion Site Recovery Manager VCB vstorage Multipathing Interconnect Network Redundancy NIC & HBA Teaming
VMware Fault Tolerance No Reboot Seamless Cutover App OS FT App OS VMware ESX VMware ESX
Neulich hat mir jemand vorgeworfen, VMware-User seien überheblich. Ich musste ihn korrigieren: Es heißt überlegen Fragen???