Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Fakultät für Informatik Humboldt Universität Berlin 21. Juli 2006
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Living on the fast lane... Auf den ersten Plätzen im Juni 2006: 1 BlueGene/L - eserver Blue Gene Solution (IBM) 2 BGW - eserver Blue Gene Solution (IBM) 3 ASC Purple - eserver pseries p5 575 1.9 GHz (IBM)
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen BlueGene/L - eserver Blue Gene Solution 131072 Prozessoren, 32768 GB RAM, 280600 GFLOPS Hydrodynamik, Quantenchemie, Molekulardynamik, Klimamodellierung und Finanzmodellierung Ziel: Peta-FLOP, z.b. für Proteinanalysen
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen eserver Blue Gene Solution
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen eserver Blue Gene Solution
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Gliederung Was ist überhaupt ein Cluster? Cluster Hardware und Architektur Grundlagen der Clusternetzwerke OpenSource Cluster (OSCAR und BEOWULF) High-Availability zum Anfassen mit Heartbeat Nicht im Vortrag (aber im Paper) enthalten: Betriebssysteme für Cluster Cluster Middleware (MPI, PVM,...) CLAN Cluster des CMS Vom Cluster- zum Gridcomputing
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Gliederung Was ist überhaupt ein Cluster? Cluster Hardware und Architektur Grundlagen der Clusternetzwerke OpenSource Cluster (OSCAR und BEOWULF) High-Availability zum Anfassen mit Heartbeat Nicht im Vortrag (aber im Paper) enthalten: Betriebssysteme für Cluster Cluster Middleware (MPI, PVM,...) CLAN Cluster des CMS Vom Cluster- zum Gridcomputing
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Was ist überhaupt ein Cluster? Definitionsprobleme durch unterschiedlichste... physikalische Ausmaße Nutzungsprofile Definition Ein Cluster ist eine eng verbundene Sammlung von Computersystemen, die eine gemeinsame Infrastruktur besitzen und einen Parallelzugriff auf Resourcen für Dienste oder Anwendungen bereitstellen.
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Welche Typen von Clustern gibt es? Nach Nutzungsprofil werden drei Clusterkategorien unterschieden: 1 High Performance Cluster 2 High Throughput Cluster 3 High Availability Cluster
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Clustertypen und ihre Architektur High Performance Cluster eine oder wenige Parallelanwendungen extrem viele Ressourcen (im Vgl. zu UP/SMP) Beispiel: Visualisierungscluster PC 2 der Universität Paderborn Anbindung und Steuerung durch einen Simulator Parallelsimulation und -konfiguration multipler Universen Verwaltung und Darstellung mehrerer virtueller Szenen Visualisierungstechniken für Wechsel/Überlagerung der Szenen
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Clustertypen und ihre Architektur High Performance Cluster Visualisierungscluster PC2 der Universität Paderborn 408 Opteron Prozessoren InfiniBand, Gigabit Ethernet 6 spezialisierte Grafikknoten Visualisierungswand mit Rückprojektion Stereoskopische Darstellung Trackingsystem
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Clustertypen und ihre Architektur High Throughput Cluster Optimiert für Ausführung vieler Jobs Latenzzeiten sind sekundär Benötigte Daten sind unabhängig Client- / Servermodells, Pixelpushing Carpet Cluster, Computerfarms
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Clustertypen und ihre Architektur High Availability Cluster Ziel: Garantierter Zugriff auf Ressourcen Redundanz und Fail-Over Techniken Downtimes in Prozenten und Zahlen Uptime Downtimes p. Jahr Downtimes p. Woche 98% 7,3 Tage 3h 22min 99% 3,65 Tage 1h 41min 99,8% 17h 30min 20min 10s 99,9% 8h 45min 10min 5s 99,99% 52min 1min 99,9999% 31,4s 0,6s
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Clustertypen und ihre Architektur High Availability Cluster Kosten von Downtime (je Stunde) Industriezweig Anwendung Kosten Finanzen Aktienhandel 6 450 000 $ Finanzen EC Karten Buchungen 2 600 000 $ Medien Pay-per-View 150 000 $ Transport Flugbuchungen 90 000 $ Transport Paketabfertigung 28 000 $
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Clustertypen und ihre Architektur Gemeinsame Hardwarearchitektur Trotz unterschiedlicher Nutzungsprofile sind zugrundeliegende Techniken nahezu identisch. Komponenten eines Clusters Computing-, Master- und Administrative nodes Management-, Control- und Datennetzwerke File servers, Storage
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Clustertypen und ihre Architektur Gemeinsame Hardwarearchitektur
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Netzwerke in Clustern Ziel: Parallelausführung von Anwendungen Kommunikation und Datenaustausch zwischen den Knoten notwendig Netzwerk = shared memory Anforderung: hohe Datenrate, geringe Latenzzeit Logische Netzwerke Managementnetzwerke Kontrollnetzwerke Datennetzwerke
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Physikalische Umsetzung mittels Gigabit Ethernet ist standardisiert vergleichsweise kostengünstig aber: Performance skaliert nicht gut ungünstige Topologie = low-cost Alternative
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen... mittels HighSpeed Interconnects (HSI) HSI = proprietäre Lösungen für Knotenverbindungen Marktführer ist Myricom (20% der Top500) Produkt: Myrinet mehrstufige Crossbar Switches mit je max. 16 Ports Bandbreite: 3,96GB/s Latenz: 5,7µs max. Paketgröße: 4Mbyte
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Myrinet Topologie Clos, 1952
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Myrinet Topologie Vorteile Redundante Wege dynamischer Lastenausgleich Topologie ist jedem Router bekannt source routing skaliert sehr gut, non-blocking Nachteile Host-Adapter: 1000-1600 $ 16er Switch Line Card: 2400 $ 17er Geräterahmen: 12800 $ Kosten für 256 Hosts = 520000$
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Beowulf keine konkrete Clusterimplementation, eher axiomatische Definition Eigenschaften eines Beowulf Clusters? Standard - Rechner von der Stange ein Netzwerk mit bestem Preis-Leistungs-Verhältnis Linux oder BSD als Betriebssystem nur OpenSource Cluster Software
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen OSCAR - OpenSource Cluster Application Resources Vollautomatisierter Clusteraufbau Sehr gut zum Lernen alle wichtigen OpenSource Cluster Applikationen HPC VMWare Images Nachteil: nur 1 Headnode
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Aus der Praxis des Sysadmins Ziel Verfügbarkeit eines Webservers steigern möglichst geringe Zusatzkosten Lösung GNU Heartbeat (http://www.linux-ha.org)
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Aus der Praxis des Sysadmins Ziel Verfügbarkeit eines Webservers steigern möglichst geringe Zusatzkosten Lösung GNU Heartbeat (http://www.linux-ha.org)
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Heartbeat - Topologie
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Heartbeat - Aktiv/Passiv Konfiguration Setup Server A (192.168.13.129), Server B (192.168.13.130) Ziel: HA von IP 192.168.13.131 (= www.firma.de) Umsetzung A bindet zusätzlich 192.168.13.131 A und B tauschen Heartbeat Pakete aus Bemerkt B den Ausfall von A, übernimmt B die IP Problem Server B ist sehr passiv Verzögerungszeit
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Heartbeat - Aktiv/Passiv Konfiguration Setup Server A (192.168.13.129), Server B (192.168.13.130) Ziel: HA von IP 192.168.13.131 (= www.firma.de) Umsetzung A bindet zusätzlich 192.168.13.131 A und B tauschen Heartbeat Pakete aus Bemerkt B den Ausfall von A, übernimmt B die IP Problem Server B ist sehr passiv Verzögerungszeit
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Heartbeat - Aktiv/Passiv Konfiguration Setup Server A (192.168.13.129), Server B (192.168.13.130) Ziel: HA von IP 192.168.13.131 (= www.firma.de) Umsetzung A bindet zusätzlich 192.168.13.131 A und B tauschen Heartbeat Pakete aus Bemerkt B den Ausfall von A, übernimmt B die IP Problem Server B ist sehr passiv Verzögerungszeit
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Heartbeat Konfiguration /etc/ha.d/ha.cf logfacility daemon keepalive 1 deadtime 10 warntime 5 initdead 120 udpport 694 ping 192.168.13.2 bcast eth0 auto_failback off node servera node serverb respawn hacluster /usr/lib/heartbeat/ipfail use_logd yes
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Heartbeat Konfiguration /etc/ha.d/haresources servera 192.168.13.131 IP 192.168.13.131 darf vor dem Start von Heartbeat weder von servera noch serverb gebunden sein
Motivation Cluster? H/W+Architektur OpenSource Cluster Demonstration Quellen Weiterführende Informationen Robert W. Lucke Building Clustered Linux Systems. Prentice Hall Professional Technical Reference, 2006. Evan Marcus Blueprints for High Availability John Wiley and Sons Inc, 2000.