Games with Cellular Automata auf Parallelen Rechnerarchitekturen

Größe: px

Ab Seite anzeigen:

Download "Games with Cellular Automata auf Parallelen Rechnerarchitekturen"

Reiner Roth
vor 7 Jahren
Abrufe

1 Bachelor Games with Cellular Automata auf Parallelen en ( ) Dipl.-Inf. Marc Reichenbach Prof. Dietmar Fey

2 Ziel des s Paralleles Rechnen Keine akademische Nische mehr Vielmehr Allgemeingut für den Beruf des Informatikers Bedingt durch Multikern- (und in Zukunft) Vielkernprozessoren

Cluster- / Multi-Cluster-Rechner und homogene / heterogene

3 Ziel des s Sammeln praktischer Erfahrungen im Umgang mit unterschiedlichen parallelen en Groß-skalierte parallele en Cluster- / Multi-Cluster-Rechner und homogene / heterogene Multikernprozessoren Open MPI Open MP Open MPI Open MPI Open MP Open MP

4 Ziel des s Klein-skalierte parallele en Parallelität in FPGAs und eigenen applikationsspezifischen Schaltkreisen (ASICs) Konturkode Kantendetektion Original bild Dilatation Erosion

5 Ziel des s Im Vordergrund steht nicht Was wird auf der parallelen implementiert sondern Wie wird es gemacht

6 Ziel des s Was ist das Wie? Wie mache ich mein Programm schneller durch Ausnutzen von Cache- Effekten Wie nutze ich effizient Vektorarithmetik (SIMD, SSE, AltiVec) Wie wende ich Speicher- und Nachrichten-gekoppelte Programmierung an (OpenMP, OpenMPI) Wie erziele ich durch Architektur-nahe Grafikarten-Programmierung das Maximum an Leistung (CUDA) Wie nutze ich sinnvoll unterschiedliche Kerne in heterogenen Multikernprozessoren (Cell Prozessor) Wie entwerfe ich eigene Applikations-spezifischer fein-granulare (d.h. viele, einfache) Multikern-Prozessorfelder in FPGAs Wie entwerfe ich eigene grob-granulare (d.h. wenige, komplexe) programmierbare Multikern-Prozessoren in FPGAs Wie erreiche ich eine effiziente Prozessor-/Speicherkopplung

Vorgehensweise Verschiedene parallele Methoden auf verschiedenen Architekturen erproben Anhand eines durchgängigen Beispiels der Simulation zellulärer Automaten (ZA) ZA werden benutzt zur Simulation

7 Vorgehensweise Verschiedene parallele Methoden auf verschiedenen Architekturen erproben Anhand eines durchgängigen Beispiels der Simulation zellulärer Automaten (ZA) ZA werden benutzt zur Simulation physikalischer und ingenieurwissenschaftlicher Phänomene Bild rechts zeigt die Ausbreitung und Anlagerung von Sandpartikeln, stellvertretend für beliebiges Schüttgut ZA ideal geeignet zur Erprobung verschiedenster Parallelisierungstechniken in in heterogenen Parallelrechnerarchitekturen

8 Vorgehensweise Zu erprobende Parallelisierungstechniken Geometrische Partitionierung P 0,0 P 0,1 P 0,2 P 0,3 P 1,0 P 1,1 P 1,2 P 1,3 P 2,0 P 2,1 P 2,2 P 2,3 Master-Worker-Schema P 0,0 Master P 2,3 Worker Worker Worker

9 Vorgehensweise Leistungsbewertung anhand von Speed-up Messungen Speed -up Ellbogeneffekt Ellbogeneffekt vermeiden durch Architektur-nahes Programmieren Ausnutzen von Cache-Effekten DMA-Nutzung Pipelining (Kommunikation / Berechnung) Anzahl Prozessoren

10 Vorgehensweise Groß-skalierte Architekturen Cluster- / Multi-Cluster-Rechner Homogene und heterogene Prozessorarchitekturen (Intel / AMD Quad Core vs. Cell / GPGPU) Unterschiede Speicher- und Nachrichten-gekoppelter Architekturen

11 Vorgehensweise Klein-skalierte Architekturen Vorher: Architektur fest vorgegeben Nun: Aufbau eigenes Multiprozessorsystem in FPGA Erlernen Unterschiede gegenüber Nutzung von Standardprozessoren Explizite Partitionierung von Cache und lokalem Speicher Einsicht in Design-Flow beim ASIC-Entwurf für parallele Architektur

12 Durchführung A) Thema: Groß-skalierte parallele en Nachrichten-gekoppelte Cluster- en unter MPI und homogene Multikern Prozessor-Architekturen unter OpenMP 2 Wochen: (4 SWS Einführung + 12 SWS Umsetzung) Heterogene Multikern-Prozessorarchitektur am Beispiel Cell 2 Wochen: (4 SWS Einführung + 12 SWS Umsetzung) Heterogene Multikern-Prozessorarchitektur am Beispiel GPGPU (NVIDIA Tesla/Fermi) 2 Wochen: (4 SWS Einführung + 12 SWS Umsetzung)

13 Durchführung B) Thema: Klein-skalierte parallele en Einführung in FPGA-Technologie 3 Wochen: (6 SWS Einführung + 18 SWS Umsetzung) Fein-granulares Prozessorfeld (SIMD) im FPGA 1 Woche: (2 SWS Einführung + 6 SWS Umsetzung) Entwicklung grob-granulares Multiprozessorsystem mit Soft- IP-Prozessoren im FPGA 4 Wochen: (8 SWS Einführung + 24 SWS Umsetzung) Abschließend: Wie entwerfe ich ein Prozessor als ASIC? 1 Woche: (Vortrag und Demonstration)

14 Durchführung findet statt in Laboren des Lehrstuhls 3 Parallelrechner-Labor Multi-Cluster Cell-Blade Tesla-System FPGA-/ASIC-Labor Arbeitsplätze ausgestattet mit FPGA-Baugruppen Messapparaturen Kommerzielle CAE-Software für FPGA-/ASIC-Design Leistungsnachweis Lösen der Aufgaben Kolloquium am Ende eines jeden Teilblocks Keine besonderen Vorkenntnisse erforderlich Grundvorlesungen ausreichend (GRA, GdTI, Funktionale und Parallele Programmierung)

Ähnliche Dokumente

Parallele Rechnerarchitekturen

Parallele Rechnerarchitekturen Bachelor Parallele en Informatik 3 ( ) Prof. Dietmar Fey Ziel des s Paralleles Rechnen Keine akademische Nische mehr Vielmehr Allgemeingut für den Beruf des Informatikers Bedingt durch Multikern- (und