Software Engineering für moderne, parallele Plattformen

Größe: px

Ab Seite anzeigen:

Download "Software Engineering für moderne, parallele Plattformen"

Paula Steinmann
vor 7 Jahren
Abrufe

Victor Pankratius IPD Lehrstuhl für Programmiersysteme-Tichy KIT

1 Software Engineering für moderne, parallele Plattformen b. Ergänzungen zur Performanz Dr. Victor Pankratius Dr. Victor Pankratius IPD Lehrstuhl für Programmiersysteme-Tichy KIT die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH)

2 Agenda Das Roofline Model [Williams and Patterson, The Roofline Model: A pedagogical tool for program analysis and optimization, CACM 5(), 009] [Folien: Williams, Patterson, The Roofline Model: A pedagogical tool for program analysis and optimization, ParLab Summer Retreat, 00] Unerwartete Einflussfaktoren bei der Performanzmessung [T. Mytkowicz et al., Producing Wrong Data Without Doing Anything Obviously Wrong!, ASPLOS, 009] Dr. Victor Pankratius

3 Das Roofline Model () Motivation Diversität der Multikernarchitekturen nimmt zu Nach welchen groben Richtlinien kann man die Performanz eines parallelen Programms verbessern? Vergleichbarkeit zwischen parallelen Plattformen Grobe Grenzen- und Flaschenhalsanalyse ( Bound and Bottleneck ) statt exakter Vorhersage 3 Dr. Victor Pankratius

4 Das Roofline Model () Angenommene limitierende Faktoren für Performanz Bandbreite Prozessor-Speicher Gemessen als FLOPS / Byte DRAM Datenverkehr Operationsintensität ( operational intensity ) bezieht sich nur auf Bytes, die nach Filtern durch Caches tatsächlich zum Hauptspeicher gelangen) Performanz für Gleitkommaberechnungen (floating point performance), gemessen in GFLOPs / sec Ermittlung der Werte: Spezifikationen, Mikro-Benchmarks Dr. Victor Pankratius

5 Das Roofline Model (3) Performanz nach oben beschränkt Erreichbare GFLOPS/sec = min ) Spitzenleistung für Gleitkommaberechnungen (Peak Floating Point Performance) ) Spitzenwert Speicherbandbreite * Operationsintensität (Peak Memory Bandwidth * Operational Intensity) Betrachtung der Größen: zu : GFLOPS / sec zu : GB/sec * FLOPS/Byte = GFLOPS / sec Also beide im selben Graphen darstellbar 5 Dr. Victor Pankratius

6 Das Roofline Model () Beispiel für AMD Opteron X Logarithmische Skalen! (a) 6 peak memory bandwidth (stream) peak floating-point performance / / / 6 Dr. Victor Pankratius

7 Das Roofline Model () Beispiel für AMD Opteron X 6 Durch Benchmark für die jeweilige parallele Plattform ermittelt; bleibt danach fix peak memory bandwidth (stream) Experimentell: Minimale Operationsintensität für maximale Performanz peak floating-point performance Beispiel für eine Anwendung, für deren Operationsintensität die Gleitkommaperformanz auf dieser Plattform zum Flaschenhals wird (a) / / / 7 Dr. Victor Pankratius

8 Das Roofline Model (5) Beispiel für AMD Opteron X und X 6 (b) Opteron X Opteron X / Allgemein: Knick weiter rechts: Nur Anwendungen mit höherer Operationsintensität können max. Gleikommaperformanz auf der jeweiligen Plattform erreichen. Knick weiter links: Potenziell mehrere Anwendungen können max. Gleikommaperformanz erzielen / / Dr. Victor Pankratius

9 Das Roofline Model (6) Weitere limitierende Faktoren Auf dem Weg zur Spitzenperformanz sind noch weitere Optimierungs- Hürden zu überwinden Werden für die jeweilige Maschine experimentell ermittelt und ins Modell übernommen Warum nützlich? Angenommen, ein Programm bleibt für seine Operationsintensität weit unter der erreichbaren Performanz Welche Maßnahmen soll man ergreifen? Modell zu Rate ziehen 9 Dr. Victor Pankratius

10 Das Roofline Model (7) Weitere limitierende Faktoren 6 peak memory bandwidth (stream) (a) Computational Ceilings Idee: Um nächste Decke zu erreichen, muss zunächst die untere durchbrochen werden. Abstand repräsentiert Verbesserung. peak floating-point performance. peak floating-point balance. ILP or SIMD TLP only / / 0 Dr. Victor Pankratius / /

11 Das Roofline Model (7) Weitere limitierende Faktoren 6 peak memory bandwidth (stream) (a) Computational Ceilings Einige Prozessoren haben gleiche Anzahl von Addierern und Multiplizierern, die gleichzeitig arbeiten können. Gleichmäßige Aufteilung der Berechungen kann weitere Beschleunigungen bringen peak floating-point performance. peak floating-point balance. ILP or SIMD TLP only / / Dr. Victor Pankratius / /

12 Das Roofline Model () Weitere limitierende Faktoren (b) Bandwidth Ceilings 6 / / Dr. Victor Pankratius peak memorybandwidth (stream) 5. software prefetching. memoryaffinity 3. unit strideaccess only peak floating-point performance / /

13 Das Roofline Model () Weitere limitierende Faktoren (b) Bandwidth Ceilings 6 / / peak memory bandwidth (stream) 5. software prefetching. memory affinity 3 Dr. Victor Pankratius 3. unit stride access only peak floating-point performance Schleifenrestrukturierungen können Hardware-Prefetching erleichtern / / Fäden und deren Daten sollten möglichst auf dem selben Kern bzw. Chip landen

14 Das Roofline Model (9) Konsequenzen für die Performanzoptimierung (c) Optimization Regions 6 / / Dr. Victor Pankratius peak memorybandwidth (stream) 5. software prefetching. memoryaffinity 3. unit stride access only Kernel peak floating-point performance. peak floating-point balance. ILP or SIMD TLP only Kernel / /

15 Das Roofline Model (9) Konsequenzen für die Performanzoptimierung 6 / / peak memory bandwidth (stream) 5. software prefetching. memory affinity 5 Dr. Victor Pankratius 3. unit stride access only (c) Optimization Regions Je nach Charakteristika einer bestimmten Anwendung können Gleitkommaoptimierungen, Bandbreitenoptimierungen oder beide Arten zur Verbesserung herangezogen werden. Kernel peak floating-point performance / /. peak floating-point balance. ILP or SIMD TLP only Kernel

16 Das Roofline Model (0) Beispiele für Anwendungen und Rechner Beispielanwendungen mit genügend Parallelisierungspotenzial SPMV (Sparse Matrix-Vector multiply) y=a*x geringe Operationsintensität LBMHD (Lattice-Boltzmann Magneto- Hydrodynamics) Simulationsanwendung große Datenmengen, wenig ILP Unausgeglichen: Viel mehr Additionen als Multiplikationen x = A x y Stencil Simulation für ein Problem der Größe 56³, in der beim Aktualisieren eines Punkts 7 Nachbarpunkte einbezogen werden Hohe Anforderungen an Lokalität 3D FFT Dr. Victor Pankratius

17 7 6 / / / / (a) Intel Xeon (Clovertown) 6 6 peak stream bandwidth peak stream bandwidth SpMV (b) Intel Xeon (Clovertown) snoop filter ineffective snoop filter ineffective peak DP +balanced mul/add +SIMD peak DP +SIMD / / / / peak stream bandwidth peak copy bandwidth (d) AMD Opteron X (Barcelona) without memory affinity +ILP TLP only +ILP +balanced mul/add TLP only peak DP +balanced mul/add +SIMD / / / / +ILP TLP only 6 6 peak stream bandwidth peak copy bandwidth (d) AMD Opteron X (Barcelona) without memory affinity SpMV peak DP +SIMD +ILP +balanced mul/add TLP only / / / / (e) IBM Cell (QS0) 6 peak stream bandwidth without NUMA / / / / peak stream bandwidth without NUMA SpMV (e) IBM Cell (QS0) peak DP +FMA +SIMD peak DP +SIMD / / / / +ILP TLP only +ILP +FMA TLP only

18 Das Roofline Model () Beispiele für Anwendungen und Rechner SUN T hat höchste Speicherbandbreite Knick daher weiter links Roofline model for Sun UltraSPARC T+ 6 peakmemorybandwidth withoutmemoryaffinity / / / / Dr. Victor Pankratius peak DP 50% issued == FP 5% issued == FP.5% issued == FP

19 Das Roofline Model (3) Beispiele für Anwendungen und Rechner Beschriebene Anwendungen waren nicht einfach auf Cell zu portieren Probleme: Schwierig SIMD auszunutzen, Compiler noch zu unreif Synergistic Processor Elements haben jeweils eigenen Adressraum Einfügen expliziter DMA Anweisungen wäre notwendig gewesen Roofline for transponse phase of 3D FFT for the Cell peak exchange rate Transponse peak stream bandwidth /6 / / / / / 9 Dr. Victor Pankratius Operational Intensity (Exchanges/Byte)

20 Weitere Beispiele [Quelle: Williams and Patterson; Folien ParLab Summer Retreat] Beobachtung: Die notwendigen Optimierungen können von Maschine zu Maschine verschieden sein Auto-Tuning notwendig! 0

21 Das Roofline Model (5) Anmerkungen Modell erfasst nicht alle möglichen Einflussfaktoren Kann für Multicore verwendet werden, ist aber nicht explizit nur auf Multicore ausgelegt Modell fokussiert auf Programme, die hauptsächlich Gleitkommaberechnungen durchführen Dr. Victor Pankratius

Ähnliche Dokumente

Universität Karlsruhe (TH)

Universität Karlsruhe (TH) Forschungsuniversität gegründet 5 Software Engineering für moderne, parallele Plattformen b. Ergänzungen zur Performanz Dr. Victor Pankratius Agenda Das Roofline Model [Williams