Optimierungen der Lattice Boltzmann Methode auf x86-64 basierten Architekturen

Größe: px

Ab Seite anzeigen:

Download "Optimierungen der Lattice Boltzmann Methode auf x86-64 basierten Architekturen"

Irmgard Krämer
vor 5 Jahren
Abrufe

1 Optimierungen der Lattice Boltzmann Methode auf x86-64 basierten Architekturen J. Treibig, S. Hausmann, U. Ruede / ASIM Erlangen

2 Gliederung 1 Einleitung Motivation Grundlagen 2 Optimierungen Pseudo-Vektorisierung Software Prefetching 3 Messungen Verwendete Maschinen Messungen im Speicher Messungen im Cache 4 Arithmetische Abschätzung

3 Motivation Compiler generieren ineffizienten Code: Aktuelle Hardwareentwicklungen werden nicht berücksichtigt Die Hochsprache bietet zu wenige Informationen für eine effiziente Optimierung Für beste Ergebnisse ist es notwendig aktuelle Fähigkeiten der Prozessoren zu nutzen Techniken wie SIMD und Prefetching erweitern Ziel: Was können moderne Architekturen leisten.

4 Grundlagen Lattice Boltzmann in 3D D3Q19 Modell Reguläres Gitter 19 Werte pro Zelle Rechnung mit Fließkommazahlen doppelter Genauigkeit Untersuchung auf x86-64 basierten Architekturen Intel Pentium 4 / Xeon AMD Athlon-64 / Opteron Es wurden die effizientesten Algorithmen in Assembler programmiert mit dem Schwerpunkt aktuelle Intruktionssatzerweiterungen besser zu nutzen und mögliche Engpässe zu beseitigen.

5 Pseudo-Vektorisierung SSE2 Befehle ermöglichen die Kodierung von zwei/vier Operationen mit einer Instruktion SSE2 Register <double precision float> <double precision float> Multiply Multiply <double precision float> <double precision float> SSE2 Register or Memory Location 0 Momentan noch keine echt parallele Ausführung, aber: Mehr Befehle passen in Instruktionsfenster des Prozessors Erleichtert Erkennung von Abhängigkeiten

6 Software Prefetching Ohne Prefetching: Time Lattice Boltzmann Step CPU idle Lattice Boltzmann Step CPU idle Lattice Boltzmann Step Memory bus idle Load 19 Values Memory bus idle Load 19 Values Memory bus idle Mit Prefetching: Time Lattice Boltzmann Step Issue load requests for next step in parallel Load 19 Values Lattice Boltzmann Step Load 19 Values Lattice Boltzmann Step Load 19 Values

7 Verwendete Maschinen Athlon Xeon Nocona Taktfrequenz 2.4 GHz 3.4 GHz L2 Cache 1 MByte 1 MByte L1 Cache 64 kbyte 16 kbyte L2 Zugriffszeiten 11 Takte 27 Takte L1 Zugriffszeiten 3 Takte 3 Takte Cacheline Größe 64 Byte 64(128) Byte

8 Athlon Performance Comparison, Athlon Way Blocked With Prefetching 4-Way Blocked Plain Unblocked Average In-Cache Performance 4-Way Blocked, Compressed Grid FluidMLSUPS Grid Size

9 Xeon Nocona Performance Comparison, Xeon Nocona (EM64T) 5 4,5 4-Way Blocked With Prefetching 4-Way Blocked Plain Unblocked Average In-Cache Performance FluidMLSUPS 4 3,5 3 2, Grid Size

10 Athlon In-Cache Performance, Athlon (64KB L1, 1024 KB L2) Pure Arithmetic Version Plain Unblocked FluidMLSUPS 7,5 7 6, Grid Size

11 Xeon Nocona 7 In-Cache Performance, Xeon 4 Nocona (16KB L1, 1024KB L2) Pure Arithmetic Version Plain Unblocked FluidMLSUPS Grid Size

12 Arithmetische Abschätzung Verhältnis aus Multiplikationen zu Additionen verringert erreichbare Performance: Ergibt 87 % P LBM = Athlon-64: 26 MLSUPS Xeon Nocona: 17 MLSUPS n a + n m 2 max(n a ; n m ) PeakFLOP/s

13 Zusammenfassung Die Speicherlimitierung verschiebt sich nach Optimierungen zu einer arithmetischen Limitierung Mit Cache Optimierungen % der In-Cache Performance gemessen In-Cache Performance zumindest bei Athlon-64 sehr nah an speicherloser Performance Große Lücke zu arithmetischem Limit Ein besseres software scheduling könnte bessere Ergebnisse bringen

Ähnliche Dokumente

Beispielvortrag: HPCG auf Intel Haswell-EP

Beispielvortrag: HPCG auf Intel Haswell-EP Johannes Hofmann 1 Seminarvortrag Architekturen von Multi- und Vielkern-Prozessoren Erlangen, 19.4.2016 1 Computer Architecture, University Erlangen-Nuremberg