steigende Anforderungen für Audio, Video, Image, 3D grosse Datenmengen geringe Genauigkeit (8 bit.. 16 bit) x86-fpu ausgereizt

Transkript

1 56 SIMD-rweiterungen PC-Technologie SIMD: Media processing "Media processing" mit dem PC?! steigende Anforderungen für Audio, Video, Image, 3D grosse Datenmengen geringe Genauigkeit (8 bit.. 6 bit) x86-pu ausgereizt Trick: vorhandene ALUs/Datenpfade für SIMD verwenden Befehlssatzerweiterungen: MMX 3Dnow! ISS AltiVec "multimedia extension" "internet SIMD streaming extension" (PowerPC G4, Macintosh) SIMD: lynn-klassifikation SISD "single instruction, single data" jeder klassische PC SIMD "single instruction, multiple data" eldrechner/parallelrechner z.b. Connection-Machine 2: 64K Prozessoren eingeschränkt: MMX&Co: 2-8 fach parallel MIMD "multiple instruction, multiple data" Multiprozessormaschinen z.b. vierfach PentiumPro-Server MISD :-)

2 PC-Technologie MMX 57 SIMD: Literatur "The MMX technology page has been removed" developer.intel.com/drg/mmx/manuals/ developer.intel.com/drg/mmx/appnotes/ Linux "parallel-processing-howto" I Micro 8/96 S.42, c t /97 S.228ff ISS: Intel website: developer.intel.com/software/idap/resources/technical_collateral/pentiumiii/ c t 4/ S.34 (ISS/3Dnow/Altivec) 3D Now! AMD website: c t 5/98 S.86 ff I Micro 3/4-99 S.37ff Befehlspipeline: in order / out of order a r3 = r * r4 D W r4 = r + r5 D W r6 = r4 * r8 D W b r3 = r * r4 D W r4 = r + r5 r6 = r4 * r8 D D W W D etch Decode/issue c r3 = r * r4 r4 = r + r5 r6 = r4 * r8 D W D W D W W xecute Write back Stall a) serielle Befehlsbearbeitung b) pipeline, out-of-order completion c) in-order-completion

3 58 MMX PC-Technologie Superskalar, SIMD D W 2-fach superskalar D W D W D W D W W 4-fach SIMD, mit Pipeline W W etch D W W D W Decode/issue xecute Write back Stall Grundidee 4 bit ALU 32/64-bit Datenpfade sind "overkill" ALUs aber leicht parallel nutzbar: carry-chain auftrennen SIMD leicht implementierbar ~% area on Pentium/MMX Performance 2x.. 8x für MMX Ops Performance.5x.. 2x für Apps MMX press release bit ALU 2 bit ALU Nutzen vs. Marketing?!

4 PC-Technologie MMX 59 x86: Register 3 5 AX AX AH AL CX CX CH CL accumulator count: String, Loop 886 xx ab 386 DX DX DH DL data, multiply/divide BX BX BH BL base addr SP SP stackptr BP SI BP SI base of stack segment index, string src 79 PR DI DI index, string dst CS code segment SS stack segment DS data segment S extra data segment S GS PR7 IP IP PC P Status LAGS status ntwurfsentscheidungen Kompatibilität zu alten Betriebssystemen / Apps: keine neuen Register möglich keine neuen xceptions bestehende Datenpfade nutzen möglichst wenig neue Opcodes alte Prozessoren und neue Software P-Register nutzen Überlauf ignorieren saturation arithmetic 64 bit Code doppelt MMX DLLs Test-Applikationen: (audio/image/mpg-/3d-graphik/...) keine Tools optimierte Libraries verfügbar 6 bit dominiert Assembler

5 6 MMX PC-Technologie Register 3 TOS MMX.. MMX7 8 Register a 64 bit tag P7 in den P-Registern P NaN P TOS = tag = valid P.. MMX7 MMX TOS= 63 Datenformate 64-bit Register, 4 Datentypen: packed byte *8 / packed word *4 / packed doubleword *2 / quadword Zugriff abhängig vom Befehl b7 b2 b b w3 w2 w w 63 d d 63 q

6 PC-Technologie MMX 6 Befehlssatz MMS (SAV / RSTOR) MOVD mm, mm2/mem32 MOVQ mm, mm2/mem64 PACKSSWB mm, mm2/mem64 PUNPCKH mm, mm2/mem64 PACKSSDW mm, mm2/mem64 PAND mm, mm2/mem64 PCMPQB mm, mm2/mem64 PADDB mm, mm2/mem64 PSUBD mm, mm2/mem64 PSUBUSD mm, mm2/mem64 PSLL mm,mm2/mem64/imm8 PMULL/HW mm, mm2/mem64 PMADDWD mm, mm2/mem64 clear MMX state (handle P regs) move 32 bit data move 64 bit data pack 8*6 into 8*8 signed saturate fancy unpacking (see below) pack 4*32 into 4*6 signed saturate mm AND mm2/mem64 / auch OR/XOR/NAND 8*a==b, create bit mask / auch GT 8*add 8 bit data 2*sub 32 bit data / signed wrap 2*sub 32 bit data / unsigned saturate shift left mm / auch PSRA/PSRL 4*mul 6*6 store low/high 6 bits MAC 4*6 -> 2*32 insgesamt 57 Befehle (Varianten B/W/D S/US) Multitaskting... Interaktion mit Betriebssystem / Taskwechsel: Task Task2 INT7 handler MMX/P code task switch: CR.TS= normal code MMX/P : INT7 wegen TS = save task state restore task2 state CR.TS= return P-Register nur bei Bedarf sichern vorhandene P INT7 Routine funktioniert auch für MMX keine Anpassung des Betriebssystems notwendig

7 62 MMX PC-Technologie "Saturation Arithmetic" was soll bei einem Überlauf passieren? paddw (wrap around): wrap-around..., 25, 26, 27, -28, -27,... ff a3 + b3 a2 + b2 a + b 7h + 4h a3+b3 a2+b2 a+b 83h saturation..., 25, 26, 27, 27, 27,... 8 ff 7f paddusw (saturating): a3 a2 a 7h Zahlenkreis "aufgeschnitten" b3 b2 b 3h gut für DSP- Anwendungen 8 7f a3+b3 a2+b2 a+b 7h "packed multiply add word" für Skalarprodukte: pmaddwd a3 a2 a a * * * * vector_x_matrix_4x4( MMX64* v, MMX64 *m ) { MMX64 v, v2323, t, t, t2, t3; v = punpckldq( v, v ); // unpack v/v v2323 = punpckhdq( v, v ); // unpack v2/v3 b3 b2 b b a3*b3+a2*b2 a*b+a*b t t t2 t3 = pmaddwd( v, m[] ); // v v * first 2 rows = pmaddwd( v2323, m[] ); // v2 v3 * first 2 rows = pmaddwd( v, m[2] ); // v v * last 2 rows = pmaddwd( v2323, m[3] ); // v2 v3 * last 2 rows } t = paddd( t, t ); // add t2 = paddd( t2, t3 ); // v = packssdw( t, t2 ); // pack 32->6, saturate

8 PC-Technologie MMX 63 "parallel compare" Vergleiche / Sprungbefehle: schlecht parallelisierbar Pipeline-Abhängigkeiten pcmpgtw: > > > > keine Sprungbefehle in MMX h h h h compare-operationen setzen Bitmasken Bitmasken für logische Ops verwendbar Beispiel: chroma-keying packssdw / punpckhbw packssdw: pack with saturation 32 -> 6 signed data: 8h D2h h 8h h 82h h Ch punpckhbw: 8h 7h 82h Ch punpcklbw: lower 32 bits

9 64 MMX PC-Technologie pmulllw / pmullhw pmull[lh]w: multiply 4 words, write low/high byte of results: h h h 2h * * * * 2h D2h h 2h 4 x 6 bit 4 x 6 bit h h h h h h h 4h 4 x 32 bit pmullhw h h h h 4 x 6 bit high words pmulllw entsprechend die low words mit Packbefehlen kombinieren, wenn 32-bit Resultate gewünscht Chroma Keying () "Wetterbericht": MMX berechnet 4 Pixel / Takt keine Branch-Befehle Schritt : Maske erstellen (high-color: 6 bit/pixel)

10 PC-Technologie 3Dnow! 65 Chroma Keying (2) Zufallszahlen x(t) = (x(t-) * 47989) & x; QuadWord DithMultVal = x4f34f34f34f3; QaudWord DithRegInit = x4f3994d2379bb75; Init: MOVQ mm, DithRegInit; Loop: // x(t) -> x(t+) PMULLW mm, DithMulVal // 3 clocks MOVQ [result64], mm // clocks PMULLW latency 3, throughput (on Pentium) bis zu vier Zufallszahlen pro Takt (U/V pipelines genutzt)

11 66 3Dnow! PC-Technologie tolowercase() String lower-to-upper-case conversion: str B 5B 5B 5B 5B 5B 5B 5B mask pcmpgtb pcmpgtb mask str pand pand str padd lowercase (aber Probleme mit Umlauten...) [aus Intel MMX appnote] 3Dnow! Motivation stark wachsende Bedeutung von 3D-Spielen 32-bit Gleitkommaoperationen nötig für Geometrie-Transformationen PU im AMD K6 vergleichsweise langsam MMX unterstützt nur Integer-Datentypen SIMD-Befehle für 32-bit float Datentypen schnelle Add/Mult/MAC/Sqrt-Befehle muß ohne OS-Unterstützung nutzbar sein MMX-Register verwenden MMX zwei-operanden Adressierung je zwei float-datenwerte pro MMX-Register 3Dnow! Spezifikation (vergleiche Motorola Altivec / Intel ISS)

12 PC-Technologie 3Dnow! 67 3Dnow! ntscheidungen SIMD-Befehle für 32-bit float Datentypen: MMX-Register verwenden, zwei Datenworte pro Register zwei-adress-befehle keine Status-lags, keine xceptions MMX-Befehle nutzbar (logische, Vergleiche,...) belegt nur einen einzigen x86 Opcode (... subobcode) möglichst wenig Chipfläche: keine Unterstützung für NaN/IN/... nur round-to-nearest-even Modus, +- LSB Saturation-Arithmetik statt Überlauf Approximation für Division und Quadratwurzel 3Dnow! Prefetch Speicherzugriffe in Multimedia-Applikationen: reguläre Speicherzugriffsmuster ungewöhnliche Lokalität viele Daten werden (pro rame) nur einmal benötigt aber regelmässig (in jedem rame) Performance stark von optimaler Cache-Ausnutzung abhängig prefetch-befehl quasi normaler Ladebefehl, aber ohne Zielregister gewünschte Daten werden in L/L2-Cache geladen löst keine xceptions / Page aults aus "memory streaming" auch für andere Anwendung gut nutzbar (etwa Numerik)

13 68 3Dnow! PC-Technologie 3Dnow! Division / Quadratwurzel Rechenwerk für Division / Sqrt ist sehr aufwendig möglichst wenig Chipfläche für 3Dnow! teilweise nur geringe Genauigkeit benötigt etwa Shading/Beleuchtungsberechnung für 3D-Graphik Division und Quadratwurzel per Approximation erster Befehl liefert 4/5 bit Approximation aus Lookup-Table und Interpolation mit vollem Takt zusätzliche Befehle für Newton-Iteration quadratische Konvergenz: zwei Iterationsschritte für volle Genauigkeit wenig Hardwareaufwand voll in Pipeline integriert, maximaler Durchsatz 3D Now! Apfelmännchen unction IterPasD (I,R :Double; Grenze, Tiefe :Paratyp):Paratyp; var A,B,C:double; Begin Count:= ; A:=; B:=; Repeat C:= SQR(A) - SQR(B) + R; B:= 2*A*B + I; A:= C; INC (Count); Until (abs (A) >Grenze) or (Abs (B) > Grenze) or (Count=Tiefe); IterpasD:=Count; nd;

14 PC-Technologie ISS 69 3D Now! Apfelmännchen ; Quadriere (A + jb)**2 = A**2 - B**2 + j 2*A*B ; ntry MM ;A B ; MM ; - ; MM2 ;R I ; loop: MOVQ MM3,MM ;MM3=A B MOVQ MM4,MM ; oh weh PSLLQ MM3,32 ; das Vertauschen ist PSRLQ MM4,32 ; sehr mühsam... POR MM3,MM4 ;MM3=B A PMUL MM3,MM ;MM3= A*B A*B PMUL MM,MM ;MM= A**2 B**2 PMUL MM,MM ;MM= A**2 -B**2 PACC MM,MM3 ;MM= A**2 - B**2 A*B+A*B PADD MM,MM2 ;MM= A**2 - B**2 + R 2*A*B+I ; = A(n+) = B(n+) P2ID MM4,MM ;ia = INT(A) ib = Int(B) MOVQ ia,mm4 ; Sieh nach, ob A oder B > GRNZ ist... dec CX ; iteration counter jnz loop ISS: Homepage / Literatur

15 7 ISS PC-Technologie ISS: ntwurfsentscheidungen Markt fordert 3D mindestens doppelte P-Performance notwendig 2-fach oder 4-fach SIMD? 28-bit machbar (P bereits 8-bit) bereits 2 64-bit ALUs auf dem Prozessor 4-fach SIMD "already register-starved IA32 architecture" neue Register, 28-bit erfordert OS-Unterstützung 7 neue Befehle sowohl "packed" als auch "scalar ISS instructions" ISS: "Streaming" typisch für Medienverarbeitung: hohe Datenmenge / Datenrate geringe Lokalität: viele Daten (Pixel) werden nur x benötigt Cache-"Pollution" herkömmliche Cache-Strategien nutzlos ALUs müssen auf die Daten warten Performance leidet (extrem) Streaming: GHz, 8x SIMD, nsec Speicher: 8 OPs / Zugriff Cache-Nutzung anpassen Prefetch: Daten rechtzeitig anfordern Speicherlatenz fast perfekt versteckt (für Media-Apps.)

16 PC-Technologie ISS 7 ISS: Register 27 ISS xmm P/MMX 79 fp fp7 xmm7 SIMD: Scalar: src op op src2 dst ISS: Register Viewing Tool Softwareentwicklung für MMX / ISS / 3Dnow: nur rudimentäre Compiler- und Tool-Unterstützung oft handoptimierter Assembler wg. bester Performance

17 72 ISS PC-Technologie ISS: Programmierung Intel VTune Performance nhancement nvironment: optimierender Compiler mit ISS-Unterstützung: Intrinsics Vector Class Library Vectorization Intel Performance Library Suite C-unktionen, Compiler inlining Klassen, inlining durch Compiler optimierender Compiler erfordert 6-Byte Alignment aller Datentypen umfangreiche Profiling-Tools sehr teuer ISS: Programmierung mit "Intrinsics" float xa[siz], xb[siz], xc[siz]; float q; void do_c_triad() { for( int j=; j < SIZ; j++ ) { xa[j] = xb[j] + q*xc[j]; } } ISS-Programmierung mit "Intrinsics" und VTUN: #define VCTOR_SIZ 4 declspec(align(6)) float xa[siz], xb[siz], xc[siz]; float q; void do_intrin_triad() { m28 tmp, tmp; } tmp = _mm_set_ps(q); for( int j=; j < SIZ; j+= VCTOR_SIZ) { tmp = mm_mul_ps( *(( m28 *) &xc[j]), tmp ); *( m28 *) &xa[j] = _mm_add_ps(tmp, *(( m28 *) &xb[j]; }

18 PC-Technologie ISS 73 ISS: AoS / SoA Array of Structures: Daten lokal Anordnung schlecht für SIMD struct { float A, B, C; } AoS_data[]; Structure of Arrays: Anordnung optimal für SIMD aber im Speicher "verstreut" struct { float A[],B[],C[]; } SoA_data; Hybrid SoA - SIMD struct { float A[8],B[8],C[8]; } Hybrid_data[25]; ISS2: mux-befehl (IA64)

19 74 ISS PC-Technologie ISS2: psad-befehl (IA64) ISS2: pavg2-befehl (IA64)