MMX: Grundidee. SIMD: Media processing. x86: Register. SIMD: Literatur. Medientechnik SIMD-Befehlssätze 1. "Media processing" mit dem PC?!

Transkript

1 SIMD: Media processing "Media processing" mit dem PC?! steigende Anforderungen für Audio, Video, Image, 3D grosse Datenmengen aber oft mit geringer Genauigkeit (8 bit.. 6 bit, 32 bit FP) x86-fpu ausgereizt Trick: vorhandene ALUs/Datenpfade für SIMD verwenden Befehlssatzerweiterungen: MMX 3Dnow! ISSE AltiVec ISSE2 2 SIMD: Literatur MMX: ISSE: 3D Now! "multimedia extension" 996 "internet SIMD streaming extension" (PowerPC G4, Macintosh) "The MMX technology page has been removed" developer.intel.com/drg/mmx/manuals/ developer.intel.com/drg/mmx/appnotes/ Linux "parallel-processing-howto" IEEE Micro 8/96 S.42, c t /97 S.228ff Intel website: developer.intel.com/software/idap/resources/technical_collateral/pentiumiii/ c t 4/ S.34 (ISSE/3Dnow/Altivec) AMD website: c t 5/98 S.86 ff MMX: Grundidee 32/64-bit Datenpfade sind "overkill" ALUs aber leicht parallel nutzbar: carry-chain auftrennen SIMD leicht implementierbar ~% Fläche beim Pentium/MMX Performance 2x.. 8x für MMX Ops Performance.5x.. 2x für Apps Pentium/MMX: press release größerer L-Cache als Pentium-I x86: Register 3 5 EAX AX AH AL accumulator ECX CX CH CL count: String, Loop EDX DX DH DL data, multiply/divide EBX BX BH BL base addr ESP SP stackptr EBP BP base of stack segment ESI SI index, string src EDI DI index, string dst CS code segment SS stack segment DS data segment ES extra data segment FS GS 32 bit ALU 6 bit ALU 6 bit ALU 8 bit 8 bit 8 bit 8 bit 886 Exx ab FPR FPR7 Medientechnik SIMD-Befehlssätze IEEE Micro 3/4-99 S.37ff EIP EFLAGS IP PC status FP Status

2 MMX: Entwurfsentscheidungen Kompatibilität zu alten Betriebssystemen / Apps: keine neuen Register möglich keine neuen Exceptions bestehende Datenpfade nutzen möglichst wenig neue Opcodes alte Prozessoren und neue Software Test-Applikationen: (audio/image/mpeg-/3d-graphik/...) keine Tools optimierte Libraries verfügbar MMX: Register MMX.. MMX7 8 Register a 64 bit in den FP-Registern FP NaN FP TOS = tag = valid.. FP-Register nutzen Überlauf ignorieren saturation arithmetic 64 bit Code doppelt MMX DLLs 6 bit dominiert Assembler 3 TOS tag FP7 FP MMX7 MMX: Datenformate 64-bit Register, 4 Datentypen: packed byte 8 / packed word 4 / packed doubleword 2 / quadword Zugriff abhängig vom Befehl b7 b2 b b w3 w2 w w 63 d d 63 q MMX: Befehlssatz EMMS (FSAV / FRESTOR) clear MMX state (handle FP regs) MOVD mm, mm2/mem32 move 32 bit data MOVQ mm, mm2/mem64 move 64 bit data PACKSSWB mm, mm2/mem64 pack 86 into 88 signed saturate PUNPCKH mm, mm2/mem64 fancy unpacking (see below) PACKSSDW mm, mm2/mem64 pack 432 into 46 signed saturate PAND mm, mm2/mem64 mm AND mm2/mem64 / auch OR/XOR/NAND PCMPEQB mm, mm2/mem64 8a==b, create bit mask / auch GT PADDB mm, mm2/mem64 8add 8 bit data PSUBD mm, mm2/mem64 2sub 32 bit data / signed wrap PSUBUSD mm, mm2/mem64 2sub 32 bit data / unsigned saturate PSLL mm,mm2/mem64/imm8 shift left mm / auch PSRA/PSRL PMULL/HW mm, mm2/mem64 4mul 66 store low/high 6 bits PMADDWD mm, mm2/mem64 MAC 46 -> MMX Medientechnik 63 MMX TOS= insgesamt 57 Befehle (Varianten B/W/D S/US)

3 MMX: "Saturation Arithmetic" was soll bei einem Überlauf passieren? wrap-around..., 25, 26, 27, -28, -27,... saturation..., 25, 26, 27, 27, 27,... Zahlenkreis "aufgeschnitten" gut für DSP- Anwendungen ff 8 7f ff 8 7f MMX: "packed multiply add word" für Skalarprodukte: vector_x_matrix_4x4( MMX64 v, MMX64 m ) { MMX64 v, v2323, t, t, t2, t3; } v = punpckldq( v, v ); // unpack v/v v2323 = punpckhdq( v, v ); // unpack v2/v3 t = pmaddwd( v, m[] ); // v v first 2 rows t = pmaddwd( v2323, m[] ); // v2 v3 first 2 rows t2 = pmaddwd( v, m[2] ); // v v last 2 rows t3 = pmaddwd( v2323, m[3] ); // v2 v3 last 2 rows t = paddd( t, t ); // add t2 = paddd( t2, t3 ); // v = packssdw( t, t2 ); // pack 32->6, saturate paddw (wrap around): a3 b3 a3b3 a2 b2 a2b2 a b ab paddusw (saturating): a3 a2 a b3 b2 b a3b3 a2b2 ab 7FFFh 4h 83h 7FFFh pmaddwd a3 a2 a b3 b2 b a3b3a2b2 3h 7FFFh a b abab MMX: "packed compare" Vergleiche / Sprungbefehle: pcmpgtw: schlecht parallelisierbar Pipeline-Abhängigkeiten keine Sprungbefehle in MMX compare-operationen setzen Bitmasken Bitmasken für logische Ops verwendbar Beispiel: chroma-keying MMX: packssdw / punpckhbw packssdw: pack with saturation 32 -> 6 signed data: punpckhbw: 8h D2h h 8h > > > > h FFFFh h h FFFFh 82h h FCh 8h 7FFFh 82h FCh punpcklbw: lower 32 bits Medientechnik MMX 3

4 MMX: pmulllw / pmullhw pmull[lh]w: multiply 4 words, write low/high byte of results: FFFFh h h 2h 4 x 6 bit 2h D2h h 2h 4 x 6 bit FFFFh FFFEh h h h h h 4h 4 x 32 bit pmullhw pmulllw FFFFh h h h 4 x 6 bit high words entsprechend die low words mit Packbefehlen kombinieren, wenn 32-bit Resultate gewünscht MMX: Chroma Keying () "Wetterbericht": MMX berechnet 4 Pixel / Takt keine Branch-Befehle Schritt : Maske erstellen (high-color: 6 bit/pixel) MMX: Chroma Keying (2) MMX: Zufallszahlen x(t) = (x(t-) 47989) & xffff; QuadWord DithMultVal = x4f34f34f34f3; QaudWord DithRegInit = x4f3994d2379bb75; Init: MOVQ mm, DithRegInit; Loop: // x(t) -> x(t) PMULLW mm, DithMulVal // 3 clocks MOVQ [result64], mm // clocks PMULLW latency 3, throughput (on Pentium) bis zu vier Zufallszahlen pro Takt (U/V pipelines genutzt) 4 MMX-Beispiele Medientechnik [Intel MMX appnote]

5 MMX: tolowercase() str mask = A - str s lowercase aber: Probleme mit Umlauten... e 4 [aus Intel MMX appnote] r 4 pcmpgtb pand padd Dnow! Motivation P e stark wachsende Bedeutung von 3D-Spielen h T 4 pcmpgtb pand a b c d e f 2! " # $ % & ( ), -. / : ; < = >? A B C D E F G H I J K L M N O 5 P Q R S T U V W X Y Z [ \ ] ^ _ 6 a b c d e f g h i j k l m n o 7 p q r s t u v w x y z { } ~ mask str 32-bit Gleitkommaoperationen nötig für Geometrie-Transformationen FPU im AMD K6 vergleichsweise langsam MMX unterstützt nur Integer-Datentypen SIMD-Befehle für 32-bit float Datentypen schnelle Add/Mult/MAC/Sqrt-Befehle muß ohne OS-Unterstützung nutzbar sein MMX-Register verwenden MMX zwei-operanden Adressierung je zwei float-datenwerte pro MMX-Register 3Dnow! Spezifikation (vergleiche Motorola Altivec / Intel ISSE) 2 = [ = Z Dnow! Entscheidungen SIMD-Befehle für 32-bit float Datentypen: MMX-Register verwenden, zwei Datenworte pro Register zwei-adress-befehle keine Status-Flags, keine Exceptions MMX-Befehle nutzbar (logische, Vergleiche,...) belegt nur einen einzigen x86 Opcode (FF... subobcode) möglichst wenig Chipfläche: keine Unterstützung für NaN/INF/... nur round-to-nearest-even Modus, - LSB Saturation-Arithmetik statt Überlauf Approximation für Division und Quadratwurzel 3Dnow! Befehlssatz Medientechnik 3Dnow! 5

6 3Dnow! Prefetch Speicherzugriffe in Multimedia-Applikationen: reguläre Speicherzugriffsmuster ungewöhnliche Lokalität viele Daten werden (pro Frame) nur einmal benötigt aber regelmässig (in jedem Frame) Performance stark von optimaler Cache-Ausnutzung abhängig prefetch-befehl quasi normaler Ladebefehl, aber ohne Zielregister gewünschte Daten werden in L/L2-Cache geladen löst keine Exceptions / Page Faults aus "memory streaming" auch für andere Anwendung gut nutzbar (etwa Numerik) 3Dnow! Division / Quadratwurzel Rechenwerk für Division / Sqrt ist sehr aufwendig möglichst wenig Chipfläche für 3Dnow! teilweise nur geringe Genauigkeit benötigt etwa Shading/Beleuchtungsberechnung für 3D-Graphik Division und Quadratwurzel per Approximation erster Befehl liefert 4/5 bit Approximation aus Lookup-Table und Interpolation mit vollem Takt zusätzliche Befehle für Newton-Iteration quadratische Konvergenz: zwei Iterationsschritte für volle Genauigkeit wenig Hardwareaufwand voll in Pipeline integriert, maximaler Durchsatz 3Dnow! Division / Quadratwurzel Hardware-Dividierer ist sehr aufwendig oft wird nicht die volle Genauigkeit benötigt, z.b. Beleuchtungsberechnung bei 3D-Graphik Iteration zur Berechnung von /b: x = x (2 - bx) 3Dnow! Quadratwurzel Iteration zur Berechnung von /sqrt(b): x =.5 x (3 - bx²) separate Befehle zur ersten Schätzung (4 bit) zwei weitere Befehle zur ersten und zweiten Iteration Resultat mit 24-bit Genauigkeit abschließende Multiplikation für sqrt(x) statt /sqrt(x) 6 3Dnow! Medientechnik

7 3Dnow! Div/Sqrt-Applet 3D Now! Apfelmännchen Eingabeparameter: Argument x Startwert x Ausgabe: Iterationswerte x,x,... exakte Lösung quadratische Konvergenz stark abhängig vom Startwert Function IterPasD (I,R :Double; Grenze, Tiefe :Paratyp):Paratyp; var A,B,C:double; Begin Count:= ; A:=; B:=; Repeat C:= SQR(A) - SQR(B) R; B:= 2AB I; A:= C; INC (Count); Until (abs (A) >Grenze) or (Abs (B) > Grenze) or (Count=Tiefe); IterpasD:=Count; End; 3D Now! Apfelmännchen ; Quadriere (A jb)2 = A2 - B2 j 2AB ; Entry MM ;A B ; MM ; - ; MM2 ;R I ; loop: MOVQ MM3,MM ;MM3=A B MOVQ MM4,MM ; oh weh PSLLQ MM3,32 ; das Vertauschen ist PSRLQ MM4,32 ; sehr mühsam... POR MM3,MM4 ;MM3=B A PFMUL MM3,MM ;MM3= AB AB PFMUL MM,MM ;MM= A2 B2 PFMUL MM,MM ;MM= A2 -B2 PFACC MM,MM3 ;MM= A2 - B2 ABAB PFADD MM,MM2 ;MM= A2 - B2 R 2ABI ; = A(n) = B(n) PF2ID MM4,MM ;ia = INT(A) ib = Int(B) MOVQ ia,mm4 ; Sieh nach, ob A oder B > GRENZE ist... dec CX ; iteration counter jnz loop ISSE: Homepage / Literatur Medientechnik 3Dnow! 7

8 ISSE: Entwurfsentscheidungen Markt fordert 3D mindestens doppelte FP-Performance notwendig 2-fach oder 4-fach SIMD? 28-bit machbar (FP bereits 8-bit) bereits 2 64-bit ALUs auf dem Prozessor 4-fach SIMD "already register-starved IA32 architecture" neue Register, 28-bit erfordert OS-Unterstützung 7 neue Befehle sowohl "packed" als auch "scalar ISSE instructions" ISSE: "Streaming" typisch für Medienverarbeitung: ALUs müssen auf die Daten warten Streaming: hohe Datenmenge / Datenrate geringe Lokalität: viele Daten (Pixel) werden nur x benötigt Cache-"Pollution" herkömmliche Cache-Strategien nutzlos GHz, 8x SIMD, nsec Speicher: 8 OPs / Zugriff Cache-Nutzung anpassen Prefetch: Daten rechtzeitig anfordern Speicherlatenz fast perfekt versteckt (für Media-Apps.) Performance leidet (extrem) ISSE: Prefetch-Befehl ISSE: Register ISSE 27 xmm xmm7 SIMD: src op src2 op op op op Scalar: FP/MMX 79 op fp fp7 8 SSE Medientechnik dst

9 ISSE: Register Viewing Tool Softwareentwicklung für MMX / ISSE / 3Dnow: nur rudimentäre Compiler- und Tool-Unterstützung oft handoptimierter Assembler wg. bester Performance ISSE: Programmierung Intel VTune Performance Enhancement Environment: optimierender Compiler mit ISSE-Unterstützung: Intrinsics C-Funktionen, Compiler inlining Vector Class Library Klassen, inlining durch Compiler Vectorization optimierender Compiler Intel Performance Library Suite erfordert 6-Byte Alignment aller Datentypen umfangreiche Profiling-Tools sehr teuer ISSE: Programmierung mit "Intrinsics" float xa[size], xb[size], xc[size]; float q; void do_c_triad() { for( int j=; j < SIZE; j ) { xa[j] = xb[j] qxc[j]; } } ISSE-Programmierung mit "Intrinsics" und VTUNE: #define VECTOR_SIZE 4 declspec(align(6)) float xa[size], xb[size], xc[size]; float q; void do_intrin_triad() { m28 tmp, tmp; tmp = _mm_set_ps(q); for( int j=; j < SIZE; j= VECTOR_SIZE) { tmp = mm_mul_ps( (( m28 ) &xc[j]), tmp ); ( m28 ) &xa[j] = _mm_add_ps(tmp, (( m28 ) &xb[j]; } } ISSE: AoS / SoA Array of Structures: Daten lokal Anordnung schlecht für SIMD Structure of Arrays: Anordnung optimal für SIMD aber im Speicher "verstreut" Hybrid SoA - SIMD struct { float A[8],B[8],C[8]; } Hybrid_data[25]; struct { float A, B, C; } AoS_data[]; struct { float A[],B[],C[]; } SoA_data; Medientechnik SSE 9

10 ISSE: FIR-Filter Nutzen von MMX/ISSE für Filter? MMX und ISSE für 6-bit Integer ISSE für 32-bit Gleitkommawerte maximal vierfache Leistung gegenüber skalarem Code aber: erfordert Operanden-Alignment (6-Byte Grenzen) z.b. durch Duplizierung der Daten/Koeffizienten-Arrays Arraygrößen Vielfache von 4 Multiplikation parallel, aber Akkumulation schwierig siehe Intel Appnote "32-bit FP FIR Filter implemented using SSE" ISSE2: mux-befehl (IA64) ISSE2: psad-befehl (IA64) ISSE2: pavg2-befehl (IA64) SSE2 Medientechnik [IA64 databook]