Was bringt der Merced?

Transkript

1 Was bringt der Merced? Die Prozessorarchitektur IA-64 Bernd Däne TU Ilmenau, Fakultät I/A Tel.:

2 Gliederung 1. Merced - Itanium - IA Die Vorgeschichte 3. Der neue Ansatz 4. Die Details 5. Die Zukunft 6. Die Anderen 7. Literatur und Web Hinweis: Eingetragene Warenzeichen sind Eigentum der jeweiligen Firmen. Die Programmbeispiele beruhen auf Veröffentlichungen der Intel Corp. Bernd Däne Was bringt der "Merced"? 2

3 1. Merced - Itanium - IA-64 Merced : Deckname für Intel s 64-bit-Projekt Schon lange bekannt, aber wenig Infos IA-64 : Bezeichnung des Programmiermodells Seit Mai 1999 vollständig veröffentlicht Itanium : Offizieller Name des ersten Prozessors Partielle Vorstellung im Oktober 1999 Bernd Däne Was bringt der "Merced"? 3

4 2. Die Vorgeschichte Desktop-Systeme: Intel-Familie: PC (großer Marktanteil) Motorola-Familie: Mac (kleinerer Marktanteil) Server und High-End-Workstations: Alternative Architekturen (Nische, abnehmend) Desktop-Familien (zunehmend) Eingebettete Systeme: Große Vielfalt (Mikrocontroller, Digitale Signalprozessoren, Ableittypen aus Desktop-Familien) Bernd Däne Was bringt der "Merced"? 4

5 Intel-Familie und Motorola-Familie Intel Motorola 8086 IA Erster 16-Bit-Typ Erweitertes Speichermodell 16/32 Bit 680x0 32 Bit IA-32 i386 Erster 32-Bit-Typ i486 Cache und FPU intern Pentium 2-fach Superskalar Pentium Pro Out-Of-Order Execution Pentium II, III, III/E Weitere Optimierungen PowerPC 32(64) Bit G1 G2 G3 G Bernd Däne Was bringt der "Merced"? 5

6 Nachteile der Architektur IA-32 Komplexes Programmiermodell Befehle mit sehr unterschiedlichem Funktionsumfang Viele Ausnahmen und Irregularitäten Komplizierte Befehlscodes Unterschiedliche Länge (1 bis 14 Bytes) Viele verschiedene Formate Sehr wenig Register Komplizierte Speicherverwaltung Schwierige Optimierung von Mikroarchitektur und Compilern Bernd Däne Was bringt der "Merced"? 6

7 3. Der neue Ansatz 8086 IA-16 IA Bit- Befehle (abgeleitet aus HP's PA-RISC) Emulation 32 Bit CISC 64 Bit RISC IA-64 Bernd Däne Was bringt der "Merced"? 7

8 Kompatibilität bei IA Bit-Applikation und 64-Bit-OS: o.k. 16/32-Bit-Applikation und 64-Bit-OS: binärkompatibel, falls vom OS unterstützt 16/32-Bit-Applikation und 16/32-Bit-OS: binärkompatibel mit Zusatzsoftware Bernd Däne Was bringt der "Merced"? 8

9 CISC und RISC CISC RISC Complex Instruction Set Computing Reduced Instruction Set Computing Einfache und komplexe Befehle Heterogener Befehlssatz Verschiedene Taktzahl pro Befehl Viele Befehlscode-Formate mit unterschiedlicher Länge Nur einfache Befehle Orthogonaler Befehlssatz Meist 1 Takt pro Befehl Wenige Befehlscode-Formate mit einheitlicher Länge Bernd Däne Was bringt der "Merced"? 9

10 4. Die Details Explizite Parallelität auf Befehlsniveau Intel: EPIC (Explicitly Parallel Instruction Computing) Welt: VLIW (Very Large Instruction Word) Massive Ressourcen Umfangreicher Registersatz Zahlreiche Ausführungseinheiten und Speicherports Prädikatierung Spekulative Ausführung Skalierbarkeit Bernd Däne Was bringt der "Merced"? 10

11 Vereinfachtes Blockschaltbild Level-1 Befehls-Cache + Warteschlange Sprung- Vorhersage Befehls- Ausgabe F F I I M M B B B Registermaschine (Stack, Rotation) IA32- Dekoder Level-2 Cache Prädikate, NaTs FP-Register Floating- Point- Einheiten Level-1 Daten- Cache Allg. Register Integer- Einheiten Branch-Reg. Branch- Einheiten Level-3 Cache Bus-Steuerung Bernd Däne Was bringt der "Merced"? 11

12 Parallelität auf Befehlsniveau Superskalar mit Out-Of-Order EPIC bzw. VLIW Scheduler Bernd Däne Was bringt der "Merced"? 12

13 Merkmale von EPIC bzw. VLIW Kein Struktur- und Zeitaufwand im Prozessor zur Extraktion von Parallelität Compiler sieht größeres Codefenster und kann effektiver optimieren Auflösung von Daten- und Ressourcenkonflikten bereits zur Übersetzungszeit Schlechtere Performance bei wechselnden Operations- und Speicherlatenzen Keine Kompatibilität zu früheren Befehlssätzen möglich Bernd Däne Was bringt der "Merced"? 13

14 Registersatz 128 Allgemeine Register NaT Statische Register IA32- Register Register- Stack (zusätzlich rotierbar) Gleitkomma- Register 128 Statisch Rotierbar 1 64 Prädikate Branch- Register 64 Befehls- Zähler 64 Rahmen- Zeiger 38 8 Rotierbare Register Applikationsregister (Spezialfunktionen) Prozessor-Ident-Register Performance-Monitor-Register weitere Bernd Däne Was bringt der "Merced"? 14

15 Arbeitsweise des Registerstacks GR32 GR32 Lokal A Lokal A GR37 GR38 GR41 Output A GR32 GR35 Output B' GR32 Lokal B GR37 GR38 GR41 Output A GR40 GR41 GR43 Output B Prozedur A Prozedur B Prozedur B Prozedur A call Proz_B alloc 4,5,3,0 return Bernd Däne Was bringt der "Merced"? 15

16 Beispiel zur Prädikatierung (1) Quelltext Ablaufgraph if (a[i] == 0) c[i] = b1[i]; else c[i] = b2[i]; i++; if (a[i] == 0) 1 0 c[i]=b1[i] c[i]=b2[i] i++ Bernd Däne Was bringt der "Merced"? 16

17 Beispiel zur Prädikatierung (2) Traditionell Prädikatiert Load x=a[i] Compare (x==0) Load x=a[i] Comp p1,p2=(x==0) Branch if False Load y=b1[i] Store c[i]=y Branch Load y=b2[i] Store c[i]=y <p1> Load y=b1[i] Store c[i]=y Add i+=1 <p2> Load y=b2[i] Add i+=1 Bernd Däne Was bringt der "Merced"? 17

18 Spekulativer Speicherzugriff (1) Laden bei Bedarf Spekulatives Laden Trennung von Laden und Ausnahmebehandlung Load y=b[i] Load.s y=b[i] Comp p=(...) Comp p=(...) Comp p=(...) Load y=b[i] Store y Check.s y Speicherlatenz... Store y Store y Bernd Däne Was bringt der "Merced"? 18

19 Spekulativer Speicherzugriff (2) Resultierender Code für das Beispiel: Load x=a[i] Load.s y1=b1[i] Load.s y2=b2[i] Comp p1,p2=(x==0) <p1> Check.s y1 <p1> Store c[i]=y1 <p2> Check.s y2 <p2> Store c[i]=y2 Add i+=1 Bernd Däne Was bringt der "Merced"? 19

20 Schleife entrollen: Beispiel Quelltext Ablaufgraph int a[s1][s2],b[s3]; int fit(i,j) int i,j; { int k; for (k=0;k<size;k++) if (a[i][k]) if (b[j+k]) return (FALSE); return(true); } if ( b[j+k]!= 0 ) 1 0 k = 0 if ( a[i][k]!= 0 ) 1 0 k++ if ( k < SIZE ) return(false) return(true) 0 1 Bernd Däne Was bringt der "Merced"? 20

21 Schleife entrollen: Erstes if Zyklus Einheit I+M I+M I I B B prolog: a_poi = &a[i][0]; Load x = *a_poi p1 = Comp (x!= 0) Add a_poi += 4 Bernd Däne Was bringt der "Merced"? 21

22 Schleife entrollen: Zweites if Zyklus Einheit I+M I+M I I B B prolog: a_poi = &a[i][0]; b_poi = &b[j]; p2 = false; 1 2 Load x = *a_poi Load.s y = *b_poi Add a_poi += 4 Add b_poi += p1 = Comp (x!= 0) <p1> p2 = Comp (y!= 0 ) <p1> Check.s y <p2> Branch to ret_0 ret_0: return(false); Bernd Däne Was bringt der "Merced"? 22

23 Schleife entrollen: Zähler Zyklus Einheit I+M I+M I I B B prolog: a_poi = &a[i][0]; b_poi = &b[j]; p2 = false; k = 0; 1 2 L_1: Load x = *a_poi Load.s y = *b_poi Add a_poi += 4 Add b_poi += p1 = Comp (x!= 0) <p1> p2 = Comp (y!= 0 ) Add k += 1 <p1> Check.s y p3 = Comp (k >= SIZE) <p2> Branch to ret_0 <p3> Branch to ret_1 Branch to L_1 ret_1: return(true); ret_0: return(false); Bernd Däne Was bringt der "Merced"? 23

24 Schleife entrollen: Durchlauf Zwei Zyklus Einheit I+M I+M I I B B prolog: a_poi = &a[i][0]; b_poi = &b[j]; p2 = false; k = 0; L_1: Load x = *a_poi Load.s x2 = *a_poi p1 = Comp (x!= 0) <p1> p2 = Comp (y!= 0 ) Check.s x2 Load.s y = *b_poi Add k += 1 <p1> Check.s y Add a_poi += 4 Add a_poi += 4 p3 = Comp (k >= SIZE) Add b_poi += 4 p4 = Comp (x2!= 0) <p2> Branch to ret_0 <p3> Branch to ret_1 Branch to L_1 ret_1: return(true); ret_0: return(false); Bernd Däne Was bringt der "Merced"? 24

25 Schleife entrollen: Fertig Zyklus Einheit I+M I+M I I B B prolog: a_poi = &a[i][0]; b_poi = &b[j]; p2 = false; k = 0; p5 = false; L_1: Load x = *a_poi Load.s x2 = *a_poi p1 = Comp (x!= 0) <p1> p2 = Comp (y!= 0 ) Check.s x2 Load.s y = *b_poi Load.s y2 = *b_poi Add k += 2 <p1> Check.s y <p4> Check.s y2 Add a_poi += 4 Add a_poi += 4 p3 = Comp (k >= SIZE+1) <p4> p5 = Comp (y2!= 0) Add b_poi += 4 Add b_poi += 4 p4 = Comp (x2!= 0) p6 = Comp (k < SIZE) <p2> Branch to ret_0 <p5> Branch to ret_0 <p3> Branch to ret_1 <p6> Branch to L_1 ret_1: return(true); ret_0: return(false); Bernd Däne Was bringt der "Merced"? 25

26 Das erste Foto Das Foto ist aus rechtlichen Gründen leider nicht enthalten. Sie finden es im Internet: ftp://download.intel.com/pressroom/images/news/dp83199x.tif Bernd Däne Was bringt der "Merced"? 26

27 5. Die Zukunft Markteinführung vermutlich Mitte 2000 IA-64 zunächst nur für High-End IA-32 wird fortgesetzt (Intel und andere) Betriebssysteme für IA-64: Win (Microsoft) Linux Monterey (IBM), Solaris (SUN),... Migration der Applikationen: langsam (?) Bernd Däne Was bringt der "Merced"? 27

28 Intel s Roadmap Performance IA-64 IA-32 Itanium Foster McKinley Madison künftige IA-32 Deerfield Willamette Coppermine Bernd Däne Was bringt der "Merced"? 28

29 6. Die Anderen AMD: SledgeHammer (Architektur: x86-64 ) Motorola: G4+ (32 Bit), G5 (32+64 Bit) IBM: Power 4 (2 Cores/Chip, 4 Chips/Modul) Compaq/Digital: Alpha EV8 (4-way SMT) SUN: Sparc64 V (superspekulativ) Transmeta:??? (x86-zu-vliw - Konverter?) Bernd Däne Was bringt der "Merced"? 29

30 AMD s Projekt x86-64 IA-32 x86-64 K5 K6 Athlon (K7) Sledge Hammer Prinzip: direkte Erweiterung von IA-32 Wenig Aufwand Volle Abwärtskompatibilität Nachteile von IA-32 bleiben erhalten Inkompatibel zu IA-64 Bisher wenig Info Bernd Däne Was bringt der "Merced"? 30

31 Simultaneous Multithreading (SMT) Befehle Dekoder Befehle Befehle Dekoder Dekoder Ausführungseinheiten Ausführungseinheiten Superskalar SMT Bernd Däne Was bringt der "Merced"? 31

32 Superspekulative Prozessoren Spekulation zum Steuerfluss: Mehrstufige Sprungvorhersage (Trace-Analyse) Spekulation zum Register-Datenfluss: Vorhersage von Datenunabhängigkeiten Vorhersage von Operationsergebnissen ( value stride prediction ) Spekulation zum Speicher-Datenfluss: Vorhersage von Lade-Adressen Vorhersage von Alias-Zugriffen Bernd Däne Was bringt der "Merced"? 32

33 Beispiel zur Superspekulation... 5x PUSH... LOAD MUL... POP JUMPcond cond: ja ja ja ja nein... adr: adr: result: adr: const! stride! stride! alias! const! Bernd Däne Was bringt der "Merced"? 33

34 7. Literatur und Web ftp://download.intel.com/design/ia64/ Intels Weg zu 64 Bit. In: c t 12/99, S Titanomachie. In: c t 22/99, S The IA-64 Architecture at Work. In: IEEE Computer 7/98, S Billion-Transistor Architectures. In: IEEE Computer 9/97, S. 46 Dieser Foliensatz: Bernd Däne Was bringt der "Merced"? 34