An Introduction to Simultaneous Multi-Threading Prinziples and Architectures

Größe: px

Ab Seite anzeigen:

Download "An Introduction to Simultaneous Multi-Threading Prinziples and Architectures"

Hajo Schmidt
vor 5 Jahren
Abrufe

1 An Introduction to Simultaneous Multi-Threading Prinziples and Architectures Seminarvortrag von Thomas Weber Lehrstuhl Rechnerarchitektur

2 Übersicht? Motivation? Aktuelle Microarchitekturen? Scheduling? Hardwareaufwand? Fallbeispiel XEON? Problem Registerfile und Lösungsvorschläge

4 Motivation (1) Definition: SMT macht aus einem physikalischen Prozessor zwei oder mehr logische Prozessoren, wobei der Hardwarekontext für jeden Thread repliziert wird, die physikalische Ausführungseinheit aber von allen zusammen genutzt wird.

5 Motivation (2) Intel gibt bei ihrem XEON Prozessor an das der Flächen Zuwachs unter 5%, der Performancegewinn durchschnittlich bei % liegt (bei herkoemmlichen Anwendungen).

6 Motivation (3) Simulation von 4 wichtigen Microarchitecturen: Superscalar (SS) Fine-Grain Multithreading (FGMT) Chip-Multiprocessor (CMP) Simultaneous Multithreading (SMT) Workload ist die IPsecurity Componente MD5, welches IP-Packete authentifiziert, und somit viel thread-level Parallelität verspricht. Im Department of Computer Science & Engineering der University of Washington entstanden folgende Ergebnisse:

7 Motivation (4) Characterizing Processor Architectures for Programmable Network Interfaces

8 Motivation (5) Characterizing Processor Architectures for Programmable Network Interfaces

9 Motivation (6) Characterizing Processor Architectures for Programmable Network Interfaces

10 Motivation (7) Characterizing Processor Architectures for Programmable Network Interfaces

11 Aktuelle Microarchitecturen (1) Dynamic discovery of ILP: Superscalar FU1FU2FU3FU4 7-stufige Pipeline Out-of-order Execution Anzahl der FU s gibt maximalen ILP an

12 Aktuelle Microarchitecturen (2) Tolerating blocked threads: FGMT FU1FU2FU3FU4 Mehrere Kontexte werden im Prozessor gehalten Superscalare Ausführungseinheit Cycle-by-cycle Interleaving vertikaler waste wird nahezu vermieden

13 Aktuelle Microarchitecturen (3) Simple replication: CMP P1 P2 P3 P4 Mehrere Prozessoren auf einem Die Eigenen Kontext und Ausführungseinheit Geteilter Cache Nutzt TLP

14 Aktuelle Microarchitecturen (4) ILP & thread-level Parallelism: SMT FU1FU2FU3FU4 Mehrere Hardwarekontexte Superscalare Ausführungseinheit Instruktionen werden in jedem Cycle von mehreren Threads gefeched und geissued

16 Scheduling (1) In einem multi-issue Prozessor, in dem innerhalb eines Taktes von mehreren Threads gefetched werden kann, müssen folgende 3 Punkte in beachtet werden: a) wieviel Instruktionen werden geholt b) von welchen Threads werden Instuktionen geholt c) welche Instuktion in der iqueue wird als erstes ausgeführt

17 Scheduling (2) The Fetch Unit In Search of Useful Instructions : RR 1.8: Bestimme einen Thread durch Round-Robin, fetche maximal 8 Instuktionen. RR.2.4 bzw RR.4.2: fetche 4 Instructionen von 2 Threads bzw 2 Instruktionen von 4 Threads. RR.2.8: Dynamische Aufteilung Von einem Thread werden bis zu 8 Instruktionen gefetched, von einem zweiten wird ausgefüllt(bis maximal 8).

18 Scheduling (3) Simulationsergebnis auf Alpha 21164: Dynamische Aufteilung besser als jede Statische. Instruction Fetch and Issue on an Implementable SMT-Prozessor

19 Scheduling (4) Alternativ zu Round-Robin einige dynamische Thread-Choice Verfahren: BRCOUNT: Hohe Priorität für Threads mit wenigsten Branches. MISSCOUNT: Hohe Piorität für Threads mit wenigsten D cache misses. ICOUNT: Hohe Priorität für Threads mit wenigsten Instruktionen in der IQ. IQPOSN: Niedrigste Priorität für Threads mit ältesten Instruktion in der IQ.

20 Scheduling (5) Instruction Fetch and Issue on an Implementable SMT-Prozessor

22 Hardwareaufwand (1) program counter Return from subroutine destination stack per-thread instuction retirement, instruction queue flush a thread id with each branch target buffer entry larger register file (problematic)

23 Hardwareaufwand (2) Caches branch prediction instruction queue functional units

25 Fallbeispiel XEON (1) Intel XEON MP Gallatin 1,5 Ghz 2,8 GHz 0,18micron Technologie 108 Mio. Transistoren Die Grösse 217mm² 128 Integer und 128 FP Register L1 = 12k uops + 8k L2 = 512k L3 = 4096k Logical Processor 0Logical Processor 1 Execution Unit Local APIC Local APIC Bus Interface

26 Fallbeispiel XEON (2)

27 Fallbeispiel XEON (3)

28 Fallbeispiel XEON (4)

30 Zugriffszeit ~ R * C C ~ Länge der Leitung Einfache Abschätzung: Zugriffszeit steigt um 25% pro zusätzlichem Port, da der area- Zuwachs 25% ist. Zudem kommt noch: Zugriffszeit ~ Anzahl der Register

31 Lösungsvorschläge Registerfilezugriff über mehrere Piplinestufen Registerfile aufteilen (kleines Schnelles und grosses Langsames) MtSMT, Tradeoff zwischen Registeranzahl und TLP

32 References Intel Technology Journal, Volume 6, Issue 01, Hyper-Threading Technology Architecture and Microarchitecture chnology.pdf Microprocessor Hall of Fame Dean M. Tullsen, Susan J. Eggers, Joel S. Emer, Henry M. Levy, Jack L. Lo, Rebecca L. Stamm, Exploiting Choice: Instruction Fetch and Issue on an Implementable Simultaneous Multithreading Processor. and Converting Thread-Level Parallelism to Instruction-Level Parallelism via Simultaneous Multithreading. Patrick Crowley, Marc E. Fiuczymski, Jean-Loup Baer, Brian N. Bershad Characterizing Processor Architectures for Programmable Network Interfaces

Ähnliche Dokumente

Cell and Larrabee Microarchitecture

Cell and Larrabee Microarchitecture Benjamin Grund Dominik Wolfert Universität Erlangen-Nürnberg 1 Übersicht Einleitung Herkömmliche Prozessorarchitekturen Motivation für Entwicklung neuer Architekturen