An Introduction to Simultaneous Multi-Threading Prinziples and Architectures
|
|
- Hajo Schmidt
- vor 5 Jahren
- Abrufe
Transkript
1 An Introduction to Simultaneous Multi-Threading Prinziples and Architectures Seminarvortrag von Thomas Weber Lehrstuhl Rechnerarchitektur
2 Übersicht? Motivation? Aktuelle Microarchitekturen? Scheduling? Hardwareaufwand? Fallbeispiel XEON? Problem Registerfile und Lösungsvorschläge
3
4 Motivation (1) Definition: SMT macht aus einem physikalischen Prozessor zwei oder mehr logische Prozessoren, wobei der Hardwarekontext für jeden Thread repliziert wird, die physikalische Ausführungseinheit aber von allen zusammen genutzt wird.
5 Motivation (2) Intel gibt bei ihrem XEON Prozessor an das der Flächen Zuwachs unter 5%, der Performancegewinn durchschnittlich bei % liegt (bei herkoemmlichen Anwendungen).
6 Motivation (3) Simulation von 4 wichtigen Microarchitecturen: Superscalar (SS) Fine-Grain Multithreading (FGMT) Chip-Multiprocessor (CMP) Simultaneous Multithreading (SMT) Workload ist die IPsecurity Componente MD5, welches IP-Packete authentifiziert, und somit viel thread-level Parallelität verspricht. Im Department of Computer Science & Engineering der University of Washington entstanden folgende Ergebnisse:
7 Motivation (4) Characterizing Processor Architectures for Programmable Network Interfaces
8 Motivation (5) Characterizing Processor Architectures for Programmable Network Interfaces
9 Motivation (6) Characterizing Processor Architectures for Programmable Network Interfaces
10 Motivation (7) Characterizing Processor Architectures for Programmable Network Interfaces
11 Aktuelle Microarchitecturen (1) Dynamic discovery of ILP: Superscalar FU1FU2FU3FU4 7-stufige Pipeline Out-of-order Execution Anzahl der FU s gibt maximalen ILP an
12 Aktuelle Microarchitecturen (2) Tolerating blocked threads: FGMT FU1FU2FU3FU4 Mehrere Kontexte werden im Prozessor gehalten Superscalare Ausführungseinheit Cycle-by-cycle Interleaving vertikaler waste wird nahezu vermieden
13 Aktuelle Microarchitecturen (3) Simple replication: CMP P1 P2 P3 P4 Mehrere Prozessoren auf einem Die Eigenen Kontext und Ausführungseinheit Geteilter Cache Nutzt TLP
14 Aktuelle Microarchitecturen (4) ILP & thread-level Parallelism: SMT FU1FU2FU3FU4 Mehrere Hardwarekontexte Superscalare Ausführungseinheit Instruktionen werden in jedem Cycle von mehreren Threads gefeched und geissued
15
16 Scheduling (1) In einem multi-issue Prozessor, in dem innerhalb eines Taktes von mehreren Threads gefetched werden kann, müssen folgende 3 Punkte in beachtet werden: a) wieviel Instruktionen werden geholt b) von welchen Threads werden Instuktionen geholt c) welche Instuktion in der iqueue wird als erstes ausgeführt
17 Scheduling (2) The Fetch Unit In Search of Useful Instructions : RR 1.8: Bestimme einen Thread durch Round-Robin, fetche maximal 8 Instuktionen. RR.2.4 bzw RR.4.2: fetche 4 Instructionen von 2 Threads bzw 2 Instruktionen von 4 Threads. RR.2.8: Dynamische Aufteilung Von einem Thread werden bis zu 8 Instruktionen gefetched, von einem zweiten wird ausgefüllt(bis maximal 8).
18 Scheduling (3) Simulationsergebnis auf Alpha 21164: Dynamische Aufteilung besser als jede Statische. Instruction Fetch and Issue on an Implementable SMT-Prozessor
19 Scheduling (4) Alternativ zu Round-Robin einige dynamische Thread-Choice Verfahren: BRCOUNT: Hohe Priorität für Threads mit wenigsten Branches. MISSCOUNT: Hohe Piorität für Threads mit wenigsten D cache misses. ICOUNT: Hohe Priorität für Threads mit wenigsten Instruktionen in der IQ. IQPOSN: Niedrigste Priorität für Threads mit ältesten Instruktion in der IQ.
20 Scheduling (5) Instruction Fetch and Issue on an Implementable SMT-Prozessor
21
22 Hardwareaufwand (1) program counter Return from subroutine destination stack per-thread instuction retirement, instruction queue flush a thread id with each branch target buffer entry larger register file (problematic)
23 Hardwareaufwand (2) Caches branch prediction instruction queue functional units
24
25 Fallbeispiel XEON (1) Intel XEON MP Gallatin 1,5 Ghz 2,8 GHz 0,18micron Technologie 108 Mio. Transistoren Die Grösse 217mm² 128 Integer und 128 FP Register L1 = 12k uops + 8k L2 = 512k L3 = 4096k Logical Processor 0Logical Processor 1 Execution Unit Local APIC Local APIC Bus Interface
26 Fallbeispiel XEON (2)
27 Fallbeispiel XEON (3)
28 Fallbeispiel XEON (4)
29
30 Zugriffszeit ~ R * C C ~ Länge der Leitung Einfache Abschätzung: Zugriffszeit steigt um 25% pro zusätzlichem Port, da der area- Zuwachs 25% ist. Zudem kommt noch: Zugriffszeit ~ Anzahl der Register
31 Lösungsvorschläge Registerfilezugriff über mehrere Piplinestufen Registerfile aufteilen (kleines Schnelles und grosses Langsames) MtSMT, Tradeoff zwischen Registeranzahl und TLP
32 References Intel Technology Journal, Volume 6, Issue 01, Hyper-Threading Technology Architecture and Microarchitecture chnology.pdf Microprocessor Hall of Fame Dean M. Tullsen, Susan J. Eggers, Joel S. Emer, Henry M. Levy, Jack L. Lo, Rebecca L. Stamm, Exploiting Choice: Instruction Fetch and Issue on an Implementable Simultaneous Multithreading Processor. and Converting Thread-Level Parallelism to Instruction-Level Parallelism via Simultaneous Multithreading. Patrick Crowley, Marc E. Fiuczymski, Jean-Loup Baer, Brian N. Bershad Characterizing Processor Architectures for Programmable Network Interfaces
Cell and Larrabee Microarchitecture
Cell and Larrabee Microarchitecture Benjamin Grund Dominik Wolfert Universität Erlangen-Nürnberg 1 Übersicht Einleitung Herkömmliche Prozessorarchitekturen Motivation für Entwicklung neuer Architekturen
MehrHYPER - THREADING HYPER-THREADING TECHNOLOGY SERGE FOPOUSSI. Serge Fopoussi UNIVERSITÄT BREMEN SEMINAR RECHNERARCHITEKTUR. Prof. Dr.
SEMINAR RECHNERARCHITEKTUR HYPER-THREADING TECHNOLOGY SERGE FOPOUSSI SEMINAR RECHNERARCHITEKTUR GLIEDERUNG 1. BACKGROUND : Arbeitsweise eines von Neumann-Rechners 2. ENTWICKLUNG VON PROZESSOREN 3. HYPER-THREADING
MehrNeue Prozessor-Architekturen für Desktop-PC
Neue Prozessor-Architekturen für Desktop-PC Bernd Däne Technische Universität Ilmenau Fakultät I/A - Institut TTI Postfach 100565, D-98684 Ilmenau Tel. 0-3677-69-1433 bdaene@theoinf.tu-ilmenau.de http://www.theoinf.tu-ilmenau.de/ra1/
MehrHyperthreads in Itanium - Prozessoren
Hyperthreads in Itanium - Prozessoren und wie OpenVMS damit umgeht Thilo Lauer Technical Consultant Account Support Center 2006 Hewlett-Packard Development Company, L.P. The information contained herein
MehrVorstellung der SUN Rock-Architektur
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Vorstellung der SUN Rock-Architektur Hauptseminar Ronald Rist Dresden, 14.01.2009
MehrAllgemeine Lösung mittels Hazard Detection Unit
Allgemeine Lösung mittels Hazard Detection Unit Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 83
MehrJR - RA - SS02 Kap
3.1 Elementare Datentypen, Operationen und ihre Realisierung (siehe 2.1) 3.2 Mikroprogrammierung 3.3 Einfache Implementierung von MIPS 3.4 Pipelining 3.5 Superskalare Befehlsausführung JR - RA - SS02 Kap.
MehrTechnische Grundlagen der Informatik 2 SS Einleitung. R. Hoffmann FG Rechnerarchitektur Technische Universität Darmstadt E-1
E-1 Technische Grundlagen der Informatik 2 SS 2009 Einleitung R. Hoffmann FG Rechnerarchitektur Technische Universität Darmstadt Lernziel E-2 Verstehen lernen, wie ein Rechner auf der Mikroarchitektur-Ebene
MehrJR - RA - SS02 Kap
3.1 Elementare Datentypen, Operationen und ihre Realisierung (siehe 2.1) 3.2 Mikroprogrammierung 3.3 Einfache Implementierung von MIPS 3.4 Pipelining 3.5 Superskalare Befehlsausführung JR - RA - SS02 Kap.
MehrHyperthreads in Itanium - Prozessoren
Hyperthreads in Itanium - Prozessoren und wie OpenVMS damit umgeht Thilo Lauer Technical Consultant Account Support Center 2006 Hewlett-Packard Development Company, L.P. The information contained herein
MehrUltraSPARC T2 Processor
UltraSPARC T2 Processor Vortrag im Rahmen des Seminars Ausgewählte Themen in Hardwareentwurf und Optik HWS07 Universität Mannheim Janusz Schinke Inhalt Überblick Core Crossbar L2 Cache Internes Netzwerk
MehrItanium 2. Götz Becker Lehrstuhl für Rechnerarchitektur
1 Itanium 2 Götz Becker Lehrstuhl für Rechnerarchitektur 2 Übersicht Einführung in die Itanium Architektur Besonderheiten der Architektur Beispiele für deren Anwendung Mikro-Architektur des Itanium 2 Compiler
MehrProzessorarchitektur. Sprungvorhersage. M. Schölzel
Prozessorarchitektur Sprungvorhersage M. Schölzel Inhalt Sprungvorhersage statische Methoden dynamische Methoden Problem Fetch-Phase Befehlswarteschlange Speicher b? Neue Adresse für noch nicht bekannt
MehrBeispiele von Branch Delay Slot Schedules
Beispiele von Branch Delay Slot Schedules Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 97 Weniger
MehrTeil 1: Prozessorstrukturen
Teil 1: Prozessorstrukturen Inhalt: Mikroprogrammierung Assemblerprogrammierung Motorola 6809: ein einfacher 8-Bit Mikroprozessor Mikrocontroller Koprozessoren CISC- und RISC-Prozessoren Intel Pentium
MehrBenchmarking Intel Pentium III-S vs. Intel Pentium 4
Benchmarking Intel Pentium III-S vs. Intel Pentium 4 André Ceselski Raphael Rosendahl 30.01.2007 Gliederung Motivation Vorstellung der Architekturen Intel P6 Architektur Intel NetBurst TM Architektur Architektur-Unterschiede
MehrInstruktionen pro Takt
(c) Peter Sturm, Universität Trier (u.a.) 1 Instruktionen pro Takt 500 MIPS (Dhrystone) Taktfrequenz 450 400 350 300 250 200 150 100 50 0 8086 80286 80386 80486 Pentium Pentium Pro Die-Größen: Intel Vorlesung
MehrComputer Architecture
Computer Architecture Slide Sets WS 2013/2014 Prof. Dr. Uwe Brinkschulte M.Sc. Benjamin Betting Part 13 Memory management, Many-Cores (CMP), and Crossbars Computer Architecture Part 13 page 1 of 28 Prof.
MehrChip Level Multithreading
Chip Level Multithreading AG Neurobiologie Universität Bielefeld 10. Januar 2006 Moores Gesetz The complexity for minimum component costs has increased at a rate of roughly a factor of two per year...
MehrDie Sandy-Bridge Architektur
Fakultät Informatik - Institut für Technische Informatik - Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Die Sandy-Bridge Architektur René Arnold Dresden, 12. Juli 2011 0. Gliederung 1.
MehrIntel P6 (Intel Pentium Pro) - Besonderheiten, Techniken und Architektur
Intel P6 (Intel Pentium Pro) - Besonderheiten, Techniken und Architektur P R O Z E S S O R - U N D R E C H N E R A R C H I T E K T U R P R Ä S E N T A T I O N 1 1. 0 7. 2 0 1 8 B E R N H A R D S A N G
MehrRechnerorganisation. 1. Juni 201 KC Posch
.6.2 Rechnerorganisation. Juni 2 KC Posch .6.2 2 .6.2 Front Side Bus Accelerated Graphics Port 28 MHz Front Side Bus North Bridge RAM idge South Bri IDE USB PCI Bus 3 .6.2 Front Side Bus Front Side Bus
Mehr27. Parallel Programming I
The Free Lunch 27. Parallel Programming I Moore s Law und The Free Lunch, Hardware Architekturen, Parallele Ausführung, Klassifikation nach Flynn, Multi-Threading, Parallelität und Nebenläufigkeit, Skalierbarkeit:
Mehr27. Parallel Programming I
771 27. Parallel Programming I Moore s Law und The Free Lunch, Hardware Architekturen, Parallele Ausführung, Klassifikation nach Flynn, Multi-Threading, Parallelität und Nebenläufigkeit, Skalierbarkeit:
MehrDie Intel Atom Architektur
Fakultät Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Die Intel Atom Architektur Hauptseminar Technische Informatik dennis.walter@mailbox.tu-dresden.de Dresden, 18.06.2008
MehrCISC ( Complex Instruction Set Computer ) mächtige Instruktionssätze zur Unterstützung von Hochsprachenkonstrukten
Hochleistungs-CPUs CISC ( Complex Instruction Set Computer ) mächtige Instruktionssätze zur Unterstützung von Hochsprachenkonstrukten durch Hardware (Idee: don t do in software what you can do in hardware
Mehr27. Parallel Programming I
771 27. Parallel Programming I Moore s Law und The Free Lunch, Hardware Architekturen, Parallele Ausführung, Klassifikation nach Flynn, Multi-Threading, Parallelität und Nebenläufigkeit, Skalierbarkeit:
MehrOutline. Cell Broadband Engine. Application Areas. The Cell
Outline 21.March 2006 Benjamin Keck Why Cell?!? Application Areas Architectural Overview Programming Model Programming on the PPE C/C++ Intrinsics 1 2 The Cell Supercomputer on a chip Multi-Core Microprocessor
MehrBranch Target Address Cache. Fetch Address Generator. Decode Unit. Register Rename. Dispatch Unit. Integer Unit. Integer Unit
Ein mehrfadiger, superskalarer Mikroprozessor Ulrich Sigmund VIONA Development GmbH Karlstr. 27 D-76133 Karlsruhe D-76128 Karlsruhe Telefon: 0721 913440 Telefon: 0721 608{6048 Theo Ungerer Universitat
MehrCell Broadband Engine
Cell Broadband Engine 21.March 2006 Benjamin Keck Outline Why Cell?!? Application Areas Architectural Overview SPU Programming Model Programming on the PPE C/C++ Intrinsics The Cell Supercomputer on a
MehrVorlesung Rechnerarchitektur. Einführung
Vorlesung Rechnerarchitektur Einführung Themen der Vorlesung Die Vorlesung entwickelt an Hand von zwei Beispielen wichtige Prinzipien der Prozessorarchitektur und der Speicherarchitektur: MU0 Arm Speicher
MehrOptimierungen der Lattice Boltzmann Methode auf x86-64 basierten Architekturen
Optimierungen der Lattice Boltzmann Methode auf x86-64 basierten Architekturen J. Treibig, S. Hausmann, U. Ruede 15.09.05 / ASIM 2005 - Erlangen Gliederung 1 Einleitung Motivation Grundlagen 2 Optimierungen
MehrRechnernetze und Organisation
RISC 1 Übersicht Motivation RISC-Merkmale RISC-Instruktionsformat Pipelining Sparc, MIPS, Arm, PowerPC 2 Motivation Warum RISC Compiler nutzen komplexe CISC-Instruktionen kaum Nur 80% der Instruktionen
Mehrfrüher: CISC ( Complex Instruction Set Computer )
Hochleistungs-CPUs früher: CISC ( Complex Instruction Set Computer ) mächtige Instruktionssätze zur Unterstützung von Hochsprachenkonstrukten durch Hardware (Idee: don t do in software what you can do
MehrSTUDIENARBEIT: ZWISCHENPRÄSENTATION
STUDIENARBEIT: ZWISCHENPRÄSENTATION Trace-basierte Verifikation der FPGA-Implementierung eines MIPS-Prozessors Valentin Gehrke Dresden, 12.01.2017 Inhalt 1. Einleitung 2. Thema 3. Literatur 4. Aufgaben
MehrComputergrundlagen Geschichte des Computers
Computergrundlagen Geschichte des Computers Axel Arnold Institut für Computerphysik Universität Stuttgart Wintersemester 2010/11 1641: Rechenmaschine von B. Pascal B. Pascal, 1632-1662 mechanische Rechenmaschine
Mehr27. Parallel Programming I
760 27. Parallel Programming I Moore s Law und The Free Lunch, Hardware Architekturen, Parallele Ausführung, Klassifikation nach Flynn, Multi-Threading, Parallelität und Nebenläufigkeit, Skalierbarkeit:
MehrComputergrundlagen Geschichte des Computers
Computergrundlagen Geschichte des Computers Axel Arnold Institut für Computerphysik Universität Stuttgart Wintersemester 2011/12 1641: Rechenmaschine von B. Pascal B. Pascal, 1623-1662 mechanische Rechenmaschine
MehrArithmetische und Logische Einheit (ALU)
Arithmetische und Logische Einheit (ALU) Enthält Blöcke für logische und arithmetische Operationen. n Bit Worte werden mit n hintereinander geschalteten 1 Bit ALUs bearbeitet. Steuerleitungen bestimmen
MehrWas ist die Performance Ratio?
Was ist die Performance Ratio? Wie eben gezeigt wäre für k Pipeline Stufen und eine große Zahl an ausgeführten Instruktionen die Performance Ratio gleich k, wenn jede Pipeline Stufe dieselbe Zeit beanspruchen
MehrHyper-Threading oder Simultaneous Multithreading
Hyper-Threading oder Simultaneous Multithreading ein Referat von Timo Richter im Fach Rechnerstrukturen bei Prof. Dr. Risse an der Hochschule Bremen 1. EINLEITUNG 2 2. VORBETRACHTUNG 2 2.1 Threads 3 2.2
MehrBeispielvortrag: HPCG auf Intel Haswell-EP
Beispielvortrag: HPCG auf Intel Haswell-EP Johannes Hofmann 1 Seminarvortrag Architekturen von Multi- und Vielkern-Prozessoren Erlangen, 19.4.2016 1 Computer Architecture, University Erlangen-Nuremberg
MehrRechnernetze und Organisation
Pentium 1 Übersicht Motivation Architektur Instruktions-Set Adressierungsarten Geschichte Verbesserung und Erweiterungen 2 Motivation Verständnis von Prozessoren: Warum Pentium statt kleiner CPU? Pentium
MehrWas bringt der Merced?
Was bringt der Merced? Die Prozessorarchitektur IA-64 Bernd Däne TU Ilmenau, Fakultät I/A Tel.: 03677-69-1433 bdaene@theoinf.tu-ilmenau.de Gliederung 1. Merced - Itanium - IA-64 2. Die Vorgeschichte 3.
MehrCilk Sprache für Parallelprogrammierung. IPD Snelting, Lehrstuhl für Programmierparadigmen
Cilk Sprache für Parallelprogrammierung IPD Snelting, Lehrstuhl für Programmierparadigmen David Soria Parra Geschichte Geschichte Entwickelt 1994 am MIT Laboratory for Computer Science Cilk 1: Continuations
Mehr27. Parallel Programming I
The Free Lunch 27. Parallel Programming I Moore s Law und The Free Lunch, Hardware Architekturen, Parallele Ausführung, Klassifikation nach Flynn, Multi-Threading, Parallelität und Nebenläufigkeit, Skalierbarkeit:
MehrTechnische Informatik 1 Übung 8 Instruktionsparallelität (Rechenübung) Andreas Tretter 8./9. Dezember Bitte immer eine Reihe freilassen
Technische Informatik 1 Übung 8 Instruktionsparallelität (Rechenübung) Andreas Tretter 8./9. Dezember 2016 Bitte immer eine Reihe freilassen Ziele der Übung Verschiedene Arten von Instruktionsparallelität
MehrTechnische Informatik 1
Technische Informatik 1 7 Prozesse und Threads Lothar Thiele Computer Engineering and Networks Laboratory Betriebssystem 7 2 7 3 Betriebssystem Anwendung Anwendung Anwendung Systemaufruf (syscall) Betriebssystem
MehrDIGITALE SCHALTUNGEN II
DIGITALE SCHALTUNGEN II 3. Sequentielle Schaltkreise 3.1 Vergleich kombinatorische sequentielle Schaltkreise 3.2 Binäre Speicherelemente 3.2.1 RS Flipflop 3.2.2 Getaktetes RS Flipflop 3.2.3 D Flipflop
MehrData Hazards. Grundlagen der Rechnerarchitektur Prozessor 74
Data Hazards Grundlagen der Rechnerarchitektur Prozessor 74 Motivation Ist die Pipelined Ausführung immer ohne Probleme möglich? Beispiel: sub $2, $1, $3 and $12, $2, $5 or $13, $6, $2 add $14, $2, $2
MehrGrundlagen der Rechnerarchitektur
Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie
MehrName : Klasse : Punkte : Note :
ESI Semesterendprüfung 15.6.2009 Name : Klasse : Punkte : Note : Zeit: 12.50 bis 13.35 Die Aufgaben sind möglichst direkt auf den Blättern zu lösen (Antworten bitte in ganzen Sätzen!), bei Bedarf die Rückseite
MehrC-to-CUDA-Compiler. Johannes Kölsch. October 29, 2012
October 29, 2012 Inhaltsverzeichnis 1 2 3 4 5 6 Motivation Motivation CUDA bietet extreme Leistung für parallelisierbare Programme Kompliziert zu programmieren, da multi-level parallel und explizit verwalteter
MehrHigh Performance Embedded Processors
High Performance Embedded Processors Matthias Schwarz Hardware-Software-Co-Design Universität Erlangen-Nürnberg martin.rustler@e-technik.stud.uni-erlangen.de matthias.schwarz@e-technik.stud.uni-erlangen.de
MehrVerteidigung der Bachelorarbeit, Willi Mentzel
Verteidigung der Bachelorarbeit, Willi Mentzel Motivation U.S. Energy Consumption Breakdown 3x Durchschnittliche Leistungsaufnahme 114 Millionen kw Hohes Optimierungspotential 2 Ziele für Energieoptimierung
MehrCS-Zusammenfassung für Prüfung 2 vom
CS-Zusammenfassung für Prüfung 2 vom 15. 4. 2002 Instruction Level Parallelism (ILP) Von intel und HP entwickelt. Bei einem out of order processor ist der Abschluss von Befehlen in einer Reihenfolge, die
MehrTeil 1: Prozessorstrukturen
Teil 1: Prozessorstrukturen Inhalt: Mikroprogrammierung Assemblerprogrammierung Motorola 6809: ein einfacher 8-Bit Mikroprozessor Mikrocontroller Koprozessoren CISC- und RISC-Prozessoren Intel Pentium
MehrCache Blöcke und Offsets
Cache Blöcke und Offsets Ein Cache Eintrag speichert in der Regel gleich mehrere im Speicher aufeinander folgende Bytes. Grund: räumliche Lokalität wird wie folgt besser ausgenutzt: Bei Cache Miss gleich
MehrPipelining. Die Pipelining Idee. Grundlagen der Rechnerarchitektur Prozessor 45
Pipelining Die Pipelining Idee Grundlagen der Rechnerarchitektur Prozessor 45 Single Cycle Performance Annahme die einzelnen Abschnitte des MIPS Instruktionszyklus benötigen folgende Ausführungszeiten:
MehrSeminar Multicore-Programmierung
Multicore- und GPGPU-Architekturen Fakultät für Informatik und Mathematik Universität Passau 04. November 2010 APUs / 1 / 39 Inhaltsverzeichnis I APUs / APUs / 2 / 39 Inhaltsverzeichnis II APUs / 3 / 39
MehrQuiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset.
Quiz Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset 32 Bit Adresse 31 3 29... 2 1 SS 212 Grundlagen der Rechnerarchitektur
MehrLehrveranstaltung: PR Rechnerorganisation Blatt 8. Thomas Aichholzer
Aufgabe 8.1 Ausnahmen (Exceptions) a. Erklären Sie den Begriff Exception. b. Welche Arten von Exceptions kennen Sie? Wie werden sie ausgelöst und welche Auswirkungen auf den ablaufenden Code ergeben sich
MehrVorlesung "Struktur von Mikrorechnern" (SMR)
Prozessorhistorie: Pentium Der erste Pentium-Prozessor wurde 99 von Intel vorgestellt. Er besitzt: - 64 Bit breites Bus-Interface - zweigeteilter Primär-Cache mit je 8 KB für Code und Daten - Bezeichnung
MehrCompiler für f r Eingebettete Systeme (CfES)
Compiler für f r Eingebettete Systeme (CfES) Sommersemester 2009 Dr. Heiko Falk Technische Universität Dortmund Lehrstuhl Informatik 12 Entwurfsautomatisierung für Eingebettete Systeme Kapitel 9 Ausblick
MehrGrundlagen der Rechnerarchitektur. Prozessor
Grundlagen der Rechnerarchitektur Prozessor Übersicht Datenpfad Control Pipelining Data Hazards Control Hazards Multiple Issue Grundlagen der Rechnerarchitektur Prozessor 2 Datenpfad einer einfachen MIPS
MehrGrundlagen der Rechnerarchitektur. Prozessor
Grundlagen der Rechnerarchitektur Prozessor Übersicht Datenpfad Control Pipelining Data Hazards Control Hazards Multiple Issue Grundlagen der Rechnerarchitektur Prozessor 2 Datenpfad einer einfachen MIPS
MehrHigh-level software transformations
12 Peter Marwedel TU Dortmund Informatik 12 Germany Graphics: Alexandra Nolte, Gesine Marwedel, 2003 High-level software transformations Impact of memory allocation on efficiency Array p[j][k] Row major
MehrTeil Rechnerarchitekturen. Repetitorium. Corinna Schmitt
Teil Rechnerarchitekturen Repetitorium Corinna Schmitt corinna.schmitt@unibas.ch Vorlesungsinhalt Rechnerarchitekturen M01: Architektur, ALU, Flip-Flop M02: Einführung in die Sprache C M03: 2er-Komplement,
MehrCUDA. Axel Jena, Jürgen Pröll. Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg Axel Jena, Jürgen Pröll 1
CUDA Axel Jena, Jürgen Pröll Multi-Core Architectures and Programming Axel Jena, Jürgen Pröll 1 Warum Tesla? Traditionelle Graphikkarten Getrennte Prozessoren für Vertex- / Pixelberechnungen - Nachteil:
MehrSysteme 1: Architektur
slide 1 Vorlesung Systeme 1: Architektur Prof. Dr. Ulrich Ultes-Nitsche Forschungsgruppe Departement für Informatik Universität Freiburg slide 2 Prüfung 18. Februar 2004 8h00-11h40 13h00-18h20 20 Minuten
MehrAuch hier wieder. Control. RegDst Branch MemRead MemtoReg ALUOp MemWrite ALUSrc RegWrite. Instruction[31 26] (also: das Opcode Field der Instruktion)
Auch hier wieder Aus voriger Wahrheitstabelle lässt sich mechanisch eine kombinatorische Schaltung generieren, die wir im Folgenden mit dem Control Symbol abstrakt darstellen. Instruction[31 26] (also:
MehrUltraSPARC T1 (Niagara)
UltraSPARC T1 (Niagara) Vortrag im Rahmen des Seminars Ausgewählte Themen in Hardwareentwurf und Optik HWS 06 Universität Mannheim Jochen Kinzel 1 Inhalt Überblick Core Crossbar Level 2-Cache DRAM-Controller
MehrIntel Xeon Phi. Praktikum Parallele Rechnerarchitekturen May 13,
Intel Xeon Phi Praktikum Parallele Rechnerarchtitekturen Praktikum Parallele Rechnerarchitekturen May 13, 2014 1 Overview Aufbau & Programmierung State-of-the-Art Manycore Chip HPC Tools Performance-Modellierung
MehrDie Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien
Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur, Prof. Spallek Die Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien Tobias Berndt, to.berndt@t-online.de
MehrKapitel 11 RISC-Rechner
Kapitel 11 - RISC-Rechner Seite 219 Kapitel 11 RISC-Rechner (reduced instruction set computer, RISC) 11.1. Einleitung In den Achtzigerjahren änderten sich die Randbedingungen für Rechner: Hardware wurde
MehrARM: Befehlssatz (Forts.)
ARM: Befehlssatz (Forts.) Befehl SWI zum Auslösen eines Software-Interrupts: Instruktionsformat: Ausführung von SWI überführt CPU in den supervisor mode (nach Retten des PC in r14_svc und des CPSR in SPSR_svc)
MehrARM: Befehlssatz (Forts.)
ARM: Befehlssatz (Forts.) Befehl SWI zum Auslösen eines Software-Interrupts: Instruktionsformat: Ausführung von SWI überführt CPU in den supervisor mode (nach Retten des PC in r14_svc und des CPSR in SPSR_svc)
MehrHitzschlag oder kühler Kopf?
Hitzschlag oder kühler Kopf? Perspektiven für die Computer- und Chip-Entwicklung Prof. Dr.-Ing. Andreas Koch Technische Universität Darmstadt Verborgene Computer 2 Ubiquitäre Computer 3 Quelle: www.ubicomp.org,
MehrSimulation einer vielfädigen Prozessorarchitektur
Simulation einer vielfädigen Prozessorarchitektur Winfried Grünewald, Theo Ungerer Institut für Rechnerentwurf und Fehlertoleranz Universität Karlsruhe 76128 Karlsruhe {gruenewald, ungerer}@informatik.uni-karlsruhe.de
MehrCoreSight-Zugang auf dem ZedBoard. Alex Bereza
Alex Bereza Dresden, Gliederung 1. Aufgabenstellung 2. Das 3. CoreSight 4. Trace-Pakete 5. Implementierung des IP-Cores 6. Fazit 7. Quellen Folie Nr. 2 von 26 1. Aufgabenstellung ARM-Prozessor des verfügt
MehrDigitaltechnik und Rechnerstrukturen Lothar Thiele Institut für Technische Informatik und Kommunikationsnetze ETH Zürich 1.
Materialien Digitaltechnik und Rechnerstrukturen Lothar Thiele Institut für Technische Informatik und Kommunikationsnetze ETH Zürich 1. Einleitung 1 Digitaltechnik und Rechnerstrukturen Vorlesungs- und
MehrEmulation und Rapid Prototyping. Hw-Sw-Co-Design
Emulation und Rapid Prototyping Hw-Sw-Co-Design Simulation von komplexen ICs Design level Description language Primitives Simulation time (instructions/cycle) Algorithm HLL Instruction sets 10-100 Architecture
MehrEmulation und Rapid Prototyping
Emulation und Rapid Prototyping Hw-Sw-Co-Design Simulation von komplexen ICs Design level Description language Primitives Simulation time (instructions/cycle) Algorithm HLL Instruction sets 10-100 Architecture
MehrEine kurze Einführung in Rechnerarchitektur und Programmierung von Hochleistungsrechnern als zentrales Werkzeug in der Simulation
Eine kurze Einführung in Rechnerarchitektur und Programmierung von Hochleistungsrechnern als zentrales Werkzeug in der Simulation Dr. Jan Eitzinger Regionales Rechenzentrum (RRZE) der Universität Erlangen-Nürnberg
MehrCache-Kohärenz und -Konsistenz. Betreuer: Prof. Brüning Veton Kajtazi Mat.-Nr.: Universität Heidelberg
Cache-Kohärenz und -Konsistenz Betreuer: Prof. Brüning Veton Kajtazi Mat.-Nr.: 3220501 Universität Heidelberg Inhaltsverzeichnis Wozu Caches? Unterschied Kohärenz und Konsistenz MESI-Protokoll Fazit 2
MehrTeil Rechnerarchitekturen M07. Multiprogramming und Tasking, Flynn-Klassifikation, Parallelismus. Corinna Schmitt
Teil Rechnerarchitekturen M07 Multiprogramming und Tasking, Flynn-Klassifikation, Parallelismus Corinna Schmitt corinna.schmitt@unibas.ch Multiprogrammierung und -Tasking 2015 Corinna Schmitt Teil Rechnerarchitekturen
Mehr2 Rechnerarchitekturen
2 Rechnerarchitekturen Rechnerarchitekturen Flynns Klassifikation Flynnsche Klassifikation (Flynn sche Taxonomie) 1966 entwickelt, einfaches Modell, bis heute genutzt Beschränkung der Beschreibung auf
Mehrtechnische universität dortmund fakultät für informatik informatik 12 Branch Prediction Peter Marwedel Informatik 12 TU Dortmund 2012/05/09
12 Branch Prediction Peter Marwedel Informatik 12 TU Dortmund 2012/05/09 Dynamisches Scheduling: Sprungvorhersage Bisher betrachtet: Techniken, Datenkonflikte (aufgrund von Abhängigkeiten) zu reduzieren
Mehrsoftware visualization NICK MÜLLER, a
software visualization NICK MÜLLER, a1001030 Papers Visualizing Compiled Executables for Malware Analysis. Daniel A. Quist and Lorie M. Liebrock, VizSec 2009. Visualizing Application Behavior on Superscalar
MehrCPU-Technik. Stand der Technik, Trends und Entwicklungen. Vortrag im Informatikseminar WS 2000/2001. (C) 2000 Heiko Panther
CPU-Technik Stand der Technik, Trends und Entwicklungen Vortrag im Informatikseminar WS 2000/2001 (C) 2000 Heiko Panther heikop@mac.com Inhalt 1. CISC und RISC 2. Vektorrecheneinheiten 3. VLIW 4. Weitere
MehrMemory Models Frederik Zipp
Memory Models Frederik Zipp Seminar: Programmiersprachen für Parallele Programmierung (SS 2010) Fakultät für Informatik - IPD SNELTING LEHRSTUHL PROGRAMMIERPARADIGMEN 1
MehrEntwicklung einer FPGA-basierten asymmetrischen MPSoC Architektur
Entwicklung einer FPGA-basierten asymmetrischen Architektur INF-M1 Seminar Vortrag 25. November 2010 Betreuer: Prof. Dr.-Ing. Bernd Schwarz Übersicht 1. Motivation 2. Zielsetzung & Vorarbeiten 3. Arbeitsschwerpunkte
MehrSelbststudium Informationssysteme - H1102 Christian Bontekoe & Felix Rohrer
Übung RA, Kapitel 1.5 1. Beantworten Sie bitte folgende Repetitionsfragen 1. Beschreiben Sie in eigenen Worten und mit einer Skizze die Schichtung einer Multilevel Maschine. Folie 5, rechte Seite 2. Welche
Mehr