1. Die Organisation von RISC-Prozessoren 2

Größe: px

Ab Seite anzeigen:

Download "1. Die Organisation von RISC-Prozessoren 2"

Dorothea Berger
vor 5 Jahren
Abrufe

1 1. Die Organisation von RISC-Prozessoren Superskalarität Parallelverarbeitung Multi Core- und Many Core-CPUs Automatische Parallelisierung im Instruction Window Dynamische Befehlsausführung Die Fetch Unit CPU-interne Parallelität durch die Fetch Unit Der Prefetch Buffer Die Decode Unit Der 1st Level-Befehlscache Der 1st Level-Datencache Die 2nd, 3rd Level Caches Die Load- und Store Buffer Die Kopplung von Speicher- mit Befehls-Pipeline Die Verallgemeinerte Speicherhierarchie Die Reservierungsregister Das Scoreboard der vollen Ausbaustufe Der Aufbau des Scoreboard der vollen Ausbaustufe Die Liste der Befehlszustände Die Liste der ALU-Zustände Die Liste der Zustände der Ergebnisregister Spekulative Befehlsausführung Der Reorder Buffer Zusammenfassung der Aufgaben des Reorder Buffers Präzise Interrupts durch Reorder Buffer Sonderrolle von Load/Store und Sprüngen Aufbau des Reorder Buffers Eager Execution Nachteil von Eager Execution: Register Renaming Registerfenster Häufigkeitsverteilung von Befehlen in C-Programmen Verschachtelungstiefe Zeitliche Analyse der Verschachtelungstiefen Linear angeordnete Register Zirkular angeordnete Register Zirkulare Register mit Unit-Adressengenerator Bewertung von Registerfenstern Beispiel für RISC-Prozessorarchitekturen Einfache, superskalare, Tomasulo-basierte CPU RISC-CPU mit spekulativer Befehlsausführung Gesamtschaltbild RISC-CPU 64 0

2 Speicherverwaltungseinheiten (MMUs) für RISC-CPUs Beispiel des RISC-Prozessors HP Alpha Kombinierte RISC/CISC-Architektur der Intel x-86 CPUs Die Organisation von Parallelrechnern Multi Core-CPU Warum gibt es Multicore-CPUs? Programmierung von Multicore-CPUs Many Core-CPU Multiprozessoren Multicomputer Cluster-Computer Parallelrechner Warum gibt es Parallelrechner? Ziele beim Entwurf eines Parallelrechners Abgrenzung gegenüber verteilten Systemen auf LAN-Basis Was sind die wesentlichen Punkte bei Parallelrechnern? Kategorien bei der Parallelrechnerorganisation Definition Verbindungsnetzwerk Uniform Memory Access Computer (UMA) Bus/Speicherkopplung Sättigungseffekt bei der Bus-Speicher-Kopplung Erhöhung der Bandbreite bei der Bus/Speicherkopplung Konsistenzproblem bei Cache-Kopien Bewertung der Beschleunigungsmaßnahmen bei Bus/Speicher- Kopplung Kosten/Nutzen-Analyse der Beschleunigungsmaßnahmen Non-Uniform Memory Access Computer (NUMA) Beschleunigung durch Lokalspeicher Beschleunigung durch lokale Caches Prozessor/Core-Kopplung über Multiport Memory Beispiel für Multiport Memory-Kopplung Parallelbussysteme D-Busmatrizen (Kreuzschienenverteiler) Hierarchische Bussysteme Skalierbarkeit von Verbindungsnetzwerken Übersicht zur Programmierung von Parallelrechnern Funktionsparallelisierung versus Datenparallelisierung Modelle der Kommunikation Testen paralleler Programme Implementierung der Kommunikationsmodelle Zusammenfassung Parallelrechnerprogrammierung Grundlagen statischer und dynamischer Netze 110 1

3 3.1. Eng gekoppelte Systeme DSM UMA-Architektur DSM NUMA-Architektur Transparenter Zugriff auf entfernten Hauptspeicher SVM NUMA-Architektur COMA-Architektur Programmierung eng gekoppelter Systeme Zugriffssynchronisation für gemeinsame Variable Semaphore Peer-to-Peer-Kommunikation über Semaphore Netzwerkweite Semaphore (=Entfernte Semaphore) Monitore Critical Sections Lose gekoppelte Systeme Botschaftenaustausch Virtuelle Kommunikationskanäle mittels D-Controller Programmierung lose gekoppelter Systeme Synchrone/asynchrone Kommunikation über Botschaften Prozess-Synchronisation durch Botschaften Produzenten und Konsumenten von Daten Peer-to-Peer-Kommunikation über Rendezvous Bewertung von READ/WRITE und von (a)synchronem SEND/ RECEIVE Erweiterte Konstruktionsprinzipien von Netzen Parallelschaltung Hierarchie Rekursion Modularisierung Verbindungstypen bei eng und lose gekoppelten Systemen Datentransport bei eng und lose gekoppelten Systemen Rahmen/Pakete- und Nachrichtenformate Paket-Routing bzw. Rahmen-Switching Transportart/Flusssteuerung Store-and-Forward Routing Virtual-Cut-Through Routing Wormhole Routing Statische Verbindungsnetzwerke Symmetrie bei statischen Netzen Metriken bei statischen Netzen Konstruktion eines n-dimensionalen Überwürfels (Hypercube) Konstruktion eines de Bruijn-Graphen Routing in statischen Netzen Das Deadlock-Problem bei Interprozessor-Kommunikation Verklemmung aufgrund eines belegten Kanals Verklemmung aufgrund zweier belegter Puffer Verklemmung aufgrund vier belegter Puffer 164 2

4 4.6.4 Verklemmung aufgrund vier belegter Kanäle Verklemmung trotz getrennter Sende- und Empfangspuffer Dynamische Verbindungsnetzwerke Permutationsfunktionen Die Perfect Shuffle-Permutation Die Butterfly-Permutation Die Reversal-Permutation Die inverse Perfect Shuffle-Permutation Die Supershuffle-Funktion Die Subshuffle-Funktion Die Super-/Subbutterfly-Funktion Ternäre und quaternäre Shuffle-Permutation Kreuzschalter Kreuzschalter mit Broadcast Kreuzschalter als Kreuzschienenverteiler Die Verbindungsmöglichkeiten des 2x2 Kreuzschienenverteilers Ein fxs-schalter und ein fxs-kreuzschienenverteiler sind identisch Funktion eines 2x2-Kreuzschalters beim Durchgang eines Datenrahmens Die Exchange-Permutation Die Subexchange-Permutation Die klassischen LogN-Netze Das Shuffle-Exchange-Netzwerk Das Omega-Netz Self Routing beim Omega-Netz Kollision zweier Pfade im Omega-Netz Das Flip-Netz Analogie zwischen dem Flip-Netz und dem Signalflussgraph der Pease FFT Analogie zwischen dem Flip-Netz und der Transposition einer Matrix Das Indirect Binary n-cube-netz Funktion eines 16x16 Indirect Binary n-cube-netzes Analogie zwischen dem Indirect Binary n-cube-netz und dem Hypercube Analogie zwischen dem Indirect Binary n-cube-netz und der Cooley-Tukey FFT Das Generalized Cube-Netz Routing im Generalized Cube-Netz Das Baseline-Netz Routing im Baseline-Netz Funktion des Baseline-Netzes (N=16, n=4) Das inverse Baseline-Netz Funktion des inversen Baseline-Netzes Der Butterfly-Banyan Der inverse Butterfly-Banyan Definitionsgleichungen der logn-netze 206 3

5 Routing in logn-netzen Äquivalenz der logn-netze Umwandlung eines Flip-Netzes in ein Omega-Netz Umwandlung eines Omega-Netzes in ein Butterfly-Banyan Allgemeine Banyans Regelmäßige Banyans Einziger Banyan der Größe n=1 und f=s= Verallgemeinerung zum (f,s,1)-banyan ist ein fxs-kreuzschienenverteiler Klassifikation der Banyans Regelmäßige und rechteckige Banyans Die SW-Banyans Der (2,2,3)-SW-Banyan Der (2,2,3)-SW-Banyan in der Aktivknoteninterpretation Funktionsweise des (2,2,3)-SW-Banyans in der Aktivknoteninterpretation Der (2,2,3) Banyan in der Passivknoteninterpretation Konstruktion des (2,2,3) Banyans in der Passivknoteninterpretation Funktionsweise des Netzes N neu Topologierhaltende Umwandlung des Netzes N neu Anwendungen von SW-Banyans Parallelrechner mit 64-Prozessoren in Fat Tree-Topologie Topologie des (4,2,2)-Banyans mit N 1 =32 und N 2 =16 und N 3 = Systematische Konstruktion von Banyans Sequenz der ersten drei SW-Banyans (2,2,1), (2,2,2) und (2,2,3) Additive Konstruktion eines (2,2,2)- SW-Banyans aus 4 Binärbäumen Rekursive Konstruktion eines (2,2,2)-SW-Banyans aus (2,2,1)- SW-Banyans Routing in einem regelmäßigen und rechteckigen Banyan Routing im (2,2,n)-SW-Banyan Die CC-Banyans Routing im (2,2,n)-Cylindrical Cross Hatched-Banyan Das Clos-Netz Das Benes-Netz Das doppelte Baseline-Netz nach Wu und Feng Das Lee-Netz 252 4

Ähnliche Dokumente

RO II Übungen ohne Lösungen V20

H. Richter 05.04.2017 RO II Übungen ohne Lösungen V20 Übung 1: Gesamtpunktzahl [76] (76P) 1 Aufgabe: Superskalarität [22] 1.) Worin besteht der Unterschied zwischen einem skalaren Prozessor und einem superskalaren