Vertiefungsrichtung Rechnerarchitektur

srichtung () ( für ) Prof. Dietmar Fey 1

Ziele der srichtung RA Vertiefen des Verständnis vom Aufbau, Funktionsweise von Rechnern und Prozessoren () Modellierung und Entwurf von Rechnern und Prozessoren Leistungsbewertung Erlernen der Prinzipien des parallelen Rechnens in groß-skalierten Umgebungen Cluster-Rechner, heterogene Cluster (CPU / GPU-Cluster), Grids / Clouds In klein-skalierten Umgebungen Multikern-Prozessoren, Eingebetteten Systemen 2

Vorlesungsübersicht () 3

Wahlpflicht-Modul 2+2+2 SWS, 5 bzw. 7,5 ECTS, jeweils WS Basis für jeweiligen Themengebiete in RA () 4 Inhalte Fortgeschrittene Techniken in heutigen Prozessoren Cache-Architekturen Dynamische Sprungvorhersage Pipelineverarbeitung Modellierung von (Multicore)-Prozessoren Realisierung in heutigen Prozessoren (Intel, AMD, Nvidia GPU) Klassische Parallelrechner Eingebettete Prozessoren und Signalprozessoren Das Innere eines Prozessors im Detail vom v.neumann- Rechner bis zur Corei7-Architektur

Modul () Verstehen der Funktion eines modernen Prozessors CISC-/RISC-/Superskalare Prozessorarchitekturen Wie funktioniert dynamische Sprungvorhersage? Wie funktioniert ein Cache bzw. Hierarchie von Caches? Warum gibt es Multikern-Prozessoren? Wie ist eine GPGPU aufgebaut? Wie arbeiten Parallelrechner? Leistungsanalyse von Multikern-Prozessoren, Parallelrechner Erproben der Theorie in Rechnerübung Cache-Simulatoren Ausnutzen von Cache-Effekten in eigenen Programmen Simulatoren dynamische Sprungvorhersage Hardware-nahe Multicore-Programmierung OpenMP, CUDA, MPI 5

Modul Algorithmen für Sensorfusion Optischer Fluss Fußgänger-Detektion () 6

Module zum Bereich () Anwendungsspezifische Prozessoren für Eingebettete Systeme FPGA-, ASIC-Design, Intelligente Sensorik, Hardwarenahe Programmierung 7

Modul CPU-Entwurf mit VHDL CPU-Entwurf mit VHDL 2+2+2 SWS, 5 / 7.5 ECTS, jeweils im SS Inhalte Hardware-Entwurf in VHDL Hardware-Design-Flow (Synthese für FPGA) () 8

Modul CPU-Entwurf mit VHDL Simulation Synthesefähige VHDL-Beschreibungen Grundschaltungen in VHDL (für ASIC und FPGA) Einführung in Verifikations-Techniken Übungen Entwurf einer einfachen GPU-Rendereinheit / MIPS-Prozessor Arbeiten mit Standard-Entwurfswerkzeugen () 9

Modul CPU-Entwurf mit VHDL () CPU-Entwurf mit VHDL 2+2+2 SWS, 5 bzw. 7.5 ECTS, jeweils SS Inhalte Konkrete Umsetzung der Prozessor-Mechanismen aus RA Entwicklung einer Single-Core / Multi-Core - CPU mit Pipelines / Caches Übung Entwurf mit VHDL Simulation und Test Prototyp in FPGA 10

Einführung digitaler ASIC-Entwurf Einführung digitaler ASIC-Entwurf 2+2+2 SWS, 5 bzw. 7,5 ECTS, jeweils WS () Von der Architektur -Idee zum eigenen Chip Entwurf einer einfachen Multicore-CPU Digitalentwurf aus VHDL-Beschreibung Aufbau FPGA-Prototyp Einsatz von gängigen Designwerkzeugen CADENCE, Synopsys 11

Modul FPGA-Online () FPGA-Online 4+2 SWS, 5 ECTS, jeweils SS und WS E-Learning-Kurs der Virtuellen Hochschule Bayern (VHB) Zugriff auf Remote-Labor vom heimischen PC Inhalt Einführung in die FPGA-Technologie Einführung in den Hardware-Designflow Schaltungs-Spezifikation mit FSMs Kommunikation mit externen Komponenten Rechenschaltungen 12

Module zum Bereich () Groß-skaliertes paralleles Rechnen, Standardprozessoren Cluster, Multi-Cluster, Grids / Clouds und Multikern-Prozessoren, GPGPUs 13

Cluster- und Grid Computing () 14 Modul: Programmierung und Architekturen von Cluster-Rechnern (PACL) 4+2 SWS, 7,5 ECTS, jeweils SS Inhalte Cluster-/Grid-/Cloud- Computing-Architekturen Beispiele für Hochleistungsrechnen mit Clustern und Grids Netzwerke in Cluster-Rechnern Programmierung von Cluster- Rechnern unter MPI Middleware für Cluster-Rechner und Grid-Computing Leistungsmaße für paralleles Rechnen Übung Praktische Erprobung am Cluster-Rechner heterogener einfacher Multi-Cluster Verwendbar auch für Programmiersysteme

Parallerechnerarchitekturen () Modul: Architectures of Supercomputers 2+2 SWS, 5 ECTS, jeweils WS Inhalte Vermittlung fortgeschrittener Prinzipien in der Architektur von Prozessoren (µcore-cpus, GPGPU) fortgeschrittene Sprungvorhersage-Techniken Cache-Architekturen Superrechner-Architekturen Übung Hardwarenahe Programmierung von Multikern-Prozessoren Anwendungen rechenintensive Anwendungen aus CS und CE 15

Supercomputing-Praktikum Supercompting-Praktikum 8 SWS, 10 ECTS, jeweils SS Inhalte Hochleistungs-Cluster-Computer planen und zusammenbauen Applikationen installieren, ausmessen & optimieren Administration, Monitoring, Debugging Verstehen der Funktionsweise einer HPC-Architektur () Teilnahme an Student Cluster Competition auf der Supercomputing (SC) oder Int. SC (ISC) 16

Supercomputing-Praktikum Simply the best / ISC Frankfurt, Juni 2017 () 17

Smart Camera Praktikum Intelligente Kameras für autonomes Fahren Ziel des Praktikums Fahrbahnlinienerkennung und Spurhalteassistent für ein RC-Car auf einer heterogenen 18

Smart Camera Praktikum Lehrinhalte Algorithmen zur Fahrbahnlinienerkennung Einstieg in VHDL Grundlagen moderner Bildsensoren Entwicklung von Beschleunigerkernen für Algorithmen zur Bildvorverabeitung Integration des Kamerasystems auf einem RC-Car 19

SDI-Labor Intelligente Leistungselektronik BALL-TRACKING ALGORITHMUS Vernetzte Eingebettete Systeme STRA Opening Closing Autonomes RC-Car PERFORMANCE Autonomer Multicopter 2016 International Conference on Reconfigurable Computing and FPGAs - Steffen Vaas 20

Bachelor-Seminar: Prozessor- Architekturen Bachelor-Seminar: Architektur von Multikern- und Vielkern-Prozessoren 2 SWS, 5 ECTS, jeweils SS () Vorträge: Vorstellen von neuen Architekturen Praktische Erprobung: Berechnen von Anamorphosen auf verschiedenen Multikern-Architekturen 21

Unkonventionelles Rechnen () Seminar: Unkonventionelles Rechnen 2 SWS, 5 ECTS, jeweils WS Inhalte DNA-Computing Quantencomputing Spintronik Memristoren In-memory computing Reversible Logik Nanocomputing Dark Silicon Ternäres Rechnen http://qt.tn.tudelft.nl/research/ nanowires/set.php 22

Beispiel: Übertragsfreie Addition Addieren in zwei Schritten zur Basis r = 2 mit ternären Ziffern x i, y i {-1, 0, +1} Operands 2 4 2 3 2 2 2 1 2 0 x 0 1 1 1 = (+7) 10 + y 0 0 0 1 = (+1) 10 Step 1 0-1 -1 0 = z 0 1 1 1 0 = t Step 2 0 1 0 0 0 = s Embedded Tutorial: Memristive devices for computing: Beyond CMOS and Beyond von Neumann,, VLSI-SoC 2017, Abu Dahbi 23

Abschließendes Alle Module auch im Master verwendbar Module nicht abhängig voneinander () 26