Implementierung einer adaptiven Speicherarchitektur für einen heterogenen SHAP-Mehrkernprozessor mit Hardwarebeschleuniger
|
|
- Teresa Sommer
- vor 6 Jahren
- Abrufe
Transkript
1 Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Statusvortrag Diplomarbeit Implementierung einer adaptiven Speicherarchitektur für einen heterogenen SHAP-Mehrkernprozessor mit Marco Zulkowski Dresden,
2 Gliederung 1. Motivation 2. HMP-Systeme und deren Bussysteme 3. Heterogener SHAP-Mehrkernprozessor (Konzept) 4. Zusammenfassung TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 2 von 26
3 1. Motivation Amdahl's Law (1967) Beschreibung eines Geschwindigkeitszuwachses (speedup) bei Ausführung eines Programms mit n Prozessoren mit parallelisierbarem Zeitanteil f des Programms Speedup parallel ( f, n) = 1 (1 f )+ f n Damalige Schlussfolgerung: Typische Werte für (1-f) sind groß genug um Einzelprozessoren zu favorisieren TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 3 von 26
4 1. Motivation Everyone knows Amdahl's Law, but quickly forgets it. -Dr. Thomas Puzak, IBM, 2007 Sequenzielle Programmteile stellen nach wie vor Flaschenhals dar Beschleunigen der sequenziellen Verarbeitungsleistung bei Multi-Core Prozessoren TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 4 von 26
5 1. Motivation Mehrkern-Varianten Kern Kern Kern Beschleuniger Kern Kern Kern Kern Kern Kern SMP AMP HMP Symmetrischer Mehrkernprozessor Asymmetrischer Mehrkernprozessor Heterogener Mehrkernprozessor [1] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 5 von 26
6 2. HMP-Systeme und deren Bussysteme Beispiele heterogener Mehrkernprozessoren & -prozessorsysteme Highperformance Computing / Desktopsysteme CPU + dedizierte Grafikkarte General Purpose Computation on GPU (GPGPU) z.b. mittels OpenCL, Cuda AMD APU (Accelerated Processing Unit) bis zu 4 Prozessorkerne und 384 Shadereinheiten NVIDIA Volta (geplant für ende 2015) ARM-Kern in GPU integriert Cell-Prozessor TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 6 von 26
7 2. HMP-Systeme und deren Bussysteme Beispiele heterogener Mehrkernprozessoren & -prozessorsysteme Samsung Exynos 4 64 Bit Multilayer AMBA AHB und AXI (z.b. Samsung Galaxy S2) [3] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 7 von 26
8 2. HMP-Systeme und deren Bussysteme Beispiele heterogener Mehrkernprozessoren & -prozessorsysteme Snapdragon S4 64 Bit AMBA AXI (z.b. HTC One) [4] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 8 von 26
9 2. HMP-Systeme und deren Bussysteme Beispiele heterogener Mehrkernprozessoren & -prozessorsysteme TI OMAP 4470 Network-On-Chip (Arteris) (z.b. Kindle Fire HD) [6] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 9 von 26
10 2. HMP-Systeme und deren Bussysteme Zusammenfassung Bussysteme Exynos 4 Snapdragon S4 OMAP 4470 Topologie Shared-Bus und Crossbar (Multi-Layer) Crossbar Network-on-Chip Bus-Protokoll AMBA AHB + AXI AMBA AXI Properitär Datenbreite Arbitrierung Keine Angaben Für jedes Slave- Interface extra Für jedes Slave- Interface extra Arbitrierungsalgorithmus Keine Angaben Keine Angaben Statische Prioritäten, AgedPriority, RoundRobin,... Kontroll- / Datenpfade getrennt getrennt getrennt TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 10 von 26
11 Heterogener SHAP-Mehrkernprozessor Altes System SHAP-Mehrkernprozessor GC-Bus konfigurierbar Kern n-1 Stacks Objekt - Cache Methoden - Cache Wishbone Bus Kern 1 Stacks Kern 0 Stacks Daten Code 8 Objekt - Cache Methoden - Cache Objekt - Cache Methoden - Cache Speichermanager Garbage Collector 32 Speichercontroller 32 GC-Bus DDR: 16 SDR : 32 Grafikeinheit Ethernet MAC UART / USB 32 DMA Heap und Bytecode SRAM oder DDR-SDRAM [5] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 11 von 26
12 Heterogener SHAP-Mehrkernprozessor Neues System SHAP-Mehrkernprozessor konfigurierbar GC-Bus Wishbone Bus Kern n-1 Stacks Kern 1 Stacks Kern 0 Stacks Daten Code 8 Objekt - Cache Methoden - Cache Objekt - Cache Methoden - Cache Objekt - Cache Methoden - Cache Garbage Collector DMA 128 Shared-Bus Arbiter Speichermanager 1 (Master) DMA 2 (Master) DMA n (Master) DMA 32 GC-Bus 128 Grafikeinheit Ethernet MAC UART / USB 32 DMA Universelle Speicherschnittstelle (DDR2-SDRAM) (Slave) 64 DDR2 Speicher SATA-Controller 32 SSD TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 12 von 26
13 3. Heterogener SHAP-Mehrkernprozessor Architekturkonzept: Kontrollfluss über vorhandenen Wishbone-Bus Ersatz des integrierten Speichercontrollers Einführung von Shared-Bus Shared-Bus: Anbindung des Speichermanagers Anbindung aller Anbindung von DDR2-Controller Arbitrierung des Buszugriffes TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 13 von 26
14 3. Heterogener SHAP-Mehrkernprozessor Schnittstelle Wiederverwendung der universellen Speicherschnittstelle aus Belegarbeit [15] Burstorientierte-Zugriffe (Speichercontroller) Adressierung durch Startadresse und Blockanzahl Zuordnung von Request zu Master (Tag) Allgemein: Vereinfachte Konfiguration Einfaches Protokoll TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 14 von 26
15 3. Heterogener SHAP-Mehrkernprozessor Schnittstelle Topologie AMBA AXI 4 AMBA AHB 3 Wishbone B4 Punkt-zu- Punkt, Crossbar Shared-Bus Shared-Bus, Punkt-zu-Punkt, Crossbar Universelle Speicherschnittstelle Shared-Bus Datenbreite (Bit) , 16, 32, 64 beliebig Adressierung Bis 64 Bit 32 Bit Bis 64 Bit beliebig Datenmaskierung Byte Nein Byte Nein Tags Ja Nein Ja Ja Komplexität Sehr hoch hoch hoch mittel [11, 12, 13, 15] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 15 von 26
16 3. Heterogener SHAP-Mehrkernprozessor Arbitrierung Klassisch: Feste Prioritäten Zeitmultiplex (TDMA) Round Robin Lottery Scheduling Credit-Based Scheduling TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 16 von 26
17 3. Heterogener SHAP-Mehrkernprozessor Lottery Scheduling Motivation Testresultate zeigen: Niedrige Latenzen für hoch-priorisierte Master Bei gleichzeitiger Bandbreitengarantie für andere Master Aber keine harte Echtzeit Stochastisch fair Erwartete Zuweisung ist proportional zu Losverhältnissen Keine Starvation Jeder Master mit Los gewinnt früher oder später TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 17 von 26
18 3. Heterogener SHAP-Mehrkernprozessor Lottery Scheduling Motivation 4-Port ATM-Switch: Port 1 Port 3 mit Bandbreitenverhältnis (1:1:4) Port 4 mit niedriger Latenz Algorithmus Port 4 Latenz (Takte/ Wort) Port 4 Bandbreite (%) Port 3 Bandbreite (%) Port 2 Bandbreite (%) Port 1 Bandbreite (%) Static priority 1,39 9,69 45,72 44,58 0,01 TDMA 9,84 10,09 47,29 21,31 21,31 Lottery 1,4 9,67 59,03 17,00 14,30 [8] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 18 von 26
19 3. Heterogener SHAP-Mehrkernprozessor Lottery Scheduling [2, 7, 8] 1994 am MIT entwickelt (Prozess- / Threadscheduling) Zufallsbasierter Arbitrierungsalgorithmus 2001 implementierung des LOTTERYBUS für SoC-Busse Diverse Weiterentwicklungen TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 19 von 26
20 3. Heterogener SHAP-Mehrkernprozessor Lottery Scheduling - Prinzip 1. Master bekommen Lose (Tickets) zugeordnet 2. Jeder Master mit Request-Wunsch gibt seine Lose in einen Lostopf 3. Arbiter zieht per Zufall ein Los aus dem Lostopf 4. Master dem das gezogene Los gehört bekommt Buszugriff Master1 (4 Lose) Interface Master2 (2 Lose) Interface Master3 (1 Los) Interface Arbiter Shared Bus Interface Shared Memory [8] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 20 von 26
21 3. Heterogener SHAP-Mehrkernprozessor Lottery Scheduling - Prinzip Master1 (4 Lose) R = 1 0 : M1 1 : M1 2 : M1 Rand(0,6) = 4 Master2 (2 Lose) R=1 Lostopf 3 : M1 Master3 (1 Los) R=1 4 : M2 5 : M2 6 : M3 [8] R...Request TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 21 von 26
22 Heterogener SHAP-Mehrkernprozessor Beispielsystem: Farbraumkonvertierung von YCbCr nach RGB mittels SHAP-Mehrkernprozessor konfigurierbar GC-Bus Kern n-1 Stacks Objekt - Cache Methoden - Cache DMA 128 Arbiter 128 Farbraumkonverter (Master) DMA Wishbone Bus Kern 1 Stacks Kern 0 Stacks Daten Code 8 Objekt - Cache Methoden - Cache Objekt - Cache Methoden - Cache Speichermanager Garbage Collector Shared-Bus VGA/DVI Ausgabemodul (Master) DMA DMA SATA (Master) 32 GC-Bus 128 SSD Grafikeinheit Ethernet MAC UART / USB 32 DMA Universelle Speicherschnittstelle (DDR2-SDRAM) (Slave) 64 DDR2 Speicher TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 22 von 26
23 3. Heterogener SHAP-Mehrkernprozessor Beispielsystem: Farbraumkonvertierung von YCbCr nach RGB mittels Bandbreitenbedarf: FullHD ~ 1GiB/s SHAP Speichermanager 320 MiB/s Farbraumkonverter 300 MiB/s SATA- Controller 120 MiB/s VGA/DVI Ausgabemodul 180 MiB/s 3200 MiB/s DDR2- Speichercontroller 3000 MiB/s TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 23 von 26
24 4. Zusammenfassung Kurzer Überblick zu heterogenen Mehrkernprozessorsystemen Vorstellung des Konzepts Vergleich neues und altes System Arbitrierung (Lotterybus) Beispielsystem TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 24 von 26
25 Ausgewählte Quellen [1] V. Gupta, R. Nathuji and K. Schwan. An Analysis of Power Reduction in Datacenter using Heterogeneous Chip Multiprocessors [2] M. D. Hill and Michael R. Marty. Amdahl's Law in the Multicore Era [3] [4] [5] M. Zabel. Effiziente Mehrkernarchitektur für eingebettete Java-Bytecode-Prozessoren. Dissertation TU Dresden [6] [7] K. Lahiri, A. Raghunathan and G. Lakshminarayana. LOTTERYBUS: A New High-Performance Communication Architecture for System-On-Chip Designs [8] K. Lahiri, A. Raghunathan and G. Lakshminarayana. The LOTTERYBUS On-Chip-Communication Architecture [9] C. A. Waldspurger and W. E. Weihl. Lottery Scheduling: Flexible Proportional-Share Resource Management [10] html :28 [11] Wishbone B4 [12] AMBA AXI Protocol Version 2.0 Specification & AMBA Specification Revision 2.0 [13] On-Chip Communication Architectures: System on Chip Interconnect von Sudeep Pasricha,Nikil Dutt [14] Devices.pdf [15] M. Zulkowski. Universelle Speicherschnittstelle für große externe Speicher. Großer Beleg TU Dresden [16] Clive Max Maxfield. FPGAs: World Class Designs. Newnes, ISBN [17] IBM. Cell Broadband Engine Architecture. Version Oktober 2007 TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 25 von 26
26 Vielen Dank für ihre Aufmerksamkeit! TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 26 von 26
27 Messwerte DDR2-Controller Messung mit Blockgröße von 128Byte TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 27 von 26
28 4-Port ATM-Switch TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 28 von 26 [8]
29 Grant-Wahrscheinlichkeit p(t i,t, k)= t i T k 1( 1 t i T n=0 )n TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 29 von 26 [8]
30 TDMA vs. Lottery [8] TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 30 von 26
31 Allgemein: Slave Master DMA Beispielimplementierung: WB Adapter Slave Universelle Speicherschnittstelle Master DMA TU Dresden, Implementierung einer adaptiven Speicherarchitektur Folie 31 von 26
Implementierung einer adaptiven Speicherarchitektur für einen heterogenen SHAP-Mehrkernprozessor mit Hardwarebeschleuniger
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Diplomverteidigung Implementierung einer adaptiven Speicherarchitektur für einen heterogenen
Universelle Speicherschnittstelle für große externe Speicher
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Universelle Speicherschnittstelle für große Marco Zulkowski Marco.Zulkowski@mailbox.tu-dresden.de
Multi-Port-Speichermanager für die Java-Plattform SHAP
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Multi-Port-Speichermanager für die Java-Plattform SHAP DASS 2008 Martin Zabel, Peter
Universelle Speicherschnittstelle für große externe Speicher
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Belegverteidigung Universelle Speicherschnittstelle für große Marco Zulkowski Marco.Zulkowski@mailbox.tu-dresden.de
Java-Bytecode-Prozessor SHAP
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Java-Bytecode-Prozessor SHAP Hauptseminar Martin Zabel (martin.zabel@tu-dresden.de)
Parametrisierbare Busschnittstelle für IP-Cores
Fakultät Informatik, Institut für Technische Informatik, Professur VLSI-Entwurfssysteme, Diagnostik und Architektur Parametrisierbare Busschnittstelle für IP-Cores Belegverteidigung Dresden, 30.11.2010
Multicore Architektur vs. Amdahl`s Gesetz
Fakultätsname Informatik, Professur Technische Informatik Multicore Architektur vs. Amdahl`s Gesetz Dresden, 21.Juli.2010 Motivation Veröffentlichung von IEEE Computer 2008 von Mark D. Hill (University
Studie zum Einsatz eines Network-on-a-Chip für eine Many-Core- Java-Bytecode-Architektur
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Belegverteidigung Studie zum Einsatz eines Network-on-a-Chip für eine Many-Core- Java-
Prozessor- und Rechnerarchitekturen (Master)
Prozessor- und Rechnerarchitekturen (Master) Themen am 28.06.17: Semesterrückblick, Terminplanung Ihrer Vorträge ProRecArc17_V10 Ulrich Schaarschmidt HS Düsseldorf, SS 2017 V1 (5.4.): Termine + mögliche
Realisierung eines Speichermanagements zur Zugriffsvirtualisierung von konkurrierenden Nutzerdesigns auf Rekonfigurierbarer Hardware
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Realisierung eines Speichermanagements zur Zugriffsvirtualisierung von konkurrierenden
Multicore-Architekturen
Universität Erlangen- Nürnberg Technische Universität München Universität Stuttgart Multicore-Architekturen Vortrag im Rahmen der Ferienakademie 2009 Kurs 1: Programmierkonzepte für Multi-Core Rechner
Cell and Larrabee Microarchitecture
Cell and Larrabee Microarchitecture Benjamin Grund Dominik Wolfert Universität Erlangen-Nürnberg 1 Übersicht Einleitung Herkömmliche Prozessorarchitekturen Motivation für Entwicklung neuer Architekturen
ASIC-SYNTHESE DER SHAP-MIKROARCHITEKTUR
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur ASIC-SYNTHESE DER SHAP-MIKROARCHITEKTUR Vortrag zum großen Beleg Andrej Olunczek Andrej.Olunczek@mailbox.tu-dresden.de
Busse. Dr.-Ing. Volkmar Sieh WS 2005/2006. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg
Einleitung Bus-Konfiguration Bus-Arbitrierung Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2005/2006 Einleitung Bus-Konfiguration Bus-Arbitrierung
Busse. Dr.-Ing. Volkmar Sieh. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2008/2009
Busse Dr.-Ing. Volkmar Sieh Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2008/2009 Busse 1/40 2008-10-13 Übersicht 1 Einleitung 2 Bus-Konfiguration
Fakultät Informatik Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur. Diplomverteidigung
Fakultät Informatik Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Diplomverteidigung Entwurf und Implementierung eines zuverlässigen verbindungsorientierten Transportprotokolls für die
Partitionierung von rechenintensiven Aufgaben zwischen FPGA und CPUs
Partitionierung von rechenintensiven Aufgaben zwischen FPGA und CPUs Embedded Computing Conference 2017 Tobias Welti, Dr. M. Rosenthal High Performance Embedded Platforms ZHAW Institute of Embedded Systems
Großer Beleg. Björn Gottschall Dresden,
Implementierung eines Linux-Gerätetreibers zur dynamischen Allokation von isolierten Kommunikationskanälen zu partiell konfigurierten FPGA-Kernen in einem Zynq-System Großer Beleg Björn Gottschall Dresden,
Architekturen, Werkzeuge und Laufzeitumgebungen für eingebettete Systeme
Farbverlauf Architekturen, Werkzeuge und Laufzeitumgebungen für eingebettete Systeme Embedded Systems Christian Hochberger Professur Mikrorechner Fakultät Informatik Technische Universität Dresden Nötiges
Device Treiber für FlexPath- Netzwerkprozessoren
Device Treiber für FlexPath- Netzwerkprozessoren Michael Meitinger Rainer Ohlendorf Dr. Thomas Wild Prof. Dr. Andreas Herkersdorf 1 Übersicht Übersicht FlexPath Einsatz von Device Treibern in der FlexPath
Fachgebietsvorstellung g 2010
Fakultät Informatik, Institut für Technische Informatik, Professur VLSI-Entwurfssysteme, Diagnostik und Architektur Fachgebietsvorstellung g 2010 Professur VLSI-EDA Rainer G. Spallek TU Dresden, 28.07.2010
Implementierung eines Dateisystems für Java-basierte eingebettete Systeme
Fakultät Informatik, Institut für Technische Informatik, Professur VLSI-Entwurfssysteme, Diagnostik und Architektur Implementierung eines Dateisystems (Zwischenstand Bachelorarbeit) Dresden, 2012 Gliederung
Virtueller Speicher und Memory Management
Virtueller Speicher und Memory Management Speicher-Paradigmen Programmierer ein großer Adressraum linear adressierbar Betriebssystem eine Menge laufender Tasks / Prozesse read-only Instruktionen read-write
Samsungs Exynos 5 Dual
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Samsungs Exynos 5 Dual Candy Lohse Dresden, 12.12.12 Gliederung 1. Motivation und
2 Rechnerarchitekturen
2 Rechnerarchitekturen Rechnerarchitekturen Flynns Klassifikation Flynnsche Klassifikation (Flynn sche Taxonomie) 1966 entwickelt, einfaches Modell, bis heute genutzt Beschränkung der Beschreibung auf
Cswitch Seminar. HWS 08 Von Andreas Peters. Cswitch Seminar, Andreas Peters
Cswitch Seminar Von Andreas Peters 1 Gliederung Einführung Daten / Anwendungsgebiete Aufbau: Kommunikationsstruktur Vier Tiles Sonstige Features Kleine Zusammenfassung 2 Einführung Was ist Cswitch? 3 Exceeding
DIPLOMARBEIT. Entwurf und Implementierung eines modularen USB-Stacks für eingebettete Controller ohne Betriebssystem. Uwe Pfeiffer
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur DIPLOMARBEIT Entwurf und Implementierung eines modularen USB-Stacks für eingebettete
Simulative Verifikation und Evaluation des Speichermanagements einer Multi-Core-Prozessorarchitektur am Beispiel von SHAP
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Simulative des Speichermanagements einer Multi-Core-Prozessorarchitektur am Beispiel
Energieeffizienz und Performance von Networks-on-Chip
Fakultät Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Energieeffizienz und Performance von Networks-on-Chip Marco Zulkowski Marco.Zulkowski@mailbox.tu-dresden.de Dresden,
RST-Labor WS06/07 GPGPU. General Purpose Computation On Graphics Processing Units. (Grafikkarten-Programmierung) Von: Marc Blunck
RST-Labor WS06/07 GPGPU General Purpose Computation On Graphics Processing Units (Grafikkarten-Programmierung) Von: Marc Blunck Ablauf Einführung GPGPU Die GPU GPU Architektur Die Programmierung Programme
Implementierung eines universellen IPv6 Protokollstapels
Fakultät Informatik, Inst. für Technische Informatik, Prof. für VLSI-Entwurfssysteme, Diagnostik und Architektur Implementierung eines universellen IPv6 Protokollstapels Kolloquium zum Masterpraktikum
Motivation (GP)GPU CUDA Zusammenfassung. CUDA und Python. Christian Wilms. Integriertes Seminar Projekt Bildverarbeitung
CUDA und Python Christian Wilms Integriertes Seminar Projekt Bildverarbeitung Universität Hamburg WiSe 2013/14 12. Dezember 2013 Christian CUDA und Python 1 Gliederung 1 Motivation 2 (GP)GPU 3 CUDA 4 Zusammenfassung
Grafikkarten-Architektur
> Grafikkarten-Architektur Parallele Strukturen in der GPU Name: Sebastian Albers E-Mail: s.albers@wwu.de 2 > Inhalt > CPU und GPU im Vergleich > Rendering-Pipeline > Shader > GPGPU > Nvidia Tesla-Architektur
Übersicht aktueller heterogener FPGA-SOCs
Fakultät Informatik, Institut für Technische Informatik, Professur VLSI-Entwurfssysteme, Diagnostik und Architektur Übersicht aktueller heterogener FPGA-SOCs Vortrag zum Lehrstuhlseminar Tilo Zschau tilo.zschau@mailbox.tu-dresden.de
Mehrprozessorarchitekturen
Mehrprozessorarchitekturen (SMP, UMA/NUMA, Cluster) Arian Bär 12.07.2004 12.07.2004 Arian Bär 1 Gliederung 1. Einleitung 2. Symmetrische Multiprozessoren (SMP) Allgemeines Architektur 3. Speicherarchitekturen
Entwicklung einer FPGA-basierten asymmetrischen MPSoC Architektur
Entwicklung einer FPGA-basierten asymmetrischen Architektur INF-M1 Seminar Vortrag 25. November 2010 Betreuer: Prof. Dr.-Ing. Bernd Schwarz Übersicht 1. Motivation 2. Zielsetzung & Vorarbeiten 3. Arbeitsschwerpunkte
Die Sandy-Bridge Architektur
Fakultät Informatik - Institut für Technische Informatik - Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Die Sandy-Bridge Architektur René Arnold Dresden, 12. Juli 2011 0. Gliederung 1.
Realisierung eines Speichermanagements zur Zugriffsvirtualisierung von konkurrierenden Nutzerdesigns auf rekonfigurierbarer Hardware
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Realisierung eines Speichermanagements zur Zugriffsvirtualisierung von konkurrierenden
Untersuchungen zur effizienten Implementierung eines mathematischen Algorithmus in einem FPGA am Beispiel eines Sudoku-Lösers
Fakultät Informatik - Institut für Technische Informatik - Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Vortrag zum Diplom Untersuchungen zur effizienten Implementierung eines mathematischen
3D-Punktkorrelation auf Basis von 2D-Bildern auf einer FPGA-Plattform
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI Entwurfssysteme, Diagnostik und Architektur 3D-Punktkorrelation auf Basis von 2D-Bildern auf einer FPGA-Plattform Zwischenvortrag
ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS. Sascha Kath
ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS Sascha Kath Dresden, Gliederung 1. Motivation & Zielstellung 2. Systembeschreibung 3. Implementierung und Messungen
3D-Punktkorrelation auf Basis von 2D-Bildern auf einer FPGA-Plattform
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI Entwurfssysteme, Diagnostik und Architektur 3D-Punktkorrelation auf Basis von 2D-Bildern auf einer FPGA-Plattform Verteidigung
Der Aufbau der Fusion-APU von AMD
Fakultät Informatik Institut für Technische Informatik, Lehrstuhl für VLSI-Entwurf, Diagnostik und Architektur Der von AMD Johannes Müller Dresden, 05.07.2011 Inhalt Geschichtliche Entwicklung Was ist
DYNAMISCHE ARCHITEKTURADAPTION VON HARDWARE-AGENTENSYSTEMEN
Institut für Technische Informatik Fakultät Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur DYNAMISCHE ARCHITEKTURADAPTION VON HARDWARE-AGENTENSYSTEMEN Diplomverteidigung Marcel
Anwendungsgebiete unterschiedlicher FPGA-basierter. Marco Kirschke INF-M2 Anwendung 2 Sommersemester Mai 2010
Anwendungsgebiete unterschiedlicher FPGA-basierter MPSoC Architekturen Marco Kirschke INF-M2 Anwendung 2 Sommersemester 2010 26. Mai 2010 Inhalt Einleitung IEEE Veröffentlichungen Beispiele zu MPSoC Architekturen
HORUS. Seminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HWS Martin Scherer
HORUS Seminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HWS 2006 Martin Scherer Horus Inhalt 1 Einführung 2 Cachekohärenz 3 ExtendiScale Architektur 4 Übertragungsbeispiele 5 Performance Erweiterungen
GPGPU WITH OPENCL. Praktikum Parallele Rechnerarchitekturen, 2015w Franz Richter-Gottfried
GPGPU WITH OPENCL Praktikum Parallele Rechnerarchitekturen, 2015w Franz Richter-Gottfried INFRASTRUCTURE Enqueue interactive job srun --gres --pty bash Graphics cards available for tesla_k20,
Echtzeitanwendungen mit Java Real Time Specification for Java
Fakultät Informatik» Institut für Angewandte Informatik» Lehrstuhl für Technische Informationssysteme Echtzeitanwendungen mit Java Real Time Specification for Java Vortrag im Rahmen des Hauptseminars Technische
Vorstellung der Fachgebiete
Fakultät Informatik, Institut für Technische Informatik, Professur Rechnerarchitektur Vorstellung der Fachgebiete Institut für Technische Informatik Zellescher Weg 12 Nöthnitzer Straße 46 Willers-Bau A
Simulative Verifikation und Evaluation des Speichermanagements einer Multi-Core-Prozessorarchitektur am Beispiel von SHAP
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Simulative Verifikation und Evaluation des Speichermanagements einer Multi-Core-Prozessorarchitektur
Entwurf und Implementierung eines statischen Backbones für die Kommunikation mit dynamischen Nutzerpartitionen auf einem Multi-FPGA-Board
Zwischenvortag zur Studienarbeit Entwurf und Implementierung eines statischen Backbones für die Kommunikation mit dynamischen Nutzerpartitionen auf einem Multi-FPGA-Board Albert Schulz Dresden, 1 Gliederung
Realisierung einer MC-basierten Optionspreisberechnung mit FloPoCo
Fakultät Informatik, Institut für Technische Informatik, Professur VLSI-Entwurfssysteme, Diagnostik und Architektur Realisierung einer MC-basierten Optionspreisberechnung mit FloPoCo Christian Skubich
Der Front Side Bus ist eine Schnittstelle zwischen dem Hauptprozessor (CPU) und der
Die CPU eines PC kommuniziert mit den anderen Bestandteilen des Systems über den Chipsatz. Die direkt mit der CPU verbundene Komponente des Chipsatzes wird als Northbridge bezeichnet. An die Northbridge
Vorstellung der SUN Rock-Architektur
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Vorstellung der SUN Rock-Architektur Hauptseminar Ronald Rist Dresden, 14.01.2009
Entwurf und Implementierung einer Prozessinterkommunikation für Multi-Core CPUs Workshop Echtzeit 2013
Entwurf und Implementierung einer Prozessinterkommunikation für Multi-Core CPUs Workshop Echtzeit 2013 Manuel Strobel 1 Hochschule Furtwangen University Fakultät CEE 2 Embedded Office GmbH & Co. KG 21.
CUDA. Moritz Wild, Jan-Hugo Lupp. Seminar Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg
CUDA Seminar Multi-Core Architectures and Programming 1 Übersicht Einleitung Architektur Programmierung 2 Einleitung Computations on GPU 2003 Probleme Hohe Kenntnisse der Grafikprogrammierung nötig Unterschiedliche
Entwicklung von Partitionierungsstrategien im Entwurf dynamisch rekonfigurierbarer Systeme
Entwicklung von Partitionierungsstrategien im Entwurf dynamisch rekonfigurierbarer Systeme R. Merker, Technische Universität Dresden, Fakultät ET und IT J. Kelber, Fachhochschule Schmalkalden, ET Gliederung
Mikrocontroller und Mikroprozessoren
Uwe Brinkschulte Theo Ungerer Mikrocontroller und Mikroprozessoren 3. Auflage 4y Springer Inhaltsverzeichnis Vorwort Vorwort zur 2. Auflage Vorwort zur 3. Auflage Inhaltsverzeichnis VII IX XI XIII 1 Grundlagen
Linux auf FPGAs. Massgeschneiderte Computersysteme. Christoph Zimmermann, Marc-André Beck. 1. März 2008. Berner Fachhochschule MedOnStream
Massgeschneiderte Computersysteme Christoph Zimmermann Marc-André Beck Berner Fachhochschule MedOnStream 1. März 2008 Gliederung 1 GNU/Linux in eingebetteten Systemen Einsatzort Vorteile Distribution 2
Seminar Multicore-Programmierung
Multicore- und GPGPU-Architekturen Fakultät für Informatik und Mathematik Universität Passau 04. November 2010 APUs / 1 / 39 Inhaltsverzeichnis I APUs / APUs / 2 / 39 Inhaltsverzeichnis II APUs / 3 / 39
Gliederung. Was ist CUDA? CPU GPU/GPGPU CUDA Anwendungsbereiche Wirtschaftlichkeit Beispielvideo
Gliederung Was ist CUDA? CPU GPU/GPGPU CUDA Anwendungsbereiche Wirtschaftlichkeit Beispielvideo Was ist CUDA? Nvidia CUDA ist eine von NvidiaGPGPU-Technologie, die es Programmierern erlaubt, Programmteile
Untersuchung und Vorstellung moderner Grafikchiparchitekturen
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Untersuchung und Vorstellung moderner Grafikchiparchitekturen Hauptseminar Technische
Konzepte von Betriebssystem- Komponenten:
Konzepte von Betriebssystem- Komponenten: OS für kleine Endgeräte: Symbian OS Sven Walter Folie 1/25 S.Walter Überblick 1. Einleitung 2. Hardware Anforderungen und Architektur 3. Betriebssystem Architektur
HW/SW Codesign für Real-time Ethernet basierte Steuergeräte
HW/SW Codesign für Real-time Ethernet basierte Steuergeräte Master Projektvorstudie Für das Fach: Anwendungen 1 In der Arbeitsgruppe CoRE Communication over Real-time Ethernet Friedrich Groß Agenda Motivation
Entwicklung eines Lehrpraktikums auf Basis der Zynq-Plattform
Fakultät Informatik - Institut für Technische Informatik - Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Projektarbeit im Rahmen des Hauptseminars Ludger Irsig Dresden, 11.02.2015 Gliederung
Hardware PCI-Bus. Dr.-Ing. Matthias Sand. Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg
Hardware PCI-Bus Dr.-Ing. Matthias Sand Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2008/2009 Hardware PCI-Bus 1/23 2008-08-06 Übersicht Inhalt:
Hardware PCI-Bus. Dr.-Ing. Matthias Sand. Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg
Hardware PCI-Bus Dr.-Ing. Matthias Sand Lehrstuhl für Informatik 3 (Rechnerarchitektur) Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2007/2008 Hardware PCI-Bus 1/23 2007-10-26 Übersicht Inhalt:
SOC - System on a Chip
SOC - System on a Chip Was ist das und wofür sind sie gut? HS Düsseldorf Technische Informatik Prof. Dr.-Ing. Ulrich Schaarschmidt Maximilian Roitzheim Matrikelnummer: 639071 Wintersemester 17/18 Inhaltsverzeichnis
Plazierung von unterschiedlich großen Komponenten in gleich große rekonfigurierbare Flächen unter Berücksichtigung der Signallaufzeiten
Fakultät für Elektrotechnik Professur für Technische Informatik Helmut Schmidt Universität/ Universität der Bundeswehr Hamburg Plazierung von unterschiedlich großen Komponenten in gleich große rekonfigurierbare
Compute Unified Device Architecture CUDA
Compute Unified Device Architecture 06. Februar 2012 1 / 13 Gliederung 2 / 13 : Compute Unified Device Architecture entwickelt von Nvidia Corporation spezifiziert Software- und Hardwareeigenschaften Ziel:
Cell Broadband Engine
Cell Broadband Engine 21.March 2006 Benjamin Keck Outline Why Cell?!? Application Areas Architectural Overview SPU Programming Model Programming on the PPE C/C++ Intrinsics The Cell Supercomputer on a
OpenCL. OpenCL. Boris Totev, Cornelius Knap
OpenCL OpenCL 1 OpenCL Gliederung Entstehungsgeschichte von OpenCL Was, warum und überhaupt wieso OpenCL CUDA, OpenGL und OpenCL GPUs OpenCL Objekte Work-Units OpenCL Adressbereiche OpenCL API Codebeispiel
Outline. Cell Broadband Engine. Application Areas. The Cell
Outline 21.March 2006 Benjamin Keck Why Cell?!? Application Areas Architectural Overview Programming Model Programming on the PPE C/C++ Intrinsics 1 2 The Cell Supercomputer on a chip Multi-Core Microprocessor
Entwicklung eines intelligenten FlexRay-Sternkopplers Paul Milbredt, AUDI AG, 11.05.2010, TU Darmstadt
Entwicklung eines intelligenten FlexRay-Sternkopplers Paul Milbredt, AUDI AG, 11052010, TU Darmstadt Gliederung Elektronikentwicklung bei Audi Grundlagen Ethernet als Vergleich FlexRay Konzept eines intelligenten
Rheinisch-Westfälische Technische Hochschule Aachen. Seminararbeit
Rheinisch-Westfälische Technische Hochschule Aachen Seminararbeit Analyse von General Purpose Computation on Graphics Processing Units Bibliotheken in Bezug auf GPU-Hersteller. Gregori Kerber Matrikelnummer
CoreSight-Zugang auf dem ZedBoard. Alex Bereza
Alex Bereza Dresden, Gliederung 1. Aufgabenstellung 2. Das 3. CoreSight 4. Trace-Pakete 5. Implementierung des IP-Cores 6. Fazit 7. Quellen Folie Nr. 2 von 26 1. Aufgabenstellung ARM-Prozessor des verfügt
UBERBLICK ZU NETWORKS-ON-CHIP:
Fakultät Informatik Institut für Technische Informatik UBERBLICK ZU NETWORKS-ON-CHIP: Architekturen, Herausforderungen und Lösungen Jan Hoyer Dresden, 7.7.2010 Gliederung Motivation Network-on-Chip Herausforderungen
Implementierung der Jikes Research Virtual Machine
Fakultät Informatik Institut für technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Implementierung der Jikes Research Virtual Machine Hauptseminar Technische Informatik
Das Motherboard (Hauptplatine) beinhaltet Prozessor (CPU), Speicher (RAM) Anschlüsse für interne Disks, Steckkarten, Anschlüsse nach aussen
Das Motherboard (Hauptplatine) beinhaltet Prozessor (CPU), Speicher (RAM) Anschlüsse für interne Disks, Steckkarten, Anschlüsse nach aussen Damit man grosse Zahlen abkürzen kann, behilft man sich dieser
Eine Familie von gemeinsamen Speichern für MPSoCs
Eine Familie von gemeinsamen Speichern für MPSoCs Abschlussvortrag Diplomarbeit Diplomant: David Austin Betreuer: Prof. Olaf Spinczyk Matthias Meier 1 Themenüberblick Einführung Speicher Familie Implementierung
Gliederung. Problemstellung Motivation Multi-Agenten Simulation GPU Programmierung Stand der Technik Abgrenzung
Philipp Kayser Gliederung Problemstellung Motivation Multi-Agenten Simulation GPU Programmierung Stand der Technik Abgrenzung Multi-Agenten Simulation (MAS) simuliert durch eine Vielzahl von Agenten Die
MikroController und Mikroprozessoren
Uwe Brinkschulte Theo Ungerer MikroController und Mikroprozessoren Mit 205 Abbildungen und 39 Tabellen Springer Inhaltsverzeichnis 1 Grundlagen 1 1.1 Mikroprozessoren, MikroController, Signalprozessoren
Die Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien
Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur, Prof. Spallek Die Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien Tobias Berndt, to.berndt@t-online.de
HW/SW Codesign 5 - Performance
HW/SW Codesign 5 - Performance Martin Lechner e1026059 Computer Technology /29 Inhalt Was bedeutet Performance? Methoden zur Steigerung der Performance Einfluss der Kommunikation Hardware vs. Software
Prozessor- und Rechnerarchitekturen (Master)
Prozessor- und Rechnerarchitekturen (Master) Themen am 17.05.17: ARM AMULET und Cortex - Familien Ulrich Schaarschmidt HS Düsseldorf, SS 2017 Literatur Wolf, Marilyn: High-Performance Embedded Computing
Untersuchung der Berechnung der 3D-Punktkorrelation auf hochparallelen Plattformen
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI Entwurfssysteme, Diagnostik und Architektur Untersuchung der Berechnung der 3D-Punktkorrelation auf hochparallelen Plattformen
Cache-Kohärenz und -Konsistenz. Betreuer: Prof. Brüning Veton Kajtazi Mat.-Nr.: Universität Heidelberg
Cache-Kohärenz und -Konsistenz Betreuer: Prof. Brüning Veton Kajtazi Mat.-Nr.: 3220501 Universität Heidelberg Inhaltsverzeichnis Wozu Caches? Unterschied Kohärenz und Konsistenz MESI-Protokoll Fazit 2
Multi- und Many-Core
Multi- und Many-Core Benjamin Warnke Arbeitsbereich Wissenschaftliches Rechnen Fachbereich Informatik Fakultät für Mathematik, Informatik und Naturwissenschaften Universität Hamburg 2016-12-15 Benjamin
Fachbereich Medienproduktion
Fachbereich Medienproduktion Herzlich willkommen zur Vorlesung im Studienfach: Grundlagen der Informatik Themenübersicht Rechnertechnik und IT Sicherheit Grundlagen der Rechnertechnik Prozessorarchitekturen
Optimierungen der Lattice Boltzmann Methode auf x86-64 basierten Architekturen
Optimierungen der Lattice Boltzmann Methode auf x86-64 basierten Architekturen J. Treibig, S. Hausmann, U. Ruede 15.09.05 / ASIM 2005 - Erlangen Gliederung 1 Einleitung Motivation Grundlagen 2 Optimierungen
Palo Alto Networks Innovative vs. Tradition. Matthias Canisius Country Manager DACH
Palo Alto Networks Innovative vs. Tradition Matthias Canisius Country Manager DACH Agenda Grundidee & Architektur Was ist das Besondere und wie funktioniert es? Positionierung In welchen Bereichen kann
Zwischenspeicherung von Maschinencode in CacaoVM Robert Schuster Institut für Informatik FU Berlin
Zwischenspeicherung von Maschinencode in CacaoVM Robert Schuster Institut für Informatik FU Berlin 23.04.09 Ziel des Vortrages Primär Bearbeitetes Problem Vorstellung des technischen Ansatzes Resultate
System on a chip - SoC. Technische Informatik WS 2016/17 Master Elektro-und Informationstechnik Patrick Müller
System on a chip - SoC Technische Informatik WS 2016/17 Master Elektro-und Informationstechnik Patrick Müller Überblick SoC System on a chip Vorteile/Implementierungsgründe Raspberry Pi Broadcom BCM 2837
Aktuelle RTOS-Entwicklungen aus der Forschung
Aktuelle RTOS-Entwicklungen aus der Forschung Lennart Downar Seminar Fehlertoleranz und Echtzeit 16. Februar 2016 Aktuelle RTOS-Entwicklungen aus der Forschung Lennart Downar 1/28 Übersicht 1 Einführung
Paralleler Cuckoo-Filter. Seminar: Implementierungstechniken für Hauptspeicherdatenbanksysteme Jeremias Neth München, 21.
Paralleler Cuckoo-Filter Seminar: Implementierungstechniken für Hauptspeicherdatenbanksysteme Jeremias Neth München, 21. November 2017 1 Paralleler Cuckoo-Filter Cuckoo-Hashtabelle Serieller Cuckoo-Filter
Hybride Apps DPR und Android auf dem Xilinx ZYNQ. Endric Schubert, Missing Link Electronics Fabian Zentner, Univ. Ulm
Hybride Apps DPR und Android auf dem Xilinx ZYNQ Endric Schubert, Missing Link Electronics Fabian Zentner, Univ. Ulm Konvergenz der Rechenplattformen Processing System Memory Interfaces 7 Series Programmable
Multiprozessor System on Chip
Multiprozessor System on Chip INF-M1 AW1-Vortrag 25. November 2009 Übersicht 1. Einleitung und Motivation 2. Multiprozessor System on Chip (MPSoC) 3. Multiprozessoren mit Xilinx EDK 4. FAUST SoC Fahrzeug
Parallelisierung auf MPSoC-Plattformen
Anwendungen 1 Parallelisierung auf MPSoC-Plattformen MINF 1, WiSe2011 Anwendungen 1 17.11.2011 Betreuer: Prof. Dr. Schwarz Übersicht 1. 2. 3. 4. 5. Einleitung Multiprozessor- Architekturen SMP im Linux
Clearspeed. Matthias Kunst.
Clearspeed Matthias Kunst MatthiasKunst@gmx.de 1 Inhalt Einführung Struktur und Leistung Komponenten CSX600 Prozessorarchitektur Anwendungsbereich und Systemintegration Ausblick und Fazit 2 Einleitung