Parallele Rechnerarchitektur II

Größe: px
Ab Seite anzeigen:

Download "Parallele Rechnerarchitektur II"

Transkript

1 Parallele Rechnerarchitektur II Stefan Lang Interdisziplinäres Zentrum für Wissenschaftliches Rechnen Universität Heidelberg INF 368, Raum 532 D-692 Heidelberg phone: 622/ WS /2 Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 / 37

2 Parallele Rechnerarchitektur II Multiprozessor Architekturen Nachrichtenaustausch Netzwerktopologien Architekturbeispiele Routing TOP 5 TOP2 Architekturen Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 2 / 37

3 Kommunikationsarchitekturen Speicher Speicher Speicher CPU CPU CPU CPU CPU CPU Speicher Speicher Speicher Verbindungsnetzwerk (a) verteilte Speicherorganisation, lokaler Adressraum Verbindungsnetzwerk (b) verteilte Speicherorganisation, globaleradressraum CPU CPU CPU CPU CPU CPU Verbindungsnetzwerk Verbindungsnetzwerk Speicher Speicher (c) zentrale Speicherorganisation, (d) zentrale Speicherorganisation, lokaler Adressraum globaleradressraum architecture types distinguished by memory organization Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 3 / 37

4 Einteilung von MIMD-Architekturen physische Speicheranordnung gemeinsamer Speicher verteiler Speicher Adressraum global lokal Programmiermodell gemeinsamer Adressraum Nachrichtenaustausch Kommunikationsstruktur Speicherkopplung Nachrichtenkopplung Synchronisation Semaphore Barriers Latenzbehandlung Latenz verstecken Latenz minimieren Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 4 / 37

5 Distributed Memory: MP P C M P C M Verbindungsnetzwerk VN Multiprozessoren haben einen lokalen Adressraum: Jeder Prozessor kann nur auf seinen Speicher zugreifen. Interaktion mit anderen Prozessoren ausschließlich über das Senden von Nachrichten. Prozessoren, Speicher und Cache sind Standardkomponenten: Volle Ausnutzung des Preisvorteils durch hohe Stückzahlen. Verbindungsnetzwerk von Fast Ethernet bis Myrinet. Ansatz mit der höchsten Skalierbarkeit: IBM BlueGene > K Prozessoren Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 5 / 37

6 Distributed Memory: Message Passing Prozeße kommunizieren Daten zwischen verteilten Adreßräumen expliziter Nachrichenaustausch notwendig Sende-/Empfangsoperationen Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 6 / 37

7 Eine generische Parallelrechnerarchitektur Rechenknoten Rechenknoten CPU MEM MEM CPU I/O NI Verbindungsnetzwerk NI I/O R Daten- R I/O Knoten R leitungen R Rechenknoten I/O NI NI MEM I/O I/O I/O CPU Generischer Aufbau eines skalierbaren Parallelrechners mit verteiltem Speicher Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 7 / 37

8 Skalierbarkeit: Parameter Parameter, welche die Skalierbarkeit eines Systems bestimmen: Bandbreite [MB/s] Latenzzeit [µs] Kosten [$] Physische Größe [m 2,m 3 ] Eine skalierbare Architektur sollte harte Grenzen vermeiden! Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 8 / 37

9 Einfluß von Parallelen Architekturen? from Culler, Singh, Gupta: Parallel Computer Architecture Eine skalierbare Architekture ist Voraussetzung für skalierbares Rechnen Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 9 / 37

10 Nachrichtenaustausch Speicherblock (variabler Länge) soll von einem Speicher zum anderen kopiert werden Genauer: Vom Adressraum eines Prozesses in den eines anderen (auf einem anderen Prozessor) Das Verbindungsnetzwerk ist paketorientiert. Jede Nachricht wird in Pakete fester Länge zerlegt (z. B. 32 Byte bis 4 KByte) Nachspann Nutzdaten Kopf Kopf: Zielprozessor, Nachspann: Prüfsumme Kommunikationsprotokoll: Bestätigung ob Paket (richtig) angekommen, Flusskontrolle Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 / 37

11 Nachrichtenaustausch Schichtenmodell (Hierarchie von Protokollen): Pi_i Pi_j Betriebssystem Betriebssystem Netzwerktreiber Netzwerktreiber Netzwerk interface Netzwerk interface Verbindungsnetzwerk Modell der Übertragungszeit: t mess (n) = t s + n t b. t s : setup-zeit (latency), t b : Zeit pro Byte, /t b : Bandbreite, abh. von Protokoll Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 / 37

12 Netzwerktopologien I (a) (b) (c) (d) (e) (a) full connected, (b) star, (c) array (d) hypercube, (e) torus, (f) folded torus (f) Hypercube: der Dimension d hat 2 d Prozessoren. Prozessor p ist mit q verbunden wenn sich deren Binärdarstellungen in genau einem Bit unterscheiden. Netzwerkknoten: Früher (vor 99) war das der Prozessor selbst, heute sind es dedizierte Kommunikationsprozessoren Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 2 / 37

13 Netzwerktopologien II Kennzahlen: Netzwerktopologie Knotengrad K Leitungsanzahl L Durchmesser D Bisektionsbandbreite B Symmetrie Volle Konnektivität N N(N (N/2) 2 Ja )/2 Stern N N 2 N/2 nein 2D-Gitter 4 2N 2 2( N N nein N ) 3D-Torus 6 3N 3 N/2 2 N ja Hypercube log 2 N nn log 2 N n N/2 ja k-ärer n-cube (N = k n ) 3N n k/2 nn 2k n ja Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 3 / 37

14 Store & Forward Routing Store-and-forward routing: Nachricht der Länge n wird in Pakete der Länge N zerlegt. Pipelining auf Paketebene: Paket wird aber vollständig im NK gespeichert M M NK NK NK2 NKd NKd Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 4 / 37

15 Store & Forward Routing Übertragung eines Paketes: Quelle Ziel Zeit Routing Routing Routing Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 5 / 37

16 Store & Forward Routing Laufzeit: ( n ) t SF (n, N, d) = t s + d(t h + Nt b )+ N (t h + Nt b ) ( = t s + t h d + n )+t N b (n+n(d )). t s : Zeit, die auf Quell und Zielrechner vergeht bis das Netzwerk mit der Nachrichenübertragung beauftragt wird, bzw. bis der empfangende Prozess benachrichtigt wird. Dies ist der Softwareanteil des Protokolls. t h : Zeit die benötigt wird um das erste Byte einer Nachricht von einem Netzwerkknoten zum anderen zu übertragen (engl. node latency, hop time). t b : Zeit für die Übertragung eines Byte von Netzwerkknoten zu Netzwerkknoten. d: Hops bis zum Ziel. Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 6 / 37

17 Cut-Through Routing Cut-through routing oder wormhole routing: Pakete werden nicht zwischengespeichert, jedes Wort (sog. flit) wird sofort an nächsten Netzwerkknoten weitergeleitet Übertragung eines Paketes: Quelle Ziel Routing Routing Routing Zeit 3 2 Laufzeit: t CT (n, N, d) = t s + t h d + t b n Zeit für kurze Nachricht (n = N): t CT = t s + dt h + Nt b. Wegen dt h t s (Hardware!) quasi entfernungsunabhängig Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 7 / 37

18 Deadlock In paketvermittelnden Netzwerken besteht die Gefahr des store-and-forward deadlock: D an A C an D an B A an C B Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 8 / 37

19 Deadlock Zusammen mit cut-through routing: Verklemmungsfreies dimension routing. Beispiel 2D-Gitter: Zerlege Netzwerk in +x, x, +y und y Netzwerke mit jeweils eigenen Puffern. Nachricht läuft erst in Zeile, dann in Spalte. Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 9 / 37

20 Multi-Processor Performance from Culler, Singh, Gupta: Parallel Computer Architecture Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 2 / 37

21 Message Passing Architectures I erste Machine mit parallelem Unix Intel Paragon: Prozeßmigration, Gangscheduling Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 2 / 37

22 Message Passing Architectures II IBM SP2: Rechenknoten sind RS 6 workstations Switching Netzwerk Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 22 / 37

23 Message Passing Architectures III hohe Packungsdichte ein systemweiter Taktgeber virtual shared memory Cray T3E: Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 23 / 37

24 Top5 Top5 Benchmark: LINPACK Benchmark wird zur Evaluation der Systeme verwendet Benchmarkleistung reflektiert nicht die Gesamtleistung des Systems Benchmark zeigt Performanz bei der Lösung von dichtbesetzten linearen GLS Sehr reguläres Problem: erzielte Leistung ist sehr hoch (nahe peak performance) Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 24 / 37

25 Top of Top5 Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 25 / 37

26 Top5 key facts alle Systeme haben mehrfache TeraFlop/s Leistung. Rechner (roadrunner) hat.26 PFlop/s in LINPACK benchmark. Rechner (roadrunner) ist der Energieeffizienteste der Liste Energieverbrauchsdurchschnitt von TOP ist.32 MW und 248 MFlops/W 5. Rechner hat 9. TFlop/s in LINPACK benchmark akkumulierte Leistung ist.7 PFlop/s (4.92 PFlop/s) TOP Mindestleistung 2.97 TFlop/s (9.29 TFlop/s) 4 (8%) Systeme sind Cluster, Rest MPP Prozessortyp: Intel Harpertown 375, IBM Power 68, AMD Opteron 56 Quad core vorwiegende Chip Architektur (56%) InfiniBand Technologie in 2 Systemen Skalarprozessor 95.8%, Vectorprozessor 4.2% Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 26 / 37

27 Top5 Country + Processor Count Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 27 / 37

28 Top5 Processor + Interconnect Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 28 / 37

29 IBM Blue Gene/L Architecture Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 29 / 37

30 IBM Blue Gene/L Specification 367 teraflop/s (in symmetric mode) 84 teraflop/s (in communications co-processor mode)...peak computational rate 6 TB (6 2 4 bytes)...aggregate memory 4 TB (4 2 bytes)...aggregate global disk 4 GB/s (4 9 bytes/second)...delivered I/O bandwidth to applications,24 x -Gb/s Ethernet (in 9 bits/second)...external networking 65,536 (3,72)...Number of nodes (processors) 256 MB ( bytes)...memory per node Dual PowerPC 44...Microprocessor technology 2 MW (2 6 Watts)...Power required for computer and cooling >4,5, BTU/hr...Heat generated >5,...Cables in the machine >2 miles...aggregate cable length Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 3 / 37

31 IBM Blue Gene/L Networks Knoten verbunden über drei integrierte Netzwerke 3 Dimensional Torus Virtual cut-through hardware routing to maximize efficiency 2.8 Gb/s on all 2 node links (total of 4.2 GB/s per node) Communication backbone 34 TB/s total torus interconnect bandwidth Global Tree One-to-all or all-all broadcast functionality Arithmetic operations implemented in tree ~.4 GB/s of bandwidth from any node to all other nodes Latency of tree traversal less than usec Ethernet Incorporated into every node ASIC Disk I/O Host control, booting and diagnostics Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 3 / 37

32 Cray RedStorm Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 32 / 37

33 Cray RedStorm Configuration Normally Unclassified Switchable Nodes Normally Classified Disconnect Cabinets Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 33 / 37

34 Cray RedStorm Building Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 34 / 37

35 Cray RedStorm Compute Node DRAM (or 2) Gbyte or more ASIC = Application Specific Integrated Circuit, or a custom chip CPUs AMD Opteron ASIC NIC + Router Six Links To Other Nodes in X, Y, and Z Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 35 / 37

36 Cray RedStorm Cabinet Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 36 / 37

37 Blue Gene L vs Red Storm BGL 36 TF version, Red Storm TF version Blue Gene L Red Storm Node speed 5.6 GF 5.6 GF (x) Node memory GB 2 (-8 GB) (4x) Network latency 7 us 2 us (2/7x) Network link bw.28 GB/s 6. GB/s (22x) BW Bytes/Flops.5. (22x) Bi-Section B/F.6.38 (24x) #nodes/problem 4,, (/4x) Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 37 / 37

Distributed Memory Computer (DMC)

Distributed Memory Computer (DMC) Distributed Memory Computer (DMC) verteilter Speicher: jeder Prozessor kann nur auf seinen lokalen Speicher zugreifen Kopplung mehrerer Prozessoren über E/A-Schnittstellen und Verbindungsnetzwerk, nicht

Mehr

Kapitel 5. Parallelverarbeitung. Formen der Parallelität

Kapitel 5. Parallelverarbeitung. Formen der Parallelität Kapitel 5 Parallelverarbeitung é Formen der Parallelität é Klassifikation von parallelen Rechnerarchitekturen é Exkurs über Verbindungsstrukturen Bernd Becker Technische Informatik I Formen der Parallelität

Mehr

Symmetrischer Multiprozessor (SMP)

Symmetrischer Multiprozessor (SMP) Symmetrischer Multiprozessor (SMP) Motivation: ein globaler Adressraum für mehrere Prozesse P i Prozesse P i haben gemeinsame Daten ( shared variables ) private Daten ( private variables ) gemeinsamen

Mehr

BlueGene. Seminarvortrag WS 2004/05 Sven Kapferer Lehrstuhl für Rechnerarchitektur Universität Mannheim

BlueGene. Seminarvortrag WS 2004/05 Sven Kapferer Lehrstuhl für Rechnerarchitektur Universität Mannheim BlueGene Seminarvortrag WS 2004/05 Sven Kapferer Lehrstuhl für Rechnerarchitektur Universität Mannheim Gliederung Einführung Motivation Vergleich mit anderen Architekturen Architektur des BlueGene Hierarchische

Mehr

Parallelrechner (1) Anwendungen: Simulation von komplexen physikalischen oder biochemischen Vorgängen Entwurfsunterstützung virtuelle Realität

Parallelrechner (1) Anwendungen: Simulation von komplexen physikalischen oder biochemischen Vorgängen Entwurfsunterstützung virtuelle Realität Parallelrechner (1) Motivation: Bedarf für immer leistungsfähigere Rechner Leistungssteigerung eines einzelnen Rechners hat physikalische Grenzen: Geschwindigkeit von Materie Wärmeableitung Transistorgröße

Mehr

Supercomputer Blue Gene/L

Supercomputer Blue Gene/L FH Giessen Friedberg Supercomputer Blue Gene/L Sven Wagner Übersicht Einführung Supercomputer Begriffe Geschichte TOP500 Anwendung 2 Übersicht Blue Gene/L Historie Architektur & Packaging ASIC Netzwerk

Mehr

Mehrprozessorarchitekturen

Mehrprozessorarchitekturen Mehrprozessorarchitekturen (SMP, UMA/NUMA, Cluster) Arian Bär 12.07.2004 12.07.2004 Arian Bär 1 Gliederung 1. Einleitung 2. Symmetrische Multiprozessoren (SMP) Allgemeines Architektur 3. Speicherarchitekturen

Mehr

Rechnerarchitektur. Beispielarchitekturen: IBM BlueGene

Rechnerarchitektur. Beispielarchitekturen: IBM BlueGene 12 Rechnerarchitektur Sommersemester 2015 Beispielarchitekturen: IBM BlueGene Michael Engel Informatik 12 TU Dortmund 2015/07/14 IBM BlueGene Familie von Hochleistungsrechnern Massiv paralleles System

Mehr

Ruprecht-Karls-Universität Heidelberg

Ruprecht-Karls-Universität Heidelberg Ruprecht-Karls-Universität Heidelberg PS: Themen der technischen Informatik Sommersemester 2013 Referentin: Hanna Khoury Betreuer: Prof. Dr. Ulrich Brüning, Dr. Frank Lemke Datum: 10.06.2014 1) Einige

Mehr

Überblick. Einleitung. Befehlsschnittstelle Mikroarchitektur Speicherarchitektur Ein-/Ausgabe Multiprozessorsysteme,...

Überblick. Einleitung. Befehlsschnittstelle Mikroarchitektur Speicherarchitektur Ein-/Ausgabe Multiprozessorsysteme,... Überblick Einleitung Lit., Motivation, Geschichte, v.neumann- Modell, VHDL Befehlsschnittstelle Mikroarchitektur Speicherarchitektur Ein-/Ausgabe Multiprozessorsysteme,... Kap.6 Multiprozessorsysteme Einsatz

Mehr

Architektur paralleler Plattformen

Architektur paralleler Plattformen Architektur paralleler Plattformen Freie Universität Berlin Fachbereich Informatik Wintersemester 2012/2013 Proseminar Parallele Programmierung Mirco Semper, Marco Gester Datum: 31.10.12 Inhalt I. Überblick

Mehr

Outline. Cell Broadband Engine. Application Areas. The Cell

Outline. Cell Broadband Engine. Application Areas. The Cell Outline 21.March 2006 Benjamin Keck Why Cell?!? Application Areas Architectural Overview Programming Model Programming on the PPE C/C++ Intrinsics 1 2 The Cell Supercomputer on a chip Multi-Core Microprocessor

Mehr

Ausblick auf den HLRN III - die neue HPC Ressource für Norddeutschland

Ausblick auf den HLRN III - die neue HPC Ressource für Norddeutschland Ausblick auf den HLRN III - die neue HPC Ressource für Norddeutschland Holger Naundorf RRZN Leibniz Universität IT Services Schloßwender Straße 5 30159 Hannover naundorf@rrzn.uni-hannover.de 14. März 2013

Mehr

Cell Broadband Engine

Cell Broadband Engine Cell Broadband Engine 21.March 2006 Benjamin Keck Outline Why Cell?!? Application Areas Architectural Overview SPU Programming Model Programming on the PPE C/C++ Intrinsics The Cell Supercomputer on a

Mehr

2 Rechnerarchitekturen

2 Rechnerarchitekturen 2 Rechnerarchitekturen Rechnerarchitekturen Flynns Klassifikation Flynnsche Klassifikation (Flynn sche Taxonomie) 1966 entwickelt, einfaches Modell, bis heute genutzt Beschränkung der Beschreibung auf

Mehr

moderne Prozessoren Jan Krüger jkrueger@techfak.uni-bielefeld.de

moderne Prozessoren Jan Krüger jkrueger@techfak.uni-bielefeld.de moderne Prozessoren Jan Krüger jkrueger@techfak.uni-bielefeld.de Übersicht FachChinesisch SPARC - UltraSparc III/IV PowerPC - PowerPC 970(G5) X86 - Pentium4(Xeon), Itanium, (Pentium M) X86 - AthlonXP/MP,

Mehr

-0 FDDI-Anschluß. m 256MB. m 512 MB Memory. Parallelrechner IBM SP. HRZ Uni Marburg. Frame 2. Frame 3. Frame 1. Ethernet mit allen Knoten

-0 FDDI-Anschluß. m 256MB. m 512 MB Memory. Parallelrechner IBM SP. HRZ Uni Marburg. Frame 2. Frame 3. Frame 1. Ethernet mit allen Knoten HRZ Uni Marburg Parallelrechner IBM SP Ethernet mit allen Knoten 3 externe SSADisks 12 * 4.5 GB Parallele Filesysteme 8 * 4.5 GB Benutzer- Filesysteme SP Switch SP Switch SP Switch ~ 128MB m 256MB m 512

Mehr

UBERBLICK ZU NETWORKS-ON-CHIP:

UBERBLICK ZU NETWORKS-ON-CHIP: Fakultät Informatik Institut für Technische Informatik UBERBLICK ZU NETWORKS-ON-CHIP: Architekturen, Herausforderungen und Lösungen Jan Hoyer Dresden, 7.7.2010 Gliederung Motivation Network-on-Chip Herausforderungen

Mehr

Introduction Workshop 11th 12th November 2013

Introduction Workshop 11th 12th November 2013 Introduction Workshop 11th 12th November 2013 Lecture I: Hardware and Applications Dr. Andreas Wolf Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum Overview Current and next System Hardware Sections

Mehr

2.5. VERBINDUNGSNETZWERKE GESTALTUNGSKRITERIEN DER NETZWERKE TOPOLOGIE ALS GRAPH. Vorlesung 5 TOPOLOGIE: DEFINITIONEN : Sei G = (V, E) ein Graph mit:

2.5. VERBINDUNGSNETZWERKE GESTALTUNGSKRITERIEN DER NETZWERKE TOPOLOGIE ALS GRAPH. Vorlesung 5 TOPOLOGIE: DEFINITIONEN : Sei G = (V, E) ein Graph mit: Vorlesung 5.5. VERBINDUNGSNETZWERKE Kommunikation zwischen den einzelnen Komponenten eines arallelrechners wird i.d.r. über ein Netzwerk organisiert. Dabei unterscheidet man zwei Klassen der Rechner: TOOLOGIE:

Mehr

Token Coherence. Background

Token Coherence. Background Token Coherence Architecture of Parallel Computer Systems WS15/16 J.Simon 1 Background single-writer or many-readers cache coherence invariant Invalidation based Protocol is a distributed algorithm of

Mehr

Towards Modular Supercomputing with Slurm

Towards Modular Supercomputing with Slurm Towards Modular Supercomputing with Slurm 2017-09-25 Dorian Krause et al., Jülich Supercomputing Centre, Forschungszentrum Jülich Dual-Architecture Supercomputing Facility IBM Power 4+ JUMP, 9 TFlop/s

Mehr

Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP)

Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP) Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP) @wefinet Werner Fischer, Thomas-Krenn.AG Webinar, 17. Oktober 2017 Intel Xeon Scalable Performance _ Das ist NEU: Neue

Mehr

Weitere Verbesserungen

Weitere Verbesserungen Weitere Verbesserungen Welcher Cache liefert aktuellen Block falls mehrere Caches Block im Zustand S halten? Lösung: Einführung eines weiteren Zustands O (Owner) Zustand O besagt: Eigentümer des Blocks

Mehr

HPC an der Uni Mainz

HPC an der Uni Mainz Einwicklung vom ersten Top500 Rechner bis zum AHRP HPC - AHRP - ZKI Markus Tacke, ZDV, Universität Mainz AK Supercomputer Kaiserslautern 19.4.2012 ZDV: CC NUMA 1.1.1995: Convex SPP1000/16 16 PA Risc 7100

Mehr

Quiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset.

Quiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset. Quiz Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset 32 Bit Adresse 31 3 29... 2 1 SS 212 Grundlagen der Rechnerarchitektur

Mehr

Strukturelemente von Parallelrechnern

Strukturelemente von Parallelrechnern Strukturelemente von Parallelrechnern Parallelrechner besteht aus einer Menge von Verarbeitungselementen, die in einer koordinierten Weise, teilweise zeitgleich, zusammenarbeiten, um eine Aufgabe zu lösen

Mehr

Rechnernetze I. Rechnernetze I. 1 Einführung SS Universität Siegen Tel.: 0271/ , Büro: H-B 8404

Rechnernetze I. Rechnernetze I. 1 Einführung SS Universität Siegen Tel.: 0271/ , Büro: H-B 8404 Rechnernetze I SS 2012 Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, Büro: H-B 8404 Stand: 20. April 2012 Betriebssysteme / verteilte Systeme Rechnernetze I (1/12) i Rechnernetze

Mehr

Protected User-Level DMA in SCI Shared Memory Umgebungen

Protected User-Level DMA in SCI Shared Memory Umgebungen Protected User-Level DMA in SCI Shared Memory Umgebungen Mario Trams University of Technology Chemnitz, Chair of Computer Architecture 6. Halle Chemnitz Seminar zu Parallelverarbeitung und Programmiersprachen

Mehr

Trend der letzten Jahre in der Parallelrechentechnik

Trend der letzten Jahre in der Parallelrechentechnik 4.1 Einführung Trend der letzten 10-15 Jahre in der Parallelrechentechnik weg von den spezialisierten Superrechner-Plattformen hin zu kostengünstigeren Allzwecksystemen, die aus lose gekoppelten einzelnen

Mehr

Proseminar Rechnerarchitekturen. Parallelcomputer: Multiprozessorsysteme

Proseminar Rechnerarchitekturen. Parallelcomputer: Multiprozessorsysteme wwwnet-texde Proseminar Rechnerarchitekturen Parallelcomputer: Multiprozessorsysteme Stefan Schumacher, , PGP Key http://wwwnet-texde/uni Id: mps-folientex,v

Mehr

Gregor Michalicek, Marcus Schüler. Multiprozessoren

Gregor Michalicek, Marcus Schüler. Multiprozessoren Gregor Michalicek, Marcus Schüler Gregor Michalicek Marcus Schüler Gregor Michalicek, Marcus Schüler Vorteile gegenüber Singleprozessoren ¾ sind zuverlässiger. Einige Multiprozessorsysteme können trotz

Mehr

Paradigmenwechsel: Von der Rechner-zentrierten zur Informationszentrierten DV Skalierbarkeit: Erweiterung von Ressourcen ohne Erhöhung der

Paradigmenwechsel: Von der Rechner-zentrierten zur Informationszentrierten DV Skalierbarkeit: Erweiterung von Ressourcen ohne Erhöhung der Sun: HPC mit Zukunft Wolfgang Kroj Vertriebsleiter Enterprise Business & Storage Sun Microsystems GmbH Tel.: +49-89-46008-589, Fax: +49-89-46008-590 Email: wolfgang.kroj@germany.sun.com Network Computing

Mehr

Parallelrechner: Klassifikation. Parallelrechner: Motivation. Parallelrechner: Literatur. Parallelrechner: PC-Technologie SMP-Multiprozessorsysteme 69

Parallelrechner: Klassifikation. Parallelrechner: Motivation. Parallelrechner: Literatur. Parallelrechner: PC-Technologie SMP-Multiprozessorsysteme 69 Parallelrechner: Motivation immer höhere Performance gefordert => schnellere Einzelprozessoren aber Takte oberhalb von 10 GHz unrealistisch => mehrere Prozessoren diverse Architekturkonzepte shared-memory

Mehr

Rechnernetze I SS Universität Siegen Tel.: 0271/ , Büro: H-B Stand: 25.

Rechnernetze I SS Universität Siegen Tel.: 0271/ , Büro: H-B Stand: 25. Rechnernetze I SS 2012 Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, Büro: H-B 8404 Stand: 25. April 2014 Betriebssysteme / verteilte Systeme Rechnernetze I (1/12) i Rechnernetze

Mehr

Der Front Side Bus ist eine Schnittstelle zwischen dem Hauptprozessor (CPU) und der

Der Front Side Bus ist eine Schnittstelle zwischen dem Hauptprozessor (CPU) und der Die CPU eines PC kommuniziert mit den anderen Bestandteilen des Systems über den Chipsatz. Die direkt mit der CPU verbundene Komponente des Chipsatzes wird als Northbridge bezeichnet. An die Northbridge

Mehr

N Bit Binärzahlen. Stelle: Binär-Digit:

N Bit Binärzahlen. Stelle: Binär-Digit: N Bit Binärzahlen N Bit Binärzahlen, Beispiel 16 Bit: Stelle: 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 Binär-Digit: 0 0 1 0 1 0 0 1 1 1 0 0 1 0 0 0 Least Significant Bit (LSB) und Most Significant Bit (MSB)

Mehr

Computational Biology: Bioelektromagnetismus und Biomechanik

Computational Biology: Bioelektromagnetismus und Biomechanik Computational Biology: Bioelektromagnetismus und Biomechanik Implementierung Gliederung Wiederholung: Biomechanik III Statische Elastomechanik Finite Elemente Diskretisierung Finite Differenzen Diskretisierung

Mehr

Orientierungsveranstaltungen 2009 Informatikstudien der Universität Wien

Orientierungsveranstaltungen 2009 Informatikstudien der Universität Wien Orientierungsveranstaltungen 2009 Informatikstudien der Universität Wien Scientific Computing 07. Oktober 2009 Siegfried Benkner Wilfried Gansterer Fakultät für Informatik Universität Wien www.cs.univie.ac.at

Mehr

Flattend Butterfly. Dragonfly

Flattend Butterfly. Dragonfly Flattend Butterfly 2-ary 4-fly 2-ary 4-flat 4-ary 2-fly 4-ary 2-flat Pro O(log n) weniger Schalter konstanter Durchmesser Cons Grad k+o(log n) J. Simon - Architecture of Parallel Computer Systems SoSe

Mehr

Verteidigung der Bachelorarbeit, Willi Mentzel

Verteidigung der Bachelorarbeit, Willi Mentzel Verteidigung der Bachelorarbeit, Willi Mentzel Motivation U.S. Energy Consumption Breakdown 3x Durchschnittliche Leistungsaufnahme 114 Millionen kw Hohes Optimierungspotential 2 Ziele für Energieoptimierung

Mehr

Example: IBM POWER Processor

Example: IBM POWER Processor Example: IBM POWER Processor Source: IBM J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 1 > IBM Power Supercomputer Quelle: IBM J. Simon - Architecture of Parallel Computer Systems SoSe

Mehr

Hochleistungsrechnen in Darmstadt: Der Lichtenberg- Hochleistungsrechner. Dr. Andreas Wolf. Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum

Hochleistungsrechnen in Darmstadt: Der Lichtenberg- Hochleistungsrechner. Dr. Andreas Wolf. Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum Hochleistungsrechnen in Darmstadt: Der Lichtenberg- Hochleistungsrechner Dr. Andreas Wolf Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum Überblick Randbedingungen der HPC Beschaffung an der

Mehr

DOAG Konferenz 2007 in Nürnberg

DOAG Konferenz 2007 in Nürnberg DOAG Konferenz 2007 in Nürnberg Auswahl und Sizing: Die richtige Hardware (+Software) für Oracle Björn Bröhl Projektmanager Handlungsbevollmächtigter Seite 1 Inhalt Die Zielsetzung Vorgehensweise Auswahl

Mehr

Cache Grundlagen. Schreibender Cache Zugriff. SS 2012 Grundlagen der Rechnerarchitektur Speicher 22

Cache Grundlagen. Schreibender Cache Zugriff. SS 2012 Grundlagen der Rechnerarchitektur Speicher 22 Cache Grundlagen Schreibender Cache Zugriff SS 212 Grundlagen der Rechnerarchitektur Speicher 22 Eine einfache Strategie Schreibt man nur in den Cache, werden Cache und darunter liegender Speicher inkonsistent.

Mehr

HLRN III - HPC Ressource für Norddeutschland

HLRN III - HPC Ressource für Norddeutschland HLRN III - HPC Ressource für Norddeutschland Holger Naundorf RRZN Leibniz Universität IT Services Schloßwender Straße 5 30159 Hannover naundorf@rrzn.uni-hannover.de 23. September 2014 Inhalt Der HLRN Verbund

Mehr

Der neue Hessische Hochleistungsrechner HHLR

Der neue Hessische Hochleistungsrechner HHLR Der neue Hessische Hochleistungsrechner HHLR Erste Erfahrungen Norbert Conrad, conrad@hrz.tu-darmstadt.de ZKIHessen 26.8.2002 1 Darmstädter Hochleistungsrechner 1987: IBM 3090 VF ( 2 x 0,12 GFLOPS Vektor

Mehr

High Performance Embedded Processors

High Performance Embedded Processors High Performance Embedded Processors Matthias Schwarz Hardware-Software-Co-Design Universität Erlangen-Nürnberg martin.rustler@e-technik.stud.uni-erlangen.de matthias.schwarz@e-technik.stud.uni-erlangen.de

Mehr

Systeme 1: Architektur

Systeme 1: Architektur slide 1 Vorlesung Systeme 1: Architektur Prof. Dr. Ulrich Ultes-Nitsche Forschungsgruppe Departement für Informatik Universität Freiburg slide 2 Prüfung 18. Februar 2004 8h00-11h40 13h00-18h20 20 Minuten

Mehr

Projektseminar Parallele Programmierung

Projektseminar Parallele Programmierung HTW Dresden WS 2014/2015 Organisatorisches Praktikum, 4 SWS Do. 15:00-18:20 Uhr, Z136c, 2 Doppelstunden o.g. Termin ist als Treffpunkt zu verstehen Labore Z 136c / Z 355 sind Montag und Donnerstag 15:00-18:20

Mehr

1. Die Organisation von RISC-Prozessoren 2

1. Die Organisation von RISC-Prozessoren 2 1. Die Organisation von RISC-Prozessoren 2 1.1. Superskalarität 3 1.2. Parallelverarbeitung 4 1.2.1 Multi Core- und Many Core-CPUs 10 1.2.2 Automatische Parallelisierung im Instruction Window 11 1.3. Dynamische

Mehr

2.7. REALE PARALLELRECHNER UND DIE TOP500-LISTE

2.7. REALE PARALLELRECHNER UND DIE TOP500-LISTE Vorlesung 9 2.7. EALE PAALLELECHNE UND DIE TOP500-LISTE c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 1 Vorlesung 9 2.7. EALE PAALLELECHNE UND DIE TOP500-LISTE Flynn sche Klassifikation

Mehr

Vorlesung Hochleistungsrechnen - SS Thomas Ludwig 1

Vorlesung Hochleistungsrechnen - SS Thomas Ludwig 1 Vorlesung Hochleistungsrechnen - SS 2010 - Thomas Ludwig 1 Vorlesung Hochleistungsrechnen - SS 2010 - Thomas Ludwig 2 Vorlesung Hochleistungsrechnen - SS 2010 - Thomas Ludwig 3 Siehe: http://en.wikipedia.org/wiki/amdahl%27s_law

Mehr

Neues in Hyper-V Version 2

Neues in Hyper-V Version 2 Michael Korp Technical Evangelist Microsoft Deutschland GmbH http://blogs.technet.com/mkorp Neues in Hyper-V Version 2 - Virtualisieren auf die moderne Art - Windows Server 2008 R2 Hyper-V Robust Basis:

Mehr

LOEWE-CSC and it s data center

LOEWE-CSC and it s data center ECO@ LOEWE-CSC LOEWE-CSC and it s data center Volker Lindenstruth FIAS, IfI, LOEWE Professur Chair of HPC Architecture University Frankfurt, Germany Phone: +49 69 798 44101 Fax: +49 69 798 44109 Email:

Mehr

Verteilte Betriebssysteme

Verteilte Betriebssysteme Verteiltes System Eine Sammlung unabhängiger Rechner, die dem Benutzer den Eindruck vermitteln, es handle sich um ein einziges System. Verteiltes Betriebssystem Betriebssystem für verteilte Systeme Verwaltet

Mehr

Patagonia - Ein Mehrbenutzer-Cluster für Forschung und Lehre

Patagonia - Ein Mehrbenutzer-Cluster für Forschung und Lehre Patagonia - Ein Mehrbenutzer-Cluster für Forschung und Lehre Felix Rauch Christian Kurmann, Blanca Maria Müller-Lagunez, Thomas M. Stricker Institut für Computersysteme ETH Zürich Eidgenössische Technische

Mehr

Erfahrungen bei der Installation und vergleichende Messungen zu verschiedenen MPI Implementierungen auf einem Dual Xeon Cluster

Erfahrungen bei der Installation und vergleichende Messungen zu verschiedenen MPI Implementierungen auf einem Dual Xeon Cluster Erfahrungen bei der Installation und vergleichende Messungen zu verschiedenen MPI Implementierungen auf einem Dual Xeon Cluster Sven Trautmann Technische Universität Chemnitz svtr@informatik.tu-chemnitz.de

Mehr

Rechnernetze I SS Universität Siegen Tel.: 0271/ , Büro: H-B Stand: 21.

Rechnernetze I SS Universität Siegen Tel.: 0271/ , Büro: H-B Stand: 21. Rechnernetze I SS 2016 Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, Büro: H-B 8404 Stand: 21. April 2016 Betriebssysteme / verteilte Systeme Rechnernetze I (1/13) i Rechnernetze

Mehr

Netzwerke Teil 2. Dr. Victor Pankratius David J. Meder. IPD Tichy Lehrstuhl für Programmiersysteme

Netzwerke Teil 2. Dr. Victor Pankratius David J. Meder. IPD Tichy Lehrstuhl für Programmiersysteme Netzwerke Teil 2 Dr. Victor Pankratius David J. Meder IPD Tichy Lehrstuhl für Programmiersysteme KIT die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH) Vorlesung Rechnerbündel

Mehr

Grundlagen der Rechnerarchitektur. Speicher

Grundlagen der Rechnerarchitektur. Speicher Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie

Mehr

OpenCL. Programmiersprachen im Multicore-Zeitalter. Tim Wiersdörfer

OpenCL. Programmiersprachen im Multicore-Zeitalter. Tim Wiersdörfer OpenCL Programmiersprachen im Multicore-Zeitalter Tim Wiersdörfer Inhaltsverzeichnis 1. Was ist OpenCL 2. Entwicklung von OpenCL 3. OpenCL Modelle 1. Plattform-Modell 2. Ausführungs-Modell 3. Speicher-Modell

Mehr

HORUS. Seminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HWS Martin Scherer

HORUS. Seminar Ausgewählte Themen in Hardwareentwurf und Optik im HWS Martin Scherer HORUS Seminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HWS 2006 Martin Scherer Horus Inhalt 1 Einführung 2 Cachekohärenz 3 ExtendiScale Architektur 4 Übertragungsbeispiele 5 Performance Erweiterungen

Mehr

ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS. Sascha Kath

ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS. Sascha Kath ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS Sascha Kath Dresden, Gliederung 1. Motivation & Zielstellung 2. Systembeschreibung 3. Implementierung und Messungen

Mehr

Rückschlüsse durch Host- Performance-Daten auf das Datenbankverhalten. DOAG Regio Karlsruhe 13. Juni 2013

Rückschlüsse durch Host- Performance-Daten auf das Datenbankverhalten. DOAG Regio Karlsruhe 13. Juni 2013 Rückschlüsse durch Host- Performance-Daten auf das Datenbankverhalten DOAG Regio Karlsruhe 13. Juni 2013 Herrmann & Lenz Services GmbH Herrmann & Lenz Solutions GmbH Erfolgreich seit 1996 am Markt Firmensitz:

Mehr

Virtueller Speicher und Memory Management

Virtueller Speicher und Memory Management Virtueller Speicher und Memory Management Speicher-Paradigmen Programmierer ein großer Adressraum linear adressierbar Betriebssystem eine Menge laufender Tasks / Prozesse read-only Instruktionen read-write

Mehr

Vorlesung "Verteilte Systeme" Sommersemester Verteilte Systeme. Empfänger Kommunikationssystem. Netzwerk

Vorlesung Verteilte Systeme Sommersemester Verteilte Systeme. Empfänger Kommunikationssystem. Netzwerk Verteilte Systeme 1. Netzwerke Grundstruktur Sender Empfänger Kommunikationssystem Empfänger Systemsoftware Systemsoftware Hardware Hardware Netzwerk Verteilte Systeme, Sommersemester 1999 Folie 1.2 (c)

Mehr

Kingston Technology WHD. November 30, 2012. Andreas Scholz, BDM Integration und Server D-A

Kingston Technology WHD. November 30, 2012. Andreas Scholz, BDM Integration und Server D-A Kingston Technology WHD Andreas Scholz, BDM Integration und Server D-A November 30, 2012 Agenda Trends Speicher Konfigurationen Warum KingstonConsult? KingstonConsult Speicher Bandbreite: balanced vs.

Mehr

Beispiel Parallelisierung 2D Laplace. Lagrange Formulierung/Hyperelastisches Material. Finite Differenzen Diskretisierung

Beispiel Parallelisierung 2D Laplace. Lagrange Formulierung/Hyperelastisches Material. Finite Differenzen Diskretisierung Simulation von physikalischen Feldern im menschlichen Körper Implementierung Gliederung Gliederung Wiederholung: Biomechanik III Statische elastomechanische Probleme Finite Elemente Diskretisierung Finite

Mehr

Übungsblatt 4. (Router, Layer-3-Switch, Gateway) Aufgabe 2 (Kollisionsdomäne, Broadcast- Domäne)

Übungsblatt 4. (Router, Layer-3-Switch, Gateway) Aufgabe 2 (Kollisionsdomäne, Broadcast- Domäne) Übungsblatt 4 Aufgabe 1 (Router, Layer-3-Switch, Gateway) 1. Welchen Zweck haben Router in Computernetzen? (Erklären Sie auch den Unterschied zu Layer-3-Switches.) 2. Welchen Zweck haben Layer-3-Switches

Mehr

Foliensatz. Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen

Foliensatz. Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen Foliensatz Center for Information Services and High Performance Computing (ZIH) Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen Hochgeschwindigkeitskommunikationen 13. Juli

Mehr

Oracle Real Application Cluster

Oracle Real Application Cluster Oracle Real Application Cluster Björn Bröhl OPITZ CONSULTING Gummersbach GmbH Seite 1 Übersicht Die RAC Architektur RAC Komponenten (Hard- und Software) Oracle Cluster Filesystem vs. Oracle Automatic Storage

Mehr

Device Treiber für FlexPath- Netzwerkprozessoren

Device Treiber für FlexPath- Netzwerkprozessoren Device Treiber für FlexPath- Netzwerkprozessoren Michael Meitinger Rainer Ohlendorf Dr. Thomas Wild Prof. Dr. Andreas Herkersdorf 1 Übersicht Übersicht FlexPath Einsatz von Device Treibern in der FlexPath

Mehr

Studie zum Einsatz eines Network-on-a-Chip für eine Many-Core- Java-Bytecode-Architektur

Studie zum Einsatz eines Network-on-a-Chip für eine Many-Core- Java-Bytecode-Architektur Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Belegverteidigung Studie zum Einsatz eines Network-on-a-Chip für eine Many-Core- Java-

Mehr

Rechnerarchitektur. Vorlesungsbegleitende Unterlagen WS 2003/2004. Klaus Waldschmidt

Rechnerarchitektur. Vorlesungsbegleitende Unterlagen WS 2003/2004. Klaus Waldschmidt Rechnerarchitektur Vorlesungsbegleitende Unterlagen WS 2003/2004 Klaus Waldschmidt Teil 17 Parallelarchitekturen Seite 1 Klassifikation nach Flynn (1972) SISD (single instruction, single data stream) Rechner

Mehr

Einführung in parallele Dateisysteme am Beispiel von GPFS. Proseminar von Jakob Schmid im SS 2014

Einführung in parallele Dateisysteme am Beispiel von GPFS. Proseminar von Jakob Schmid im SS 2014 Einführung in parallele Dateisysteme am Beispiel von GPFS Proseminar von Jakob Schmid im SS 2014 Gliederung Definition Anwendungsgebiete Anforderungen Beispiel: General Parallel File System (GPFS) Zusammenfassung

Mehr

Internet Modell. Nothing stated. Bildquelle: Andrew S. Tanenbaum, Computer Networks, Fourth Edition, 2003 Grundlagen der Rechnernetze Einführung 50

Internet Modell. Nothing stated. Bildquelle: Andrew S. Tanenbaum, Computer Networks, Fourth Edition, 2003 Grundlagen der Rechnernetze Einführung 50 Internet Modell Nothing stated by TCP/IP model Bildquelle: Andrew S. Tanenbaum, Computer Networks, Fourth Edition, 2003 Grundlagen der Rechnernetze Einführung 50 Internet Protokolle Bildquelle: Andrew

Mehr

Haifeng Liu Martin Seidel

Haifeng Liu Martin Seidel Haifeng Liu Martin Seidel Wichtige Faktoren für den Energieverbrauch: WLAN Hardware Design Software- und Protokolldesign Power Management Power Control Hardware Interaktionen (NIC CPU) Treiber/CPU Interaktion

Mehr

Messbare Parameter von Netzwerken (1)

Messbare Parameter von Netzwerken (1) Messbare Parameter von Netzwerken (1) Minimale Latenzzeit Verzögerung einer Kommunikation Zeit zwischen Absenden und Ankunft des Packet-Headers Einheit: Zeit, meistens in µs Vorgehen bei Messung: Ping-Pong

Mehr

Inhalt. Prozessoren. Curriculum Manfred Wilfling. 28. November HTBLA Kaindorf. M. Wilfling (HTBLA Kaindorf) CPUs 28. November / 9

Inhalt. Prozessoren. Curriculum Manfred Wilfling. 28. November HTBLA Kaindorf. M. Wilfling (HTBLA Kaindorf) CPUs 28. November / 9 Inhalt Curriculum 1.4.2 Manfred Wilfling HTBLA Kaindorf 28. November 2011 M. Wilfling (HTBLA Kaindorf) CPUs 28. November 2011 1 / 9 Begriffe CPU Zentraleinheit (Central Processing Unit) bestehend aus Rechenwerk,

Mehr

Grundlagen der Rechnerarchitektur

Grundlagen der Rechnerarchitektur Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie

Mehr

CLAIX Vorstellung und Technik Christian Terboven

CLAIX Vorstellung und Technik Christian Terboven CLAIX Vorstellung und Technik Christian Terboven Inhalte CLAIX Phase I Zwei Rack-Reihen + 2 Schränke Testbetrieb mit Projekten seit November 2016 Trier-2 HPC-System Abnahme im Januar 2017 TOP500 im November

Mehr

Protokollgraph. Host 1. Host 2. Protokoll 2. Protokoll 1. Protokoll 3. Protokoll 4. Grundlagen der Rechnernetze Einführung 46

Protokollgraph. Host 1. Host 2. Protokoll 2. Protokoll 1. Protokoll 3. Protokoll 4. Grundlagen der Rechnernetze Einführung 46 Protokollgraph Host 1 Host 2 Protokoll 1 Protokoll 2 Protokoll 1 Protokoll 2 Protokoll 3 Protokoll 3 Protokoll 4 Protokoll 4 Grundlagen der Rechnernetze Einführung 46 Nachrichtenkapselung Host 1 Anwendung

Mehr

Hardware-Architekturen

Hardware-Architekturen Kapitel 3 Hardware-Architekturen Hardware-Architekturen Architekturkategorien Mehrprozessorsysteme Begriffsbildungen g Verbindungsnetze Cluster, Constellation, Grid Abgrenzungen Beispiele 1 Fragestellungen

Mehr

Verteilte Systeme. Protokolle. by B. Plattner & T. Walter (1999) Protokolle-1. Institut für Technische Informatik und Kommunikationsnetze

Verteilte Systeme. Protokolle. by B. Plattner & T. Walter (1999) Protokolle-1. Institut für Technische Informatik und Kommunikationsnetze Protokolle Protokolle-1 Kommunikationssubsystem Ein System, welches innerhalb eines verteilten Systems für den Nachrichtentransport zwischen Kommunikationspartnern (= Prozesse) zuständig ist (Hardware

Mehr

Technische Grundlagen der Informatik 2 SS Einleitung. R. Hoffmann FG Rechnerarchitektur Technische Universität Darmstadt E-1

Technische Grundlagen der Informatik 2 SS Einleitung. R. Hoffmann FG Rechnerarchitektur Technische Universität Darmstadt E-1 E-1 Technische Grundlagen der Informatik 2 SS 2009 Einleitung R. Hoffmann FG Rechnerarchitektur Technische Universität Darmstadt Lernziel E-2 Verstehen lernen, wie ein Rechner auf der Mikroarchitektur-Ebene

Mehr

Übungsblatt 4. (Router, Layer-3-Switch, Gateway) Aufgabe 2 (Kollisionsdomäne, Broadcast- Domäne)

Übungsblatt 4. (Router, Layer-3-Switch, Gateway) Aufgabe 2 (Kollisionsdomäne, Broadcast- Domäne) Übungsblatt 4 Aufgabe 1 (Router, Layer-3-Switch, Gateway) 1. Welchen Zweck haben Router in Computernetzen? (Erklären Sie auch den Unterschied zu Layer-3-Switches.) 2. Welchen Zweck haben Layer-3-Switches

Mehr

Infiniband Kopplung Heidelberg Mannheim

Infiniband Kopplung Heidelberg Mannheim Infiniband Kopplung Heidelberg Mannheim Tests aktueller Komponenten und Pläne für den Ausbau S. Richling, S. Friedel (Universität Heidelberg) S. Hau, H. Kredel (Universität Mannheim) Förderträger: www.bwhpc-c5.de

Mehr

Fakultät Informatik Institut für Technische Informatik NETWORK ON CHIP. Architekturen, Herausforderungen, Lösungen. Thomas Frank

Fakultät Informatik Institut für Technische Informatik NETWORK ON CHIP. Architekturen, Herausforderungen, Lösungen. Thomas Frank Fakultät Informatik Institut für Technische Informatik NETWORK ON CHIP Architekturen, Herausforderungen, Lösungen Thomas Frank Dresden, 24.05.2011 Inhalt 1. Einleitung 2. Architektur 3. NoC Bespiele 4.

Mehr

Architektur von Parallelrechnern 50

Architektur von Parallelrechnern 50 Architektur von Parallelrechnern 50 Rechenintensive parallele Anwendungen können nicht sinnvoll ohne Kenntnis der zugrundeliegenden Architektur erstellt werden. Deswegen ist die Wahl einer geeigneten Architektur

Mehr

Seminar Cluster Interconnects. Infiniband. Holger Fröning Lehrstuhl für Rechnerarchitektur Universität Mannheim

Seminar Cluster Interconnects. Infiniband. Holger Fröning Lehrstuhl für Rechnerarchitektur Universität Mannheim Seminar Cluster Interconnects Infiniband Holger Fröning Lehrstuhl für Rechnerarchitektur Universität Mannheim 22.11.2000 Motivation - I/O Subsystem Evolution PCI: 1993 (Peripheral Component Interconnect)

Mehr

Leistungsanalyse von Rechnersystemen

Leistungsanalyse von Rechnersystemen Zentrum für Informationsdienste und Hochleistungsrechnen (ZIH) Leistungsanalyse von Rechnersystemen Auf Ein-/Ausgabe spezialisierte Benchmarks Zellescher Weg 12 Willers-Bau A109 Tel. +49 351-463 - 32424

Mehr

Eine kurze Einführung in Rechnerarchitektur und Programmierung von Hochleistungsrechnern als zentrales Werkzeug in der Simulation

Eine kurze Einführung in Rechnerarchitektur und Programmierung von Hochleistungsrechnern als zentrales Werkzeug in der Simulation Eine kurze Einführung in Rechnerarchitektur und Programmierung von Hochleistungsrechnern als zentrales Werkzeug in der Simulation Dr. Jan Eitzinger Regionales Rechenzentrum (RRZE) der Universität Erlangen-Nürnberg

Mehr