Parallele Rechnerarchitektur II
|
|
- Hansi Goldschmidt
- vor 5 Jahren
- Abrufe
Transkript
1 Parallele Rechnerarchitektur II Stefan Lang Interdisziplinäres Zentrum für Wissenschaftliches Rechnen Universität Heidelberg INF 368, Raum 532 D-692 Heidelberg phone: 622/ WS /2 Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 / 37
2 Parallele Rechnerarchitektur II Multiprozessor Architekturen Nachrichtenaustausch Netzwerktopologien Architekturbeispiele Routing TOP 5 TOP2 Architekturen Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 2 / 37
3 Kommunikationsarchitekturen Speicher Speicher Speicher CPU CPU CPU CPU CPU CPU Speicher Speicher Speicher Verbindungsnetzwerk (a) verteilte Speicherorganisation, lokaler Adressraum Verbindungsnetzwerk (b) verteilte Speicherorganisation, globaleradressraum CPU CPU CPU CPU CPU CPU Verbindungsnetzwerk Verbindungsnetzwerk Speicher Speicher (c) zentrale Speicherorganisation, (d) zentrale Speicherorganisation, lokaler Adressraum globaleradressraum architecture types distinguished by memory organization Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 3 / 37
4 Einteilung von MIMD-Architekturen physische Speicheranordnung gemeinsamer Speicher verteiler Speicher Adressraum global lokal Programmiermodell gemeinsamer Adressraum Nachrichtenaustausch Kommunikationsstruktur Speicherkopplung Nachrichtenkopplung Synchronisation Semaphore Barriers Latenzbehandlung Latenz verstecken Latenz minimieren Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 4 / 37
5 Distributed Memory: MP P C M P C M Verbindungsnetzwerk VN Multiprozessoren haben einen lokalen Adressraum: Jeder Prozessor kann nur auf seinen Speicher zugreifen. Interaktion mit anderen Prozessoren ausschließlich über das Senden von Nachrichten. Prozessoren, Speicher und Cache sind Standardkomponenten: Volle Ausnutzung des Preisvorteils durch hohe Stückzahlen. Verbindungsnetzwerk von Fast Ethernet bis Myrinet. Ansatz mit der höchsten Skalierbarkeit: IBM BlueGene > K Prozessoren Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 5 / 37
6 Distributed Memory: Message Passing Prozeße kommunizieren Daten zwischen verteilten Adreßräumen expliziter Nachrichenaustausch notwendig Sende-/Empfangsoperationen Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 6 / 37
7 Eine generische Parallelrechnerarchitektur Rechenknoten Rechenknoten CPU MEM MEM CPU I/O NI Verbindungsnetzwerk NI I/O R Daten- R I/O Knoten R leitungen R Rechenknoten I/O NI NI MEM I/O I/O I/O CPU Generischer Aufbau eines skalierbaren Parallelrechners mit verteiltem Speicher Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 7 / 37
8 Skalierbarkeit: Parameter Parameter, welche die Skalierbarkeit eines Systems bestimmen: Bandbreite [MB/s] Latenzzeit [µs] Kosten [$] Physische Größe [m 2,m 3 ] Eine skalierbare Architektur sollte harte Grenzen vermeiden! Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 8 / 37
9 Einfluß von Parallelen Architekturen? from Culler, Singh, Gupta: Parallel Computer Architecture Eine skalierbare Architekture ist Voraussetzung für skalierbares Rechnen Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 9 / 37
10 Nachrichtenaustausch Speicherblock (variabler Länge) soll von einem Speicher zum anderen kopiert werden Genauer: Vom Adressraum eines Prozesses in den eines anderen (auf einem anderen Prozessor) Das Verbindungsnetzwerk ist paketorientiert. Jede Nachricht wird in Pakete fester Länge zerlegt (z. B. 32 Byte bis 4 KByte) Nachspann Nutzdaten Kopf Kopf: Zielprozessor, Nachspann: Prüfsumme Kommunikationsprotokoll: Bestätigung ob Paket (richtig) angekommen, Flusskontrolle Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 / 37
11 Nachrichtenaustausch Schichtenmodell (Hierarchie von Protokollen): Pi_i Pi_j Betriebssystem Betriebssystem Netzwerktreiber Netzwerktreiber Netzwerk interface Netzwerk interface Verbindungsnetzwerk Modell der Übertragungszeit: t mess (n) = t s + n t b. t s : setup-zeit (latency), t b : Zeit pro Byte, /t b : Bandbreite, abh. von Protokoll Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 / 37
12 Netzwerktopologien I (a) (b) (c) (d) (e) (a) full connected, (b) star, (c) array (d) hypercube, (e) torus, (f) folded torus (f) Hypercube: der Dimension d hat 2 d Prozessoren. Prozessor p ist mit q verbunden wenn sich deren Binärdarstellungen in genau einem Bit unterscheiden. Netzwerkknoten: Früher (vor 99) war das der Prozessor selbst, heute sind es dedizierte Kommunikationsprozessoren Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 2 / 37
13 Netzwerktopologien II Kennzahlen: Netzwerktopologie Knotengrad K Leitungsanzahl L Durchmesser D Bisektionsbandbreite B Symmetrie Volle Konnektivität N N(N (N/2) 2 Ja )/2 Stern N N 2 N/2 nein 2D-Gitter 4 2N 2 2( N N nein N ) 3D-Torus 6 3N 3 N/2 2 N ja Hypercube log 2 N nn log 2 N n N/2 ja k-ärer n-cube (N = k n ) 3N n k/2 nn 2k n ja Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 3 / 37
14 Store & Forward Routing Store-and-forward routing: Nachricht der Länge n wird in Pakete der Länge N zerlegt. Pipelining auf Paketebene: Paket wird aber vollständig im NK gespeichert M M NK NK NK2 NKd NKd Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 4 / 37
15 Store & Forward Routing Übertragung eines Paketes: Quelle Ziel Zeit Routing Routing Routing Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 5 / 37
16 Store & Forward Routing Laufzeit: ( n ) t SF (n, N, d) = t s + d(t h + Nt b )+ N (t h + Nt b ) ( = t s + t h d + n )+t N b (n+n(d )). t s : Zeit, die auf Quell und Zielrechner vergeht bis das Netzwerk mit der Nachrichenübertragung beauftragt wird, bzw. bis der empfangende Prozess benachrichtigt wird. Dies ist der Softwareanteil des Protokolls. t h : Zeit die benötigt wird um das erste Byte einer Nachricht von einem Netzwerkknoten zum anderen zu übertragen (engl. node latency, hop time). t b : Zeit für die Übertragung eines Byte von Netzwerkknoten zu Netzwerkknoten. d: Hops bis zum Ziel. Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 6 / 37
17 Cut-Through Routing Cut-through routing oder wormhole routing: Pakete werden nicht zwischengespeichert, jedes Wort (sog. flit) wird sofort an nächsten Netzwerkknoten weitergeleitet Übertragung eines Paketes: Quelle Ziel Routing Routing Routing Zeit 3 2 Laufzeit: t CT (n, N, d) = t s + t h d + t b n Zeit für kurze Nachricht (n = N): t CT = t s + dt h + Nt b. Wegen dt h t s (Hardware!) quasi entfernungsunabhängig Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 7 / 37
18 Deadlock In paketvermittelnden Netzwerken besteht die Gefahr des store-and-forward deadlock: D an A C an D an B A an C B Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 8 / 37
19 Deadlock Zusammen mit cut-through routing: Verklemmungsfreies dimension routing. Beispiel 2D-Gitter: Zerlege Netzwerk in +x, x, +y und y Netzwerke mit jeweils eigenen Puffern. Nachricht läuft erst in Zeile, dann in Spalte. Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 9 / 37
20 Multi-Processor Performance from Culler, Singh, Gupta: Parallel Computer Architecture Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 2 / 37
21 Message Passing Architectures I erste Machine mit parallelem Unix Intel Paragon: Prozeßmigration, Gangscheduling Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 2 / 37
22 Message Passing Architectures II IBM SP2: Rechenknoten sind RS 6 workstations Switching Netzwerk Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 22 / 37
23 Message Passing Architectures III hohe Packungsdichte ein systemweiter Taktgeber virtual shared memory Cray T3E: Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 23 / 37
24 Top5 Top5 Benchmark: LINPACK Benchmark wird zur Evaluation der Systeme verwendet Benchmarkleistung reflektiert nicht die Gesamtleistung des Systems Benchmark zeigt Performanz bei der Lösung von dichtbesetzten linearen GLS Sehr reguläres Problem: erzielte Leistung ist sehr hoch (nahe peak performance) Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 24 / 37
25 Top of Top5 Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 25 / 37
26 Top5 key facts alle Systeme haben mehrfache TeraFlop/s Leistung. Rechner (roadrunner) hat.26 PFlop/s in LINPACK benchmark. Rechner (roadrunner) ist der Energieeffizienteste der Liste Energieverbrauchsdurchschnitt von TOP ist.32 MW und 248 MFlops/W 5. Rechner hat 9. TFlop/s in LINPACK benchmark akkumulierte Leistung ist.7 PFlop/s (4.92 PFlop/s) TOP Mindestleistung 2.97 TFlop/s (9.29 TFlop/s) 4 (8%) Systeme sind Cluster, Rest MPP Prozessortyp: Intel Harpertown 375, IBM Power 68, AMD Opteron 56 Quad core vorwiegende Chip Architektur (56%) InfiniBand Technologie in 2 Systemen Skalarprozessor 95.8%, Vectorprozessor 4.2% Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 26 / 37
27 Top5 Country + Processor Count Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 27 / 37
28 Top5 Processor + Interconnect Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 28 / 37
29 IBM Blue Gene/L Architecture Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 29 / 37
30 IBM Blue Gene/L Specification 367 teraflop/s (in symmetric mode) 84 teraflop/s (in communications co-processor mode)...peak computational rate 6 TB (6 2 4 bytes)...aggregate memory 4 TB (4 2 bytes)...aggregate global disk 4 GB/s (4 9 bytes/second)...delivered I/O bandwidth to applications,24 x -Gb/s Ethernet (in 9 bits/second)...external networking 65,536 (3,72)...Number of nodes (processors) 256 MB ( bytes)...memory per node Dual PowerPC 44...Microprocessor technology 2 MW (2 6 Watts)...Power required for computer and cooling >4,5, BTU/hr...Heat generated >5,...Cables in the machine >2 miles...aggregate cable length Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 3 / 37
31 IBM Blue Gene/L Networks Knoten verbunden über drei integrierte Netzwerke 3 Dimensional Torus Virtual cut-through hardware routing to maximize efficiency 2.8 Gb/s on all 2 node links (total of 4.2 GB/s per node) Communication backbone 34 TB/s total torus interconnect bandwidth Global Tree One-to-all or all-all broadcast functionality Arithmetic operations implemented in tree ~.4 GB/s of bandwidth from any node to all other nodes Latency of tree traversal less than usec Ethernet Incorporated into every node ASIC Disk I/O Host control, booting and diagnostics Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 3 / 37
32 Cray RedStorm Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 32 / 37
33 Cray RedStorm Configuration Normally Unclassified Switchable Nodes Normally Classified Disconnect Cabinets Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 33 / 37
34 Cray RedStorm Building Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 34 / 37
35 Cray RedStorm Compute Node DRAM (or 2) Gbyte or more ASIC = Application Specific Integrated Circuit, or a custom chip CPUs AMD Opteron ASIC NIC + Router Six Links To Other Nodes in X, Y, and Z Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 35 / 37
36 Cray RedStorm Cabinet Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 36 / 37
37 Blue Gene L vs Red Storm BGL 36 TF version, Red Storm TF version Blue Gene L Red Storm Node speed 5.6 GF 5.6 GF (x) Node memory GB 2 (-8 GB) (4x) Network latency 7 us 2 us (2/7x) Network link bw.28 GB/s 6. GB/s (22x) BW Bytes/Flops.5. (22x) Bi-Section B/F.6.38 (24x) #nodes/problem 4,, (/4x) Stefan Lang (IWR) Simulation auf Höchstleistungsrechnern WS /2 37 / 37
Distributed Memory Computer (DMC)
Distributed Memory Computer (DMC) verteilter Speicher: jeder Prozessor kann nur auf seinen lokalen Speicher zugreifen Kopplung mehrerer Prozessoren über E/A-Schnittstellen und Verbindungsnetzwerk, nicht
MehrKapitel 5. Parallelverarbeitung. Formen der Parallelität
Kapitel 5 Parallelverarbeitung é Formen der Parallelität é Klassifikation von parallelen Rechnerarchitekturen é Exkurs über Verbindungsstrukturen Bernd Becker Technische Informatik I Formen der Parallelität
MehrSymmetrischer Multiprozessor (SMP)
Symmetrischer Multiprozessor (SMP) Motivation: ein globaler Adressraum für mehrere Prozesse P i Prozesse P i haben gemeinsame Daten ( shared variables ) private Daten ( private variables ) gemeinsamen
MehrBlueGene. Seminarvortrag WS 2004/05 Sven Kapferer Lehrstuhl für Rechnerarchitektur Universität Mannheim
BlueGene Seminarvortrag WS 2004/05 Sven Kapferer Lehrstuhl für Rechnerarchitektur Universität Mannheim Gliederung Einführung Motivation Vergleich mit anderen Architekturen Architektur des BlueGene Hierarchische
MehrParallelrechner (1) Anwendungen: Simulation von komplexen physikalischen oder biochemischen Vorgängen Entwurfsunterstützung virtuelle Realität
Parallelrechner (1) Motivation: Bedarf für immer leistungsfähigere Rechner Leistungssteigerung eines einzelnen Rechners hat physikalische Grenzen: Geschwindigkeit von Materie Wärmeableitung Transistorgröße
MehrSupercomputer Blue Gene/L
FH Giessen Friedberg Supercomputer Blue Gene/L Sven Wagner Übersicht Einführung Supercomputer Begriffe Geschichte TOP500 Anwendung 2 Übersicht Blue Gene/L Historie Architektur & Packaging ASIC Netzwerk
MehrMehrprozessorarchitekturen
Mehrprozessorarchitekturen (SMP, UMA/NUMA, Cluster) Arian Bär 12.07.2004 12.07.2004 Arian Bär 1 Gliederung 1. Einleitung 2. Symmetrische Multiprozessoren (SMP) Allgemeines Architektur 3. Speicherarchitekturen
MehrRechnerarchitektur. Beispielarchitekturen: IBM BlueGene
12 Rechnerarchitektur Sommersemester 2015 Beispielarchitekturen: IBM BlueGene Michael Engel Informatik 12 TU Dortmund 2015/07/14 IBM BlueGene Familie von Hochleistungsrechnern Massiv paralleles System
MehrRuprecht-Karls-Universität Heidelberg
Ruprecht-Karls-Universität Heidelberg PS: Themen der technischen Informatik Sommersemester 2013 Referentin: Hanna Khoury Betreuer: Prof. Dr. Ulrich Brüning, Dr. Frank Lemke Datum: 10.06.2014 1) Einige
MehrÜberblick. Einleitung. Befehlsschnittstelle Mikroarchitektur Speicherarchitektur Ein-/Ausgabe Multiprozessorsysteme,...
Überblick Einleitung Lit., Motivation, Geschichte, v.neumann- Modell, VHDL Befehlsschnittstelle Mikroarchitektur Speicherarchitektur Ein-/Ausgabe Multiprozessorsysteme,... Kap.6 Multiprozessorsysteme Einsatz
MehrArchitektur paralleler Plattformen
Architektur paralleler Plattformen Freie Universität Berlin Fachbereich Informatik Wintersemester 2012/2013 Proseminar Parallele Programmierung Mirco Semper, Marco Gester Datum: 31.10.12 Inhalt I. Überblick
MehrOutline. Cell Broadband Engine. Application Areas. The Cell
Outline 21.March 2006 Benjamin Keck Why Cell?!? Application Areas Architectural Overview Programming Model Programming on the PPE C/C++ Intrinsics 1 2 The Cell Supercomputer on a chip Multi-Core Microprocessor
MehrAusblick auf den HLRN III - die neue HPC Ressource für Norddeutschland
Ausblick auf den HLRN III - die neue HPC Ressource für Norddeutschland Holger Naundorf RRZN Leibniz Universität IT Services Schloßwender Straße 5 30159 Hannover naundorf@rrzn.uni-hannover.de 14. März 2013
MehrCell Broadband Engine
Cell Broadband Engine 21.March 2006 Benjamin Keck Outline Why Cell?!? Application Areas Architectural Overview SPU Programming Model Programming on the PPE C/C++ Intrinsics The Cell Supercomputer on a
Mehr2 Rechnerarchitekturen
2 Rechnerarchitekturen Rechnerarchitekturen Flynns Klassifikation Flynnsche Klassifikation (Flynn sche Taxonomie) 1966 entwickelt, einfaches Modell, bis heute genutzt Beschränkung der Beschreibung auf
Mehrmoderne Prozessoren Jan Krüger jkrueger@techfak.uni-bielefeld.de
moderne Prozessoren Jan Krüger jkrueger@techfak.uni-bielefeld.de Übersicht FachChinesisch SPARC - UltraSparc III/IV PowerPC - PowerPC 970(G5) X86 - Pentium4(Xeon), Itanium, (Pentium M) X86 - AthlonXP/MP,
Mehr-0 FDDI-Anschluß. m 256MB. m 512 MB Memory. Parallelrechner IBM SP. HRZ Uni Marburg. Frame 2. Frame 3. Frame 1. Ethernet mit allen Knoten
HRZ Uni Marburg Parallelrechner IBM SP Ethernet mit allen Knoten 3 externe SSADisks 12 * 4.5 GB Parallele Filesysteme 8 * 4.5 GB Benutzer- Filesysteme SP Switch SP Switch SP Switch ~ 128MB m 256MB m 512
MehrUBERBLICK ZU NETWORKS-ON-CHIP:
Fakultät Informatik Institut für Technische Informatik UBERBLICK ZU NETWORKS-ON-CHIP: Architekturen, Herausforderungen und Lösungen Jan Hoyer Dresden, 7.7.2010 Gliederung Motivation Network-on-Chip Herausforderungen
MehrIntroduction Workshop 11th 12th November 2013
Introduction Workshop 11th 12th November 2013 Lecture I: Hardware and Applications Dr. Andreas Wolf Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum Overview Current and next System Hardware Sections
Mehr2.5. VERBINDUNGSNETZWERKE GESTALTUNGSKRITERIEN DER NETZWERKE TOPOLOGIE ALS GRAPH. Vorlesung 5 TOPOLOGIE: DEFINITIONEN : Sei G = (V, E) ein Graph mit:
Vorlesung 5.5. VERBINDUNGSNETZWERKE Kommunikation zwischen den einzelnen Komponenten eines arallelrechners wird i.d.r. über ein Netzwerk organisiert. Dabei unterscheidet man zwei Klassen der Rechner: TOOLOGIE:
MehrToken Coherence. Background
Token Coherence Architecture of Parallel Computer Systems WS15/16 J.Simon 1 Background single-writer or many-readers cache coherence invariant Invalidation based Protocol is a distributed algorithm of
MehrTowards Modular Supercomputing with Slurm
Towards Modular Supercomputing with Slurm 2017-09-25 Dorian Krause et al., Jülich Supercomputing Centre, Forschungszentrum Jülich Dual-Architecture Supercomputing Facility IBM Power 4+ JUMP, 9 TFlop/s
MehrNeue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP)
Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP) @wefinet Werner Fischer, Thomas-Krenn.AG Webinar, 17. Oktober 2017 Intel Xeon Scalable Performance _ Das ist NEU: Neue
MehrWeitere Verbesserungen
Weitere Verbesserungen Welcher Cache liefert aktuellen Block falls mehrere Caches Block im Zustand S halten? Lösung: Einführung eines weiteren Zustands O (Owner) Zustand O besagt: Eigentümer des Blocks
MehrHPC an der Uni Mainz
Einwicklung vom ersten Top500 Rechner bis zum AHRP HPC - AHRP - ZKI Markus Tacke, ZDV, Universität Mainz AK Supercomputer Kaiserslautern 19.4.2012 ZDV: CC NUMA 1.1.1995: Convex SPP1000/16 16 PA Risc 7100
MehrQuiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset.
Quiz Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset 32 Bit Adresse 31 3 29... 2 1 SS 212 Grundlagen der Rechnerarchitektur
MehrStrukturelemente von Parallelrechnern
Strukturelemente von Parallelrechnern Parallelrechner besteht aus einer Menge von Verarbeitungselementen, die in einer koordinierten Weise, teilweise zeitgleich, zusammenarbeiten, um eine Aufgabe zu lösen
MehrRechnernetze I. Rechnernetze I. 1 Einführung SS Universität Siegen Tel.: 0271/ , Büro: H-B 8404
Rechnernetze I SS 2012 Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, Büro: H-B 8404 Stand: 20. April 2012 Betriebssysteme / verteilte Systeme Rechnernetze I (1/12) i Rechnernetze
MehrProtected User-Level DMA in SCI Shared Memory Umgebungen
Protected User-Level DMA in SCI Shared Memory Umgebungen Mario Trams University of Technology Chemnitz, Chair of Computer Architecture 6. Halle Chemnitz Seminar zu Parallelverarbeitung und Programmiersprachen
MehrTrend der letzten Jahre in der Parallelrechentechnik
4.1 Einführung Trend der letzten 10-15 Jahre in der Parallelrechentechnik weg von den spezialisierten Superrechner-Plattformen hin zu kostengünstigeren Allzwecksystemen, die aus lose gekoppelten einzelnen
MehrProseminar Rechnerarchitekturen. Parallelcomputer: Multiprozessorsysteme
wwwnet-texde Proseminar Rechnerarchitekturen Parallelcomputer: Multiprozessorsysteme Stefan Schumacher, , PGP Key http://wwwnet-texde/uni Id: mps-folientex,v
MehrGregor Michalicek, Marcus Schüler. Multiprozessoren
Gregor Michalicek, Marcus Schüler Gregor Michalicek Marcus Schüler Gregor Michalicek, Marcus Schüler Vorteile gegenüber Singleprozessoren ¾ sind zuverlässiger. Einige Multiprozessorsysteme können trotz
MehrParadigmenwechsel: Von der Rechner-zentrierten zur Informationszentrierten DV Skalierbarkeit: Erweiterung von Ressourcen ohne Erhöhung der
Sun: HPC mit Zukunft Wolfgang Kroj Vertriebsleiter Enterprise Business & Storage Sun Microsystems GmbH Tel.: +49-89-46008-589, Fax: +49-89-46008-590 Email: wolfgang.kroj@germany.sun.com Network Computing
MehrParallelrechner: Klassifikation. Parallelrechner: Motivation. Parallelrechner: Literatur. Parallelrechner: PC-Technologie SMP-Multiprozessorsysteme 69
Parallelrechner: Motivation immer höhere Performance gefordert => schnellere Einzelprozessoren aber Takte oberhalb von 10 GHz unrealistisch => mehrere Prozessoren diverse Architekturkonzepte shared-memory
MehrRechnernetze I SS Universität Siegen Tel.: 0271/ , Büro: H-B Stand: 25.
Rechnernetze I SS 2012 Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, Büro: H-B 8404 Stand: 25. April 2014 Betriebssysteme / verteilte Systeme Rechnernetze I (1/12) i Rechnernetze
MehrDer Front Side Bus ist eine Schnittstelle zwischen dem Hauptprozessor (CPU) und der
Die CPU eines PC kommuniziert mit den anderen Bestandteilen des Systems über den Chipsatz. Die direkt mit der CPU verbundene Komponente des Chipsatzes wird als Northbridge bezeichnet. An die Northbridge
MehrN Bit Binärzahlen. Stelle: Binär-Digit:
N Bit Binärzahlen N Bit Binärzahlen, Beispiel 16 Bit: Stelle: 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 Binär-Digit: 0 0 1 0 1 0 0 1 1 1 0 0 1 0 0 0 Least Significant Bit (LSB) und Most Significant Bit (MSB)
MehrComputational Biology: Bioelektromagnetismus und Biomechanik
Computational Biology: Bioelektromagnetismus und Biomechanik Implementierung Gliederung Wiederholung: Biomechanik III Statische Elastomechanik Finite Elemente Diskretisierung Finite Differenzen Diskretisierung
MehrOrientierungsveranstaltungen 2009 Informatikstudien der Universität Wien
Orientierungsveranstaltungen 2009 Informatikstudien der Universität Wien Scientific Computing 07. Oktober 2009 Siegfried Benkner Wilfried Gansterer Fakultät für Informatik Universität Wien www.cs.univie.ac.at
MehrFlattend Butterfly. Dragonfly
Flattend Butterfly 2-ary 4-fly 2-ary 4-flat 4-ary 2-fly 4-ary 2-flat Pro O(log n) weniger Schalter konstanter Durchmesser Cons Grad k+o(log n) J. Simon - Architecture of Parallel Computer Systems SoSe
MehrVerteidigung der Bachelorarbeit, Willi Mentzel
Verteidigung der Bachelorarbeit, Willi Mentzel Motivation U.S. Energy Consumption Breakdown 3x Durchschnittliche Leistungsaufnahme 114 Millionen kw Hohes Optimierungspotential 2 Ziele für Energieoptimierung
MehrExample: IBM POWER Processor
Example: IBM POWER Processor Source: IBM J. Simon - Architecture of Parallel Computer Systems SoSe 2018 < 1 > IBM Power Supercomputer Quelle: IBM J. Simon - Architecture of Parallel Computer Systems SoSe
MehrHochleistungsrechnen in Darmstadt: Der Lichtenberg- Hochleistungsrechner. Dr. Andreas Wolf. Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum
Hochleistungsrechnen in Darmstadt: Der Lichtenberg- Hochleistungsrechner Dr. Andreas Wolf Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum Überblick Randbedingungen der HPC Beschaffung an der
MehrDOAG Konferenz 2007 in Nürnberg
DOAG Konferenz 2007 in Nürnberg Auswahl und Sizing: Die richtige Hardware (+Software) für Oracle Björn Bröhl Projektmanager Handlungsbevollmächtigter Seite 1 Inhalt Die Zielsetzung Vorgehensweise Auswahl
MehrCache Grundlagen. Schreibender Cache Zugriff. SS 2012 Grundlagen der Rechnerarchitektur Speicher 22
Cache Grundlagen Schreibender Cache Zugriff SS 212 Grundlagen der Rechnerarchitektur Speicher 22 Eine einfache Strategie Schreibt man nur in den Cache, werden Cache und darunter liegender Speicher inkonsistent.
MehrHLRN III - HPC Ressource für Norddeutschland
HLRN III - HPC Ressource für Norddeutschland Holger Naundorf RRZN Leibniz Universität IT Services Schloßwender Straße 5 30159 Hannover naundorf@rrzn.uni-hannover.de 23. September 2014 Inhalt Der HLRN Verbund
MehrDer neue Hessische Hochleistungsrechner HHLR
Der neue Hessische Hochleistungsrechner HHLR Erste Erfahrungen Norbert Conrad, conrad@hrz.tu-darmstadt.de ZKIHessen 26.8.2002 1 Darmstädter Hochleistungsrechner 1987: IBM 3090 VF ( 2 x 0,12 GFLOPS Vektor
MehrHigh Performance Embedded Processors
High Performance Embedded Processors Matthias Schwarz Hardware-Software-Co-Design Universität Erlangen-Nürnberg martin.rustler@e-technik.stud.uni-erlangen.de matthias.schwarz@e-technik.stud.uni-erlangen.de
MehrSysteme 1: Architektur
slide 1 Vorlesung Systeme 1: Architektur Prof. Dr. Ulrich Ultes-Nitsche Forschungsgruppe Departement für Informatik Universität Freiburg slide 2 Prüfung 18. Februar 2004 8h00-11h40 13h00-18h20 20 Minuten
MehrProjektseminar Parallele Programmierung
HTW Dresden WS 2014/2015 Organisatorisches Praktikum, 4 SWS Do. 15:00-18:20 Uhr, Z136c, 2 Doppelstunden o.g. Termin ist als Treffpunkt zu verstehen Labore Z 136c / Z 355 sind Montag und Donnerstag 15:00-18:20
Mehr1. Die Organisation von RISC-Prozessoren 2
1. Die Organisation von RISC-Prozessoren 2 1.1. Superskalarität 3 1.2. Parallelverarbeitung 4 1.2.1 Multi Core- und Many Core-CPUs 10 1.2.2 Automatische Parallelisierung im Instruction Window 11 1.3. Dynamische
Mehr2.7. REALE PARALLELRECHNER UND DIE TOP500-LISTE
Vorlesung 9 2.7. EALE PAALLELECHNE UND DIE TOP500-LISTE c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 1 Vorlesung 9 2.7. EALE PAALLELECHNE UND DIE TOP500-LISTE Flynn sche Klassifikation
MehrVorlesung Hochleistungsrechnen - SS Thomas Ludwig 1
Vorlesung Hochleistungsrechnen - SS 2010 - Thomas Ludwig 1 Vorlesung Hochleistungsrechnen - SS 2010 - Thomas Ludwig 2 Vorlesung Hochleistungsrechnen - SS 2010 - Thomas Ludwig 3 Siehe: http://en.wikipedia.org/wiki/amdahl%27s_law
MehrNeues in Hyper-V Version 2
Michael Korp Technical Evangelist Microsoft Deutschland GmbH http://blogs.technet.com/mkorp Neues in Hyper-V Version 2 - Virtualisieren auf die moderne Art - Windows Server 2008 R2 Hyper-V Robust Basis:
MehrLOEWE-CSC and it s data center
ECO@ LOEWE-CSC LOEWE-CSC and it s data center Volker Lindenstruth FIAS, IfI, LOEWE Professur Chair of HPC Architecture University Frankfurt, Germany Phone: +49 69 798 44101 Fax: +49 69 798 44109 Email:
MehrVerteilte Betriebssysteme
Verteiltes System Eine Sammlung unabhängiger Rechner, die dem Benutzer den Eindruck vermitteln, es handle sich um ein einziges System. Verteiltes Betriebssystem Betriebssystem für verteilte Systeme Verwaltet
MehrPatagonia - Ein Mehrbenutzer-Cluster für Forschung und Lehre
Patagonia - Ein Mehrbenutzer-Cluster für Forschung und Lehre Felix Rauch Christian Kurmann, Blanca Maria Müller-Lagunez, Thomas M. Stricker Institut für Computersysteme ETH Zürich Eidgenössische Technische
MehrErfahrungen bei der Installation und vergleichende Messungen zu verschiedenen MPI Implementierungen auf einem Dual Xeon Cluster
Erfahrungen bei der Installation und vergleichende Messungen zu verschiedenen MPI Implementierungen auf einem Dual Xeon Cluster Sven Trautmann Technische Universität Chemnitz svtr@informatik.tu-chemnitz.de
MehrRechnernetze I SS Universität Siegen Tel.: 0271/ , Büro: H-B Stand: 21.
Rechnernetze I SS 2016 Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, Büro: H-B 8404 Stand: 21. April 2016 Betriebssysteme / verteilte Systeme Rechnernetze I (1/13) i Rechnernetze
MehrNetzwerke Teil 2. Dr. Victor Pankratius David J. Meder. IPD Tichy Lehrstuhl für Programmiersysteme
Netzwerke Teil 2 Dr. Victor Pankratius David J. Meder IPD Tichy Lehrstuhl für Programmiersysteme KIT die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH) Vorlesung Rechnerbündel
MehrGrundlagen der Rechnerarchitektur. Speicher
Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie
MehrOpenCL. Programmiersprachen im Multicore-Zeitalter. Tim Wiersdörfer
OpenCL Programmiersprachen im Multicore-Zeitalter Tim Wiersdörfer Inhaltsverzeichnis 1. Was ist OpenCL 2. Entwicklung von OpenCL 3. OpenCL Modelle 1. Plattform-Modell 2. Ausführungs-Modell 3. Speicher-Modell
MehrHORUS. Seminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HWS Martin Scherer
HORUS Seminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HWS 2006 Martin Scherer Horus Inhalt 1 Einführung 2 Cachekohärenz 3 ExtendiScale Architektur 4 Übertragungsbeispiele 5 Performance Erweiterungen
MehrANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS. Sascha Kath
ANALYSE DER LATENZEN IM KOMMUNIKATIONSSTACK EINES PCIE-GEKOPPELTEN FPGA-BESCHLEUNIGERS Sascha Kath Dresden, Gliederung 1. Motivation & Zielstellung 2. Systembeschreibung 3. Implementierung und Messungen
MehrRückschlüsse durch Host- Performance-Daten auf das Datenbankverhalten. DOAG Regio Karlsruhe 13. Juni 2013
Rückschlüsse durch Host- Performance-Daten auf das Datenbankverhalten DOAG Regio Karlsruhe 13. Juni 2013 Herrmann & Lenz Services GmbH Herrmann & Lenz Solutions GmbH Erfolgreich seit 1996 am Markt Firmensitz:
MehrVirtueller Speicher und Memory Management
Virtueller Speicher und Memory Management Speicher-Paradigmen Programmierer ein großer Adressraum linear adressierbar Betriebssystem eine Menge laufender Tasks / Prozesse read-only Instruktionen read-write
MehrVorlesung "Verteilte Systeme" Sommersemester Verteilte Systeme. Empfänger Kommunikationssystem. Netzwerk
Verteilte Systeme 1. Netzwerke Grundstruktur Sender Empfänger Kommunikationssystem Empfänger Systemsoftware Systemsoftware Hardware Hardware Netzwerk Verteilte Systeme, Sommersemester 1999 Folie 1.2 (c)
MehrKingston Technology WHD. November 30, 2012. Andreas Scholz, BDM Integration und Server D-A
Kingston Technology WHD Andreas Scholz, BDM Integration und Server D-A November 30, 2012 Agenda Trends Speicher Konfigurationen Warum KingstonConsult? KingstonConsult Speicher Bandbreite: balanced vs.
MehrBeispiel Parallelisierung 2D Laplace. Lagrange Formulierung/Hyperelastisches Material. Finite Differenzen Diskretisierung
Simulation von physikalischen Feldern im menschlichen Körper Implementierung Gliederung Gliederung Wiederholung: Biomechanik III Statische elastomechanische Probleme Finite Elemente Diskretisierung Finite
MehrÜbungsblatt 4. (Router, Layer-3-Switch, Gateway) Aufgabe 2 (Kollisionsdomäne, Broadcast- Domäne)
Übungsblatt 4 Aufgabe 1 (Router, Layer-3-Switch, Gateway) 1. Welchen Zweck haben Router in Computernetzen? (Erklären Sie auch den Unterschied zu Layer-3-Switches.) 2. Welchen Zweck haben Layer-3-Switches
MehrFoliensatz. Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen
Foliensatz Center for Information Services and High Performance Computing (ZIH) Theorie und Einsatz von Verbindungseinrichtungen in parallelen Rechnersystemen Hochgeschwindigkeitskommunikationen 13. Juli
MehrOracle Real Application Cluster
Oracle Real Application Cluster Björn Bröhl OPITZ CONSULTING Gummersbach GmbH Seite 1 Übersicht Die RAC Architektur RAC Komponenten (Hard- und Software) Oracle Cluster Filesystem vs. Oracle Automatic Storage
MehrDevice Treiber für FlexPath- Netzwerkprozessoren
Device Treiber für FlexPath- Netzwerkprozessoren Michael Meitinger Rainer Ohlendorf Dr. Thomas Wild Prof. Dr. Andreas Herkersdorf 1 Übersicht Übersicht FlexPath Einsatz von Device Treibern in der FlexPath
MehrStudie zum Einsatz eines Network-on-a-Chip für eine Many-Core- Java-Bytecode-Architektur
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Belegverteidigung Studie zum Einsatz eines Network-on-a-Chip für eine Many-Core- Java-
MehrRechnerarchitektur. Vorlesungsbegleitende Unterlagen WS 2003/2004. Klaus Waldschmidt
Rechnerarchitektur Vorlesungsbegleitende Unterlagen WS 2003/2004 Klaus Waldschmidt Teil 17 Parallelarchitekturen Seite 1 Klassifikation nach Flynn (1972) SISD (single instruction, single data stream) Rechner
MehrEinführung in parallele Dateisysteme am Beispiel von GPFS. Proseminar von Jakob Schmid im SS 2014
Einführung in parallele Dateisysteme am Beispiel von GPFS Proseminar von Jakob Schmid im SS 2014 Gliederung Definition Anwendungsgebiete Anforderungen Beispiel: General Parallel File System (GPFS) Zusammenfassung
MehrInternet Modell. Nothing stated. Bildquelle: Andrew S. Tanenbaum, Computer Networks, Fourth Edition, 2003 Grundlagen der Rechnernetze Einführung 50
Internet Modell Nothing stated by TCP/IP model Bildquelle: Andrew S. Tanenbaum, Computer Networks, Fourth Edition, 2003 Grundlagen der Rechnernetze Einführung 50 Internet Protokolle Bildquelle: Andrew
MehrHaifeng Liu Martin Seidel
Haifeng Liu Martin Seidel Wichtige Faktoren für den Energieverbrauch: WLAN Hardware Design Software- und Protokolldesign Power Management Power Control Hardware Interaktionen (NIC CPU) Treiber/CPU Interaktion
MehrMessbare Parameter von Netzwerken (1)
Messbare Parameter von Netzwerken (1) Minimale Latenzzeit Verzögerung einer Kommunikation Zeit zwischen Absenden und Ankunft des Packet-Headers Einheit: Zeit, meistens in µs Vorgehen bei Messung: Ping-Pong
MehrInhalt. Prozessoren. Curriculum Manfred Wilfling. 28. November HTBLA Kaindorf. M. Wilfling (HTBLA Kaindorf) CPUs 28. November / 9
Inhalt Curriculum 1.4.2 Manfred Wilfling HTBLA Kaindorf 28. November 2011 M. Wilfling (HTBLA Kaindorf) CPUs 28. November 2011 1 / 9 Begriffe CPU Zentraleinheit (Central Processing Unit) bestehend aus Rechenwerk,
MehrGrundlagen der Rechnerarchitektur
Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie
MehrCLAIX Vorstellung und Technik Christian Terboven
CLAIX Vorstellung und Technik Christian Terboven Inhalte CLAIX Phase I Zwei Rack-Reihen + 2 Schränke Testbetrieb mit Projekten seit November 2016 Trier-2 HPC-System Abnahme im Januar 2017 TOP500 im November
MehrProtokollgraph. Host 1. Host 2. Protokoll 2. Protokoll 1. Protokoll 3. Protokoll 4. Grundlagen der Rechnernetze Einführung 46
Protokollgraph Host 1 Host 2 Protokoll 1 Protokoll 2 Protokoll 1 Protokoll 2 Protokoll 3 Protokoll 3 Protokoll 4 Protokoll 4 Grundlagen der Rechnernetze Einführung 46 Nachrichtenkapselung Host 1 Anwendung
MehrHardware-Architekturen
Kapitel 3 Hardware-Architekturen Hardware-Architekturen Architekturkategorien Mehrprozessorsysteme Begriffsbildungen g Verbindungsnetze Cluster, Constellation, Grid Abgrenzungen Beispiele 1 Fragestellungen
MehrVerteilte Systeme. Protokolle. by B. Plattner & T. Walter (1999) Protokolle-1. Institut für Technische Informatik und Kommunikationsnetze
Protokolle Protokolle-1 Kommunikationssubsystem Ein System, welches innerhalb eines verteilten Systems für den Nachrichtentransport zwischen Kommunikationspartnern (= Prozesse) zuständig ist (Hardware
MehrTechnische Grundlagen der Informatik 2 SS Einleitung. R. Hoffmann FG Rechnerarchitektur Technische Universität Darmstadt E-1
E-1 Technische Grundlagen der Informatik 2 SS 2009 Einleitung R. Hoffmann FG Rechnerarchitektur Technische Universität Darmstadt Lernziel E-2 Verstehen lernen, wie ein Rechner auf der Mikroarchitektur-Ebene
MehrÜbungsblatt 4. (Router, Layer-3-Switch, Gateway) Aufgabe 2 (Kollisionsdomäne, Broadcast- Domäne)
Übungsblatt 4 Aufgabe 1 (Router, Layer-3-Switch, Gateway) 1. Welchen Zweck haben Router in Computernetzen? (Erklären Sie auch den Unterschied zu Layer-3-Switches.) 2. Welchen Zweck haben Layer-3-Switches
MehrInfiniband Kopplung Heidelberg Mannheim
Infiniband Kopplung Heidelberg Mannheim Tests aktueller Komponenten und Pläne für den Ausbau S. Richling, S. Friedel (Universität Heidelberg) S. Hau, H. Kredel (Universität Mannheim) Förderträger: www.bwhpc-c5.de
MehrFakultät Informatik Institut für Technische Informatik NETWORK ON CHIP. Architekturen, Herausforderungen, Lösungen. Thomas Frank
Fakultät Informatik Institut für Technische Informatik NETWORK ON CHIP Architekturen, Herausforderungen, Lösungen Thomas Frank Dresden, 24.05.2011 Inhalt 1. Einleitung 2. Architektur 3. NoC Bespiele 4.
MehrArchitektur von Parallelrechnern 50
Architektur von Parallelrechnern 50 Rechenintensive parallele Anwendungen können nicht sinnvoll ohne Kenntnis der zugrundeliegenden Architektur erstellt werden. Deswegen ist die Wahl einer geeigneten Architektur
MehrSeminar Cluster Interconnects. Infiniband. Holger Fröning Lehrstuhl für Rechnerarchitektur Universität Mannheim
Seminar Cluster Interconnects Infiniband Holger Fröning Lehrstuhl für Rechnerarchitektur Universität Mannheim 22.11.2000 Motivation - I/O Subsystem Evolution PCI: 1993 (Peripheral Component Interconnect)
MehrLeistungsanalyse von Rechnersystemen
Zentrum für Informationsdienste und Hochleistungsrechnen (ZIH) Leistungsanalyse von Rechnersystemen Auf Ein-/Ausgabe spezialisierte Benchmarks Zellescher Weg 12 Willers-Bau A109 Tel. +49 351-463 - 32424
MehrEine kurze Einführung in Rechnerarchitektur und Programmierung von Hochleistungsrechnern als zentrales Werkzeug in der Simulation
Eine kurze Einführung in Rechnerarchitektur und Programmierung von Hochleistungsrechnern als zentrales Werkzeug in der Simulation Dr. Jan Eitzinger Regionales Rechenzentrum (RRZE) der Universität Erlangen-Nürnberg
Mehr