2.7. REALE PARALLELRECHNER UND DIE TOP500-LISTE
|
|
- Kevin Hofmann
- vor 6 Jahren
- Abrufe
Transkript
1 Vorlesung EALE PAALLELECHNE UND DIE TOP500-LISTE c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 1
2 Vorlesung EALE PAALLELECHNE UND DIE TOP500-LISTE Flynn sche Klassifikation (vgl. Vorlesung 2) unterscheidet 4 Architekturklassen: SISD, MISD, SIMD und MIMD. Wir befassen uns ausschließlich mit MIMD-Systemen, weil sie den zurzeitigen Markt beherrschen c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 1-A
3 Vorlesung EALE PAALLELECHNE UND DIE TOP500-LISTE Flynn sche Klassifikation (vgl. Vorlesung 2) unterscheidet 4 Architekturklassen: SISD, MISD, SIMD und MIMD. Wir befassen uns ausschließlich mit MIMD-Systemen, weil sie den zurzeitigen Markt beherrschen Inhalt der Vorlesung: Allgemeines über den Overhead der Parallelität Wichtigste Klassen von MIMD-Parallelrechnern: MIMD mit Bussystemen (SMPs) MIMD mit gemeinsamem Adreßraum: UMA, NUMA, CC-NUMA, COMA MIMD mit verteiltem Adreßraum Top-500-Liste der schnellsten Höchstleistungsrechner der Welt c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 1-B
4 OVEHEAD DE PAALLELITÄT I Parallelrechner soll möglichst wenig Zeit mit unnötiger Arbeit (Overhead) verbringen Sequentielle Ausführungszeit (s. Bild links) besteht aus: Berechnungen und Speicherzugriffen Imaginäre Parallelausführung (rechts): verbraucht auf 4 Prozessoren mehr als 1/4 der Zeit wegen Overhead: Synchronization Busy-overhead Data-local Data-remote Busy-useful Time (s) 25 Time (s) 25 p1 p2 p3 p4 c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 2
5 OVEHEAD DE PAALLELITÄT II Parallele Ausführungszeit (s. voriges Bild rechts) besteht aus: Busy-useful: Ausführung der Operationen, die auch im seq. Programm ausgeführt werden Busy-overhead: Ausführung von Operationen, die extra durch Parallelisierung entstanden sind Data-local: Zugriffszeiten auf lokale Daten Data-remote: Zugriffszeiten auf Daten bei anderen Prozessoren/Speichermodulen Synchronization: Warten auf andere Prozessoren Synchronization Busy-overhead Data-local Data-remote Busy-useful c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 3
6 KLASSE DE SYMMETISCHEN MULTIPOZESSOEN (SMPS) Symmetrisch weil... c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 4
7 KLASSE DE SYMMETISCHEN MULTIPOZESSOEN (SMPS) Symmetrisch weil... alle Prozessoren identisch sind und die Speicherzugriffe bei allen Prozessoren gleich lange dauern c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 4-A
8 KLASSE DE SYMMETISCHEN MULTIPOZESSOEN (SMPS) Symmetrisch weil... alle Prozessoren identisch sind und die Speicherzugriffe bei allen Prozessoren gleich lange dauern Alle Prozessoren sitzen auf einem Bus elativ kleine Anzahl von Prozessoren wg. Engpasses am Bus (schlechte Skalierbarkeit) Cache-Kohärenz ist einfach, z.b. Snooping mit MSI-Protokoll (s. vorige Vorlesungen) Überwiegend im Großserverbereich eingesetzt Aktuell: SMPs werden zunehmend als Knoten zum Aufbau größerer Systeme verwendet: sog. CluMPs (Clusters of Multi-Processors), Constellations c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 4-B
9 P $ $ 2 FALLSTUDIE SMP: SUN ENTEPISE 6000 P $ $ 2 Mem ctrl CPU/mem cards 100bT, SCSI SBUS SBUS SBUS 2 FiberChannel Bus interface/switch Bus interface I/O cards Gigaplane bus ( 256 data, 41 address, 83 MHz ) Bis zu 30 Ultra-SPAC-Prozessoren Auch Board-lokale Zugriffe laufen über den Bus (UMA = Uniform Memory Access) In jedem Prozessor: 16KB L1-Cache und 512KB L2-Cache Cache-Kohärenz: eine Variante des MSI-Protokolls Zugriff auf den Cache ist um ca. eine Größenordnung schneller als Zugriff über den Bus (40 ns vs. 300 ns) c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 5
10 GEMEINSAME ADESSAUM: UMA MIT MULTITHEADING Idee: Kommunikationslatenz und andere Wartezeiten durch Kontextwechsel zu anderen Aktivitäten (Threads) auf demselben Prozessor zu verbergen Wachsender Abstand zwischen Prozessor- und Speicherleistung mehr Threads pro Prozessor nötig Kontextwechsel in Hardware spezielle Prozessoren nötig (kleine Stückzahlen, teuer) Herausforderung für Programmierer: nicht die Lokalität der Zugriffe, sondern genügend Parallelität zu identifizieren Keine Software-Unterstützung nötig Ist dynamisch, d.h. gut für unvorhersehbare Situationen (Cache-Misses etc.) Zwei Arten Grobkörniger und Feinkörniger Kontextwechsel: Grob: Wechsel erst nach Bedarf Fein: Wechsel in jedem Taktzyklus c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 6
11 Thread A Thread B Thread C Thread D GOBKÖNIGE KONTEXTWECHSEL Grobkörnig = block multithreading Kontextwechsel passiert erst bei einem Lange-Latenz-Ereignis (z.b. Cache-Miss mit Latenz 10 Taktzyklen) Miss festgestellt mehrere nachstende Instruktionen müssen aus der Pipeline entfernt werden contextswitch overhead c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 7
12 GOBKÖNIGE KONTEXTWECHSEL Grobkörnig = block multithreading Kontextwechsel passiert erst bei einem Lange-Latenz-Ereignis (z.b. Cache-Miss mit Latenz 10 Taktzyklen) Miss festgestellt mehrere nachstende Instruktionen müssen aus der Pipeline entfernt werden contextswitch overhead Thread A Thread B Thread C Thread D Busy cycle from threads A-D, respectively Context switch overhead Idle (stall) cycle... = = Abbreviation for four context switch cycles Pipeline latency Memory latency Four context switch cycles c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 7-A
13 FEINKÖNIGE KONTEXTWECHSEL Feinkörniger Kontextwechsel: interleaved multithreading Nach jeder Instruktion wird aus einem Thread-Pool gewählt Es gibt keinen Kontextswitch-Overhead wie beim grobkörnigen Thread A Thread B Memory latency Memory latency Thread D Thread E Memory latency Pipeline latency Thread C Thread F c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 8
14 FEINKÖNIGE KONTEXTWECHSEL Feinkörniger Kontextwechsel: interleaved multithreading Nach jeder Instruktion wird aus einem Thread-Pool gewählt Es gibt keinen Kontextswitch-Overhead wie beim grobkörnigen Thread A Thread B Memory latency Memory latency Thread D Thread E Memory latency Pipeline latency Thread C Memory latency Thread F Pipeline latency Busy cycles from threads A F, respectively Idle (stall) cycle c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 8-A
15 FALLSTUDIE MULTITHEADED-ACHITEKTU Tera MTA Prozessor unterstützt 128 aktive Threads in Hardware Interleaved Multithreading VLIW-Prozessor =... c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 9
16 FALLSTUDIE MULTITHEADED-ACHITEKTU Tera MTA Prozessor unterstützt 128 aktive Threads in Hardware Interleaved Multithreading VLIW-Prozessor =... mehrere FUs mit statischem Scheduling c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 9-A
17 FALLSTUDIE MULTITHEADED-ACHITEKTU Tera MTA Prozessor unterstützt 128 aktive Threads in Hardware Interleaved Multithreading VLIW-Prozessor =... mehrere FUs mit statischem Scheduling Verbindungstopologie: 3D-Torus Keine Caches bis zu 8 ausstehende Speicherzugriffe je Thread erlaubt Sehr spezielle Prozessoren Der Programmierer oder der Compiler muß viele Threads im Programm produzieren c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 9-B
18 Gemeinsamer Adreßraum: NUMA (Non-Uniform Memory Access) Physikalisch sind die Speichermodule auf die Knoten verteilt Die Zugriffszeit hängt vom zugreifenden Prozessor und von der zugegriffenen Speicheradresse ab Logisch sind alle Speichermodule für alle Prozessoren direkt zugreifbar, ohne Mitwirken des Inhaber-Prozessors Cache-Kohärenz wird nicht in Hardware unterstützt nur lokale Daten sind cacheable Beispiel: Cray T3E c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 10
19 FALLSTUDIE NUMA: CAY T3E Konfigurationen mit 16 bis 192 Prozessoren sind üblich Ein Knoten beinhaltet: Prozessor, Kontrollchip, lokalen Speicher, Netzwerk-Interface c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 11
20 FALLSTUDIE NUMA: CAY T3E Konfigurationen mit 16 bis 192 Prozessoren sind üblich Ein Knoten beinhaltet: Prozessor, Kontrollchip, lokalen Speicher, Netzwerk-Interface Caches: Je ein 8K direct-mapped Instruktions- und Datencache Ein 96K on-chip L2-Cache drei-wege-assoziativ, mit 64-Byte-Blöcken In Caches können nur lokale Daten abgelegt werden (kein Hardware-Mechanismus für ihre Kohärenz) Bei nicht-lokalem Zugriff von außen werden Daten im Cache als ungültig markiert Alle lokalen Speicher sind zwar für alle Prozessoren zugänglich, ihre Zugehörigkeit sollte für effizientes Programmieren jedoch berücksichtigt werden Netztopologie: 3D-Torus (Knotengrad?) c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 11-A
21 FALLSTUDIE NUMA: CAY T3E AUFBAU External I/O P $ Mem Mem ctrl and NI X Switch Y Z c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 12
22 CC-NUMA CC-NUMA = cache-coherent non-uniform memory access Cache-Kohärenz wird per Hardware sichergestellt Erste CC-NUMA Maschine war DASH in Stanford (1992) c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 13
23 CC-NUMA CC-NUMA = cache-coherent non-uniform memory access Cache-Kohärenz wird per Hardware sichergestellt Erste CC-NUMA Maschine war DASH in Stanford (1992) FALLSTUDIE SGI OIGIN 2000: Bis zu 1024 Prozessoren Knoten = zwei Prozessoren, bis zu 4 GB Speicher, ein Cache-Controller, sowie outer ( im Bild) Topologie bis zu 16 Knoten Hypercube; danach Fattree mit Meta-outers c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 13-A
24 SGI OIGIN 2000: GÖSSEE TOPLOGIEN M M M M M M M M c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 14
25 ECHNE MIT VE TEILTEM ADESSAUM Anwendungsgebiet: überwiegend wissenschaftlich-technische Simulationen (Wettervorhersage, Crash-Verhalten, GAUs, etc.) + : Gutes Preis-Leistungs-Verhältnis, Skalierbarkeit : Wegen verteiltem Adreßraum aufwendiges Programmieren c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 15
26 ECHNE MIT VE TEILTEM ADESSAUM Anwendungsgebiet: überwiegend wissenschaftlich-technische Simulationen (Wettervorhersage, Crash-Verhalten, GAUs, etc.) + : Gutes Preis-Leistungs-Verhältnis, Skalierbarkeit : Wegen verteiltem Adreßraum aufwendiges Programmieren Fallstudie: IBM SP2 SP2 = Scalable Power, mit superscalaren Prozessoren (d.h. mehrere FUs mit dynamischem Scheduling) Weiterentwicklung von SP2: mit SMP-Knoten je 4/8 Prozessoren ASCI Blue, sowie SP3 mit Power3-Prozessoren Topologie, outing und Switching: Einzelne Switches sind Crossbars Quellenbasiertes, tabellengetriebenes outing Paketbasiertes, cut-through Switching Pakete bis 255 Byte lang, Phit = 1 Byte, Flit = 2 Byte c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 15-A
27 CLUSTEMASCHINEN UND WOKSTATIONNETZE Cluster = Ansammlung (fast) eigenständiger echner, verbunden über ein Netzwerk Netze: ursprünglich LAN oder WAN, langsam Anwendungsgebiete: Server, Webserver Aktuell: schnellere Netze wie ATM, Myrinet, SCI, etc. Cluster können sowohl zu (CC-)NUMA, als auch zu Maschinen mit verteiltem Adressraum gehören An der WWU ist zurzeit ein vorläufiger Cluster mit 20 Knoten (je 8 Kerne und 32 GB AM) vorhanden. In der endgültigen Konfiguration wird der Cluster 220 Knoten (insgesamt 1856 Kerne und ca. 6 TB AM) enthalten c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 16
28 DIE TOP 500 LISTE Wird seit 1993 erstellt Leistungskriterium Performance in Mflops auf Linpack, d.h. Lineares Gleichungssystem Ax = b mit vollbesetzter Matrix c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 17
29 DIE TOP 500 LISTE Wird seit 1993 erstellt Leistungskriterium Performance in Mflops auf Linpack, d.h. Lineares Gleichungssystem Ax = b mit vollbesetzter Matrix Das Problem welches 1980 etwa 1 Jahr echenzeit brauchte, hat später soviel Zeit verbraucht: Monat Stunden Stunde heute - wenige Minuten c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 17-A
30 DIE TOP 500 LISTE Wird seit 1993 erstellt Leistungskriterium Performance in Mflops auf Linpack, d.h. Lineares Gleichungssystem Ax = b mit vollbesetzter Matrix Das Problem welches 1980 etwa 1 Jahr echenzeit brauchte, hat später soviel Zeit verbraucht: Monat Stunden Stunde heute - wenige Minuten Probleme mit Linpack als Kriterium: einige kommerzielle Systeme (z.b. DB-Systeme) kein Interesse an Gflops; neue Architekturen sind oft nicht dafür entwickelt c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 17-B
31 max : Maximal gemessene LINPACK Performance (in Teraflops) peak : Theoretische Höchst-Performance (in Teraflops) Power: Stromverbrauch (in KW) c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 18
32 DIE SCHNELLSTEN SUPECOMPUTE Momentan stärkster echner: Sequoia Standort: Lawrence Livermore National Laboratory, CA, USA Hersteller: IBM, Modell: BlueGene/Q ca PowerPC-A2-Bluegene/Q-CPUs (je 18 Kerne, 1,6 GHz) Performance: 16,325 PFlops maximal (20,133 PFlops Peak) Hauptspeicher: 1,6PB (1, Byte) Stromverbrauch: 7,89 MW ( Jahresverbrauch von Haushalten); einer der energieeffizientesten(!) Supercomputer c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 19
33 DIE SCHNELLSTEN SUPECOMPUTE Stärkster echner im November 2010 (jetzt Platz 5): Tianhe-1A ( Milchstraße 1A ) Standort: National Supercomputing Center Tianjin, China Hersteller: National University of Defense Technology (NUDT), Modell: NUDT YH MPP Hybrider echner CPUs: Intel Xeon X5670 2,93GHz (86016 Kerne) 7168 GPUs: Nvidia Tesla M2050 (>3Mio. CUDA Cores) Performance: 2,566 PFlops maximal (4,701 PFlops Peak) Hauptspeicher: GB Stromverbrauch: 4,04 MW ( Jahresverbrauch von Haushalten) c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 20
34 c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 21
35 c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 22
36 c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 23
37 c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 24
38 c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 25
39 c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 26
40 MPP - Massively Parallel Processors: Parallelrechner mit über mehreren tausend intern verbundenen Ausführungseinheiten Cluster: Ebenfalls verteilter Speicher, aber extern verbundene echeneinheiten, also über das Netzwerk/LAN, z. B. Myrinet oder InfiniBand c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 27
41 c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 28
42 Am 12. November 2012 wurde die Top500-Liste aktualisiert Platz 1: Titan im Oak idge National Laboratory (USA) Prozessorkerne ( Kerne in Opteron-6274-Prozessoren, GPU-Kerne in genauso vielen NVIDIA-K20x-Karten) 17,59 PFlops maximal (27,11 PFlops Peak) Zwei deutsche Supercomputer in der Top 10: Platz 5: Juqueen im Forschungszentrum Jülich, Prozessorkerne, 4,14 PFlops (max) Juqueen ist schnellster Supercomputer Europas. Platz 6: SuperMUC des Leibniz-echenzentrums bei München, Prozessorkerne, 2,90 PFlops (max) c 2010 BY SEGEI GOLATCH UNI MÜNSTE PAALLELE SYSTEME VOLESUNG 9 29
Kapitel 5. Parallelverarbeitung. Formen der Parallelität
Kapitel 5 Parallelverarbeitung é Formen der Parallelität é Klassifikation von parallelen Rechnerarchitekturen é Exkurs über Verbindungsstrukturen Bernd Becker Technische Informatik I Formen der Parallelität
MehrArchitektur paralleler Plattformen
Architektur paralleler Plattformen Freie Universität Berlin Fachbereich Informatik Wintersemester 2012/2013 Proseminar Parallele Programmierung Mirco Semper, Marco Gester Datum: 31.10.12 Inhalt I. Überblick
MehrArchitektur von Parallelrechnern 50
Architektur von Parallelrechnern 50 Rechenintensive parallele Anwendungen können nicht sinnvoll ohne Kenntnis der zugrundeliegenden Architektur erstellt werden. Deswegen ist die Wahl einer geeigneten Architektur
MehrMehrprozessorarchitekturen
Mehrprozessorarchitekturen (SMP, UMA/NUMA, Cluster) Arian Bär 12.07.2004 12.07.2004 Arian Bär 1 Gliederung 1. Einleitung 2. Symmetrische Multiprozessoren (SMP) Allgemeines Architektur 3. Speicherarchitekturen
Mehr2 Rechnerarchitekturen
2 Rechnerarchitekturen Rechnerarchitekturen Flynns Klassifikation Flynnsche Klassifikation (Flynn sche Taxonomie) 1966 entwickelt, einfaches Modell, bis heute genutzt Beschränkung der Beschreibung auf
MehrProseminar Rechnerarchitekturen. Parallelcomputer: Multiprozessorsysteme
wwwnet-texde Proseminar Rechnerarchitekturen Parallelcomputer: Multiprozessorsysteme Stefan Schumacher, , PGP Key http://wwwnet-texde/uni Id: mps-folientex,v
MehrStrukturelemente von Parallelrechnern
Strukturelemente von Parallelrechnern Parallelrechner besteht aus einer Menge von Verarbeitungselementen, die in einer koordinierten Weise, teilweise zeitgleich, zusammenarbeiten, um eine Aufgabe zu lösen
MehrÜbung 1. Letzte Änderung: 5. Mai 2017
Übung 1 Letzte Änderung: 5. Mai 2017 Abhängigkeitsanalyse Synthese Mul prozessor Mul computer Compiler Parallelismustest Vektorrechner Rechenfelder Op mierung Flynns Schema Modelle Theorie Parallele Systeme
MehrParallelrechner: Klassifikation. Parallelrechner: Motivation. Parallelrechner: Literatur. Parallelrechner: PC-Technologie SMP-Multiprozessorsysteme 69
Parallelrechner: Motivation immer höhere Performance gefordert => schnellere Einzelprozessoren aber Takte oberhalb von 10 GHz unrealistisch => mehrere Prozessoren diverse Architekturkonzepte shared-memory
MehrSysteme 1: Architektur
slide 1 Vorlesung Systeme 1: Architektur Prof. Dr. Ulrich Ultes-Nitsche Forschungsgruppe Departement für Informatik Universität Freiburg slide 2 Prüfung 18. Februar 2004 8h00-11h40 13h00-18h20 20 Minuten
MehrGregor Michalicek, Marcus Schüler. Multiprozessoren
Gregor Michalicek, Marcus Schüler Gregor Michalicek Marcus Schüler Gregor Michalicek, Marcus Schüler Vorteile gegenüber Singleprozessoren ¾ sind zuverlässiger. Einige Multiprozessorsysteme können trotz
MehrDistributed Memory Computer (DMC)
Distributed Memory Computer (DMC) verteilter Speicher: jeder Prozessor kann nur auf seinen lokalen Speicher zugreifen Kopplung mehrerer Prozessoren über E/A-Schnittstellen und Verbindungsnetzwerk, nicht
MehrModProg 15-16, Vorl. 13
ModProg 15-16, Vorl. 13 Richard Grzibovski Jan. 27, 2016 1 / 35 Übersicht Übersicht 1 Supercomputing FLOPS, Peak FLOPS Parallelismus Praktische Aspekte 2 Klausur von 2009 2 / 35 Supercomputing: HPC Modellierung
MehrOptimierungen der Lattice Boltzmann Methode auf x86-64 basierten Architekturen
Optimierungen der Lattice Boltzmann Methode auf x86-64 basierten Architekturen J. Treibig, S. Hausmann, U. Ruede 15.09.05 / ASIM 2005 - Erlangen Gliederung 1 Einleitung Motivation Grundlagen 2 Optimierungen
MehrHigh Performance Computing
High Performance Computing SS 2002 PD Dr. A. Strey Abteilung Neuroinformatik, Universität Ulm Email: strey@informatik.uni-ulm.de Inhalt Einführung hohe Leistung durch Parallelität! kurze Historie des High
MehrComputergrundlagen Moderne Rechnerarchitekturen
Computergrundlagen Moderne Rechnerarchitekturen Axel Arnold Institut für Computerphysik Universität Stuttgart Wintersemester 2010/11 Aufbau eines modernen Computers DDR3- Speicher Prozessor Prozessor PEG
MehrInhalt. Prozessoren. Curriculum Manfred Wilfling. 28. November HTBLA Kaindorf. M. Wilfling (HTBLA Kaindorf) CPUs 28. November / 9
Inhalt Curriculum 1.4.2 Manfred Wilfling HTBLA Kaindorf 28. November 2011 M. Wilfling (HTBLA Kaindorf) CPUs 28. November 2011 1 / 9 Begriffe CPU Zentraleinheit (Central Processing Unit) bestehend aus Rechenwerk,
MehrCell and Larrabee Microarchitecture
Cell and Larrabee Microarchitecture Benjamin Grund Dominik Wolfert Universität Erlangen-Nürnberg 1 Übersicht Einleitung Herkömmliche Prozessorarchitekturen Motivation für Entwicklung neuer Architekturen
MehrParallelrechner (1) Anwendungen: Simulation von komplexen physikalischen oder biochemischen Vorgängen Entwurfsunterstützung virtuelle Realität
Parallelrechner (1) Motivation: Bedarf für immer leistungsfähigere Rechner Leistungssteigerung eines einzelnen Rechners hat physikalische Grenzen: Geschwindigkeit von Materie Wärmeableitung Transistorgröße
MehrTU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.
TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. Blatt Nr. 07 Übung zur Vorlesung Einsatz und Realisierung von Datenbanksystemen im SoSe16 Moritz Kaufmann
MehrÜberblick. Einleitung. Befehlsschnittstelle Mikroarchitektur Speicherarchitektur Ein-/Ausgabe Multiprozessorsysteme,...
Überblick Einleitung Lit., Motivation, Geschichte, v.neumann- Modell, VHDL Befehlsschnittstelle Mikroarchitektur Speicherarchitektur Ein-/Ausgabe Multiprozessorsysteme,... Kap.6 Multiprozessorsysteme Einsatz
MehrIn heutigen Computern findet man schnellen/teuren als auch langsamen/billigen Speicher
Speicherhierarchie In heutigen Computern findet man schnellen/teuren als auch langsamen/billigen Speicher Register Speicherzellen, direkt mit der Recheneinheit verbunden Cache-Speicher Puffer-Speicher
MehrRechnerorganisation. 1. Juni 201 KC Posch
.6.2 Rechnerorganisation. Juni 2 KC Posch .6.2 2 .6.2 Front Side Bus Accelerated Graphics Port 28 MHz Front Side Bus North Bridge RAM idge South Bri IDE USB PCI Bus 3 .6.2 Front Side Bus Front Side Bus
MehrSchreiben von Pages. Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen).
Schreiben von Pages Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen). Write Through Strategie (siehe Abschnitt über Caching) ist hier somit nicht sinnvoll. Eine sinnvolle
MehrCache-Kohärenz und -Konsistenz. Betreuer: Prof. Brüning Veton Kajtazi Mat.-Nr.: Universität Heidelberg
Cache-Kohärenz und -Konsistenz Betreuer: Prof. Brüning Veton Kajtazi Mat.-Nr.: 3220501 Universität Heidelberg Inhaltsverzeichnis Wozu Caches? Unterschied Kohärenz und Konsistenz MESI-Protokoll Fazit 2
MehrEine kurze Einführung in Rechnerarchitektur und Programmierung von Hochleistungsrechnern als zentrales Werkzeug in der Simulation
Eine kurze Einführung in Rechnerarchitektur und Programmierung von Hochleistungsrechnern als zentrales Werkzeug in der Simulation Dr. Jan Eitzinger Regionales Rechenzentrum (RRZE) der Universität Erlangen-Nürnberg
MehrDatenpfaderweiterung Der Single Cycle Datenpfad des MIPS Prozessors soll um die Instruktion min $t0, $t1, $t2 erweitert werden, welche den kleineren
Datenpfaderweiterung Der Single Cycle Datenpfad des MIPS Prozessors soll um die Instruktion min $t0, $t1, $t2 erweitert werden, welche den kleineren der beiden Registerwerte $t1 und $t2 in einem Zielregister
MehrAusblick auf den HLRN III - die neue HPC Ressource für Norddeutschland
Ausblick auf den HLRN III - die neue HPC Ressource für Norddeutschland Holger Naundorf RRZN Leibniz Universität IT Services Schloßwender Straße 5 30159 Hannover naundorf@rrzn.uni-hannover.de 14. März 2013
MehrWie groß ist die Page Table?
Wie groß ist die Page Table? Im vorigen (typischen) Beispiel verwenden wir 20 Bits zum indizieren der Page Table. Typischerweise spendiert man 32 Bits pro Tabellen Zeile (im Vorigen Beispiel brauchten
MehrMaik Zemann. Flynn s Taxonomie. Parallele Rechnerarchitekturen SS 2004 Technische Fakultät Universität Bielefeld. 3. Mai 2004 Flynn's Taxonomie 1
Maik Zemann Flynn s Taxonomie Parallele Rechnerarchitekturen SS 2004 Technische Fakultät Universität Bielefeld 3. Mai 2004 Flynn's Taxonomie 1 Gliederung Einleitung Gliederung Flynn s Taxonomie Das SISD-Modell
MehrMulticore-Architekturen
Universität Erlangen- Nürnberg Technische Universität München Universität Stuttgart Multicore-Architekturen Vortrag im Rahmen der Ferienakademie 2009 Kurs 1: Programmierkonzepte für Multi-Core Rechner
Mehr27. Parallel Programming I
760 27. Parallel Programming I Moore s Law und The Free Lunch, Hardware Architekturen, Parallele Ausführung, Klassifikation nach Flynn, Multi-Threading, Parallelität und Nebenläufigkeit, Skalierbarkeit:
Mehr27. Parallel Programming I
771 27. Parallel Programming I Moore s Law und The Free Lunch, Hardware Architekturen, Parallele Ausführung, Klassifikation nach Flynn, Multi-Threading, Parallelität und Nebenläufigkeit, Skalierbarkeit:
MehrInvalidierungs- und Update-basierte Cache-Kohärenz-Protokolle
Invalidierungs- und Update-basierte Cache-Kohärenz-Protokolle Architecture of Parallel Computer Systems WS15/16 J.Simon 1 SC mit Write-Back Caches Beweisidee: Behandlung von Reads wie beim Write-Through
MehrRST-Labor WS06/07 GPGPU. General Purpose Computation On Graphics Processing Units. (Grafikkarten-Programmierung) Von: Marc Blunck
RST-Labor WS06/07 GPGPU General Purpose Computation On Graphics Processing Units (Grafikkarten-Programmierung) Von: Marc Blunck Ablauf Einführung GPGPU Die GPU GPU Architektur Die Programmierung Programme
MehrNeue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP)
Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP) @wefinet Werner Fischer, Thomas-Krenn.AG Webinar, 17. Oktober 2017 Intel Xeon Scalable Performance _ Das ist NEU: Neue
MehrParallel Computing. Einsatzmöglichkeiten und Grenzen. Prof. Dr. Nikolaus Wulff
Parallel Computing Einsatzmöglichkeiten und Grenzen Prof. Dr. Nikolaus Wulff Parallel Architekturen Flynn'sche Klassifizierung: SISD: single Instruction, single Data Klassisches von-neumann sequentielles
MehrComputergrundlagen Moderne Rechnerarchitekturen
Aufbau eines modernen Computers Computergrundlagen Moderne Rechnerarchitekturen Axel Arnold Institut für Computerphysik Universität Stuttgart DDR3- Speicher Prozessor Prozessor PEG Graphikkarte(n) weitere
MehrLeistungsanalyse: Analytisch/Mathematisch, Modellierung oder Hands-On, Grundgedanken zur möglichen Leistung eines Programms.
Leistungsanalyse: Analytisch/Mathematisch, Modellierung oder Hands-On, Grundgedanken zur möglichen Leistung eines Programms. Modellierung: Hardware/Software-Verhalten ist komplex, daher modellieren/abstrahieren
MehrDas HLRN-System. Peter Endebrock, RRZN Hannover
Das HLRN-System Peter Endebrock, RRZN Hannover vorweg (1) Heute Vorträge im Dreierpack: Peter Endebrock: Das HLRN-System Gerd Brand: MPI Simone Knief: OpenMP Peter Endebrock, RRZN Hannover, Kolloquium,
MehrEnterprise Computing
Enterprise Computing Prof. Dr.-Ing. Wilhelm G. Spruth WS 2010/11 Teil 5 Parallel Rechner Implementierungen Mehrfachrechner (Multiprocessor) Parallelrecher (Parallel Processor) Mehrfachrechner: Auf mehreren
MehrAn Introduction to Simultaneous Multi-Threading Prinziples and Architectures
An Introduction to Simultaneous Multi-Threading Prinziples and Architectures Seminarvortrag von Thomas Weber Lehrstuhl Rechnerarchitektur Übersicht? Motivation? Aktuelle Microarchitekturen? Scheduling?
MehrSymmetrischer Multiprozessor (SMP)
Symmetrischer Multiprozessor (SMP) Motivation: ein globaler Adressraum für mehrere Prozesse P i Prozesse P i haben gemeinsame Daten ( shared variables ) private Daten ( private variables ) gemeinsamen
MehrSpielst du noch oder rechnest du schon?
Spielst du noch oder rechnest du schon? Mit Spielkonsole und Co. zum Supercomputer der Zukunft Fachbereich Elektrotechnik und Informationstechnik Fachhochschule Bielefeld University of Applied Sciences
MehrXSC. Reimar Bauer, Rebecca Breu. Dezember 2008. Forschungszentrum Jülich. Weihnachtsfeier, 10. Dezember 2008 1
XSC Reimar Bauer, Rebecca Breu Forschungszentrum Jülich Dezember 2008 Weihnachtsfeier, 10. Dezember 2008 1 Supercomputing I I Forschungszentrum Ju lich mischt da mit Zweimal im Jahr gibt es eine Top 500-Liste
MehrVorlesung: Rechnerstrukturen, Teil 2 (Modul IP7)
Vorlesung: Rechnerstrukturen, Teil 2 (Modul IP7) Vorlesung: Rechnerstrukturen, Teil 2 (Modul IP7) J. Zhang zhang@informatik.uni-hamburg.de Universität Hamburg AB Technische Aspekte Multimodaler Systeme
MehrCLAIX Vorstellung und Technik Christian Terboven
CLAIX Vorstellung und Technik Christian Terboven Inhalte CLAIX Phase I Zwei Rack-Reihen + 2 Schränke Testbetrieb mit Projekten seit November 2016 Trier-2 HPC-System Abnahme im Januar 2017 TOP500 im November
MehrTeil Rechnerarchitekturen M07. Multiprogramming und Tasking, Flynn-Klassifikation, Parallelismus. Corinna Schmitt
Teil Rechnerarchitekturen M07 Multiprogramming und Tasking, Flynn-Klassifikation, Parallelismus Corinna Schmitt corinna.schmitt@unibas.ch Multiprogrammierung und -Tasking 2015 Corinna Schmitt Teil Rechnerarchitekturen
MehrKonzepte und Methoden der Systemsoftware. Aufgabe 1: Polling vs Interrupts. SoSe bis P
SoSe 2014 Konzepte und Methoden der Systemsoftware Universität Paderborn Fachgebiet Rechnernetze Präsenzübung 3(Musterlösung) 2014-05-05 bis 2014-05-09 Aufgabe 1: Polling vs Interrupts (a) Erläutern Sie
Mehr27. Parallel Programming I
The Free Lunch 27. Parallel Programming I Moore s Law und The Free Lunch, Hardware Architekturen, Parallele Ausführung, Klassifikation nach Flynn, Multi-Threading, Parallelität und Nebenläufigkeit, Skalierbarkeit:
Mehr27. Parallel Programming I
771 27. Parallel Programming I Moore s Law und The Free Lunch, Hardware Architekturen, Parallele Ausführung, Klassifikation nach Flynn, Multi-Threading, Parallelität und Nebenläufigkeit, Skalierbarkeit:
Mehr27. Parallel Programming I
The Free Lunch 27. Parallel Programming I Moore s Law und The Free Lunch, Hardware Architekturen, Parallele Ausführung, Klassifikation nach Flynn, Multi-Threading, Parallelität und Nebenläufigkeit, Skalierbarkeit:
MehrTechnische Informatik 1 Übung 8 Instruktionsparallelität (Rechenübung) Andreas Tretter 8./9. Dezember Bitte immer eine Reihe freilassen
Technische Informatik 1 Übung 8 Instruktionsparallelität (Rechenübung) Andreas Tretter 8./9. Dezember 2016 Bitte immer eine Reihe freilassen Ziele der Übung Verschiedene Arten von Instruktionsparallelität
MehrOpenCL. Programmiersprachen im Multicore-Zeitalter. Tim Wiersdörfer
OpenCL Programmiersprachen im Multicore-Zeitalter Tim Wiersdörfer Inhaltsverzeichnis 1. Was ist OpenCL 2. Entwicklung von OpenCL 3. OpenCL Modelle 1. Plattform-Modell 2. Ausführungs-Modell 3. Speicher-Modell
MehrIntel 80x86 symmetrische Multiprozessorsysteme. Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte
Intel 80x86 symmetrische Multiprozessorsysteme Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte Gliederung I. Parallel Computing Einführung II.SMP Grundlagen III.Speicherzugriff
MehrQuiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset.
Quiz Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset 32 Bit Adresse 31 3 29... 2 1 SS 212 Grundlagen der Rechnerarchitektur
MehrRechnerarchitektur SS 2012
Rechnerarchitektur SS 2012 Cachekohärenz Michael Engel TU Dortmund, Fakultät für Informatik Teilweise basierend auf Material von Gernot A. Fink und R. Yahyapour 11. Juni 2013 Speicher in MP-Systemen Zentrales
MehrCache Grundlagen. Schreibender Cache Zugriff. SS 2012 Grundlagen der Rechnerarchitektur Speicher 22
Cache Grundlagen Schreibender Cache Zugriff SS 212 Grundlagen der Rechnerarchitektur Speicher 22 Eine einfache Strategie Schreibt man nur in den Cache, werden Cache und darunter liegender Speicher inkonsistent.
MehrParallele Rechnerarchitektur II
Parallele Rechnerarchitektur II Stefan Lang Interdisziplinäres Zentrum für Wissenschaftliches Rechnen Universität Heidelberg INF 368, Raum 532 D-692 Heidelberg phone: 622/54-8264 email: Stefan.Lang@iwr.uni-heidelberg.de
MehrEin Verteiltes System ist eine Ansammlung von unabhängigen Rechnern, die für seine Benutzer wie ein einzelnes Computersystem aussieht.
Verteilte Systeme Verteilte etriebssysteme 2001-2004, F. Hauck, P. Schulthess, Vert. Sys., Univ. Ulm [2003w-VS--VS.fm, 2003-10-17 08.38] 1 1 Definition Definition nach Tanenbaum/van Steen Ein Verteiltes
MehrDeep Learning Appliance 4U Die Ready-to-Brain Komplett-Lösung
www.cadnetwork.de/deeplearning Die Ready-to-Brain Komplett-Lösung DIE KOMPLETTLÖSUNG FÜR IHRE AI PROJEKTE Die ist unser 8-GPU Flaggschiff für AI Anwendungen. Sie liefert das Potential für anspruchsvollste
MehrSupercomputer Blue Gene/L
FH Giessen Friedberg Supercomputer Blue Gene/L Sven Wagner Übersicht Einführung Supercomputer Begriffe Geschichte TOP500 Anwendung 2 Übersicht Blue Gene/L Historie Architektur & Packaging ASIC Netzwerk
MehrRechnerarchitektur SS 2012
Rechnerarchitektur SS 2012 Cachekohärenz TU Dortmund, Fakultät für Informatik XII Literatur: Hennessy/Patterson: Computer Architecture, 3. Auflage, 2003, Abschnitte 6.2, S. 549ff und 6.5, S. 576ff. Huang:
MehrPraxiseinheit: Realisierung einer hardwarebeschleunigten Disparitätenberechnung zur automatischen Auswertung von Stereobildern
Praxiseinheit: Realisierung einer hardwarebeschleunigten Disparitätenberechnung zur automatischen Auswertung von Stereobildern Institut für Betriebssysteme und Rechnerverbund TU Braunschweig 25.10., 26.10.
MehrRuprecht-Karls-Universität Heidelberg
Ruprecht-Karls-Universität Heidelberg PS: Themen der technischen Informatik Sommersemester 2013 Referentin: Hanna Khoury Betreuer: Prof. Dr. Ulrich Brüning, Dr. Frank Lemke Datum: 10.06.2014 1) Einige
MehrMultikern-Rechner und Rechnerbündel
Multikern-Rechner und Rechnerbündel Dr. Victor Pankratius David J. Meder IPD Tichy Lehrstuhl für Programmiersysteme KIT die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH)
MehrÜberschrift. Speicherverwaltung. Prof. Dr. Margarita Esponda Freie Universität Berlin 2011/2012
Überschrift Speicherverwaltung Prof. Dr. Margarita Esponda Freie Universität Berlin 2011/2012 1 Hauptziele: Speicherverwaltung Speicher ist die zweite wichtigste Ressource, die das Betriebssystem verwalten
MehrCache-Speicher. Design Digitaler Systeme. Prof. Dr.-Ing. Rainer Bermbach
Cache-Speicher Design Digitaler Systeme Prof. Dr.-Ing. Rainer Bermbach Übersicht Cache-Speicher Warum Cache-Speicher? Cache-Strukturen Aufbau und Organisation von Caches Cache-Architekturen Cache-Strategien
MehrMotivation (GP)GPU CUDA Zusammenfassung. CUDA und Python. Christian Wilms. Integriertes Seminar Projekt Bildverarbeitung
CUDA und Python Christian Wilms Integriertes Seminar Projekt Bildverarbeitung Universität Hamburg WiSe 2013/14 12. Dezember 2013 Christian CUDA und Python 1 Gliederung 1 Motivation 2 (GP)GPU 3 CUDA 4 Zusammenfassung
MehrÜbung 2. Letzte Änderung: 19. Mai 2017
Übung 2 Letzte Änderung: 19 Mai 2017 Zusammenfassung Übung 1 Zum Beispiel CPI ( ), Ausführungszeit, MIPS-Rate MIPS ist schlecht als Vergleichsmaß, weil zu sehr abhängig von Compiler und Befehlsarchitektur
Mehr2 Reproduktion oder Verwendung dieser Unterlage bedarf in jedem Fall der Zustimmung des Autors.
1 Definition Definition nach Tanenbaum/van Steen Ein Verteiltes System ist eine Ansammlung von unabhängigen Rechnern, die für seine enutzer wie ein einzelnes Computersystem aussieht. Verteilte Systeme
MehrParallelverarbeitung
Parallelverarbeitung WS 2015/16 Universität Siegen rolanda.dwismuellera@duni-siegena.de Tel.: 0271/740-4050, Büro: H-B 8404 Stand: 18. Januar 2016 Betriebssysteme / verteilte Systeme Parallelverarbeitung
MehrLEISTUNGSVERGLEICH VON FPGA, GPU UND CPU FÜR ALGORITHMEN ZUR BILDBEARBEITUNG PROSEMINAR INF-B-610
LEISTUNGSVERGLEICH VON FPGA, GPU UND CPU FÜR ALGORITHMEN ZUR BILDBEARBEITUNG PROSEMINAR INF-B-610 Dominik Weinrich dominik.weinrich@tu-dresden.de Dresden, 30.11.2017 Gliederung Motivation Aufbau und Hardware
MehrEinfaches MSI-Writeback-Inval-Protokoll
Einfaches MSI-Writeback-Inval-Protokoll Write-Back Cache typischerweise Write-allocate bei einem Write-Miss Zustände Invalid (I): Shared (S): Kopien in einem oder mehreren Caches Dirty or Modified (M):
MehrUniversität Karlsruhe (TH)
Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Multikern-Rechner und Rechnerbündel Prof. Dr. Walter F. Tichy Dr. Victor Pankratius David Meder Ali Jannesari Inhalt der Vorlesung Rechnerbündel
MehrVerteidigung der Bachelorarbeit, Willi Mentzel
Verteidigung der Bachelorarbeit, Willi Mentzel Motivation U.S. Energy Consumption Breakdown 3x Durchschnittliche Leistungsaufnahme 114 Millionen kw Hohes Optimierungspotential 2 Ziele für Energieoptimierung
MehrGrafikkarten-Architektur
> Grafikkarten-Architektur Parallele Strukturen in der GPU Name: Sebastian Albers E-Mail: s.albers@wwu.de 2 > Inhalt > CPU und GPU im Vergleich > Rendering-Pipeline > Shader > GPGPU > Nvidia Tesla-Architektur
Mehré Er ist software-transparent, d.h. der Benutzer braucht nichts von seiner Existenz zu wissen. Adreßbus Cache- Control Datenbus
4.2 Caches é Cache kommt aus dem Französischen: cacher (verstecken). é Er kann durch ein Anwendungsprogramm nicht explizit adressiert werden. é Er ist software-transparent, d.h. der Benutzer braucht nichts
MehrGliederung. Was ist CUDA? CPU GPU/GPGPU CUDA Anwendungsbereiche Wirtschaftlichkeit Beispielvideo
Gliederung Was ist CUDA? CPU GPU/GPGPU CUDA Anwendungsbereiche Wirtschaftlichkeit Beispielvideo Was ist CUDA? Nvidia CUDA ist eine von NvidiaGPGPU-Technologie, die es Programmierern erlaubt, Programmteile
MehrVorlesung Hochleistungsrechnen - SS Thomas Ludwig 1
Vorlesung Hochleistungsrechnen - SS 2010 - Thomas Ludwig 1 Vorlesung Hochleistungsrechnen - SS 2010 - Thomas Ludwig 2 Vorlesung Hochleistungsrechnen - SS 2010 - Thomas Ludwig 3 Siehe: http://en.wikipedia.org/wiki/amdahl%27s_law
MehrRückschlüsse durch Host- Performance-Daten auf das Datenbankverhalten. DOAG Regio Karlsruhe 13. Juni 2013
Rückschlüsse durch Host- Performance-Daten auf das Datenbankverhalten DOAG Regio Karlsruhe 13. Juni 2013 Herrmann & Lenz Services GmbH Herrmann & Lenz Solutions GmbH Erfolgreich seit 1996 am Markt Firmensitz:
MehrDer neue Hessische Hochleistungsrechner HHLR
Der neue Hessische Hochleistungsrechner HHLR Erste Erfahrungen Norbert Conrad, conrad@hrz.tu-darmstadt.de ZKIHessen 26.8.2002 1 Darmstädter Hochleistungsrechner 1987: IBM 3090 VF ( 2 x 0,12 GFLOPS Vektor
MehrHochleistungsrechnen in Darmstadt: Der Lichtenberg- Hochleistungsrechner. Dr. Andreas Wolf. Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum
Hochleistungsrechnen in Darmstadt: Der Lichtenberg- Hochleistungsrechner Dr. Andreas Wolf Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum Überblick Randbedingungen der HPC Beschaffung an der
MehrVerteilte Betriebssysteme
Verteiltes System Eine Sammlung unabhängiger Rechner, die dem Benutzer den Eindruck vermitteln, es handle sich um ein einziges System. Verteiltes Betriebssystem Betriebssystem für verteilte Systeme Verwaltet
MehrMulticore Herausforderungen an das Software-Engineering. Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück 15.09.2010
Multicore Herausforderungen an das Software-Engineering Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück 15.09.2010 Inhalt _ Motivation _ Herausforderung 1: Hardware _ Herausforderung 2: Software-Partitionierung
MehrDevice Treiber für FlexPath- Netzwerkprozessoren
Device Treiber für FlexPath- Netzwerkprozessoren Michael Meitinger Rainer Ohlendorf Dr. Thomas Wild Prof. Dr. Andreas Herkersdorf 1 Übersicht Übersicht FlexPath Einsatz von Device Treibern in der FlexPath
MehrGeneral Purpose Computation on GPUs
General Purpose Computation on GPUs Matthias Schneider, Robert Grimm Universität Erlangen-Nürnberg {matthias.schneider, robert.grimm}@informatik.stud.uni-erlangen.de M. Schneider, R. Grimm 1 Übersicht
MehrHORUS. Seminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HWS Martin Scherer
HORUS Seminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HWS 2006 Martin Scherer Horus Inhalt 1 Einführung 2 Cachekohärenz 3 ExtendiScale Architektur 4 Übertragungsbeispiele 5 Performance Erweiterungen
MehrEnterprise Computing
Enterprise Computing Prof. Dr.-Ing. Wilhelm G. Spruth Teil 6 Partitionierung NUMA Sharing Disk Storage HP Superdome Cell Board 4 Itanium 2 CPU Chips 32 128 Gbyte I/O Bus mit Kühlern Hauptspeicher Anschlüsse
MehrEin kleiner Einblick in die Welt der Supercomputer. Christian Krohn 07.12.2010 1
Ein kleiner Einblick in die Welt der Supercomputer Christian Krohn 07.12.2010 1 Vorschub: FLOPS Entwicklung der Supercomputer Funktionsweisen von Supercomputern Zukunftsvisionen 2 Ein Top10 Supercomputer
MehrDIGITALE SCHALTUNGEN II
DIGITALE SCHALTUNGEN II 3. Sequentielle Schaltkreise 3.1 Vergleich kombinatorische sequentielle Schaltkreise 3.2 Binäre Speicherelemente 3.2.1 RS Flipflop 3.2.2 Getaktetes RS Flipflop 3.2.3 D Flipflop
MehrMehrprozessorarchitekturen (SMP, Cluster, UMA/NUMA)
Proseminar KVBK Mehrprozessorarchitekturen (SMP, Cluster, UMA/NUMA) Arian Bär 12.07.2004 1. Einleitung 2. Symmetrische Multiprozessoren (SMP) 2.1. Allgemeines 2.2. Architektur 3. Speicherarchitekturen
MehrGrundlagen der Rechnerarchitektur. Speicher
Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie
Mehr2.5. VERBINDUNGSNETZWERKE GESTALTUNGSKRITERIEN DER NETZWERKE TOPOLOGIE ALS GRAPH. Vorlesung 5 TOPOLOGIE: DEFINITIONEN : Sei G = (V, E) ein Graph mit:
Vorlesung 5.5. VERBINDUNGSNETZWERKE Kommunikation zwischen den einzelnen Komponenten eines arallelrechners wird i.d.r. über ein Netzwerk organisiert. Dabei unterscheidet man zwei Klassen der Rechner: TOOLOGIE:
MehrDOAG Konferenz 2007 in Nürnberg
DOAG Konferenz 2007 in Nürnberg Auswahl und Sizing: Die richtige Hardware (+Software) für Oracle Björn Bröhl Projektmanager Handlungsbevollmächtigter Seite 1 Inhalt Die Zielsetzung Vorgehensweise Auswahl
MehrHigh Performance Embedded Processors
High Performance Embedded Processors Matthias Schwarz Hardware-Software-Co-Design Universität Erlangen-Nürnberg martin.rustler@e-technik.stud.uni-erlangen.de matthias.schwarz@e-technik.stud.uni-erlangen.de
Mehr