Beispiel Parallelisierung 2D Laplace. Lagrange Formulierung/Hyperelastisches Material. Finite Differenzen Diskretisierung
|
|
- Franziska Boer
- vor 7 Jahren
- Abrufe
Transkript
1 Simulation von physikalischen Feldern im menschlichen Körper Implementierung Gliederung Gliederung Wiederholung: Biomechanik III Statische elastomechanische Probleme Finite Elemente Diskretisierung Finite Differenzen Diskretisierung Lagrange Formulierung/Hyperelastisches Material Implementierung Motivation Rechnerarchitektur Parallelisierung Interprozess-Kommunikation Speicherarchitektur Beispiel Parallelisierung 2D Laplace Zusammenfassung Seite 2
2 Motivation Motivation Einbringen Mathematische Beschreibung des Feldproblems Aufstellen der Elementmatrix Aufstellen/Lösen von Gleichungssystemen (Systemmatrix) Bestimmung der Diskretisierung des Feldgebiets Ansatzfunktion für Elemente Feldfunktion u(x, y, z) Seite 3 Motivation Motivation Lineares Gleichungssystem mit einer hohen Zahl von Unbekannten Erforderlich: Effiziente Verfahren von Lösung der Gleichungssysteme Effiziente Implementierung der Verfahren Hohe Rechenleistung und Speicherausstattung Rechner- und Speicherarchitektur Seite 4 Kommunikation Parallelisierung von Randbedingungen (Differentialgleichung) Interprozeß-
3 Rechnerarchitekturen Rechnerarchitekturen Multicomputer-Architektur Heterogene Prozessoren (Prozessor-)lokaler Speicher Compute Server Workstation Graphics Server Kommunikation via Netzwerk Netzwerk Multiprozessor-Architektur Homogene Prozessoren Prozessor 1 Prozessor 2 I/O Gemeinsamer oder/und verteilter Speicher Bus Kommunikation via Bus Speicher Speicher I/O Seite 5 Klassifikation von Rechnerarchitekturen nach Flynn (1972) Klassifikation von Rechnerarchitekturen nach Flynn (1972) SISD Single Instruction Single Data Prozessor 1 (Zuse Z3, PCs / Workstations z. B. auf Basis von Intel 80x86 / Pentium und Mips R3000-R14000) a* = b Prozessor 1 Prozessor 2 Prozessor 3 SIMD Single Instruction Multiple Data (Vektorrechner, z. B. Connection machine, Cray 1/2/XMP) a 1* = b1 a 2* = b2 a 3* = b3 MIMD Multiple Instruction Multiple Data (Transputer z. B. auf Basis von T400/T800) Prozessor 1 Prozessor 2 Prozessor 3 a 1+ = b1 gosub label a 3 = b3 MISD Multiple Instruction Single Data (nur theoretischer Ansatz) Seite 6
4 Typ der Parallelisierung Typ der Parallelisierung Job level Mehrere Programme werden gleichzeitig ausgeführt Betriebssystem (Scheduler) steuert Ausführung Benutzer gibt Prioritäten für Programme vor Programm entspricht Prozess Program level Programmteile werden in parallelen Prozessen ausgeführt Compiler/Interpreter/Benutzer bestimmt Ausführung Benutzer gibt Prioritäten für Prozesse vor Instruction level Befehle werden parallel ausgeführt Compiler/Interpreter/Benutzer bestimmt Ausführung Arithmetic and bit level Befehl wird parallel ausgeführt Prozessor steuert Ausführung Seite 7 Job Level Parallelisierung/Scheduler Job Level Parallelisierung/Scheduler Betriebssystem teilt Prozessen P1 Zeit und Prozessoren zu t Zuteilung ist Prioritäten gesteuert P1: Prozess mit hoher Priorität P2, P3: Prozess mit mittlerer Priorität P4, P0: Prozess mit niedriger Priorität P2 P0 Prozessor 1 Prozessor 2 P4 P0 P1 P2 P3 P4 P5 P3 Seite 8
5 Program Level Parallelisierung Program Level Parallelisierung Prozessor 1 Prozessor 2 Prozessor 3 Prozessor 4 Init Paralleler Programmteil Paralleler Programmteil Stop Seite 9 Program Level Parallelisierung: Beispiel OpenMP Program Level Parallelisierung: Beispiel OpenMP Serielle Ausführung der Vektoraddition r r r a b c Dimension des Vektors n for(i=0; i<n; i++) a[i =b[i]+c[i] Parallele Ausführung der Vektoraddition / Benutzergesteuerte Parallelisierung #pragma shared(a,b,c,n) local(i) pfor for(i=0; i<n; i++) a[i =b[i]+c[i] Seite 10
6 Job Level Parallelisierung: Beispiel MPI Job Level Parallelisierung: Beispiel MPI Funktionen von MPI (Message Passing Interface) MPI_Init(): MPI initialisieren MPI_Finalize(): MPI beenden MPI_Comm_rank(); Job-Nummer holen MPI_Recv(): Nachricht lesen MPI_Ssend(): Nachricht senden Seite 11 Interprozess-Kommunikation (IPC): Mechanismen Interprozess-Kommunikation (IPC): Mechanismen Shared Memory Prozesse können direkt im Speicher adressieren und auf Daten zugreifen (möglich u. a. bei Multiprozessor-Architektur) Message Queues Prozessoren kommunizieren durch Senden und Empfangen von Nachrichten (möglich u. a. bei Multicomputer-Architektur) Semaphore Sperren und Freigeben von Programmabschnitten (möglich u. a. bei Multiprozessor-Architektur) IPC-Mechanismen sind Bestandteil des Betriebssystems Seite 12
7 Interprozess-Kommunikation: Shared Memory Interprozess-Kommunikation: Shared Memory Operatoren Shared Memory Anlegen Freigeben Anhängen Bus Abhängen Prozessor 1 Prozessor 2 Scheduler Prozess 1 Prozess 2 Prozess 3 Seite 13 Interprozess-Kommunikation: Message Queues Interprozess-Kommunikation: Message Queues Operatoren Anlegen Prozessor 1 Prozessor 2 Freigeben Lesen Schreiben Scheduler Prozess 1 Prozess 2 Prozess 3 Message Queue 1 Message Queue 2 Seite 14
8 Interprozess-Kommunikation: Semaphore Interprozess-Kommunikation: Semaphore Operatoren Anlegen Prozessor 1 Prozessor 2 Freigeben Sperren Entsperren Scheduler Prozess 1 Prozess 2 Prozess 3 Semaphor 1 Semaphor 2 Seite 15 Speicherarchitektur: Gesamt-/Blockgröße Speicherarchitektur: Gesamt-/Blockgröße Blockgröße ~2-8 Byte ~8-64 Byte ~8-64 Byte ~ Byte Register First Level Cache Secondary Main Swap Cache Memory (Hard disk) CPU ~ Byte ~8-64 kb ~32 kb-8 MB ~1 MB-1 GB ~1 GB-10 GB Größe Seite 16
9 Speicherarchitektur: Zugriffszeiten/Transferrate Speicherarchitektur: Zugriffszeiten/Transferrate Transferrate [byte/s] Register First Level Cache Secondary Cache Main Memory Swap (Hard disk) CPU Zugriffdauer [ms] Seite 17 Speicherarchitektur: Kosten/Technologie Speicherarchitektur: Kosten/Technologie ECL/CMOS SRAM DRAM magnetic Register First Level Cache Secondary Cache Main Memory Swap (Hard disk) CPU Kosten [Euro] Seite 18
10 Beispiel: Parallelisierung 2D Laplace Gleichung Beispiel: Parallelisierung 2D Laplace Gleichung Lösung mit Gauß-Seidel-Verfahren: 01 Laplace: 0 Finite Differenzen Diskretisierung m h: m h 2 h Gitterabstand m 0 0m Nachbarschaftsbeziehung Seite 19 Beispiel: Iterationsformel, Feldgebiet und Programm Beispiel: Iterationsformel, Feldgebiet und Programm m 10 0m 4 Sequentielles Programm in C for(y=0; y<ymax; y++) for(x=0; x<xmax; x++) { Sequentielle Speicherung der Werte // Iterationsformel } 2D Array 1D Array Anzahl Punkte in x-richtung: xmax Anzahl Punkte in y-richtung: ymax Seite 20
11 Beispiel: Programmvarianten Beispiel: Programmvarianten Sequentielles Programm mit Red-Black-Sorting for(sy=0; sy<2; sy++) for(sx=0; sx<2; sx++) for(y=sy; y<ymax; y+=2) for(x=sx; x<xmax; x+=2) { // Iterationsformel } Paralleles Programm mit Red-Black-Sorting #pragma shared(xmax,ymax) local(sx,sy,x,y) pfor for(sy=0; sy<2; sy++) for(sx=0; sx<2; sx++) for(y=sy; y<ymax; y+=2) for(x=sx; x<xmax; x+=2) Probleme: Anzahl Prozessoren Cache-Kollisionen Cache-Blocksize { // Iterationsformel } Seite 21 Beispiel: Programmvarianten Beispiel: Programmvarianten Paralleles Programm mit Red-Black-Sorting for(sy=0; sy<2; sy++) for(sx=0; sx<2; sx++) #pragma shared(xmax,ymax,sx,xy) local(x,y) pfor for(y=sy; y<ymax; y+=2) Probleme Cache-Kollisionen Cache-Blocksize for(x=sx; x<xmax; x+=2) { // Iterationsformel } Paralleles Programm mit Red-Black-Sorting #pragma shared(xmax,ymax) local(sx,sy,x,y) pfor for(y=0; y<ymax; y+=2) for(sy=0; sy<2; sy++) for(sx=0; sx<2; sx++) for(x=sx; x<xmax; x+=2) Effizient, aber reduzierte Glättungseigenschaften { // Iterationsformel } Seite 22
12 Zusätzliche Informationen Zusätzliche Informationen Web-basierter Trainingskurs: Recipes for Applying Supercomputers Rüdiger Weiss, Rechenzentrum rz66/vorlesung/ Vorlesungsunterlagen: Parallelisierungstechniken Rechenzentrum MPI Offizielle Open MP website: Offizielle MPI website: Seite 23 Zusammenfassung Zusammenfassung Wiederholung: Biomechanik III Statische elastomechanische Probleme Finite Elemente Diskretisierung Finite Differenzen Diskretisierung Lagrange Formulierung/Hyperelastisches Material Implementierung Motivation Rechnerarchitektur Parallelisierung Interprozess-Kommunikation Speicherarchitektur Beispiel Parallelisierung 2D Laplace Seite 24
Computational Biology: Bioelektromagnetismus und Biomechanik
Computational Biology: Bioelektromagnetismus und Biomechanik Implementierung Gliederung Wiederholung: Biomechanik III Statische Elastomechanik Finite Elemente Diskretisierung Finite Differenzen Diskretisierung
Mehr2 Rechnerarchitekturen
2 Rechnerarchitekturen Rechnerarchitekturen Flynns Klassifikation Flynnsche Klassifikation (Flynn sche Taxonomie) 1966 entwickelt, einfaches Modell, bis heute genutzt Beschränkung der Beschreibung auf
MehrArchitektur von Parallelrechnern 50
Architektur von Parallelrechnern 50 Rechenintensive parallele Anwendungen können nicht sinnvoll ohne Kenntnis der zugrundeliegenden Architektur erstellt werden. Deswegen ist die Wahl einer geeigneten Architektur
MehrComputergrundlagen Moderne Rechnerarchitekturen
Computergrundlagen Moderne Rechnerarchitekturen Axel Arnold Institut für Computerphysik Universität Stuttgart Wintersemester 2010/11 Aufbau eines modernen Computers DDR3- Speicher Prozessor Prozessor PEG
MehrSysteme 1: Architektur
slide 1 Vorlesung Systeme 1: Architektur Prof. Dr. Ulrich Ultes-Nitsche Forschungsgruppe Departement für Informatik Universität Freiburg slide 2 Prüfung 18. Februar 2004 8h00-11h40 13h00-18h20 20 Minuten
MehrKapitel 5. Parallelverarbeitung. Formen der Parallelität
Kapitel 5 Parallelverarbeitung é Formen der Parallelität é Klassifikation von parallelen Rechnerarchitekturen é Exkurs über Verbindungsstrukturen Bernd Becker Technische Informatik I Formen der Parallelität
MehrComputergrundlagen Moderne Rechnerarchitekturen
Aufbau eines modernen Computers Computergrundlagen Moderne Rechnerarchitekturen Axel Arnold Institut für Computerphysik Universität Stuttgart DDR3- Speicher Prozessor Prozessor PEG Graphikkarte(n) weitere
MehrCPU Speicher I/O. Abbildung 11.1: Kommunikation über Busse
Kapitel 11 Rechnerarchitektur 11.1 Der von-neumann-rechner Wir haben uns bisher mehr auf die logischen Bausteine konzentriert. Wir geben jetzt ein Rechnermodell an, das der physikalischen Wirklichkeit
MehrProseminar Rechnerarchitekturen. Parallelcomputer: Multiprozessorsysteme
wwwnet-texde Proseminar Rechnerarchitekturen Parallelcomputer: Multiprozessorsysteme Stefan Schumacher, , PGP Key http://wwwnet-texde/uni Id: mps-folientex,v
MehrBeispielvortrag: HPCG auf Intel Haswell-EP
Beispielvortrag: HPCG auf Intel Haswell-EP Johannes Hofmann 1 Seminarvortrag Architekturen von Multi- und Vielkern-Prozessoren Erlangen, 19.4.2016 1 Computer Architecture, University Erlangen-Nuremberg
MehrKonzepte der parallelen Programmierung
Fakultät Informatik, Institut für Technische Informatik, Professur Rechnerarchitektur Konzepte der parallelen Programmierung Parallele Programmiermodelle Nöthnitzer Straße 46 Raum 1029 Tel. +49 351-463
MehrComputational Biology: Bioelektromagnetismus und Biomechanik
Computational Biology: Bioelektromagnetismus und Biomechanik Biomechanik III Gliederung Wiederholung: Biomechanik II Spannungsanalyse Materialgleichungen Bewegungsgleichungen Biomechanik III Statische
MehrGrundlagen der Parallelisierung
Grundlagen der Parallelisierung Philipp Kegel, Sergei Gorlatch AG Parallele und Verteilte Systeme Institut für Informatik Westfälische Wilhelms-Universität Münster 3. Juli 2009 Inhaltsverzeichnis 1 Einführung
MehrVerteilte Betriebssysteme
Verteiltes System Eine Sammlung unabhängiger Rechner, die dem Benutzer den Eindruck vermitteln, es handle sich um ein einziges System. Verteiltes Betriebssystem Betriebssystem für verteilte Systeme Verwaltet
MehrKapitel 1 Parallele Modelle Wie rechnet man parallel?
PRAM- PRAM- DAG- R UND R Coles und Kapitel 1 Wie rechnet man parallel? Vorlesung Theorie Paralleler und Verteilter Systeme vom 11. April 2008 der Das DAG- Das PRAM- Das werkmodell Institut für Theoretische
MehrParalleles Rechnen. (Architektur verteilter Systeme) von Thomas Offermann Philipp Tommek Dominik Pich
Paralleles Rechnen (Architektur verteilter Systeme) von Thomas Offermann Philipp Tommek Dominik Pich Gliederung Motivation Anwendungsgebiete Warum paralleles Rechnen Flynn's Klassifikation Theorie: Parallel
MehrGrundlagen der Rechnerarchitektur
Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie
MehrParallel Computing. Einsatzmöglichkeiten und Grenzen. Prof. Dr. Nikolaus Wulff
Parallel Computing Einsatzmöglichkeiten und Grenzen Prof. Dr. Nikolaus Wulff Parallel Architekturen Flynn'sche Klassifizierung: SISD: single Instruction, single Data Klassisches von-neumann sequentielles
MehrGrundlagen der Rechnerarchitektur. Speicher
Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie
MehrJohann Wolfgang Goethe-Universität
Flynn sche Klassifikation SISD (single instruction, single data stream): IS IS CU PU DS MM Mono (Mikro-)prozessoren CU: Control Unit SM: Shared Memory PU: Processor Unit IS: Instruction Stream MM: Memory
MehrQuiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset.
Quiz Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset 32 Bit Adresse 31 3 29... 2 1 SS 212 Grundlagen der Rechnerarchitektur
MehrGrundlagen der Rechnerarchitektur. Speicher
Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie
MehrSpeicherarchitektur (23) Suchen einer Seite:
Speicherarchitektur (23) Suchen einer Seite: Vorlesung Rechnersysteme SS `09 E. Nett 7 Speicherarchitektur (24) Adressschema inklusive Seitenfehler: Vorlesung Rechnersysteme SS `09 E. Nett 8 Speicherarchitektur
MehrCUDA. Moritz Wild, Jan-Hugo Lupp. Seminar Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg
CUDA Seminar Multi-Core Architectures and Programming 1 Übersicht Einleitung Architektur Programmierung 2 Einleitung Computations on GPU 2003 Probleme Hohe Kenntnisse der Grafikprogrammierung nötig Unterschiedliche
MehrParallele und verteilte Programmierung
Thomas Rauber Gudula Rünger Parallele und verteilte Programmierung Mit 165 Abbildungen und 17 Tabellen Jp Springer Inhaltsverzeichnis 1. Einleitung 1 Teil I. Architektur 2. Architektur von Parallelrechnern
MehrÜbung 1. Letzte Änderung: 5. Mai 2017
Übung 1 Letzte Änderung: 5. Mai 2017 Abhängigkeitsanalyse Synthese Mul prozessor Mul computer Compiler Parallelismustest Vektorrechner Rechenfelder Op mierung Flynns Schema Modelle Theorie Parallele Systeme
MehrWichtige Rechnerarchitekturen
Wichtige Rechnerarchitekturen Teil 5 INMOS Transputer, CSP/Occam 1 INMOS Transputer 1983 vorgestellt von der Firma INMOS (Bristol) (Entwicklung seit 1978) Der Name Transputer entstand als Kunstwort aus
MehrHigh Performance Embedded Processors
High Performance Embedded Processors Matthias Schwarz Hardware-Software-Co-Design Universität Erlangen-Nürnberg martin.rustler@e-technik.stud.uni-erlangen.de matthias.schwarz@e-technik.stud.uni-erlangen.de
MehrÜberblick. Einleitung. Befehlsschnittstelle Mikroarchitektur Speicherarchitektur Ein-/Ausgabe Multiprozessorsysteme,...
Überblick Einleitung Lit., Motivation, Geschichte, v.neumann- Modell, VHDL Befehlsschnittstelle Mikroarchitektur Speicherarchitektur Ein-/Ausgabe Multiprozessorsysteme,... Kap.6 Multiprozessorsysteme Einsatz
Mehr2 Reproduktion oder Verwendung dieser Unterlage bedarf in jedem Fall der Zustimmung des Autors.
1 Definition Definition nach Tanenbaum/van Steen Ein Verteiltes System ist eine Ansammlung von unabhängigen Rechnern, die für seine enutzer wie ein einzelnes Computersystem aussieht. Verteilte Systeme
MehrAlgorithmik kontinuierlicher Systeme
Algorithmik kontinuierlicher Systeme Matrixstrukturen Feste Dimension von Matrizen und Vektoren Geometrische Anwendungen Matrix beschreibt meist Transformationen von Vektoren im 2D bzw. 3D d.h. Dimension
MehrOptimierungen der Lattice Boltzmann Methode auf x86-64 basierten Architekturen
Optimierungen der Lattice Boltzmann Methode auf x86-64 basierten Architekturen J. Treibig, S. Hausmann, U. Ruede 15.09.05 / ASIM 2005 - Erlangen Gliederung 1 Einleitung Motivation Grundlagen 2 Optimierungen
MehrParallelrechner (1) Anwendungen: Simulation von komplexen physikalischen oder biochemischen Vorgängen Entwurfsunterstützung virtuelle Realität
Parallelrechner (1) Motivation: Bedarf für immer leistungsfähigere Rechner Leistungssteigerung eines einzelnen Rechners hat physikalische Grenzen: Geschwindigkeit von Materie Wärmeableitung Transistorgröße
MehrInhaltsangabe. 2.1 DieCPU Der Speicher Die Busse Klassifikation der von-neumann-rechner... 37
2 Rechnerarchitektur - Grundlegende Rechnerarchitektur - Bestandteile eines Rechners - Klassifikation von Rechnern Inhaltsangabe 2.1 DieCPU... 33 2.2 Der Speicher...... 35 2.3 Die Busse........ 37 2.4
MehrIntel 80x86 symmetrische Multiprozessorsysteme. Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte
Intel 80x86 symmetrische Multiprozessorsysteme Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte Gliederung I. Parallel Computing Einführung II.SMP Grundlagen III.Speicherzugriff
MehrHardware-Architekturen
Kapitel 3 Hardware-Architekturen Hardware-Architekturen Architekturkategorien Mehrprozessorsysteme Begriffsbildungen g Verbindungsnetze Cluster, Constellation, Grid Abgrenzungen Beispiele 1 Fragestellungen
MehrSeminar Parallele Rechnerarchitekturen SS04 \ SIMD Implementierung aktueller Prozessoren 2 (Dominik Tamm) \ Inhalt. Seite 1
\ Inhalt Seite 1 \ Inhalt SIMD Kurze Rekapitulation 3Dnow! (AMD) AltiVec (PowerPC) Quellen Seite 2 \ Wir erinnern uns: Nach Flynn s Taxonomie kann man jeden Computer In eine von vier Kategorien einteilen:
MehrIT für Führungskräfte. Zentraleinheiten. 11.04.2002 Gruppe 2 - CPU 1
IT für Führungskräfte Zentraleinheiten 11.04.2002 Gruppe 2 - CPU 1 CPU DAS TEAM CPU heißt Central Processing Unit! Björn Heppner (Folien 1-4, 15-20, Rollenspielpräsentation 1-4) Harald Grabner (Folien
MehrGliederung Seite 1. Gliederung
Gliederung Seite 1 Gliederung 1. Klassifikationen...6 1.1. Klassifikation nach der Kopplung der rechnenden Einheiten...6 1.1.1. Enge Kopplung...6 1.1.2. Lose Kopplung...6 1.2. Klassifikation nach der Art
MehrAlexander Günther. Speichergeräte Proseminar Speicher- und Dateisysteme
Alexander Günther Speichergeräte Proseminar Speicher- und Dateisysteme Inhaltsverzeichnis Geschichte der Speichergeräte Speicherhierachie in modernen Computern RAID Speichersysteme Zusammenfassung 2 von
MehrMehrprozessorarchitekturen
Mehrprozessorarchitekturen (SMP, UMA/NUMA, Cluster) Arian Bär 12.07.2004 12.07.2004 Arian Bär 1 Gliederung 1. Einleitung 2. Symmetrische Multiprozessoren (SMP) Allgemeines Architektur 3. Speicherarchitekturen
MehrArchitektur paralleler Plattformen
Architektur paralleler Plattformen Freie Universität Berlin Fachbereich Informatik Wintersemester 2012/2013 Proseminar Parallele Programmierung Mirco Semper, Marco Gester Datum: 31.10.12 Inhalt I. Überblick
MehrEinige Grundlagen zu OpenMP
Einige Grundlagen zu OpenMP Stephanie Friedhoff, Martin Lanser Mathematisches Institut Universität zu Köln 22. Juni 2016 Überblick Was ist OpenMP? Basics Das OpenMP fork-join-modell Kompilieren und Ausführen
MehrCache Blöcke und Offsets
Cache Blöcke und Offsets Ein Cache Eintrag speichert in der Regel gleich mehrere im Speicher aufeinander folgende Bytes. Grund: räumliche Lokalität wird wie folgt besser ausgenutzt: Bei Cache Miss gleich
MehrEin Verteiltes System ist eine Ansammlung von unabhängigen Rechnern, die für seine Benutzer wie ein einzelnes Computersystem aussieht.
Verteilte Systeme Verteilte etriebssysteme 2001-2004, F. Hauck, P. Schulthess, Vert. Sys., Univ. Ulm [2003w-VS--VS.fm, 2003-10-17 08.38] 1 1 Definition Definition nach Tanenbaum/van Steen Ein Verteiltes
Mehr1 Konzepte der Parallelverarbeitung
Parallelverarbeitung Folie 1-1 1 Konzepte der Parallelverarbeitung Erhöhung der Rechenleistung verbesserte Prozessorarchitekturen mit immer höheren Taktraten Vektorrechner Multiprozessorsysteme (Rechner
MehrBetriebssysteme und Microkern
16. September 2004 Überblick 1 Einführung 2 Betriebssysteme 3 Monolith 4 5 Anhang Einführung Teil I Einführung Einführung Was ist ein Betriebssystem? Unterscheidung Was ist ein Betriebssystem? engl. Operating
Mehré Er ist software-transparent, d.h. der Benutzer braucht nichts von seiner Existenz zu wissen. Adreßbus Cache- Control Datenbus
4.2 Caches é Cache kommt aus dem Französischen: cacher (verstecken). é Er kann durch ein Anwendungsprogramm nicht explizit adressiert werden. é Er ist software-transparent, d.h. der Benutzer braucht nichts
MehrStrukturelemente von Parallelrechnern
Strukturelemente von Parallelrechnern Parallelrechner besteht aus einer Menge von Verarbeitungselementen, die in einer koordinierten Weise, teilweise zeitgleich, zusammenarbeiten, um eine Aufgabe zu lösen
MehrMultiprozessor System on Chip
Multiprozessor System on Chip INF-M1 AW1-Vortrag 25. November 2009 Übersicht 1. Einleitung und Motivation 2. Multiprozessor System on Chip (MPSoC) 3. Multiprozessoren mit Xilinx EDK 4. FAUST SoC Fahrzeug
MehrMaik Zemann. Flynn s Taxonomie. Parallele Rechnerarchitekturen SS 2004 Technische Fakultät Universität Bielefeld. 3. Mai 2004 Flynn's Taxonomie 1
Maik Zemann Flynn s Taxonomie Parallele Rechnerarchitekturen SS 2004 Technische Fakultät Universität Bielefeld 3. Mai 2004 Flynn's Taxonomie 1 Gliederung Einleitung Gliederung Flynn s Taxonomie Das SISD-Modell
MehrKap.2 Befehlsschnittstelle. Prozessoren, externe Sicht
Kap.2 Befehlsschnittstelle Prozessoren, externe Sicht 2 Befehlsschnittstelle 2.1 elementare Datentypen, Operationen 2.2 logische Speicherorganisation 2.3 Maschinenbefehlssatz 2.4 Klassifikation von Befehlssätzen
MehrHigh Performance Computing
High Performance Computing SS 2002 PD Dr. A. Strey Abteilung Neuroinformatik, Universität Ulm Email: strey@informatik.uni-ulm.de Inhalt Einführung hohe Leistung durch Parallelität! kurze Historie des High
MehrWichtige Rechnerarchitekturen
Wichtige Rechnerarchitekturen Teil 1 Überblick 1 Rechnergeschichte: Mechanische Rechenmaschinen Mechanische Rechenmaschinen (17.Jahrhundert) Rechenuhr von Schickard (1623) Pascaline von Blaise Pascal (1642)
MehrEine kurze Einführung in Rechnerarchitektur und Programmierung von Hochleistungsrechnern als zentrales Werkzeug in der Simulation
Eine kurze Einführung in Rechnerarchitektur und Programmierung von Hochleistungsrechnern als zentrales Werkzeug in der Simulation Dr. Jan Eitzinger Regionales Rechenzentrum (RRZE) der Universität Erlangen-Nürnberg
Mehr3 Technikarchitekturen
3 Technikarchitekturen 3.1 Rechnerarchitektur Definition Taxonomien Komponenten Rechnergrößentypologie 3.2 Kommunikationssystemarchitektur ISO-Referenzmodell TCP/IP Grundlagen der Telekommunikation 3.3
MehrComputational Biology: Bioelektromagnetismus und Biomechanik
Computational Biology: Bioelektromagnetismus und Biomechanik Simulation der Hyperthermie Potentielle Prüfungsfragen Gliederung Wiederholung: Implementierung Motivation Rechnerarchitektur Parallelisierung
MehrOpenCL. Programmiersprachen im Multicore-Zeitalter. Tim Wiersdörfer
OpenCL Programmiersprachen im Multicore-Zeitalter Tim Wiersdörfer Inhaltsverzeichnis 1. Was ist OpenCL 2. Entwicklung von OpenCL 3. OpenCL Modelle 1. Plattform-Modell 2. Ausführungs-Modell 3. Speicher-Modell
MehrMulti- und Many-Core
Multi- und Many-Core Benjamin Warnke Arbeitsbereich Wissenschaftliches Rechnen Fachbereich Informatik Fakultät für Mathematik, Informatik und Naturwissenschaften Universität Hamburg 2016-12-15 Benjamin
Mehrmoderne Prozessoren Jan Krüger jkrueger@techfak.uni-bielefeld.de
moderne Prozessoren Jan Krüger jkrueger@techfak.uni-bielefeld.de Übersicht FachChinesisch SPARC - UltraSparc III/IV PowerPC - PowerPC 970(G5) X86 - Pentium4(Xeon), Itanium, (Pentium M) X86 - AthlonXP/MP,
MehrSchriftliche Prüfung
OTTO-VON-GUERICKE-UNIVERSITÄT MAGDEBURG FAKULTÄT FÜR INFORMATIK Schriftliche Prüfung im Fach: Rechnersysteme Studiengang: Bachelor (PF CSE / IF; WPF CV / WIF) am: 30. Juli 2008 Bearbeitungszeit: 120 Minuten
MehrSingle- und Multitasking
Single- und Multitasking Peter B. Ladkin ladkin@rvs.uni-bielefeld.de Peter B. Ladkin Command Interpreter (ComInt) läuft wartet auf Tastatur-Eingabe "liest" (parst) die Eingabe (für Prog-Name) Macht "Lookup"
MehrTutorium Softwaretechnik I
Tutorium Softwaretechnik I Moritz Klammler 11. Juli 2017 Fakultät für Informatik, IPD Tichy Titelfoto: Copyright (C) 2010 Multimotyl CC BY-SA 3.0 1 11. Juli 2017 Moritz Klammler - Tutorium Softwaretechnik
MehrHochleistungsrechnen auf dem PC
Hochleistungsrechnen auf dem PC Steffen Börm Christian-Albrechts-Universität zu Kiel Ringvorlesung Informatik, 26. Juni 2014 S. Börm (CAU Kiel) Hochleistungsrechnen auf dem PC 26. Juni 2014 1 / 33 Übersicht
MehrVorlesung "Struktur von Mikrorechnern" (CBS)
Ziele eines Mehrrechnerkonzeptes - Aufteilung von Aufgaben auf mehrere en kostengünstige Leistungssteigerung -einzelne en können auf privaten und auf gemeinsamen zurückgreifen -en können selbständig agieren
MehrOpenMP - Geschichte. 1997: OpenMP Version 1.0 für Fortran
OpenMP - Geschichte 1997: OpenMP Version 1.0 für Fortran Standard für f r die Shared-Memory Memory-Programmierung inzwischen für f r alle namhaften SMP-Rechner verfügbar wird im techn.-wiss. Rechnen die
MehrRechnerarchitektur und Betriebssysteme (CS201): Multiprogramming und -Tasking Flynn-Klassifikation, ILP, VLIW
Rechnerarchitektur und Betriebssysteme (CS201): Multiprogramming und -Tasking Flynn-Klassifikation, ILP, VLIW 26. Oktober 2012 Prof. Dr. Christian Tschudin Departement Informatik, Universität Basel Uebersicht
MehrVerteilte Systeme - Einleitung
Verteilte Systeme - Einleitung... alois.schuette@h-da.de Alois Schütte 15. Oktober 2014 1 / 36 Inhaltsverzeichnis Ziel dieses Teils der Veranstaltung ist es, die wichtigsten Begriffe zu erklären und Abgrenzungen
MehrCache Grundlagen. Schreibender Cache Zugriff. SS 2012 Grundlagen der Rechnerarchitektur Speicher 22
Cache Grundlagen Schreibender Cache Zugriff SS 212 Grundlagen der Rechnerarchitektur Speicher 22 Eine einfache Strategie Schreibt man nur in den Cache, werden Cache und darunter liegender Speicher inkonsistent.
MehrSimplivity Rechenzentrum in a Box
09-10.09 2 Tag Simplivity Rechenzentrum in a Box Markus Schmidt Consultant markus.schmidt@interface-systems.de Agenda 1.Motivation Warum ein neuer Ansatz 2.Technischer Überblick 3.Anwendungsszenarien 4.Performancebetrachtung
MehrSysteme I: Betriebssysteme Kapitel 4 Prozesse. Wolfram Burgard
Systeme I: Betriebssysteme Kapitel 4 Prozesse Wolfram Burgard Version 18.11.2015 1 Inhalt Vorlesung Aufbau einfacher Rechner Überblick: Aufgabe, Historische Entwicklung, unterschiedliche Arten von Betriebssystemen
MehrEvaluation. Einleitung. Implementierung Integration. Zusammenfassung Ausblick
Christopher Schleiden Bachelor Kolloquium 15.09.2009 Einleitung Evaluation Implementierung Integration Zusammenfassung Ausblick Einleitung laperf Lineare Algebra Bibliothek für C++ Möglichkeit zur Integration
MehrÜbung 2. Letzte Änderung: 19. Mai 2017
Übung 2 Letzte Änderung: 19 Mai 2017 Zusammenfassung Übung 1 Zum Beispiel CPI ( ), Ausführungszeit, MIPS-Rate MIPS ist schlecht als Vergleichsmaß, weil zu sehr abhängig von Compiler und Befehlsarchitektur
MehrVorlesung: Rechnerstrukturen, Teil 2 (Modul IP7)
Vorlesung: Rechnerstrukturen, Teil 2 (Modul IP7) Vorlesung: Rechnerstrukturen, Teil 2 (Modul IP7) J. Zhang zhang@informatik.uni-hamburg.de Universität Hamburg AB Technische Aspekte Multimodaler Systeme
MehrC-to-CUDA-Compiler. Johannes Kölsch. October 29, 2012
October 29, 2012 Inhaltsverzeichnis 1 2 3 4 5 6 Motivation Motivation CUDA bietet extreme Leistung für parallelisierbare Programme Kompliziert zu programmieren, da multi-level parallel und explizit verwalteter
MehrRechnerorganisation. 1. Juni 201 KC Posch
.6.2 Rechnerorganisation. Juni 2 KC Posch .6.2 2 .6.2 Front Side Bus Accelerated Graphics Port 28 MHz Front Side Bus North Bridge RAM idge South Bri IDE USB PCI Bus 3 .6.2 Front Side Bus Front Side Bus
MehrVorlesung 1 Medizininformatik. Sommersemester 2017
Vorlesung 1 Medizininformatik Begrüssung und Einführung Medizininformatik () Vorlesung (2 SWS) Montags 8:30-10:00 Übung (1 SWS) 10:15-11:00 1. 24.4 1.5 2. 8.5 3. 15.5 4. 22.5 Computer Architecture Begrüssung,
MehrExkurs: Paralleles Rechnen
Münster Exkurs: Paralleles Rechnen Münster Exkurs: Paralleles Rechnen 2 /21 Konzepte für Parallelrechner P P P C C C Gemeinsamer Speicher Verteilter Speicher Verbindungsnetzwerk Speicher M, Münster Exkurs:
MehrGrafikkarten-Architektur
> Grafikkarten-Architektur Parallele Strukturen in der GPU Name: Sebastian Albers E-Mail: s.albers@wwu.de 2 > Inhalt > CPU und GPU im Vergleich > Rendering-Pipeline > Shader > GPGPU > Nvidia Tesla-Architektur
MehrGrundlagen der Rechnerarchitektur. MIPS Assembler
Grundlagen der Rechnerarchitektur MIPS Assembler Übersicht Arithmetik, Register und Speicherzugriff Darstellung von Instruktionen Logische Operationen Weitere Arithmetik Branches und Jumps Prozeduren 32
MehrDas Message Passing Paradigma (1)
Das Message Passing Paradigma (1) Das Message Passing Paradigma (2) Sehr flexibel, universell, hoch effizient Programm kann logisch in beliebig viele Prozesse aufgeteilt werden Prozesse können unterschiedlichen
MehrParallele und verteilte Anwendungen in Java
Rainer Oechsle Parallele und verteilte Anwendungen in Java ISBN-10: 3-446-40714-6 ISBN-13: 978-3-446-40714-5 Leseprobe Weitere Informationen oder Bestellungen unter http://www.hanser.de/978-3-446-40714-5
MehrImmediate Priority Ceiling
Vereinfachtes Protokoll: Immediate priority ceiling: Prozesse, die ein Betriebsmittel s belegen, bekommen sofort die Priorität ceil(s) zugewiesen. Anwendungsgebiet: Immediate Priority Ceiling Verwendung
MehrCell and Larrabee Microarchitecture
Cell and Larrabee Microarchitecture Benjamin Grund Dominik Wolfert Universität Erlangen-Nürnberg 1 Übersicht Einleitung Herkömmliche Prozessorarchitekturen Motivation für Entwicklung neuer Architekturen
MehrNeue Prozessor-Architekturen für Desktop-PC
Neue Prozessor-Architekturen für Desktop-PC Bernd Däne Technische Universität Ilmenau Fakultät I/A - Institut TTI Postfach 100565, D-98684 Ilmenau Tel. 0-3677-69-1433 bdaene@theoinf.tu-ilmenau.de http://www.theoinf.tu-ilmenau.de/ra1/
MehrThreads Einführung. Zustände von Threads
Threads Einführung Parallelität : Zerlegung von Problemstellungen in Teilaufgaben, die parallelel ausgeführt werden können (einfachere Strukturen, eventuell schneller, Voraussetzung für Mehrprozessorarchitekturen)
MehrParallelrechner: Klassifikation. Parallelrechner: Motivation. Parallelrechner: Literatur. Parallelrechner: PC-Technologie SMP-Multiprozessorsysteme 69
Parallelrechner: Motivation immer höhere Performance gefordert => schnellere Einzelprozessoren aber Takte oberhalb von 10 GHz unrealistisch => mehrere Prozessoren diverse Architekturkonzepte shared-memory
MehrVorlesung: Rechnerstrukturen, Teil 2 (Modul IP7)
Vorlesung: Rechnerstrukturen, Teil 2 (Modul IP7) Vorlesung: Rechnerstrukturen, Teil 2 (Modul IP7) J. Zhang zhang@informatik.uni-hamburg.de Universität Hamburg AB Technische Aspekte Multimodaler Systeme
MehrCPU, GPU und FPGA. CPU, GPU und FPGA Maximilian Bandle, Bianca Forkel 21. November 2017
CPU, GPU und FPGA, Bianca Forkel 21. November 2017 CPU, GPU und FPGA Inhalt CPU: Central Processing Unit GPU: Graphical Processing Unit FPGA: Field Programmable Gate Array 2 CPU Central Processing Unit
MehrMulti-threaded Programming with Cilk
Multi-threaded Programming with Cilk Hobli Taffame Institut für Informatik Ruprecht-Karls Universität Heidelberg 3. Juli 2013 1 / 27 Inhaltsverzeichnis 1 Einleitung Warum Multithreading? Ziele 2 Was ist
MehrB Einführung. 1 Historische Entwicklung. 1 Historische Entwicklung (3) 1 Historische Entwicklung (2)
1 Historische Entwicklung 8500 v. Chr.: Zählsysteme in vielen Kulturen benutzt häufig 5 oder 10 als Basis 1. historische Entwicklung 2. Entwicklung der Mikroprozessoren 3. Entwicklung der Betriebssysteme
MehrTrend der letzten Jahre in der Parallelrechentechnik
4.1 Einführung Trend der letzten 10-15 Jahre in der Parallelrechentechnik weg von den spezialisierten Superrechner-Plattformen hin zu kostengünstigeren Allzwecksystemen, die aus lose gekoppelten einzelnen
MehrCache-Speicher. Design Digitaler Systeme. Prof. Dr.-Ing. Rainer Bermbach
Cache-Speicher Design Digitaler Systeme Prof. Dr.-Ing. Rainer Bermbach Übersicht Cache-Speicher Warum Cache-Speicher? Cache-Strukturen Aufbau und Organisation von Caches Cache-Architekturen Cache-Strategien
MehrGeorg Hager Regionales Rechenzentrum Erlangen (RRZE)
Erfahrungen und Benchmarks mit Dual- -Prozessoren Georg Hager Regionales Rechenzentrum Erlangen (RRZE) ZKI AK Supercomputing Karlsruhe, 22./23.09.2005 Dual : Anbieter heute IBM Power4/Power5 (Power5 mit
Mehr-0 FDDI-Anschluß. m 256MB. m 512 MB Memory. Parallelrechner IBM SP. HRZ Uni Marburg. Frame 2. Frame 3. Frame 1. Ethernet mit allen Knoten
HRZ Uni Marburg Parallelrechner IBM SP Ethernet mit allen Knoten 3 externe SSADisks 12 * 4.5 GB Parallele Filesysteme 8 * 4.5 GB Benutzer- Filesysteme SP Switch SP Switch SP Switch ~ 128MB m 256MB m 512
Mehr