Beispielvortrag: HPCG auf Intel Haswell-EP
|
|
- Teresa Bretz
- vor 6 Jahren
- Abrufe
Transkript
1 Beispielvortrag: HPCG auf Intel Haswell-EP Johannes Hofmann 1 Seminarvortrag Architekturen von Multi- und Vielkern-Prozessoren Erlangen, Computer Architecture, University Erlangen-Nuremberg
2 Hinweise 20 Minuten Vortrag + 5 Minuten Fragen Fragen stellt das Publikum NACH, nicht während des Vortrags Ihr kommt dadurch erstens vielleicht aus dem Konzept Zeitplanung kommt durcheinander Gliederungsfolie optional Normalerweise ergibt sich Ablauf von selbst Für Anfänger dennoch sinnvoll Hilft euch evtl. bei Strukturierung eures Vortrags 2-3 Minuten pro Folie einplanen, sonst ziehen Folien zu schnell an Publikum vorüber Statt alles nur oberflächlich zu erklären, sucht euch die interessantesten Aspekte/Optimierungen und seid bei diesen ausführlich Komplizierte Sachverhalte lassen sich mit einer Grafik oft leichter kommunizieren 2
3 Gliederung Einführung HPCG Verwendete Hardware Optimierungen Single-Core Optimierungen Multi-Core Ergebnisse Conclusion 3
4 HPCG Basiert auf Konjugierte Gradienten Methode Wird benutzt zur Lösung linearer Gleichungssysteme x Findet Anwendung in vielen physikalischen Simulationen Ablauf Algorithmus while (true) { compute daxpy compute spmv compute dot product } compute something else if (converged) break; x 0 4
5 Verwendete Hardware Xeon E v3 (Haswell EP) Nonimal CPU Clock: 2.3 GHz Number of Cores/Threads 14/28 SIMD width: 256bit (AVX) Caches: 32kB L1, 256kB L2, 35MB L3 Core-private L1 and L2 caches Shared Last-Level (L3) Cache: 14x2.5MB Main memory 4xDDR Theoretical peak bandwidth: 69.3 GB/s 5
6 Sparse Matrix-Vector (SpMV) im Detail int HPC_sparsemv(HPC_Sparse_Matrix *A, double *x, double *y) { int nrow = (int) A->local_nrow; for (int i=0; i< nrow; i++) { double sum = 0.0; double *cur_vals=(double *) A->ptr_to_vals_in_row[i]; int *cur_inds=(int *) A->ptr_to_inds_in_row[i]; int cur_nnz = (int) A->nnz_in_row[i]; for (int j=0; j< cur_nnz; j++) sum += cur_vals[j]*x[cur_inds[j]]; y[i] = sum; } return(0); } Sparse Matrix: Compressed Row Storage (CRS) wird verwendet cur_vals = { 5, 8, 3, 6 }; // matrix cur_inds = { 0, 1, 2, 1 }; // col ptr nnz_in_row = { 0, 0, 2, 3, 4 }; 6
7 Optimierung 1: SIMD Vektorisierung Analyse zeigt, Compiler erzeugt skalaren Code Warum? Weil Abhilfe schafft Compiler Flags (...), hat nicht geklappt Verwendung von Intrinsics (...), hat nicht geklappt Innere Schleife musste in Assembly implementiert werden (ich hoffe, das bleibt euch erspart),... Skalara Addition durch AVX ADD ersetzt Wir erwarten Speedup von... Wir erhalten Speedup von..., weil bit / 32 byte A[0] A[1] A[2] A[3] A[4] A[5] A[6] A[7] B[0] B[1] B[2] B[3] B[4] B[5] B[6] B[7] = = = = = = = = C[0] C[1] C[2] C[3] C[4] C[5] C[6] C[7] 7
8 Weitere Optimierungen Blocking? Unrolling? Instruction Replacement (Division vs. Mult mit Reziprok)? Instruction Reordering (Instruktionslatenzen)? Non-temporal stores? SMT? Änderung Datenstruktur? 8
9 Zusammenfassung: Single-Core Baseline ist naive implementierung Single-Core Performance: x Some Metric Optimierung 1: SIMD Single-Core Performance: x Some Metric (Speedup y) Optimierung 2:??? Single-Core Performance: x Some Metric (Speedup y) Performance [made up unit] Naive opt1 opt2 opt3 Optimierung 3:??? Single-Core Performance: x Some Metric (Speedup y)
10 Multi-Core Parallelisierung Jeder Thread arbeitet hauptsäschlich auf eigenen Daten Kommunikation maximal mit zwei Nachbarn Reguläres Muster beim Datenzugriff Statische Partitionierung #pragma omp parallel for schedule(static) private(y,x) for (int i=0; i< nrow; i++) {... 10
11 Multi-Core Ergebnisse Performance [made up unit] Naive AVX +Blocking +SMT Bandwidth Limit SIMD Vektorisierung bringt Steigerung der Performance um Faktor 2 Wir erwarten Steigerung um Faktor 4, Problem hier ist Code saturiert mit AVX+Blocking ab 12 Kernen Mit SMT Saturierung schon bei 8 Kernen Weniger Energieverbraucht, da nur 8 (statt 12) Kerne benutzt werden müssen Number of Cores 11
12 Zusammenfassung Single-Core SIMD Vektorisierung leicht? Schwierig? Bringt Faktor 2 an Performance, nicht 4 wie erwartet, weil Blocking Steigert Performance um Faktor... SMT... Multi-Core Parallelisierung einfach/schwierig Datenstrukturen mussten (nicht?) angepasst werden Arbeit musste dynamisch verteilt werden? Insgesamt Steigerung der Performance um Faktor 4,6 gegenüber Referenzimplementierung War (nicht?) zu erwarten, weil... 12
13 Fragen Fragen? 13
Die Sandy-Bridge Architektur
Fakultät Informatik - Institut für Technische Informatik - Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Die Sandy-Bridge Architektur René Arnold Dresden, 12. Juli 2011 0. Gliederung 1.
MehrCell Broadband Engine
Cell Broadband Engine 21.March 2006 Benjamin Keck Outline Why Cell?!? Application Areas Architectural Overview SPU Programming Model Programming on the PPE C/C++ Intrinsics The Cell Supercomputer on a
MehrOutline. Cell Broadband Engine. Application Areas. The Cell
Outline 21.March 2006 Benjamin Keck Why Cell?!? Application Areas Architectural Overview Programming Model Programming on the PPE C/C++ Intrinsics 1 2 The Cell Supercomputer on a chip Multi-Core Microprocessor
MehrConvey, Hybrid-Core Computing
Convey, Hybrid-Core Computing Vortrag im Rahmen des Seminars Ausgewählte Themen in Hardwareentwurf und Optik HWS 09 Universität Mannheim Markus Müller 1 Inhalt Hybrid-Core Computing? Convey HC-1 Überblick
MehrCUDA. Jürgen Pröll. Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg Jürgen Pröll 1
CUDA Jürgen Pröll Multi-Core Architectures and Programming Jürgen Pröll 1 Image-Resize: sequentiell resize() mit bilinearer Interpolation leicht zu parallelisieren, da einzelne Punkte voneinander unabhängig
MehrDie Bildbearbeitungssprache Halide
Die Bildbearbeitungssprache Halide Dominik Danner 13.06.2013 Dominik Danner Die Bildbearbeitungssprache Halide 13.06.2013 1 / 30 Inhaltsverzeichnis 1 Einführung Die Domäne der Bildbearbeitung Einführungsbeispiel
MehrTecNews: Sandy Bridge
TecNews: Sandy Bridge Werner Fischer, Technology Specialist Thomas-Krenn.AG Thomas Krenn Herbstworkshop & Roadshow 2011 23.09. in Freyung 06.10. in Wien (A) 10.10. in Frankfurt 11.10. in Düsseldorf 12.10.
MehrBeispiel Parallelisierung 2D Laplace. Lagrange Formulierung/Hyperelastisches Material. Finite Differenzen Diskretisierung
Simulation von physikalischen Feldern im menschlichen Körper Implementierung Gliederung Gliederung Wiederholung: Biomechanik III Statische elastomechanische Probleme Finite Elemente Diskretisierung Finite
MehrSoftware Engineering für moderne, parallele Plattformen
Software Engineering für moderne, parallele Plattformen b. Ergänzungen zur Performanz Dr. Victor Pankratius Dr. Victor Pankratius IPD Lehrstuhl für Programmiersysteme-Tichy KIT die Kooperation von Forschungszentrum
MehrGPGPU mit NVIDIA CUDA
01.07.12 GPGPU mit NVIDIA CUDA General-Purpose on Formatvorlagecomputing des Graphics Processing durch Units Untertitelmasters mit KlickenCompute bearbeiten NVIDIA Unified Device Architecture Gliederung
MehrRaytracing auf Desktop PCs Optimizing Cache Usage (Intel Corp.)
Raytracing auf Desktop PCs Optimizing Cache Usage (Intel Corp.) von Martin Stöcker Motivation Geschwindigkeit der Prozessoren verdoppelt sich alle 18 Monate (Moore s Law) Geschwindigkeit des Speichers
MehrIntroduction Workshop 11th 12th November 2013
Introduction Workshop 11th 12th November 2013 Lecture I: Hardware and Applications Dr. Andreas Wolf Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum Overview Current and next System Hardware Sections
MehrGame Engine Architecture and Development. Platform Unabhängiger Code Multi Threading in Game Engines Profiling
Game Engine Architecture and Development Platform Unabhängiger Code Multi Threading in Game Engines Profiling Folien Die Folien werden auf acagamics.de hochgeladen Das Passwort ist 60fps (ohne ) Rückblick:
MehrProjekt Systementwicklung
Projekt Systementwicklung Effiziente Codierung: Laufzeitoptimierung Prof. Dr. Nikolaus Wulff Effiziente Codierung Der Wunsch effizienten Code zu schreiben entstammt mehreren Quellen: Zielplattformen mit
MehrGrafikkarten-Architektur
> Grafikkarten-Architektur Parallele Strukturen in der GPU Name: Sebastian Albers E-Mail: s.albers@wwu.de 2 > Inhalt > CPU und GPU im Vergleich > Rendering-Pipeline > Shader > GPGPU > Nvidia Tesla-Architektur
Mehr1. Einführung in OpenMP
1. Einführung in OpenMP Übersicht Einführung Homogene und inhomogene Arbeitsverteilung Rekursive Parallelität Beispiele Parallele Programmierung 1 Nicolas Maillard, Marcus Ritt 1 Überblick OpenMP: Vereinfachte
MehrFrank Kuchta Markus Rüger
Leistungsvergleich mobiler Intel-Systeme single vs. dual core Frank Kuchta Markus Rüger Inhalt Motivation Ziel & Aufgabendefinition Hardware - Architektur Test-Umgebung Benchmarks Fazit Inhalt Motivation
MehrIntel 80x86 symmetrische Multiprozessorsysteme. Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte
Intel 80x86 symmetrische Multiprozessorsysteme Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte Gliederung I. Parallel Computing Einführung II.SMP Grundlagen III.Speicherzugriff
MehrMulticore Architektur vs. Amdahl`s Gesetz
Fakultätsname Informatik, Professur Technische Informatik Multicore Architektur vs. Amdahl`s Gesetz Dresden, 21.Juli.2010 Motivation Veröffentlichung von IEEE Computer 2008 von Mark D. Hill (University
MehrAssembler - Einleitung
Assembler - Einleitung Dr.-Ing. Volkmar Sieh Department Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg SS 2008 Assembler - Einleitung 1/19 2008-04-01 Teil 1: Hochsprache
MehrDas Prinzip der kleinsten Überraschung Konfiguration des neuen HPC-Clusters am RRZ
Das Prinzip der kleinsten Überraschung Konfiguration des neuen HPC-Clusters am RRZ Hinnerk Stüben ZKI-Arbeitskreis Supercomputing Leibniz-Rechenzentrum, Garching 19. Oktober 2015 Themen Neues HPC-Cluster
MehrShared-Memory Parallelisierung von C++ Programmen
Shared-Memory Parallelisierung von C++ Programmen 9. Februar 2006 1 Übersicht Ergebnisse Zusammenfassung 2 3 Übersicht Ergebnisse Zusammenfassung Übersicht Verbreitete Parallelisierungstechniken für Shared-Memory:
MehrHochleistungsrechnen Hybride Parallele Programmierung. Prof. Dr. Thomas Ludwig Universität Hamburg Informatik Wissenschaftliches Rechnen
Hochleistungsrechnen Hybride Parallele Programmierung Prof. Dr. Thomas Ludwig Universität Hamburg Informatik Wissenschaftliches Rechnen Inhaltsübersicht Einleitung und Motivation Programmiermodelle für
MehrWelche Informatik-Kenntnisse bringen Sie mit?
Welche Informatik-Kenntnisse bringen Sie mit? So gehen Sie vor! Lösen Sie die Aufgaben der Reihe nach von 1 bis 20, ohne das Lösungsblatt zur Hilfe zu nehmen. Der Schwierigkeitsgrad der Aufgaben nimmt
MehrArchitektur paralleler Plattformen
Architektur paralleler Plattformen Freie Universität Berlin Fachbereich Informatik Wintersemester 2012/2013 Proseminar Parallele Programmierung Mirco Semper, Marco Gester Datum: 31.10.12 Inhalt I. Überblick
MehrEinige Grundlagen zu OpenMP
Einige Grundlagen zu OpenMP Stephanie Friedhoff, Martin Lanser Mathematisches Institut Universität zu Köln 22. Juni 2016 Überblick Was ist OpenMP? Basics Das OpenMP fork-join-modell Kompilieren und Ausführen
MehrCurrent and Emerging Architectures Multi-core Architectures and Programming
Current and Emerging Architectures Multi-core Architectures and Programming Adel El-Rayyes Hardware-Software-Co-Design, Friedrich-Alexander-Universität Erlangen-Nürnberg 9. Mai 2012 Inhalt Überblick über
MehrEinführung in die Programmierung mit C++
Seite 1 Einführung in die Programmierung mit C Teil IV - Weiterführende Themen 16. SIMD Programmierung Was bedeutet SIMD Seite SIMD Single-Instruction, Multiple-Data, also eine Instruktion, mehrere Daten
MehrOpenMP - Threading- Spracherweiterung für C/C++ Matthias Klein, Michael Pötz Systemprogrammierung 15. Juni 2009
- Threading- Spracherweiterung für C/C++ Matthias Klein, Michael Pötz Systemprogrammierung 15. Juni 2009 Grundlagen der Parallelen Programmierung Hardware Threads vs. Prozesse Kritische Abschnitte Lange
MehrRechner Architektur. Martin Gülck
Rechner Architektur Martin Gülck Grundlage Jeder Rechner wird aus einzelnen Komponenten zusammengesetzt Sie werden auf dem Mainboard zusammengefügt (dt.: Hauptplatine) Mainboard wird auch als Motherboard
MehrGames with Cellular Automata auf Parallelen Rechnerarchitekturen
Bachelor Games with Cellular Automata auf Parallelen en ( ) Dipl.-Inf. Marc Reichenbach Prof. Dietmar Fey Ziel des s Paralleles Rechnen Keine akademische Nische mehr Vielmehr Allgemeingut für den Beruf
MehrOpenMP am Beispiel der Matrizenmultiplikation
OpenMP am Beispiel der Matrizenmultiplikation David J. Meder, Dr. Victor Pankratius IPD Tichy Lehrstuhl für Programmiersysteme KIT die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe
MehrKurze Einführung in die Programmiersprache C++ und in Root
Kurze Einführung in die Programmiersprache C++ und in Root Statistik, Datenanalyse und Simulation; 31.10.2006 Inhalt 1 Einführung in die Programmiersprache C++ Allgemeines Variablen Funktionen 2 1 Einführung
MehrOpenMP. Viktor Styrbul
OpenMP Viktor Styrbul Inhaltsverzeichnis Was ist OpenMP Warum Parallelisierung Geschichte Merkmale von OpenMP OpenMP-fähige Compiler OpenMP Ausführungsmodell Kernelemente von OpenMP Zusammenfassung Was
MehrIhr exone Partner: BITS ek Udo Boochs Patschelstr.13 41379 Brüggen Born. 02163 951 95 10 service@bitsek.de www.bitsek.de
Ihr exone Partner: BITS ek Udo Boochs Patschelstr.13 41379 Brüggen Born 02163 951 95 10 service@bitsek.de www.bitsek.de exone Challenge 1111 Atom 525 exone Challenge Picco i3-3220t 500GB exone Challenge
MehrPraktikum 1: Parallel Computing Hardware
Praktikum 1: Parallel Computing Hardware M.Thaler, 2/2016, ZHAW 1 Einführung Ziel dieses Praktikum ist es, sie vertraut zu machen mit: Informationen zur verwendeten Prozessor-Hardware Messung und Analyse
MehrModProg 15-16, Vorl. 13
ModProg 15-16, Vorl. 13 Richard Grzibovski Jan. 27, 2016 1 / 35 Übersicht Übersicht 1 Supercomputing FLOPS, Peak FLOPS Parallelismus Praktische Aspekte 2 Klausur von 2009 2 / 35 Supercomputing: HPC Modellierung
MehrComputational Biology: Bioelektromagnetismus und Biomechanik
Computational Biology: Bioelektromagnetismus und Biomechanik Implementierung Gliederung Wiederholung: Biomechanik III Statische Elastomechanik Finite Elemente Diskretisierung Finite Differenzen Diskretisierung
MehrEine Einführung in die Architektur moderner Graphikprozessoren
Eine Einführung in die Architektur moderner Graphikprozessoren Seminarvortrag von Sven Schenk WS 2005/2006 Universität Mannheim, Lehrstuhl für Rechnerarchitektur Inhalt Historische Eckpunkte Einführung
Mehrtechnische universität dortmund Lehrstuhl für Hochfrequenztechnik Übertragungssysteme
Lehrstuhl für Hochfrequenztechnik GPU-beschleunigte numerische Simulation faseroptischer Übertragungssysteme, Marius Helf, Peter Krummrich Übersicht Motivation Split-Step p Fourier Methode Ansätze für
MehrStandardsoftware für die Industrielle Bildverarbeitung
Standardsoftware für die Industrielle Bildverarbeitung Der elegante Weg zur Performanzsteigerung Dr. Olaf Munkelt MVTec Software GmbH MVTec Software GmbH Firma konzentriert sich auf Building Vision for
MehrShangrila. One Instruction Set Computer
Shangrila One Instruction Set Computer Outline One Instruction Set Computer Die Idee Funktion Die Machine Shangrila VM Interfaces Tools Implementation Status & Zukunft OISC >> Die Idee CPU mit nur einer
MehrOracle Core für Einsteiger: InMemory Column Store
Oracle Core für Einsteiger: InMemory Column Store Martin Klier Performing Databases GmbH Mitterteich @MartinKlierDBA Oracle Core für Einsteiger: InMemory Column Store 2/37 Referent Martin Klier Lösungsarchitekt
MehrProgrammierbeispiele und Implementierung. Name: Michel Steuwer E-Mail: michel.steuwer@wwu.de
> Programmierbeispiele und Implementierung Name: Michel Steuwer E-Mail: michel.steuwer@wwu.de 2 > Übersicht > Matrix Vektor Multiplikation > Mandelbrotmenge / Apfelmännchen berechnen > Kantendetektion
MehrEinleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.
Anwendung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Kapitel 8: Ähnlichkeitsanfragen und ihre effiziente Evaluierung Wie zu finden? Corbis, NASA: EOS Bilddatenbank Folie Folie 2 Ähnlichkeitssuche
MehrArchitekturen von Multi- und Manycore-Prozessoren
Architekturen von Multi- und Manycore-Prozessoren Johannes Hofmann Einführungsveranstaltung, 12.04.2016 Inhalt Es gibt zwei Varianten zum absolvieren des Seminars: Evaluation eines Benchmarks aus der Mantevo-Suite
MehrMulticore Herausforderungen an das Software-Engineering. Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück 15.09.2010
Multicore Herausforderungen an das Software-Engineering Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück 15.09.2010 Inhalt _ Motivation _ Herausforderung 1: Hardware _ Herausforderung 2: Software-Partitionierung
MehrBetriebssysteme Studiengang Informatik
Betriebssysteme Studiengang Informatik Dipl.-Inf., Dipl.-Ing. (FH) Michael Wilhelm Hochschule Harz FB Automatisierung und Informatik mwilhelm@hs-harz.de http://www.miwilhelm.de Raum 2.202 Tel. 03943 /
MehrMulti-Threading wie in C++11
Multi-Threading wie in C++11 Franco Chiappori Embedded Computing Conference 2013 Reiseroute Guards Lock-Free Data Structures Futures Promises Atomic Types Memory Barriers Compiler / Prozessor Compiler
Mehr4. Parallelprogrammierung
4. Parallelprogrammierung AlDaBi Prak4kum David Weese 2010/11 Enrico Siragusa WS 2011/12 Inhalt Einführung in Parallelität OpenMP Bemerkungen zur P- Aufgabe EINFÜHRUNG IN PARALLELITÄT Folien z.t. aus VL
MehrMulticore-Architekturen
Universität Erlangen- Nürnberg Technische Universität München Universität Stuttgart Multicore-Architekturen Vortrag im Rahmen der Ferienakademie 2009 Kurs 1: Programmierkonzepte für Multi-Core Rechner
MehrIhr exone Partner: HANSEATiC-iT Monika Oschlies Haydnring 52 23611 Bad Schwartau. 0451 47992012 m.oschlies@hanseatic-it.net www.hanseatic-it.
Ihr exone Partner: HANSEATiC-iT Monika Oschlies Haydnring 52 23611 Bad Schwartau 0451 47992012 m.oschlies@hanseatic-it.net www.hanseatic-it.net exone Challenge 1111 Atom 525 exone Challenge 1911G5 1220
Mehr1. Übung zu "Numerik partieller Differentialgleichungen"
1. Übung zu "Numerik partieller Differentialgleichungen" Simon Gawlok, Eva Treiber Engineering Mathematics and Computing Lab 22. Oktober 2014 1 / 15 1 Organisatorisches 2 3 4 2 / 15 Organisatorisches Ort:
MehrParallelrechner (1) Anwendungen: Simulation von komplexen physikalischen oder biochemischen Vorgängen Entwurfsunterstützung virtuelle Realität
Parallelrechner (1) Motivation: Bedarf für immer leistungsfähigere Rechner Leistungssteigerung eines einzelnen Rechners hat physikalische Grenzen: Geschwindigkeit von Materie Wärmeableitung Transistorgröße
MehrEchtzeit-Multitasking
Technische Informatik Klaus-Dieter Thies Echtzeit-Multitasking Memory Management und System Design im Protected Mode der x86/pentium-architektur. Shaker Verlag Aachen 2002 Die Deutsche Bibliothek - CIP-Einheitsaufnahme
MehrAugust 2015 - Workstation Line Up Seite 1/5
August 2015 - Workstation Line Up Seite 1/5 Produktname HP Z1 G2 All-in-One Workstation Z230 Tower Workstation Produktnummer G1X47EA G1X41EA Preis Fr. 2'999.00 Fr. 1'899.00 Prozessor Intel Xeon E3-1226v3
MehrParalleles Rechnen. (Architektur verteilter Systeme) von Thomas Offermann Philipp Tommek Dominik Pich
Paralleles Rechnen (Architektur verteilter Systeme) von Thomas Offermann Philipp Tommek Dominik Pich Gliederung Motivation Anwendungsgebiete Warum paralleles Rechnen Flynn's Klassifikation Theorie: Parallel
MehrMSDN Webcast: Parallelprogrammierung mit der Task Parallel Library für.net (Teil 1) Presenter: Bernd Marquardt
MSDN Webcast: Parallelprogrammierung mit der Task Parallel Library für.net (Teil 1) Presenter: Bernd Marquardt berndm@go-sky.de www.go-sky.de Die Serie: 5 Teile Teil 1: Einführung, Amdahl s Gesetz, Data
Mehrmoderne Prozessoren Jan Krüger jkrueger@techfak.uni-bielefeld.de
moderne Prozessoren Jan Krüger jkrueger@techfak.uni-bielefeld.de Übersicht FachChinesisch SPARC - UltraSparc III/IV PowerPC - PowerPC 970(G5) X86 - Pentium4(Xeon), Itanium, (Pentium M) X86 - AthlonXP/MP,
MehrSystemvoraussetzungen für Autodesk Revit 2015 - Produkte (gemäß Angaben von Autodesk)
Systemvoraussetzungen für Autodesk Revit 2015 - Produkte (gemäß Angaben von Autodesk) Mindestanforderung: Einstiegskonfiguration Betriebssystem ¹ Windows 8.1 Enterprise, Pro oder Windows 8.1 CPU-Typ Single-
MehrLinux Paging, Caching und Swapping
Linux Paging, Caching und Swapping Inhalte Paging Das Virtuelle Speichermodell Die Page Table im Detail Page Allocation und Page Deallocation Memory Mapping & Demand Paging Caching Die verschiedenen Caches
MehrAquado 1599,00 ANGEBOT / DATENBLATT. Notebook. Travel & work economy! Aquado Notebooks arbeiten zuverlässig und stromsparend in jeder Situation.
Travel & work economy! Aquado s arbeiten zuverlässig und stromsparend in jeder Situation. Optionaler Vor-Ort-Service! Sie arbeiten wieder, wenn sich andere Systeme noch in der Reparaturphase befinden.
MehrSiemons EDV-Service GbR. Heike Siemon
#exone Mobile Business 1520 i3-2330, 2GB, 250GB, FreeDOS exone Mobile Business 1520 i3-2350, 2GB, 250GB, FreeDOS exone Mobile Business 1520 i7-2640, 4GB, 500GB, W7 Art.-Nr. 67142 67467 65938 Preis 568
MehrOpteron und I/O. Toni Schmidbauer. 11. Mai Zusammenfassung. Eine kurze Beschreibung der AMD Opteron Architektur.
Opteron und I/O Toni Schmidbauer 11. Mai 2005 Zusammenfassung Eine kurze Beschreibung der AMD Opteron Architektur Inhaltsverzeichnis 1 Allgemeines 2 2 Was ist ein Interconnect? 2 3 Traditionelles PC Chipset
MehrIhr exone Systemhauspartner Buxtenet Systemhaus GmbH & Co. KG
exone Challenge 1111 Atom 330 Art.Nr. exone Challenge 1211 X3430 RAID 47819 584 49816 1.855 exone Challenge 1811 X3220 RAID exone Challenge 1911 E5504 44628 2.983 exone Challenge 1911 i7p920 46203 1.569
MehrCPU-Caches. Christian Duße. Seminar Effiziente Programmierung in C
CPU-Caches Christian Duße Seminar Effiziente Programmierung in C Arbeitsbereich Wissenschaftliches Rechnen Fachbereich Informatik Fakultät für Mathematik, Informatik und Naturwissenschaften Universität
MehrDie Programmiersprache C Eine Einführung
Die Programmiersprache C Eine Einführung Christian Gentsch Fakutltät IV Technische Universität Berlin Projektlabor 2. Mai 2014 Inhaltsverzeichnis 1 Einführung Entstehungsgeschichte Verwendung 2 Objektorientiert
MehrInhalt. Prozessoren. Curriculum Manfred Wilfling. 28. November HTBLA Kaindorf. M. Wilfling (HTBLA Kaindorf) CPUs 28. November / 9
Inhalt Curriculum 1.4.2 Manfred Wilfling HTBLA Kaindorf 28. November 2011 M. Wilfling (HTBLA Kaindorf) CPUs 28. November 2011 1 / 9 Begriffe CPU Zentraleinheit (Central Processing Unit) bestehend aus Rechenwerk,
MehrPraxiseinheit: Realisierung einer hardwarebeschleunigten Disparitätenberechnung zur automatischen Auswertung von Stereobildern
Praxiseinheit: Realisierung einer hardwarebeschleunigten Disparitätenberechnung zur automatischen Auswertung von Stereobildern Institut für Betriebssysteme und Rechnerverbund TU Braunschweig 25.10., 26.10.
MehrJava-Prozessoren. Die Java Virtual Machine spezifiziert... Java Instruktions-Satz. Datentypen. Operanden-Stack. Konstanten-Pool.
Die Java Virtual Machine spezifiziert... Java Instruktions-Satz Datentypen Operanden-Stack Konstanten-Pool Methoden-Area Heap für Laufzeit-Daten Class File Format 26 Die Java Virtual Machine Java Instruktions-Satz
MehrMulticore Parallelismus! in modernen CPUs
Multicore Parallelismus! in modernen CPUs Johannes Hofmann, 21.5.2014 Seminar Architekturen von Multi- und Vielkern-Prozessoren Universität Erlangen-Nürnberg Lehrstuhl für Rechnerarchitektur Informatik
MehrIhr exone Partner: SEHTEC GbR Marko Seifarth Sutte 11 95326 Kulmbach. 09221/87800-56 m.seifarth@sehtec.de http://www.sehtec.de
Ihr exone Partner: SEHTEC GbR Marko Seifarth Sutte 11 95326 Kulmbach 09221/87800-56 m.seifarth@sehtec.de http://www.sehtec.de exone Challenge 1111 Atom 525, 4GB, 500GB SATA, FreeDos exone Challenge 1911G5
MehrGrundlagen der Rechnerarchitektur
Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie
MehrEinführung in die Systemprogrammierung
Einführung in die Systemprogrammierung Speedup: Grundlagen der Performanz Prof. Dr. Christoph Reichenbach Fachbereich 12 / Institut für Informatik 30. April 2015 Eine Aufgabe aus der Praxis Gegeben ein
MehrPlatzierung und Verdrahtung massiv-paralleler FPGA-Designs am Beispiel eines Many-Core- Prozessors
Vortrag zum Beleg Platzierung und Verdrahtung massiv-paralleler FPGA-Designs am Beispiel eines Many-Core- Prozessors Michael Lange Dresden, Gliederung 1 Aufgabenstellung 2 Voraussetzungen 3 Aufbau eines
MehrJohann Wolfgang Goethe-Universität
Flynn sche Klassifikation SISD (single instruction, single data stream): IS IS CU PU DS MM Mono (Mikro-)prozessoren CU: Control Unit SM: Shared Memory PU: Processor Unit IS: Instruction Stream MM: Memory
MehrIhr exone Partner: HANSEATiC-iT Monika Oschlies Haydnring 52 23611 Bad Schwartau. 0451 47992012 service@hanseatic-it.net www.hanseatic-it.
Ihr exone Partner: HANSEATiC-iT Monika Oschlies Haydnring 52 23611 Bad Schwartau 0451 47992012 service@hanseatic-it.net www.hanseatic-it.net exone Challenge 1111 Atom 525 Free Dos exone Challenge 1911G5
MehrGrundlagen der Rechnerarchitektur
Grundlagen der Rechnerarchitektur ARM, x86 und ISA Prinzipien Übersicht Rudimente des ARM Assemblers Rudimente des Intel Assemblers ISA Prinzipien Grundlagen der Rechnerarchitektur Assembler 2 Rudimente
MehrIntel Cluster Studio. Michael Burger FG Scientific Computing TU Darmstadt michael.burger@sc.tu-darmstadt.de
Intel Cluster Studio Michael Burger FG Scientific Computing TU Darmstadt michael.burger@sc.tu-darmstadt.de 19.03.13 FB Computer Science Scientific Computing Michael Burger 1 / 30 Agenda Was ist das Intel
MehrRechnerorganisation 2 TOY. Karl C. Posch. co1.ro_2003. Karl.Posch@iaik.tugraz.at 16.03.2011
Technische Universität Graz Institut tfür Angewandte Informationsverarbeitung und Kommunikationstechnologie Rechnerorganisation 2 TOY Karl C. Posch Karl.Posch@iaik.tugraz.at co1.ro_2003. 1 Ausblick. Erste
MehrUntersuchung und Vorstellung moderner Grafikchiparchitekturen
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Untersuchung und Vorstellung moderner Grafikchiparchitekturen Hauptseminar Technische
MehrComputer-Architektur Ein Überblick
Computer-Architektur Ein Überblick Johann Blieberger Institut für Rechnergestützte Automation Computer-Architektur Ein Überblick p.1/27 Computer-Aufbau: Motherboard Computer-Architektur Ein Überblick p.2/27
MehrDie Linux Kernel Virtual Machine - Wo steht der Linux Hypervisor? 2. März 2008
Die Linux Kernel Virtual Machine - Wo steht der Linux Hypervisor? 2. März 2008 Jörg Rödel Virtualization - Whats out there? Virtualisierung hat bereits längere Geschichte auf x86 Startete mit VMware Setzte
MehrSeminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HS 2007. Transactional Memory. Vortrag von Erdin Sinanović
Seminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HS 2007 Transactional Memory Vortrag von Erdin Sinanović Übersicht Was ist Transactional Memory (TM)? Wie programmiert man mit TM? Software
MehrProtected User-Level DMA in SCI Shared Memory Umgebungen
Protected User-Level DMA in SCI Shared Memory Umgebungen Mario Trams University of Technology Chemnitz, Chair of Computer Architecture 6. Halle Chemnitz Seminar zu Parallelverarbeitung und Programmiersprachen
MehrParallele Systeme. 1 Einführung 2 1.1 Durchführung der erweiterten Übung... 3 1.2 OpenMP... 3
Lehrstuhl für Informatik 12 Cauerstraße 11 91058 Erlangen TECHNISCHE FAKULTÄT 1. Erweiterte Übung zur Vorlesung Parallele Systeme Inhaltsverzeichnis 1 Einführung 2 1.1 Durchführung der erweiterten Übung..........................
MehrDie beste Infrastruktur ist nur so schnell, wie der Code der darauf läuft. Fallbeispiel Wettervorhersage
Die beste Infrastruktur ist nur so schnell, wie der Code der darauf läuft Fallbeispiel Wettervorhersage VPE Swiss Workshop, HSR 24. Januar 2013 David Müller, Tobias Gysi Vision trifft Realität. Supercomputing
MehrGPGPU-Architekturen CUDA Programmiermodell Beispielprogramm Organiosatorisches. Tutorial CUDA. Ralf Seidler
Friedrich-Alexander-Universität Erlangen-Nürnberg 05.10.2010 Outline 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm 4 Organiosatorisches Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell
MehrTechnische Informatik 1 - HS 2016
Institut für Technische Informatik und Kommunikationsnetze Prof. L. Thiele Technische Informatik 1 - HS 2016 Lösungsvorschläge für Übung 8 Datum: 8. 9. 12. 2016 1 Instruktionsparallelität VLIW Gegeben
MehrNutzung paralleler Prozesse bei der Umweltsimulation
Nutzung paralleler Prozesse bei der Umweltsimulation RALF Wieland rwieland@zalf.de ZALF/LSA Nutzung paralleler Prozesse bei der Umweltsimulation p. 1 Warum parallele Prozesse? Die Steigerung der Taktfrequenz
MehrTheorie zu Übung 8 Implementierung in Java
Universität Stuttgart Institut für Automatisierungstechnik und Softwaresysteme Prof. Dr.-Ing. M. Weyrich Theorie zu Übung 8 Implementierung in Java Klasse in Java Die Klasse wird durch das class-konzept
MehrCPU-Update. Wie Äpfel zu Melonen werden. best OpenSystems Day April 2010. Unterföhring
CPU-Update Wie Äpfel zu Melonen werden best OpenSystems Day April 2010 Unterföhring Wolfgang Stief wolfgang.stief@best.de Senior Systemingenieur best Systeme GmbH GUUG Board Member Motivation Alles wird
MehrExklusive Preisliste für Nur für Sie!! Ihr exone Systemhauspartner Friedrich Ritschel GmbH & Co. KG Herr Jacobsen 05221-93760 edv@ritschelkg.
Exklusive liste für Nur für Sie!! Herr Jacobsen 0522193760 edv@ritschelkg.com exone Challenge 1111 Atom 330 exone Challenge 1211 X3430 RAID exone Challenge 1911 W3520 exone Challenge 1911 X3430 exone Challenge
MehrVorlesung 3: Verschiedenes
Universität Bielefeld Technische Fakultät AG Rechnernetze und verteilte Systeme Vorlesung 3: Verschiedenes Peter B. Ladkin Vorlesung 3 - Inhalt Busarchitektur Virtuelle Maschine 2 Busarchitektur - das
MehrNachname: Vorname: Matr.-Nr.: Punkte: 1. Aufgabe: ( / 25 Pkt.) Gegeben ist das folgende Struktogramm zur Berechnung von sin(x) mit Hilfe einer Reihe.
Hiermit bestätige ich, dass ich die Übungsleistungen als Voraussetzung für diese Klausur in folgender Übung erfüllt habe. Jahr: Übungsleiter: Unterschrift: 1. Aufgabe: ( / 25 Pkt.) Gegeben ist das folgende
MehrDatenblatt: TERRA PC-BUSINESS 5000 GREENLINE 539,00. Bestseller Core i5 PC. Zusätzliche Artikelbilder IT. MADE IN GERMANY. 02.10.
Datenblatt: TERRA PC-BUSINESS 5000 GREENLINE Bestseller Core i5 PC Ermöglichen Sie Ihren Mitarbeiteren ein effektives und schnelles Arbeiten mit Ihren Unternehmensanwendungen. Profitieren Sie von robusten
MehrWas ist die Performance Ratio?
Was ist die Performance Ratio? Wie eben gezeigt wäre für k Pipeline Stufen und eine große Zahl an ausgeführten Instruktionen die Performance Ratio gleich k, wenn jede Pipeline Stufe dieselbe Zeit beanspruchen
MehrVortrag zum Proseminar Architekturen der ARM CORTEX Familie
Vortrag zum Proseminar Architekturen der ARM OREX Familie Sebastian Krannich e 1 e nstitut für echnische nformatik http://www.inf.tu-dresden.de/e/ 11.06.2008 nhalt 1. Einleitung 2. ARM ortex Familie 3.
MehrGrundlagen der Parallelisierung
Grundlagen der Parallelisierung Philipp Kegel, Sergei Gorlatch AG Parallele und Verteilte Systeme Institut für Informatik Westfälische Wilhelms-Universität Münster 3. Juli 2009 Inhaltsverzeichnis 1 Einführung
MehrWie profitiert SAP MaxDB von SSD Technologie?
Wie profitiert SAP MaxDB von SSD Technologie? Direktor Software und Services SAP MaxDB InfoTage 2014 15.-25. September 2014 Purpose Agenda MaxDB ENTERPRISE EDITION Including Mobile DB Monitor MaxDB & SSD
Mehr