Intel Xeon Phi. Praktikum Parallele Rechnerarchitekturen May 13,
|
|
- Gregor Wagner
- vor 6 Jahren
- Abrufe
Transkript
1 Intel Xeon Phi Praktikum Parallele Rechnerarchtitekturen Praktikum Parallele Rechnerarchitekturen May 13,
2 Overview Aufbau & Programmierung State-of-the-Art Manycore Chip HPC Tools Performance-Modellierung Slides Fragen/Kontakt Johannes Büro (Blaues Hochhaus) Praktikum Parallele Rechnerarchitekturen May 13,
3 Outline Hardware SLURM Intel C Compiler STREAM Benchmark likwid Exercises Praktikum Parallele Rechnerarchitekturen May 13,
4 Zum Aufwärmen Sandy Bridge-EP Package 0 Package 1 Memory MC shared LLC QPI QPI QPI QPI shared LLC MC Memory Praktikum Parallele Rechnerarchitekturen May 13,
5 256 bit 32KB L1 Instruction Cache 128 bit Predecode Instruction Queue Complex Decoder Simple Decoder Simple Decoder Simple Decoder MSROM 1536 uop (L0) Cache 256KB Unified L2 Cache Decoded Instruction Queue Renamer / Scheduler / Dispatcher Port 0 Port 1 Port 5 Port 2 Port 3 Port 4 ALU V-MUL V-SHUF Fdiv 256- FP MUL 256- FP Blend ALU V-ADD V-SHUF 256- FP ADD ALU JMP 256- FP Shuf 256- FP Bool 256- FP Blend Load Data AGU Load Data AGU Store Data Memory Control 256 bit 128 bit 256 bit 32KB L1 Data Cache Praktikum Parallele Rechnerarchitekturen May 13,
6 Übersicht Intel Xeon Phi core core core core L2 cache L2 cache L2 cache L2 cache PCIe Logic CRI CRI CRI CRI GDDR5 MC TD TD TD TD GDDR5 MC GDDR5 MC TD TD TD TD GDDR5 MC core core core core L2 cache L2 cache L2 cache L2 cache CRI CRI CRI CRI Praktikum Parallele Rechnerarchitekturen May 13,
7 Core Pipeline Intel Xeon Phi 256 bit 32 KiB L1 Instruction Cache Instruction Fetcher and Branch Prediction Unit Tag Directory Core Ring Interconnect 512 KiB Unified L2 Cache B0-V B1-V B0-U B0-V B0-U B0-V B0-U B0-V B0-U B1-U B1-V B1-U B1-V B1-U B1-V B1-U Thread 0 Thread 1 Thread 2 Thread 3 Decode V-Pipe U-Pipe Memory Control Prefetch Buffers Picker Function Execution Pipelines 512 bit 512 bit 32 KiB L1 Data Cache Praktikum Parallele Rechnerarchitekturen May 13,
8 SIMD Vektorisierung Vektorregister Auf der CPU o SSE (128bit) o AVX (256bit) 256 bits A[0] A[1] A[2] A[3] A[4] A[5] A[6] A[7] ymmx 256 bits A[0] A[1] A[2] A[3] 32 bits (1 float) 64 bits (1 double) A[0] A[1] A[2] A[3] xmmx A[0] A[1] 128 bits 128 bits Auf dem Xeon Phi o IMCI (512bit) 512 bits A[0] A[1] A[2] A[3] A[4] A[5] A[6] A[7] A[8] A[9] A[10] A[11] A[12] A[13] A[14] A[15] 32 bits (1 float) A[0] A[1] A[2] 512 bits A[3] A[4] A[5] A[6] A[7] 64 bits (1 double) Praktikum Parallele Rechnerarchitekturen May 13,
9 SIMD Vektorisierung Instruktionen 256 bits A[0] A[1] A[2] A[3] A[4] A[5] A[6] A[7] ymmx B[0] B[1] B[2] B[3] B[4] B[5] B[6] B[7] ymmy C[0] C[1] C[2] C[3] C[4] C[5] C[6] C[7] ymmz 32 bits bits k1 1 bit 512 bits A[0] A[1] A[2] A[3] A[4] A[5] A[6] A[7] A[8] A[9] A[10] A[11] A[12] A[13] A[14] A[15] zmm0 32 bits (1 float) B[0] B[1] B[2] B[3] B[4] B[5] B[6] B[7] B[8] B[9] B[10] B[11] B[12] B[13] B[14] B[15] zmm1 C[0] C[1] C[2] C[3] C[4] C[5] C[6] C[7] C[8] C[9] C[10] C[11] C[12] C[13] C[14] C[15] zmm2 Praktikum Parallele Rechnerarchitekturen May 13,
10 Comparison Hardware Cores/Clock SIMD Peak TFlop/s Peak BW Price* Tesla K20 13/706MHz 192SP/64DP 3.5SP/1.2DP 208GB/s $3,000 Knights Corner 60/1.05GHz 16SP/8DP 2.0SP/1.0DP 320GB/s $2,600 2S-SandyEP 2x8/ca. 3GHz 8SP/4DP 0.8SP/0.4DP 2x51GB/s $3,000 * Fall 2013 Praktikum Parallele Rechnerarchitekturen May 13,
11 Outline Hardware SLURM Intel C Compiler STREAM Benchmark likwid Exercises Praktikum Parallele Rechnerarchitekturen May 13,
12 SLURM Einloggen auf Headnode o ssh faui36b Interaktiven Job submitten o srun -w nomad -c1 -t100:00 --pty bash l Hinweise o nomad Hostrechner mit zwei Intel Xeon Phi Acceleratoren o -c1 Anzahl reservierte Cores (1 zum Arbeiten/Übersetzen, 32 zum Messen) o -t100:00 Reservierungszeit, 100 Minuten ist Maximum (Speichern nicht vergessen, wenn die Zeit abgelaufen ist, werdet ihr vom System gekickt!) o --pty bash l Interaktiver Job (Terminal kaputt? ssh nomad nach Allokation) Per SSH auf MIC-Acceleratoren verbinden o ssh mic0 o ssh mic1 Praktikum Parallele Rechnerarchitekturen May 13,
13 Outline Hardware SLURM Intel C Compiler STREAM Benchmark likwid Exercises Praktikum Parallele Rechnerarchitekturen May 13,
14 Intel C Compiler Statt der Gnu Compiler Collection (GCC) benutzen wir den Intel C Compiler: Der Intel C Compiler (icc) optimiert teilweise erheblich besser für Intel Architekturen als GCC Die meißten Argumente sind identisch, z.b. o gcc O3 fopenmp test.c o test o icc O3 openmp test.c o test Hinweise für Xeon Phi o Per default wird Code für x86 generiert à Zielarchitektur mit Flag mmic ändern o Übersetzen immer auf Hostrechner (nomad) Kurzfristig aufgetretener Bug mit dem Lizenzserver o Fix: $ export LM_PROJECT=iwi3 Praktikum Parallele Rechnerarchitekturen May 13,
15 Outline Hardware SLURM Intel C Compiler STREAM Benchmark likwid Exercises Praktikum Parallele Rechnerarchitekturen May 13,
16 The STREAM Benchmark URL Zum Messen der Hauptspeicherbandbreite stream.c laden und übersetzen icc -openmp -fno-alias -O3 mmic stream.c -o stream Compilerflags -openmp Aktiviert OpenMP-Support -fno-alias Kein Pointer-Aliasing -O3 Diverse Optimierungen (ggf. auf Kosten d. Genauigkeit) -mmic Zielarchitetur MIC (Many Integrated Cores) Praktikum Parallele Rechnerarchitekturen May 13,
17 Outline Hardware SLURM Intel C Compiler STREAM Benchmark likwid Exercises Praktikum Parallele Rechnerarchitekturen May 13,
18 likwid Entwickelt von Jan Treibig am RRZE Schweizer Armeemesser für HPC o likwid-topology Zeigt Informationen über Node o likwid-pin Affinität einstellen o likwid-bench - Microbenchmarks o likwid-perfctr Auslesen der Hardware Performance Counter o likwid-powermeter Energieverbrauch messen Praktikum Parallele Rechnerarchitekturen May 13,
19 Thread Affinität Bsp. Sandy Bridge-EP Package 0 Package 1 Memory MC shared LLC QPI QPI QPI QPI shared LLC MC Memory Praktikum Parallele Rechnerarchitekturen May 13,
20 likwid-pin Ohne Argumente werden alle logischen Cores benutzt o likwid-pin <binary> Komplexeres Thread-Pinning o Auszug aus likwid-pin --help [...] 2. Expressions based thread list generation with compact processor numbering. Example usage expression: likwid-pin -c E:N:8./myApp This will generate a compact list of thread to processor mapping for the node domain with eight threads. The following syntax variants are available: [...] 1. -c E:<thread domain>:<number of threads> 2. -c E:<thread domain>:<number of threads>:<chunk size>:<stride> For two SMT threads per core on a SMT 4 machine use e.g. -c E:N:122:2:4 Praktikum Parallele Rechnerarchitekturen May 13,
21 likwid-pin Beispiele o likwid-pin c E:N:1:1:4 1 Thread pro Core, 1 Core o likwid-pin c E:N:10:1:4 o likwid-pin c E:N:30:2:4 o likwid-pin c E:N:120:3:4 1 Thread pro Core, 10 Cores 2 Threads pro Core, 15 Cores 3 Threads pro Core, 40 Cores o likwid-pin c E:N:240:4:4 4 Threads pro Core, 60 Cores Praktikum Parallele Rechnerarchitekturen May 13,
22 Setup von likwid Neuestes stable release mit support für KNC Download unter o o oder Nach entpacken Datei config.mk anpassen o o compiler = MIC PREFIX = Installationspfad, z.b. $(HOME)/likwid/MIC/ Übersetzen & Installieren o make && make install Testen nomad:~ hofmann$ ssh mic0 ~ $./likwid/mic/bin/likwid-topology CPU type: Intel Xeon Phi Coprocessor [...] Praktikum Parallele Rechnerarchitekturen May 13,
23 Outline Hardware SLURM Intel C Compiler STREAM Benchmark likwid Exercises Praktikum Parallele Rechnerarchitekturen May 13,
24 Exercises Aufgaben für diese Woche: 1. Core-Scaling-Plot (x-achse: Zahl der Cores; y-achse Bandbreite) für Copy Kernel aus dem STREAM Benchmark für Xeon Phi mit o o 1 Thread/Core; und 4 Threads/Core 2. Stencil-Code aus vorherigen Übungen auf Xeon Phi o o o Implementieren Vorlage: Optimieren (z.b. sinnvolles Cache-Blocking für große Gitter, pragma vector nontemporal) Messungen für Größen 2ˆ5...2ˆ13 Plot (x-achse: Problemgröße, y-achse: Performance in GUP/s) Messen mit & ohne likwid o Bei likwid-messungen mit Zahl der Threads pro Core experimentieren Praktikum Parallele Rechnerarchitekturen May 13,
25 Bsp: Single-Socket STREAM Copy auf Sandy-EP Copy (no SMT) Copy (2-SMT) bandwidth [MiB/s] core count Praktikum Parallele Rechnerarchitekturen May 13,
Multicore Parallelismus! in modernen CPUs
Multicore Parallelismus! in modernen CPUs Johannes Hofmann, 21.5.2014 Seminar Architekturen von Multi- und Vielkern-Prozessoren Universität Erlangen-Nürnberg Lehrstuhl für Rechnerarchitektur Informatik
MehrMULTICORE- UND GPGPU- ARCHITEKTUREN
MULTICORE- UND GPGPU- ARCHITEKTUREN Korbinian Pauli - 17. November 2011 Seminar Multicore Programmierung, WS11, Universität Passau 2 Einleitung Klassisches Problem der Informatik: riesige Datenmenge! Volkszählung
MehrJohann Wolfgang Goethe-Universität
Flynn sche Klassifikation SISD (single instruction, single data stream): IS IS CU PU DS MM Mono (Mikro-)prozessoren CU: Control Unit SM: Shared Memory PU: Processor Unit IS: Instruction Stream MM: Memory
MehrHyperthreads in Itanium - Prozessoren
Hyperthreads in Itanium - Prozessoren und wie OpenVMS damit umgeht Thilo Lauer Technical Consultant Account Support Center 2006 Hewlett-Packard Development Company, L.P. The information contained herein
MehrM5000 einfach ablösen durch T4/T5 LDoms und Solaris Zonen
M5000 einfach ablösen durch T4/T5 LDoms und Solaris Zonen Marcel Hofstetter hofstetter@jomasoft.ch CEO, Mitgründer, Enterprise Consultant JomaSoft GmbH 1 Inhalt Wer ist JomaSoft? SPARC T5 CPU Neue T5-x
MehrConvey, Hybrid-Core Computing
Convey, Hybrid-Core Computing Vortrag im Rahmen des Seminars Ausgewählte Themen in Hardwareentwurf und Optik HWS 09 Universität Mannheim Markus Müller 1 Inhalt Hybrid-Core Computing? Convey HC-1 Überblick
MehrGrundlagen der Rechnerarchitektur
Grundlagen der Rechnerarchitektur ARM, x86 und ISA Prinzipien Übersicht Rudimente des ARM Assemblers Rudimente des Intel Assemblers ISA Prinzipien Grundlagen der Rechnerarchitektur Assembler 2 Rudimente
MehrCurrent and Emerging Architectures Multi-core Architectures and Programming
Current and Emerging Architectures Multi-core Architectures and Programming Adel El-Rayyes Hardware-Software-Co-Design, Friedrich-Alexander-Universität Erlangen-Nürnberg 9. Mai 2012 Inhalt Überblick über
MehrInstruktionssatz-Architektur
Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2005/2006 Übersicht 1 Einleitung 2 Bestandteile der ISA 3 CISC / RISC Übersicht 1 Einleitung 2 Bestandteile
MehrJava-Prozessoren. Die Java Virtual Machine spezifiziert... Java Instruktions-Satz. Datentypen. Operanden-Stack. Konstanten-Pool.
Die Java Virtual Machine spezifiziert... Java Instruktions-Satz Datentypen Operanden-Stack Konstanten-Pool Methoden-Area Heap für Laufzeit-Daten Class File Format 26 Die Java Virtual Machine Java Instruktions-Satz
MehrDie beste Infrastruktur ist nur so schnell, wie der Code der darauf läuft. Fallbeispiel Wettervorhersage
Die beste Infrastruktur ist nur so schnell, wie der Code der darauf läuft Fallbeispiel Wettervorhersage VPE Swiss Workshop, HSR 24. Januar 2013 David Müller, Tobias Gysi Vision trifft Realität. Supercomputing
MehrComputer-Architektur Ein Überblick
Computer-Architektur Ein Überblick Johann Blieberger Institut für Rechnergestützte Automation Computer-Architektur Ein Überblick p.1/27 Computer-Aufbau: Motherboard Computer-Architektur Ein Überblick p.2/27
MehrBenchmarking Intel Pentium III-S vs. Intel Pentium 4
Benchmarking Intel Pentium III-S vs. Intel Pentium 4 André Ceselski Raphael Rosendahl 30.01.2007 Gliederung Motivation Vorstellung der Architekturen Intel P6 Architektur Intel NetBurst TM Architektur Architektur-Unterschiede
MehrFrank Kuchta Markus Rüger
Leistungsvergleich mobiler Intel-Systeme single vs. dual core Frank Kuchta Markus Rüger Inhalt Motivation Ziel & Aufgabendefinition Hardware - Architektur Test-Umgebung Benchmarks Fazit Inhalt Motivation
MehrDas Prinzip der kleinsten Überraschung Konfiguration des neuen HPC-Clusters am RRZ
Das Prinzip der kleinsten Überraschung Konfiguration des neuen HPC-Clusters am RRZ Hinnerk Stüben ZKI-Arbeitskreis Supercomputing Leibniz-Rechenzentrum, Garching 19. Oktober 2015 Themen Neues HPC-Cluster
MehrHLRN III - HPC Ressource für Norddeutschland
HLRN III - HPC Ressource für Norddeutschland Holger Naundorf RRZN Leibniz Universität IT Services Schloßwender Straße 5 30159 Hannover naundorf@rrzn.uni-hannover.de 23. September 2014 Inhalt Der HLRN Verbund
MehrEinführung in die Programmierung mit C++
Seite 1 Einführung in die Programmierung mit C Teil IV - Weiterführende Themen 16. SIMD Programmierung Was bedeutet SIMD Seite SIMD Single-Instruction, Multiple-Data, also eine Instruktion, mehrere Daten
MehrIntel Cluster Studio. Michael Burger FG Scientific Computing TU Darmstadt michael.burger@sc.tu-darmstadt.de
Intel Cluster Studio Michael Burger FG Scientific Computing TU Darmstadt michael.burger@sc.tu-darmstadt.de 19.03.13 FB Computer Science Scientific Computing Michael Burger 1 / 30 Agenda Was ist das Intel
MehrIDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz
IDS Lizenzierung für IDS und HDR Primärserver IDS Lizenz HDR Lizenz Workgroup V7.3x oder V9.x Required Not Available Primärserver Express V10.0 Workgroup V10.0 Enterprise V7.3x, V9.x or V10.0 IDS Lizenz
MehrChip Level Multithreading
Chip Level Multithreading AG Neurobiologie Universität Bielefeld 10. Januar 2006 Moores Gesetz The complexity for minimum component costs has increased at a rate of roughly a factor of two per year...
MehrManycores: Hardware und Low-Level Programmierung
Manycores: Hardware und Low-Level Programmierung Florian Sattler Universität Passau 18. Juni 2014 Übersicht Einführung Neue Architekturen Programmierung Supercomputing Fazit 2 / 29 Top 500 3 / 29 Motivation
MehrMicrocontroller Architectures and Examples
Microcontroller Architectures and Examples Thomas Basmer telefon: 0335 5625 334 fax: 0335 5625 671 e-mail: basmer [ at ] ihp-microelectronics.com web: Outline Microcontroller in general Introduction Main
Mehr2008 Jiri Spale, Programmierung in eingebetteten Systemen 1
2008 Jiri Spale, Programmierung in eingebetteten Systemen 1 NetX - Einführung 2008 Jiri Spale, Programmierung in eingebetteten Systemen 2 NetX is... a highly integrated network controller with a new system
Mehrmoderne Prozessoren Jan Krüger jkrueger@techfak.uni-bielefeld.de
moderne Prozessoren Jan Krüger jkrueger@techfak.uni-bielefeld.de Übersicht FachChinesisch SPARC - UltraSparc III/IV PowerPC - PowerPC 970(G5) X86 - Pentium4(Xeon), Itanium, (Pentium M) X86 - AthlonXP/MP,
MehrHigh Performance Computing
REGIONALES RECHENZENTRUM ERLANGEN [ RRZE ] High Performance Computing Systemausbildung Grundlagen und Aspekte von Betriebssystemen und System-nahen Diensten Michael Meier, RRZE, 01.07.2015 Agenda Was bedeutet
MehrMobile Prozessoren. Ein Vergleich zwischen Intel Silvermont, ARM Cortex-A und AMD Temash. Hochschule Darmstadt www.h-da.de
Ein Vergleich zwischen Intel Silvermont, ARM Cortex-A und AMD Temash Einführung Intel Silvermont ARM Cortex-A AMD Temash Mobile Prozessoren Entwicklung des Smartphones Erstes iphone MHz ARM-76 Prozessor
MehrIntroducing PAThWay. Structured and methodical performance engineering. Isaías A. Comprés Ureña Ventsislav Petkov Michael Firbach Michael Gerndt
Introducing PAThWay Structured and methodical performance engineering Isaías A. Comprés Ureña Ventsislav Petkov Michael Firbach Michael Gerndt Technical University of Munich Overview Tuning Challenges
MehrHier folgt eine kurze Aufstellung über die verwendete Architekur. Die Angaben sind ohne Gewähr für Vollständigkeit oder vollständige Richtigkeit.
1. ODBC 1.1 Problemstellung Die Informationen über die Microsoft SQL Server Datenbanken sind zur Zeit nicht auf der TIMD Website verfügbar. Der Grund ist, dass kein Interface zur Abfrage der benötigten
MehrBetriebssysteme Studiengang Informatik
Betriebssysteme Studiengang Informatik Dipl.-Inf., Dipl.-Ing. (FH) Michael Wilhelm Hochschule Harz FB Automatisierung und Informatik mwilhelm@hs-harz.de http://www.miwilhelm.de Raum 2.202 Tel. 03943 /
MehrKingston Technology WHD. November 30, 2012. Andreas Scholz, BDM Integration und Server D-A
Kingston Technology WHD Andreas Scholz, BDM Integration und Server D-A November 30, 2012 Agenda Trends Speicher Konfigurationen Warum KingstonConsult? KingstonConsult Speicher Bandbreite: balanced vs.
MehrAgenda. HPC-Benutzerkolloquium. EM64T-Clustererweiterung. EM64T-Clustererweiterung am RRZE
Agenda HPC-Benutzerkolloquium G. Hager/T. Zeiser 25.01.2005 RRZE EM64T-Clustererweiterung Allgemeines (GH) Zukünftige Konfiguration: Queues, Policies, Betriebsmodus (GH) Verfügbare Compiler und MPI-Versionen
MehrProjektseminar Parallele Programmierung
HTW Dresden WS 2014/2015 Organisatorisches Praktikum, 4 SWS Do. 15:00-18:20 Uhr, Z136c, 2 Doppelstunden o.g. Termin ist als Treffpunkt zu verstehen Labore Z 136c / Z 355 sind Montag und Donnerstag 15:00-18:20
MehrBlackBerry Mobile Fusion Universal Device Service. Thomas Dingfelder, Senior Technical Account Manager ubitexx a Subsidiary of Research In Motion
BlackBerry Mobile Fusion Universal Device Service Stefan Mennecke, Director Stefan Mennecke, Director Thomas Dingfelder, Senior Technical Account Manager ubitexx a Subsidiary of Research In Motion RIM
MehrARM Cortex-M Prozessoren. Referat von Peter Voser Embedded Development GmbH
ARM Cortex-M Prozessoren Referat von Peter Voser Embedded Development GmbH SoC (System-on-Chip) www.embedded-development.ch 2 Instruction Sets ARM, Thumb, Thumb-2 32-bit ARM - verbesserte Rechenleistung
MehrXEN Performance. Projektpraktikum Informatik. Arne Klein 2008-02-26. Arne Klein () XEN Performance 2008-02-26 1 / 25
XEN Performance Projektpraktikum Informatik Arne Klein 2008-02-26 Arne Klein () XEN Performance 2008-02-26 1 / 25 1 Virtualisierung mit XEN 2 Performance von XEN Allgemeines Netzwerk-Performance IO-Performance
MehrUBELIX University of Bern Linux Cluster
University of Bern Linux Cluster Informatikdienste Universität Bern ID BEKO Grid Forum 7. Mai 2007 Inhalt Einführung Ausbau 06/07 Hardware Software Benutzung Dokumentation Gut zu wissen Kontakt Apple/Mac:
MehrNeuerungen in Dymola 2015 FD01
Neuerungen in Dymola 2015 FD01 Leo Gall 2015-01-14 2015-01-14 Neuerungen in Dymola 2015 FD01 1 Überblick 1. Compiler und Betriebssysteme 2. Beschleunigte Simulation Parallelisierung Verbesserte Behandlung
MehrCPU-Update. Wie Äpfel zu Melonen werden. best OpenSystems Day April 2010. Unterföhring
CPU-Update Wie Äpfel zu Melonen werden best OpenSystems Day April 2010 Unterföhring Wolfgang Stief wolfgang.stief@best.de Senior Systemingenieur best Systeme GmbH GUUG Board Member Motivation Alles wird
MehrAnleitung für zwei C++ - Openmp - Beispiele auf der NWZSuperdome
Anleitung für zwei C++ - Openmp - Beispiele auf der NWZSuperdome (Timo Heinrich, t_hein03@uni-muenster.de) Inhaltsverzeichnis: 0.Einleitung 1.Teil: Helloworldprogramm 1.1 Quellcode: Helloworld.cpp 1.2
MehrIBM hat am 20. Oktober 2015 die neue Plattenspeicher-Familie IBM DS8880 bestehend aus zunächst zwei Modellen freigegeben:
ACSG News Oktober 2015 Sehr geehrte Kunden, IBM hat am 20. Oktober 2015 die neue Plattenspeicher-Familie IBM DS8880 bestehend aus zunächst zwei Modellen freigegeben: IBM DS8884 Mod. 980 mit optionalen
MehrEchtzeitverhalten durch die Verwendung von CPU Stubs: Eine Erweiterung von Dynamic Performance Stubs. Echtzeit 2009
Echtzeitverhalten durch die Verwendung von CPU Stubs: Eine Erweiterung von Dynamic Performance Stubs Echtzeit 2009 Peter Trapp, 20.11.2009 Übersicht 1 Einleitung 2 (Übersicht) 3 (Framework) 4 Methodik
MehrFluid-Particle Multiphase Flow Simulations for the Study of Sand Infiltration into Immobile Gravel-Beds
3rd JUQUEEN Porting and Tuning Workshop Jülich, 2-4 February 2015 Fluid-Particle Multiphase Flow Simulations for the Study of Sand Infiltration into Immobile Gravel-Beds Tobias Schruff, Roy M. Frings,
MehrPerformanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)
Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team
Mehr1. Vorbereiten das Host, folgende Software Pakete müssen installiert werden: gnome-devel bison flex texinfo libncurses5-dev git codeblocks putty
1. Vorbereiten das Host, folgende Software Pakete müssen installiert werden: gnome-devel bison flex texinfo libncurses5-dev git codeblocks putty 2. Buildroot installieren Buildroot (www.buildroot.org)
MehrProgrammierung von Many-Cores. Seminar: Software Engineering für Exascale Computing
Programmierung von Many-Cores Seminar: Software Engineering für Exascale Computing Patrizia Peller April 18, 2013 Programmierung von Many-Cores Hardware-Architekturen Anforderungen an Programmiersprachen
MehrSPARC LDom Performance optimieren
SPARC LDom Performance optimieren Marcel Hofstetter hofstetter@jomasoft.ch http://www.jomasoftmarcel.blogspot.ch Mitgründer, Geschäftsführer, Enterprise Consultant JomaSoft GmbH 1 Inhalt Wer ist JomaSoft?
MehrDas Prinzip an einem alltäglichen Beispiel
3.2 Pipelining Ziel: Performanzsteigerung é Prinzip der Fließbandverarbeitung é Probleme bei Fließbandverarbeitung BB TI I 3.2/1 Das Prinzip an einem alltäglichen Beispiel é Sie kommen aus dem Urlaub und
MehrEine Einführung in die Architektur moderner Graphikprozessoren
Eine Einführung in die Architektur moderner Graphikprozessoren Seminarvortrag von Sven Schenk WS 2005/2006 Universität Mannheim, Lehrstuhl für Rechnerarchitektur Inhalt Historische Eckpunkte Einführung
MehrExascale Computing. = Exascale braucht Manycore-Hardware...und was für Software??? 46/58
Exascale Computing Die FLOP/s-Tabelle: Name Faktor erreicht heute Giga 10 9 1976 CPU-Kern Tera 10 12 1997 Graphikkarte (GPU) Peta 10 15 2009 Supercomputer Exa 10 18 2020(?) Der gegenwärtig schnellste Rechner
MehrINDEX. Netzwerk Überblick. Benötigte Komponenten für: Windows Server 2008. Windows Server 2008 R2. Windows Server 2012
INDEX Netzwerk Überblick Benötigte Komponenten für: Windows Server 2008 Windows Server 2008 R2 Windows Server 2012 Windows SQL Server 2008 (32 Bit & 64 Bit) Windows SQL Server 2012 Client Voraussetzungen
MehrUser Level Device Driver am Beispiel von TCP
September 17, 2004 Einleitung Motivation für Userlevel Device Driver Probleme von Userlevel Device Driver Motivation für Userlevel Device Driver Modularität, leichterer Austausch/Erneuerung von Komponenten.
MehrSynthese Eingebetteter Systeme. 14 Abbildung von Anwendungen auf Multicore-Systeme
12 Synthese Eingebetteter Systeme Wintersemester 2012/13 14 Abbildung von Anwendungen auf Multicore-Systeme Michael Engel Informatik 12 TU Dortmund 2012/12/19 Abbildung von Anwendungen auf Multicores Multicore-Architekturen
MehrRechnerarchitektur und Betriebssysteme (CS201): Multiprogramming und -Tasking Flynn-Klassifikation, ILP, VLIW
Rechnerarchitektur und Betriebssysteme (CS201): Multiprogramming und -Tasking Flynn-Klassifikation, ILP, VLIW 26. Oktober 2012 Prof. Dr. Christian Tschudin Departement Informatik, Universität Basel Uebersicht
MehrMOGON. Markus Tacke HPC ZDV. HPC - AHRP Markus Tacke, ZDV, Universität Mainz
MOGON Markus Tacke HPC ZDV HPC - AHRP Was ist Mogon allgemein? Das neue High Performance Cluster der JGU Ein neues wichtiges Werkzeug für Auswertung von Messdaten und Simulationen Beispiele Kondensierte
MehrSlothful Linux: An Efficient Hybrid Real-Time System by Hardware-Based Task Dispatching. Rainer Müller
Slothful Linux: An Efficient Hybrid Real-Time System by Hardware-Based Task Dispatching Rainer Müller 21. November 2013 Spezialisierung von Betriebssystemen Vielzweckbetriebssysteme (General Purpose OS,
MehrLinux Cluster in Theorie und Praxis
Foliensatz Center for Information Services and High Performance Computing (ZIH) Linux Cluster in Theorie und Praxis Betriebssysteme 19.10.2009 Verfügbarkeit der Folien Vorlesungswebsite: http://tu-dresden.de/die_tu_dresden/zentrale_einrichtungen/
MehrSoftware Distributed Shared Memory. Vortrag im Rahmen des Seminars Ausgewählte Themen in Hardwareentwurf und Optik Sarah Neuwirth, 05.
Software Distributed Shared Memory Vortrag im Rahmen des Seminars Ausgewählte Themen in Hardwareentwurf und Optik Sarah Neuwirth, 05. Juli 2011 Agenda 1. Motivation 2. Was ist Software Distributed Shared
MehrNext generation of Power
Next generation of Power 29. April Executive Briefing Center Böblingen Volker Haug Power Systems Architekt Mitglied des IBM Technical Expert Council (TEC) IBM Deutschland GmbH Systems & Technology Group
MehrComputational Biology: Bioelektromagnetismus und Biomechanik
Computational Biology: Bioelektromagnetismus und Biomechanik Implementierung Gliederung Wiederholung: Biomechanik III Statische Elastomechanik Finite Elemente Diskretisierung Finite Differenzen Diskretisierung
MehrMemory Models. 17. September 2012
Memory Models 17. September 2012 Here Be Dragons In addition, programming idioms used by some programmers and used within Sun s Java Development Kit is not guaranteed to be valid according the existing
MehrIntel 80x86 symmetrische Multiprozessorsysteme. Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte
Intel 80x86 symmetrische Multiprozessorsysteme Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte Gliederung I. Parallel Computing Einführung II.SMP Grundlagen III.Speicherzugriff
MehrInstallationsanleitung BizTalk Server 2006
Installationsanleitung BizTalk Server 2006 Inhaltsverzeichnis How To: Wie installiere ich den Microsoft BizTalk Server 2006 richtig?... 1 Installationsvorraussetzungen... 2 Hardwarevorraussetzung... 2
MehrOracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension
MehrDer Cell Prozessor. Seminarvortrag von Viacheslav Mlotok. SS2005 Universität Mannheim, Lehrstuhl für Rechnerarchitektur
Der Cell Prozessor Seminarvortrag von Viacheslav Mlotok SS2005 Universität Mannheim, Lehrstuhl für Rechnerarchitektur 1 Inhalt Entwicklungsziele Cell Architektur Power Processor Element Synergistic Processor
Mehrelearning-module Project planning Bestell.Nr.: 1331703 Kurzbeschreibung Inhaltsverzeichnis des Moduls Project planning
Bestell.Nr.: 1331703 Kurzbeschreibung Inhaltsverzeichnis des Moduls 1. 2. Work process of projects 3. Exercise: Work process of projects 4. Tasks of the project planning 5. Exercise: Tasks of the project
MehrDie Mikroprogrammebene eines Rechners
Die Mikroprogrammebene eines Rechners Das Abarbeiten eines Arbeitszyklus eines einzelnen Befehls besteht selbst wieder aus verschiedenen Schritten, z.b. Befehl holen Befehl dekodieren Operanden holen etc.
MehrDie Marvel, ein gedrosselter Supercomputer
Die Marvel, ein gedrosselter Supercomputer Warum ist die Marvel so schnell? Warum ist die Marvel so langsam? Erfahrungen mit dem Softwaresupport Warum ist die Marvel so schnell? Hardware Z.Cvetanovic,
MehrGPGPU mit NVIDIA CUDA
01.07.12 GPGPU mit NVIDIA CUDA General-Purpose on Formatvorlagecomputing des Graphics Processing durch Units Untertitelmasters mit KlickenCompute bearbeiten NVIDIA Unified Device Architecture Gliederung
MehrGPU-Computing. Michael Vetter
GPU-Computing Universität Hamburg Scientific Visualization and Parallel Processing @ Informatik Climate Visualization Laboratory @ Clisap/CEN Übersicht Hintergrund und Entwicklung von GPGPU Programmierumgebungen
MehrZKI AK Supercomputing Herbsttagung 2012 20.-21.09.2012. Scientific Computing in Düsseldorf
ZKI AK Supercomputing Herbsttagung 2012 20.-21.09.2012 Scientific Computing in Düsseldorf Peter Schreiber schreiber@hhu.de 0211-81-13913 http://www.zim.hhu.de ZKI Arbeitskreis Supercomputing 20.-21.09.2012
MehrExchange 2013 Architecture Overview
Basel Exchange 2013 Architecture Overview René Lübke Architecture Overview 40 René Lübke Size Matters 15 René Lübke Q&A 5 Alle Agenda Architectural Overview - Generelle Übersicht - Client Access - Transport
MehrDynamische Erweiterung lokaler Batch Systeme durch Cloud Resourcen
Dynamische Erweiterung lokaler Batch Systeme durch Cloud Resourcen, Thomas Hauth, Armin Scheurer, Oliver Oberst, Günter Quast, Marcel Kunze INSTITUT FÜR EXPERIMENTELLE KERNPHYSIK (EKP) FAKULTÄT FÜR PHYSIK
MehrProseminar Rechnerarchitekturen. Parallelcomputer: Multiprozessorsysteme
wwwnet-texde Proseminar Rechnerarchitekturen Parallelcomputer: Multiprozessorsysteme Stefan Schumacher, , PGP Key http://wwwnet-texde/uni Id: mps-folientex,v
MehrNeues in Hyper-V Version 2
Michael Korp Technical Evangelist Microsoft Deutschland GmbH http://blogs.technet.com/mkorp Neues in Hyper-V Version 2 - Virtualisieren auf die moderne Art - Windows Server 2008 R2 Hyper-V Robust Basis:
MehrMikroprozessor als universeller digitaler Baustein
2. Mikroprozessor 2.1 Allgemeines Mikroprozessor als universeller digitaler Baustein Die zunehmende Integrationsdichte von elektronischen Schaltkreisen führt zwangsläufige zur Entwicklung eines universellen
MehrNutzung paralleler Prozesse bei der Umweltsimulation
Nutzung paralleler Prozesse bei der Umweltsimulation RALF Wieland rwieland@zalf.de ZALF/LSA Nutzung paralleler Prozesse bei der Umweltsimulation p. 1 Warum parallele Prozesse? Die Steigerung der Taktfrequenz
MehrHochleistungsberechnungen für Industrie und Weltraum
Christian Federspiel Hochleistungsberechnungen für Industrie und Weltraum christian.federspiel@catalysts.at Stagnation seit 2005 Performance Parameter Entwicklung von 2005-2020 Taktfrequenz L1 / L2 Cache
MehrPVFS (Parallel Virtual File System)
Management grosser Datenmengen PVFS (Parallel Virtual File System) Thorsten Schütt thorsten.schuett@zib.de Management grosser Datenmengen p.1/?? Inhalt Einführung in verteilte Dateisysteme Architektur
MehrModelling with SystemC
Modelling with SystemC Andrej Eisfeld May 22, 2011 1 Andrej Eisfeld Modelling with SystemC Inhaltsverzeichnis Grundlagen Die eigene CPU Synthese 2 Andrej Eisfeld Modelling with SystemC Fakten Open Source
MehrOpenMP am Beispiel der Matrizenmultiplikation
OpenMP am Beispiel der Matrizenmultiplikation David J. Meder, Dr. Victor Pankratius IPD Tichy Lehrstuhl für Programmiersysteme KIT die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe
MehrCONCURRENCY MODELS. Auf der Suche nach dem heiligen Gral der ManyCores Peter Sturm. (c) Peter Sturm, Universität Trier
CONCURRENCY MODELS Auf der Suche nach dem heiligen Gral der ManyCores Peter Sturm 1 AUTOVERKEHR 61.5 Millionen zugelassene Autos (Anfang 2014) Quelle: Statistisches Bundesamt 2 3 SPERRGRANULAT Die Zeit
MehrDie nächste Storage Generation Vorteile und Änderungen mit 12Gb/s SAS von Avago Storage Dominik Mutterer, Field Application Engineer
Die nächste Storage Generation Vorteile und Änderungen mit 12Gb/s SAS von Avago Storage Dominik Mutterer, Field Application Engineer Agenda Avago Who? 12Gb/s SAS Produktüberblick Vorteile durch 12Gb/s
MehrTooldemo: Soot. Softwareanalyse SS 2011 Veranstalter: Prof. Dr. Klaus Ostermann Tillmann Rendel, M.Sc. Von Kim Maurice Nuspl
Softwareanalyse SS 2011 Veranstalter: Prof. Dr. Klaus Ostermann Tillmann Rendel, M.Sc. Tooldemo: Soot (http://www.sable.mcgill.ca/soot/) Von Kim Maurice Nuspl Gliederung: Was ist Soot? Eclipse Plugin Grundlagen
MehrBetrieb eines heterogenen Clusters
Betrieb eines heterogenen Clusters Georg Hager Regionales Rechenzentrum Erlangen (RRZE) ZKI AK Supercomputing Karlsruhe, 22./23.09.2005 Transtec GBit/IB-Cluster am RRZE IA32-Cluster 04/2003 86+2 Knoten
MehrLiSARD: LabVIEW integrated Softcore Architecture for Reconfigurable Devices
Firmenlogo LiSARD: LabVIEW integrated Softcore Architecture for Reconfigurable Devices Programmierbarer Rechenkern für rechenintensive Echtzeitdatenverarbeitung mit PXI-RIO Dr.-Ing. Alexander Pacholik
MehrRaspberry Pi Appliances. Das richtige Betriebssystem für die eigene SW Lösung finden Pi and More 7 Nico Maas
Raspberry Pi Appliances Das richtige Betriebssystem für die eigene SW Lösung finden Pi and More 7 Nico Maas Zur Person Nico Maas IT Systemelektroniker Bachelor of Science mail@nico-maas.de www.nico-maas.de
MehrCloud Computing mit mathematischen Anwendungen
Cloud Computing mit mathematischen Anwendungen Vorlesung SoSe 2009 Dr. Marcel Kunze Karlsruhe Institute of Technology (KIT) Steinbuch Centre for Computing (SCC) KIT the cooperation of Forschungszentrum
MehrFreiberuflicher IT-Berater Schwerpunkte: Unix, Oracle, Netzwerk. www.jj-it.de. www.jj-it.de. Dipl.-Inform. Joachim Jäckel
Freiberuflicher Schwerpunkte: Unix, Oracle, Netzwerk 2005 1 Testaufbauten von Oracle 10g RAC auf preiswerter Hardware 2 3 Typisches Cluster System Clients Public Network Node A Node B Cluster Interconnect
MehrIhr exone Systemhauspartner Buxtenet Systemhaus GmbH & Co. KG
exone Challenge 1111 Atom 330 Art.Nr. exone Challenge 1211 X3430 RAID 47819 584 49816 1.855 exone Challenge 1811 X3220 RAID exone Challenge 1911 E5504 44628 2.983 exone Challenge 1911 i7p920 46203 1.569
MehrRechnerorganisation 2 TOY. Karl C. Posch. co1.ro_2003. Karl.Posch@iaik.tugraz.at 16.03.2011
Technische Universität Graz Institut tfür Angewandte Informationsverarbeitung und Kommunikationstechnologie Rechnerorganisation 2 TOY Karl C. Posch Karl.Posch@iaik.tugraz.at co1.ro_2003. 1 Ausblick. Erste
MehrEmbedded-Linux-Seminare. Toolchains
Embedded-Linux-Seminare Toolchains http://www.embedded-linux-seminare.de Diplom-Physiker Peter Börner Spandauer Weg 4 37085 Göttingen Tel.: 0551-7703465 Mail: info@embedded-linux-seminare.de Kopier-Rechte
MehrSeminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HS 2007. Transactional Memory. Vortrag von Erdin Sinanović
Seminar "Ausgewählte Themen in Hardwareentwurf und Optik" im HS 2007 Transactional Memory Vortrag von Erdin Sinanović Übersicht Was ist Transactional Memory (TM)? Wie programmiert man mit TM? Software
MehrOpenCL Implementierung von OpenCV Funktionen
Multi-Core Architectures and Programming OpenCL Implementierung von OpenCV Funktionen julian.mueller@e-technik.stud.uni-erlangen.de Hardware/Software Co-Design August 18, 2011 1 Table of content 1 OpenCL
MehrWissenschaftliches Rechnen an der Christian- Albrechts-Universität zu Kiel
Wissenschaftliches Rechnen an der Christian- Albrechts-Universität zu Kiel ZKI-Tagung, AK Supercomputing, 16.-17.03.2015 Holger Marten Landeshauptstadt Kiel - Bodo Quante 1. Etwas Historie 16.03.2015 Dr.
MehrBisherige Erfahrungen mit Eclipse auf NonStop. programmer retire? Hans-Fried Kirschbaum CommitWork GmbH 12/22/2010 1
Bisherige Erfahrungen mit Eclipse auf NonStop programmer retire? Hans-Fried Kirschbaum CommitWork GmbH 12/22/2010 1 agenda what is Eclipse? a look at NSDEE a look at CDS 12/22/2010 2 what is Eclipse? 12/22/2010
MehrInhaltsangabe zu den Systemvoraussetzungen:
Inhaltsangabe zu den Systemvoraussetzungen: Seite 2 bis 1.500 Wohneinheiten und bis 2 Seite 3 bis 1.500 Wohneinheiten und bis 5 Seite 4 bis 5.000 Wohneinheiten und mehr als 10 Seite 5 bis 15.000 Wohneinheiten
MehrSARA 1. Project Meeting
SARA 1. Project Meeting Energy Concepts, BMS and Monitoring Integration of Simulation Assisted Control Systems for Innovative Energy Devices Prof. Dr. Ursula Eicker Dr. Jürgen Schumacher Dirk Pietruschka,
MehrLiSARD: LabVIEW integrated Softcore Architecture for Reconfigurable Devices
Firmenlogo LiSARD: LabVIEW integrated Softcore Architecture for Reconfigurable Devices Programmierbarer Rechenkern für rechenintensive Echtzeitdatenverarbeitung mit PXI-RIO Dr.-Ing. Alexander Pacholik
MehrOSRM - weltweites Routing mit OpenStreetMap-Daten OSRM - weltweites Routing mit OpenStreetMap-Daten
OSRM - weltweites Routing mit OpenStreetMap-Daten Jörg Thomsen, MapMedia GmbH, Berlin OSRM: The Open Source Routing Machine High Performance Routing Algorithm. Easy import of OSM data files. Written entirely
Mehr