Inhaltsverzeichnis. Visualisierung von Ausführungstraces. 1. Motivation. 2. Anwendungsfelder. 3. Visualisierungstools. 4.
|
|
- Inge Holst
- vor 5 Jahren
- Abrufe
Transkript
1 DIMO MALESHKOV Leiter: Dr.-Ing. Andreas Kerren Universität Kaiserslautern Inhaltsverzeichnis 1. Motivation 2. Anwendungsfelder 3. Visualisierungstools 4. Zusammenfassung 2/25
2 Inhaltsverzeichnis 1. Motivation 2. Anwendungsfelder 3. Visualisierungstools 4. Zusammenfassung 3/25 Motivation Die visuelle Informationsverarbeitung liegt in der Natur des Menschen Unsere Umgebung verarbeiten wir als kodierte Bilder - Wörter - Text /25
3 Motivation Alles ist Performance (wenn das Programm läuft...) Aber wie findet man das Performanceproblem? den Code nachprüfen, den Algorithmus verbessern die Ausführungstraces finden 5/25 Inhaltsverzeichnis 1. Motivation 2. Anwendungsfelder 3. Visualisierungstools 4. Zusammenfassung 6/25
4 Source-Code Probleme Source-Code Probleme sind hauptsächlich: Nicht optimal geschriebene Programme unnötige Wiederholung von aufwendigen Berechnungen Verschwendung von Speicher Nicht passender Algorithmus kommt sehr oft bei numerischen Applikationen vor 7/25 Sonstige Probleme Compiler-Probleme sind: der Compiler-generierte Code ist nie absolut optimal die passende Optimierungsstufe des Compilers ist schwierig einzustellen kleine Asslembler-Änderungen können eine große Performance- Verbesserung hervorrufen Parallele Programme (z.b. MPI) ein Bereich, in dem die Visualisierung notwendig ist 8/25
5 CPU Evolution(1) 9/25 Die physikalische Grenze ist erreicht. Weitere Frequenzerhöhung ist mit den heutigen Technologien nicht möglich. CPU Evolution(2) Die physikalische Grenze ist erreicht. Weitere Frequenzerhöhung ist mit den heutigen Technologien nicht möglich. neue Technologien sind nötig Z.B. Multiple Core, Cell Architekture, Hyperthreading,, L2 Cache- Verbesserungen hinsichtlich der Größe und der Geschwindigkeit usw. Die heutige Tendenz ist: Threading 10/25
6 Inhaltsverzeichnis 1. Motivation 2. Anwendungsfelder 3. Visualisierungstools 4. Zusammenfassung 11/25 Profiler Was muss visualisiert werden? Woher kommen die Daten? Profiler die g option gprof kprof Hardware Analyse? 12/25 % cumulative self self total time seconds seconds calls ms/call ms/call name open offtime memccpy write mcount tzset tolower strlen strchr main memcpy print profil report
7 Systemsimulator Welche Funktion hat ein Systemsimulator? Die ganze Systeminformation ist verfügbar Es gibt leider Genauigkeitsprobleme Bietet die besten Möglichkeiten zur Darstellung des Visualisierungsvehrfarens 13/25 TraceVis Interaktive Navigation die Cache-misses sind beobachtbar die Pipeline ist beobachtbar die Brunch Missprediction ist beobachtbar IPC Statistik 14/25
8 TraceVis: : Pipeline B-Brunch Miss prediction D-Cache Miss 15/25 Hell Rot - instruction fet Dunkel Rot - instruction decode Gelb - stalled instruction grün - ready to execute Helles Blau - executing Dunkel Balu - commit TraceVis: : Zoom Out 16/25 die Problemstellen sind leicht zu erkennen
9 TraceVis: : L2 Misses Links sieht man das L2 Cache Misses Histogramm 17/25 TraceVis: : L2 Misses Problemerklärung mit L2 Cache Misses 18/25
10 TraceVis: : Details Man kann immer einen Tracebereich auswählen, um zusätzliche Information zu bekommen 19/25 TraceVis: : Back to the Source 20/25
11 TraceVis: Search 21/25 VTune Intel Produkt Hardware counter einer der besten Code Analyser auf dem Markt Demo 22/25
12 Inhaltsverzeichnis 1. Motivation 2. Anwendungsfelder 3. Visualisierungstools 4. Zusammenfassung 23/25 The End Ausführungstraces Performance-Probleme Probleme Visualisierungsmethoden Tools (gprof( gprof, TraceVis, VTune) Literatur 24/25
13 Literatur [1] Toms Hardware [2] Kprof [3] TraceVis 25/25
Ferienakademie 2009. Programmierkonzepte für Multi-Core Rechner. Tools: Profiler
Ferienakademie 2009 Programmierkonzepte für Multi-Core Rechner Tools: Profiler Gliederung Einführung Aufgaben eines Profilers Techniken von Profilern Code Instrumentation Instruction Simulation Hardware
MehrWas ist ein Profiler?
Profiling Was ist ein Profiler? (Theorie) Invasives Profiling Nichtinvasives Profiling Profiling in der Praxis gprof, gcov OProfile valgrind/callgrind Intel VTune Was ist ein Profiler? Analyse des Laufzeitverhaltens
MehrPerformance Testing Seminar zu Software-Tools für die Numerische Mathematik
MÜNSTER Performance Testing Seminar zu Software-Tools für die Numerische Mathematik 15. Oktober 2014 MÜNSTER Performance Testing 2 /46 Mein Programm soll schneller werden! Wie geht das? MÜNSTER Performance
MehrCache Grundlagen. Schreibender Cache Zugriff. SS 2012 Grundlagen der Rechnerarchitektur Speicher 22
Cache Grundlagen Schreibender Cache Zugriff SS 212 Grundlagen der Rechnerarchitektur Speicher 22 Eine einfache Strategie Schreibt man nur in den Cache, werden Cache und darunter liegender Speicher inkonsistent.
MehrQuiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset.
Quiz Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset 32 Bit Adresse 31 3 29... 2 1 SS 212 Grundlagen der Rechnerarchitektur
Mehr54. Analysewerkzeuge für Worst-Case Execution Time (Attributanalyse) 54.1 AiT - Worst-Case Execution Time Analyzer. Obligatorische Literatur
54. Analysewerkzeuge für Worst-Case Execution Time (Attributanalyse) 2 Obligatorische Literatur Reinhold Heckmann, Christian Ferdinand. Worst-Case Execution Time Prediction by Static Program Analysis.
MehrAnalyse aktueller Cache-Architekturen hinsichtlich Struktur und Effizienz. Markus Krause
Analyse aktueller Cache-Architekturen hinsichtlich Struktur und Effizienz Markus Krause Dresden, Gliederung 1. Einführung 2. Problemstellung 3. Lösungen a) Miss Rate b) Miss Penalty c) Hit Time 4. Zusammenfassung
MehrProfiling in Python. Seminar: Effiziente Programmierung. Jan Pohlmann. November Jan Pohlmann Profiling in Python November / 32
Profiling in Python Seminar: Effiziente Programmierung Jan Pohlmann November 2017 Jan Pohlmann Profiling in Python November 2017 1 / 32 Gliederung 1 Grundlagen Profiling Was ist das Ziele und Herausforderungen
MehrSoftwaretechnik Übung: Performance-Analyse, Profiling & Coverage
Softwaretechnik Übung: Performance-Analyse, Profiling & Coverage Klaus Kusche Auf unseren Systemen sind mehrere Profiler installiert: Sysprof, ein systemweiter statistischer Profiler. Die Google Perftools,
MehrOpenCL. Programmiersprachen im Multicore-Zeitalter. Tim Wiersdörfer
OpenCL Programmiersprachen im Multicore-Zeitalter Tim Wiersdörfer Inhaltsverzeichnis 1. Was ist OpenCL 2. Entwicklung von OpenCL 3. OpenCL Modelle 1. Plattform-Modell 2. Ausführungs-Modell 3. Speicher-Modell
MehrJust-In-Time-Compiler (2)
Just-In-Time-Compiler (2) Dr.-Ing. Volkmar Sieh Department Informatik 4 Verteilte Systeme und Betriebssysteme Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2015/2016 V. Sieh Just-In-Time-Compiler
MehrTechnische Informatik 1 Übung 8 Instruktionsparallelität (Rechenübung) Andreas Tretter 8./9. Dezember Bitte immer eine Reihe freilassen
Technische Informatik 1 Übung 8 Instruktionsparallelität (Rechenübung) Andreas Tretter 8./9. Dezember 2016 Bitte immer eine Reihe freilassen Ziele der Übung Verschiedene Arten von Instruktionsparallelität
MehrRechner- organisa-on 2 TOY. Karl C. Posch.
Rechner- Technische Universität Graz Ins-tut für Angewandte Informa-onsverarbeitung und Kommunika-onstechnologie organisa-on 2 TOY Karl C. Posch Karl.Posch@iaik.tugraz.at co1.ro_2012. Ausblick. Erste HälEe
MehrContainer als Immutable Infrastructure. John M. Hutchison
Container als Immutable Infrastructure John M. Hutchison Container als Immutable Infrastructure 1. Context 2. Anwendungsbereiche 3. Demo 4. Erkenntnisse Präsentationstitel 06.03.2017 2 Container Verschiedene
MehrVorstellung der SUN Rock-Architektur
Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Vorstellung der SUN Rock-Architektur Hauptseminar Ronald Rist Dresden, 14.01.2009
MehrArchitektur/Chip/Komponente
Architektur/Chip/Komponente Dr.-Ing. Volkmar Sieh Department Informatik 4 Verteilte Systeme und Betriebssysteme Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2014/2015 V. Sieh Architektur/Chip/Komponente
MehrIntel Cluster Studio. Michael Burger FG Scientific Computing TU Darmstadt michael.burger@sc.tu-darmstadt.de
Intel Cluster Studio Michael Burger FG Scientific Computing TU Darmstadt michael.burger@sc.tu-darmstadt.de 19.03.13 FB Computer Science Scientific Computing Michael Burger 1 / 30 Agenda Was ist das Intel
MehrJust-In-Time-Compiler (2)
Just-In-Time-Compiler (2) Dr.-Ing. Volkmar Sieh Department Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2011/2012 Just-In-Time-Compiler (2) 1/13 2011-09-12 Just-In-Time-Compiler
MehrBeispielvortrag: HPCG auf Intel Haswell-EP
Beispielvortrag: HPCG auf Intel Haswell-EP Johannes Hofmann 1 Seminarvortrag Architekturen von Multi- und Vielkern-Prozessoren Erlangen, 19.4.2016 1 Computer Architecture, University Erlangen-Nuremberg
MehrSchreiben von Pages. Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen).
Schreiben von Pages Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen). Write Through Strategie (siehe Abschnitt über Caching) ist hier somit nicht sinnvoll. Eine sinnvolle
MehrDie Sicht eines Sysadmins auf DB systeme
Die Sicht eines Sysadmins auf DB systeme Robert Meyer 21. Oktober 2016 Robert Meyer Die Sicht eines Sysadmins auf DB systeme 21. Oktober 2016 1 / 20 Inhaltsverzeichnis 1 Einleitung 2 IO unter Linux typische
MehrMikrocomputertechnik
J. Walter Mikrocomputertechnik mit der 8051-Controller-Familie Hardware, Assembler, C Mit 146 Abbildungen und 50 Tabellen Springer-Verlag Berlin Heidelberg New York London Paris Tokyo Hong Kong Barcelona
MehrVisualisierung von Planungsvarianten. 3D-WebGIS. Virtuellen Realität
Visualisierung von Planungsvarianten im 3D-WebGIS und in der Virtuellen Realität Tim Reddehase Stadt Osnabrück Fachdienst Geodaten 0541 / 323 3068 reddehase@osnabrueck.de OS3D Osnabrück in 3D Im Fachdienst
MehrGeoDaten Visualisierung mit APEX und OpenLayers
GeoDaten Visualisierung mit APEX und OpenLayers Davide Groppuso 20.11.2018 DOAG K+A Facts & Figures Mittelständischer IT-Dienstleister Technologie-orientiert Branchen-unabhängig Hauptsitz Ratingen 240
MehrN Bit Binärzahlen. Stelle: Binär-Digit:
N Bit Binärzahlen N Bit Binärzahlen, Beispiel 16 Bit: Stelle: 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 Binär-Digit: 0 0 1 0 1 0 0 1 1 1 0 0 1 0 0 0 Least Significant Bit (LSB) und Most Significant Bit (MSB)
MehrMulti- und Many-Core
Multi- und Many-Core Benjamin Warnke Arbeitsbereich Wissenschaftliches Rechnen Fachbereich Informatik Fakultät für Mathematik, Informatik und Naturwissenschaften Universität Hamburg 2016-12-15 Benjamin
MehrBeispiele von Branch Delay Slot Schedules
Beispiele von Branch Delay Slot Schedules Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 97 Weniger
MehrDB-Performance auf FLASH-Storage
DB-Performance auf FLASH-Storage Matthias Rumitz AS-SYSTEME DOAG 17.11.2015 Vorwort Applikations-Sicht auf Storage-Systeme : Datei-System mit / ohne Cache Volume-Manager HW-Treiber Stecker / Kabel Storage-Controller
MehrVisualizing multiple Last.fm listening histories
Visualizing multiple Last.fm listening histories Abschlussvortrag Bachelorarbeit - 14.09.2010 Roman Graebsch www.lastloop.de LFE Medieninformatik Betreuer: Dominikus Baur Verantwortlicher Hochschullehrer:
MehrWie groß ist die Page Table?
Wie groß ist die Page Table? Im vorigen (typischen) Beispiel verwenden wir 20 Bits zum indizieren der Page Table. Typischerweise spendiert man 32 Bits pro Tabellen Zeile (im Vorigen Beispiel brauchten
MehrCell and Larrabee Microarchitecture
Cell and Larrabee Microarchitecture Benjamin Grund Dominik Wolfert Universität Erlangen-Nürnberg 1 Übersicht Einleitung Herkömmliche Prozessorarchitekturen Motivation für Entwicklung neuer Architekturen
MehrInstruktionen pro Takt
(c) Peter Sturm, Universität Trier (u.a.) 1 Instruktionen pro Takt 500 MIPS (Dhrystone) Taktfrequenz 450 400 350 300 250 200 150 100 50 0 8086 80286 80386 80486 Pentium Pentium Pro Die-Größen: Intel Vorlesung
MehrGrundlagen der Rechnerarchitektur
Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie
MehrArbeitsfolien - Teil 4 CISC und RISC
Vorlesung Informationstechnische Systeme zur Signal- und Wissensverarbeitung PD Dr.-Ing. Gerhard Staude Arbeitsfolien - Teil 4 CISC und RISC Institut für Informationstechnik Fakultät für Elektrotechnik
MehrRechnerorganisation. Einleitung. Karl C. Posch. co1.ro_
Technische Universität Graz Institut tfür Angewandte Informationsverarbeitung und Kommunikationstechnologie Rechnerorganisation 1 Einleitung Karl C Posch KarlPosch@iaiktugrazat co1 ro_2003 1 Information
MehrSpeicherarchitektur (23) Suchen einer Seite:
Speicherarchitektur (23) Suchen einer Seite: Vorlesung Rechnersysteme SS `09 E. Nett 7 Speicherarchitektur (24) Adressschema inklusive Seitenfehler: Vorlesung Rechnersysteme SS `09 E. Nett 8 Speicherarchitektur
MehrPRIP-Preis. Effizientes Object Tracking durch Programmierung von Mehrkernprozessoren und Grafikkarten
Masterarbeit @ PRIP-Preis Effizientes Object Tracking durch Programmierung von Mehrkernprozessoren und Grafikkarten Michael Rauter Pattern Recognition and Image Processing Group Institute of Computer Aided
MehrGrundlagen der Rechnerarchitektur. Speicher
Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie
Mehr4D Server v12 64-bit Version BETA VERSION
4D Server v12 64-bit Version BETA VERSION 4D Server v12 unterstützt jetzt das Windows 64-bit Betriebssystem. Hauptvorteil der 64-bit Technologie ist die rundum verbesserte Performance der Anwendungen und
MehrTensorFlow Open-Source Bibliothek für maschinelles Lernen. Matthias Täschner Seminar Deep Learning WS1718 Abteilung Datenbanken Universität Leipzig
TensorFlow Open-Source Bibliothek für maschinelles Lernen Seminar Deep Learning WS1718 Abteilung Datenbanken Universität Leipzig Motivation Renaissance bei ML und KNN Forschung bei DNN fortgeschrittene
MehrProfiling und Coverage mit GNU und Bare Embedded Systems
Profiling und Coverage mit GNU und Bare Embedded Systems Life is too short for bad tools! Prof. Erich Styger erich.styger@hslu.ch +41 41 349 33 01 Coverage und Profiling Coverage: Analyse der Testabdeckung
MehrHochschule Düsseldorf University of Applied Sciences HSD RISC &CISC
HSD RISC &CISC CISC - Complex Instruction Set Computer - Annahme: größerer Befehlssatz und komplexere Befehlen höhere Leistungsfähigkeit - Möglichst wenige Zeilen verwendet, um Aufgaben auszuführen - Großer
MehrNeue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP)
Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP) @wefinet Werner Fischer, Thomas-Krenn.AG Webinar, 17. Oktober 2017 Intel Xeon Scalable Performance _ Das ist NEU: Neue
MehrMikrocomputertechnik mit der 8051-Controller-Familie
Mikrocomputertechnik mit der 8051-Controller-Familie Hardware, Assembler, C Bearbeitet von Jürgen Walter Neuausgabe 2008. Buch. xiii, 311 S. ISBN 978 3 540 66758 2 Format (B x L): 15,5 x 23,5 cm Weitere
MehrRealtime Daten-Rückschreibung in Tableau mit der Extensions API //
Was wir vorhersagen, soll auch eintreffen! Realtime Daten-Rückschreibung in Tableau mit der Extensions API // Pascal Muth Zusammenfassung In diesem Whitepaper wird die Tableau Extensions API von Tableau
MehrDie Sandy-Bridge Architektur
Fakultät Informatik - Institut für Technische Informatik - Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Die Sandy-Bridge Architektur René Arnold Dresden, 12. Juli 2011 0. Gliederung 1.
MehrGliederung. Was ist CUDA? CPU GPU/GPGPU CUDA Anwendungsbereiche Wirtschaftlichkeit Beispielvideo
Gliederung Was ist CUDA? CPU GPU/GPGPU CUDA Anwendungsbereiche Wirtschaftlichkeit Beispielvideo Was ist CUDA? Nvidia CUDA ist eine von NvidiaGPGPU-Technologie, die es Programmierern erlaubt, Programmteile
Mehrsoftware visualization NICK MÜLLER, a
software visualization NICK MÜLLER, a1001030 Papers Visualizing Compiled Executables for Malware Analysis. Daniel A. Quist and Lorie M. Liebrock, VizSec 2009. Visualizing Application Behavior on Superscalar
Mehr- - CodE 11 CodE 0 0 0 0 0 0 0 0 2.o C 1 10.0 C 2 off 3 3.0 4 2.0 5 off 6 1 8 20.0 9 60 C 7 4.0 10 80 C 1 38 C 12 8 k 13 on 14 30.0 15 10 16 - - CodE 11 CodE 0 0 0 0 0 0 0 0 2.o C 1 10.0 C 2
MehrMikroprozessoren Grundlagen AVR-Controller Input / Output (I/O) Interrupt Mathematische Operationen
Mikroprozessoren Grundlagen Aufbau, Blockschaltbild Grundlegende Datentypen AVR-Controller Anatomie Befehlssatz Assembler Speicherzugriff Adressierungsarten Kontrollstrukturen Stack Input / Output (I/O)
MehrOptimierungen der Lattice Boltzmann Methode auf x86-64 basierten Architekturen
Optimierungen der Lattice Boltzmann Methode auf x86-64 basierten Architekturen J. Treibig, S. Hausmann, U. Ruede 15.09.05 / ASIM 2005 - Erlangen Gliederung 1 Einleitung Motivation Grundlagen 2 Optimierungen
MehrRechner- organisa-on. 1 Einleitung. Karl C. Posch.
Rechner- Technische Universität Graz Ins-tut für Angewandte Informa-onsverarbeitung und Kommunika-onstechnologie organisa-on 1 Einleitung Karl C. Posch Karl.Posch@iaik.tugraz.at co1.ro_2012. InformaCon
MehrWillkommen bei KUHNKE
Willkommen bei KUHNKE Willkommen bei KUHNKE Innovation für Innovatoren 0 ... Wissen, was morgen läuft! 1 ... Wissen, was morgen läuft! Übersicht : Vorstellung KUHNKE Was ist Condition Monitoring? Technische
Mehr2. Der ParaNut-Prozessor "Parallel and more than just another CPU core"
2. Der ParaNut-Prozessor "Parallel and more than just another CPU core" Neuer, konfigurierbarer Prozessor Parallelität auf Daten- (SIMD) und Thread-Ebene Hohe Skalierbarkeit mit einer Architektur neues
MehrCell Broadband Engine & CellSs: ein Programmiermodel für den Cell Prozessor
Cell Broadband Engine & CellSs: ein Programmiermodel für den Cell Prozessor Hardware-Software-Co-Design Universität Erlangen-Nürnberg mark.duchon@mb.stud.uni-erlangen.de Ziegler_Matthias@web.de andreas.fall@googlemail.com
MehrSpeicherarchitektur (16)
Zuweisungsstrategien für Cacheblocks: direct-mapped Speicherarchitektur (16) voll-assoziativ mengen-assoziativ Beispiel: Vorlesung Rechnersysteme SS `09 E. Nett 15 Speicherarchitektur (16) Konfigurationsmöglichkeiten
MehrCache-Speicher. Design Digitaler Systeme. Prof. Dr.-Ing. Rainer Bermbach
Cache-Speicher Design Digitaler Systeme Prof. Dr.-Ing. Rainer Bermbach Übersicht Cache-Speicher Warum Cache-Speicher? Cache-Strukturen Aufbau und Organisation von Caches Cache-Architekturen Cache-Strategien
MehrMemory Models Frederik Zipp
Memory Models Frederik Zipp Seminar: Programmiersprachen für Parallele Programmierung (SS 2010) Fakultät für Informatik - IPD SNELTING LEHRSTUHL PROGRAMMIERPARADIGMEN 1
MehrLeistungsfähige ARM CPUs für den industriellen Einsatz
Leistungsfähige ARM CPUs für den industriellen Einsatz Layerscape ARM Cortex-A CPUs von NXP mit Features aus der PowerPC Welt. Performance und Echtzeitfähigkeits-Vergleich von ARM und PowerPC. Kei Thomsen,
MehrCache II. Dr.-Ing. Volkmar Sieh. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg SS 2011
Cache II Dr.-Ing. Volkmar Sieh Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg SS 2011 Cache II 1/14 2012-02-29 Schreibstrategien Es sind verschiedene Fälle
MehrC-to-CUDA-Compiler. Johannes Kölsch. October 29, 2012
October 29, 2012 Inhaltsverzeichnis 1 2 3 4 5 6 Motivation Motivation CUDA bietet extreme Leistung für parallelisierbare Programme Kompliziert zu programmieren, da multi-level parallel und explizit verwalteter
MehrIntegration und Erweiterung eines Softwaresystems zur Steuerung eines 3D-Druckers
Integration und Erweiterung eines Softwaresystems zur Steuerung eines 3D-Druckers Fang Bao, Ting Luk-He, Karl Kaufmann Koordinator: Felix Baumann 26.06.2015 1 / 23 Inhaltsverzeichnis 1 Motivation Ziele
MehrHYPER-CONVERGED INFRASTRUCTURE. Höhere Performance Reduzierte Ausfallzeiten Verbesserte Auslastung Niedrigere Kosten
HYPER-CONVERGED INFRASTRUCTURE Höhere Performance Reduzierte Ausfallzeiten Verbesserte Auslastung Niedrigere Kosten 2 HYPER-CONVERGED INFRASTRUCTURE Infrastrukturlösung mit Die Software läuft direkt auf
MehrWeitere Verbesserungen
Weitere Verbesserungen Welcher Cache liefert aktuellen Block falls mehrere Caches Block im Zustand S halten? Lösung: Einführung eines weiteren Zustands O (Owner) Zustand O besagt: Eigentümer des Blocks
MehrVom Web ins IoT: Schnelleinstieg in Tooling und Entwicklung
Vom Web ins IoT: Schnelleinstieg in Tooling und Entwicklung Webinar 11.05.2017 Andreas Schmidt @aschmidt75 www.cassini.ag www.thingforward.io @thingforward 2 11.05.17 Agenda Devices für das Internet der
MehrPARADOM. Parallele Algorithmische Differentiation in OpenModelica für energietechnische Simulationen und Optimierungen.
Zentrum für Informationsdienste und Hochleistungsrechnen TU Dresden PARADOM Parallele Algorithmische Differentiation in OpenModelica für energietechnische Simulationen und Optimierungen Martin Flehmig
MehrTechnische Informatik - Eine Einführung
Martin-Luther-Universität Halle-Wittenberg Fachbereich Mathematik und Informatik Lehrstuhl für Technische Informatik Prof. P. Molitor Technische Informatik - Eine Einführung Rechnerarchitektur Aufgabe
MehrCUDA. Moritz Wild, Jan-Hugo Lupp. Seminar Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg
CUDA Seminar Multi-Core Architectures and Programming 1 Übersicht Einleitung Architektur Programmierung 2 Einleitung Computations on GPU 2003 Probleme Hohe Kenntnisse der Grafikprogrammierung nötig Unterschiedliche
MehrStream Processing und High- Level GPGPU Sprachen
Stream Processing und High- Level GPGPU Sprachen Seminar Programmierung von Grafikkarten Jens Breitbart Problem 5000% 4000% 3000% 2000% Rechenleistung: +71% pro Jahr Bandbreite: +25% pro Jahr Zugriffszeit:
MehrCache Blöcke und Offsets
Cache Blöcke und Offsets Ein Cache Eintrag speichert in der Regel gleich mehrere im Speicher aufeinander folgende Bytes. Grund: räumliche Lokalität wird wie folgt besser ausgenutzt: Bei Cache Miss gleich
MehrSeminar Parallele Rechnerarchitekturen SS04 \ SIMD Implementierung aktueller Prozessoren 2 (Dominik Tamm) \ Inhalt. Seite 1
\ Inhalt Seite 1 \ Inhalt SIMD Kurze Rekapitulation 3Dnow! (AMD) AltiVec (PowerPC) Quellen Seite 2 \ Wir erinnern uns: Nach Flynn s Taxonomie kann man jeden Computer In eine von vier Kategorien einteilen:
MehrCANape Option Bypassing
Produktinformation Inhaltsverzeichnis 1 Übersicht... 3 1.1 Einführung... 3 1.2 Die Vorteile im Überblick... 3 1.3 Anwendungsgebiete... 4 1.4 Systemvoraussetzung... 4 1.5 Weiterführende Informationen...
MehrNebenläufige Programme mit Python
Nebenläufige Programme mit Python PyCon DE 2012 Stefan Schwarzer, SSchwarzer.com info@sschwarzer.com Leipzig, Deutschland, 2012-10-30 Nebenläufige Programme mit Python Stefan Schwarzer, info@sschwarzer.com
Mehr2 Rechnerarchitekturen
2 Rechnerarchitekturen Rechnerarchitekturen Flynns Klassifikation Flynnsche Klassifikation (Flynn sche Taxonomie) 1966 entwickelt, einfaches Modell, bis heute genutzt Beschränkung der Beschreibung auf
MehrModelling with SystemC
Modelling with SystemC Andrej Eisfeld May 22, 2011 1 Andrej Eisfeld Modelling with SystemC Inhaltsverzeichnis Grundlagen Die eigene CPU Synthese 2 Andrej Eisfeld Modelling with SystemC Fakten Open Source
MehrEffektive Nutzung der Simulationsumgebung Anregungen für die Praxis
1 2017 ANSYS, 14. Inc. Juni 2017 in June Winterthur 20, 2017 22. SCHWEIZER CADFEM ANSYS SIMULATION CONFERENCE Effektive Nutzung der Simulationsumgebung Anregungen für die Praxis Martin Mann Sales & Acount
MehrGames with Cellular Automata auf Parallelen Rechnerarchitekturen
Bachelor Games with Cellular Automata auf Parallelen en ( ) Dipl.-Inf. Marc Reichenbach Prof. Dietmar Fey Ziel des s Paralleles Rechnen Keine akademische Nische mehr Vielmehr Allgemeingut für den Beruf
MehrKonzepte von Betriebssystem-Komponenten: Effiziente Manycore-Systeme
Konzepte von Betriebssystem-Komponenten: Effiziente Manycore-Systeme Florian Schmaus, Stefan Reif Lehrstuhl für Informatik 4 Verteilte Systeme und Betriebssysteme Friedrich-Alexander-Universität Erlangen-Nürnberg
MehrOracle-Reports in Enterprise-Projekten: Erfahrungsbericht über Architektur, Performance und weitere Aspekte
Oracle-Reports in Enterprise-Projekten: Erfahrungsbericht über Architektur, Performance und weitere Aspekte Jan-Peter Timmermann Bereichsleiter OPITZ CONSULTING Hamburg GmbH Hamburg, 18.06.2009 Seite 1
MehrRechnernetze und Organisation
Framework für Assignment A2 1 Übersicht Framework für Assignment A2 WH: Aufgabenstellung Klassen und Methoden Getting started Erste Instruktion aus Testdaten dekodieren 2 Aufgabenstellung Instruction-Set
Mehr3D-Rekonstruktion aus Bildern
Allgemeine Nachrichtentechnik Prof. Dr.-Ing. Udo Zölzer 3D-Rekonstruktion aus Bildern Dipl.-Ing. Christian Ruwwe 41. Treffen der ITG-Fachgruppe Algorithmen für die Signalverarbeitung HSU Hamburg 24. Februar
MehrPanel PCs / Monitore - Desktop PCAP Multitouch
Panel PCs / Monitore - Desktop Schlankes Metallgehäuse in RAL 7016 Entspiegelte Coverscheibe (Gloss 85) PCAP Sensor (Multitouch mit bis zu 10- Finger-Bedienung) LED Display mit erweitertem Blickwinkel,
MehrLiefert das Protokoll Kohärenz?
Liefert das Protokoll Kohärenz? Konstruktion einer (totalen) Ordnung der Speicheroperationen unter Beachtung der Programmordnungen Voraussetzung: atomare Bus-Transaktionen und Speicheroperationen alle
MehrEntwurf eines FPGA-Cores zur Simulationsbeschleunigung zeitkontinuierlicher Modelle im HiL Kontext
Entwurf eines FPGA-Cores zur Simulationsbeschleunigung zeitkontinuierlicher Modelle im HiL Kontext Till Fischer 03.11.2011 FZI Forschungszentrum Informatik Embedded Systems & Sensors Engineering (ESS)
MehrLinux Paging, Caching und Swapping
Linux Paging, Caching und Swapping Inhalte Paging Das Virtuelle Speichermodell Die Page Table im Detail Page Allocation und Page Deallocation Memory Mapping & Demand Paging Caching Die verschiedenen Caches
MehrJR - RA - SS02 Kap
3.1 Elementare Datentypen, Operationen und ihre Realisierung (siehe 2.1) 3.2 Mikroprogrammierung 3.3 Einfache Implementierung von MIPS 3.4 Pipelining 3.5 Superskalare Befehlsausführung JR - RA - SS02 Kap.
MehrEin konfigurierbarer, visueller Cache-Simulator unter spezieller Berücksichtigung komponenten- basierter Modellierung mit Java Beans
Ein konfigurierbarer, visueller Simulator unter spezieller Berücksichtigung komponenten- basierter Modellierung mit Java Beans Holger 6. März 2001 Universität Wilhelm-Schickard-Institut für dieser Arbeit
MehrSotograph im Einsatz bei der FIDUCIA IT AG. Harald Doderer, Technische Architektur
Sotograph im Einsatz bei der FIDUCIA IT AG Harald Doderer, Technische Architektur 30.05.08 Agenda Die FIDUCIA IT AG Statische Code-Analyse Das Sotograph-Umfeld Die Ergebnisse Sotograph im Einsatz bei der
MehrCompute Unified Device Architecture CUDA
Compute Unified Device Architecture 06. Februar 2012 1 / 13 Gliederung 2 / 13 : Compute Unified Device Architecture entwickelt von Nvidia Corporation spezifiziert Software- und Hardwareeigenschaften Ziel:
MehrAbacus Formula Compiler (AFC)
Abacus Formula Compiler (AFC) Alle kennen Excel - jetzt sogar Ihre Java- Applikation! Bringt Tabellenkalkulationen auf die JVM http://formulacompiler.org/ Peter Arrenbrecht für Abacus Research AG http://abacus.ch/
MehrCompilerbau + Virtuelle Maschinen
Helmut Seidl Compilerbau + Virtuelle Maschinen München Sommersemester 2009 1 Organisatorisches Der erste Abschnitt Die Übersetzung von C ist den Vorlesungen Compilerbau und Virtuelle Maschinen gemeinsam
MehrFehlertoleranz & Robustheit
January 17, 2017 Warum Recap fault error failure transient - permanent - intermittent Kritische Anwendungen - Extreme Umgebung - Komplexität Trends: Miniaturisierung kleiner Streuung in Fertigung einfach
MehrMint Medical GmbH. Einführung in. Valgrind. (dynamische Speicheranalyse) Lucas Beyer. Seite
10.08.12 Mint Medical GmbH Einführung in Valgrind (dynamische Speicheranalyse) Lucas Beyer Seite 1 Was ist valgrind? Sprich: Wall + G + Rind Name des (gut bewachten) Haupteingangs zu Valhalla Nordische
MehrEinführung in Python Teil II Bibliotheken für wissenschaftliches Rechnen
Einführung in Python Teil II Bibliotheken für wissenschaftliches Rechnen Valentin Flunkert Institut für Theoretische Physik Technische Universität Berlin Fr. 28.5.2010 Nichtlineare Dynamik und Kontrolle
MehrImplementing Database Operations Using SIMD Instructions. Ausarbeitung zum Seminarvortrag Wintersemester 2002/2003 Universität Konstanz
Implementing Database Operations Using SIMD Instructions Ausarbeitung zum Seminarvortrag Wintersemester 2002/2003 Universität Konstanz Harald Geisser Mat.-Nr. 01/423696 Die Folgende Ausarbeitung wurde
MehrHigh-Performance Computing mit FEMAG
High-Performance Computing mit FEMAG Untersuchungen und Massnahmen zur Verbesserung der Rechenzeit FEMAG Anwendertreffen 2013 (Zürich) Ronald Tanner SEMAFOR Informatik & Energie AG, Basel 10./11. Oktober
Mehr