Machine Learning Hardware
|
|
|
- Birgit Bretz
- vor 8 Jahren
- Abrufe
Transkript
1 Machine Learning Hardware Dominik Scherer Seminar Neuste Trends in Big Data Analytics Betreuer: Dr. Julian Kunkel
2 Motivation Maschinelles Lernen in vielen Bereichen angewendet, z.b. Spracherkennung Bilderkennung Robotik Suchmaschinen Konsumenten Analyse Übersetzung Neuronale Netze aufgrund ihrer Flexibilität weit verbreitet, insbesondere zur Sprach-, Bild- und Mustererkennung 2 / 29
3 Motivation Umfrage: Welche ML Funktionalitäten werden genutzt Quelle: Machine Learning Umfrage, Crisp Research AG Kassel, [1] 3 / 29
4 Motivation Training und Anwendung sehr rechenintensiv aufgrund großer Datenmengen (Big Data) komplexer Netze (Deep Learning) Klassische Hardware (CPUs) nicht optimal für ML besser für sequentielle Probleme müssen breites Spektrum an Aufgaben bewältigen deutlich schlechtere Performance als spezialisierte Hardware High-End CPU bis 1 TFLOPS (Intel Core i9 XE, 18 Kerne) Spezielle Beschleuniger zur Verminderung der Rechenzeit 4 / 29
5 Agenda Motivation Definition Machine Learning Grundlagen Machine Learning Hardware Tensor Processing Unit Tensor Cores Nervana Neuromorphic Chip Loihi Zusammenfassung 5 / 29
6 Definition Machine Learning The field of machine learning is concerned with the question of how to construct computer programs that automatically improve with experience. [Machine Learning, Tom Mitchell, McGraw Hill, 1997] Unterkategorien Künstliche neuronale Netze Entscheidungsbäume Clustering Genetische Algorithmen Reinforcement Learning 6 / 29
7 Grundlagen Neuronales Netz: Training und Inferenz Quelle: Training and Inference of NNs, Nvidia Corporation, [2] 7 / 29
8 Grundlagen Input x, Output y, Gewicht w, Aktivierungsfunktion f Implementation als Matrixmultiplikation 8 / 29
9 Erinnerung: Matrix Multiplikation Skalarprodukte aus Zeilen und Spalten Einschränkungen: nur Multiplikation von m x n mit n x o Matrizen möglich nicht kommutativ 9 / 29
10 Grundlagen Anforderungen an die Hardware: Parallelität (Matrix Rechnungen inhärent parallel) Skalierbarkeit (viele Einheiten miteinander verbunden) hoher Durchsatz (Berechnungszeit möglichst gering) Effizienz (sehr viel Hardware zeitgleich im Betrieb) low-precision Arithmetik (ausreichend für NNs) teilweise niedrige Latenz (wenige ms) Viele CPU Features ungenutzt, Nutzung spez. Hardware GPGPU Beschleunigerkarten 10 / 29
11 TPUs: Tensor Processing Unit anwendungsspezifische Chips für ML von Google insbesondere zum Verarbeiten neuronaler Netze speziell für TensorFlow entworfen Spezifikationen (1. Generation): Accelerator connected via PCIe 3.0 Bus CISC Instruction Set 700 MHz Clock Rate bit Integer Multiply-and-Add Units 28 MB On-Chip Activation Memory 4MB On-Chip Accumulator Memory 8GB Off-Chip DRAM mit 34 GB/s 11 / 29
12 TPU: High Level Chip Architektur Quelle: TPU Block Diagram, Google, [3] 12 / 29
13 TPU: Instructions Read_Host_Memory Lese Daten/Input vom Host Speicher Read_Weights Lese Gewichte ein MatrixMultiply Führe Matrix Multiplikationen der Gewichte mit den Daten aus, akkumuliere die Ergebnisse Activate Berechne Aktivierungsfunktion Write_Host_Memory Schreibe das Ergebnis in den Host Speicher 13 / 29
14 TPU: Matrix Multiplier Unit Systolisches Array mit 256x256 ALUs Multiply-and-Adds in jedem Zyklus ,000,000 = Multiply-and-Add Ops/s bzw. 92 Teraops/s Mit MatrixMultiply bis zu Operationen in einem Zyklus ohne Speicher Zugriffe für Zwischenergebnisse => signifikante Verbesserung der Effizienz 14 / 29
15 TPU: Leistung pro Watt Quelle: Performance/watt, relative to contemporary CPUs and GPUs, Google, [3] 15 / 29
16 TPU: Durchsatz pro Sekunde Inferenz Durchsatz bei einem MLP mit 5 Layern und 20M Gewichten mit <= 7ms Latenz [4] Quelle: Throughput under 7 ms latency limit, Google, [3] 16 / 29
17 Tensor Cores Teil der GPU-Architektur Volta von Nvidia Bisher nur auf dem Tesla V100 Chip vorhanden Speziell auf Deep Learning ausgerichtet Konsumenten Chips voraussichtlich Anfang / 29
18 Tesla V100: Daten 21 Milliarden Transistoren auf 815mm² größter GPU-Chip der Welt 80 Streaming Multiprozessoren (SM) 64 FP32 Cores / SM, 5120 pro GPU 32 FP64 Cores / SM, 2560 pro GPU 8 Tensor Cores / SM, 640 pro GPU 1530 MHz Takrate 16GB HBM2 mit 900GB/s 18 / 29
19 Tesla V100: Leistung 7.5 TFLOPS Double Precision Performance 15 TFLOPS Single Precision Performance 120 TFLOPS Tensor Performance Stromverbrauch: 300 Watt 19 / 29
20 Volta vs. Pascal GPUs noch Standard im Machine Learning Bereich Leistungsfähigste Grafikkarten vor Volta basierten auf der Pascal Architektur von Nvidia GPUs aber nicht spezialisiert auf Machine Learning Volta erste Architektur mit Deep Learning Hardware Volta 9x schneller in Deep Learning Anwendungen 20 / 29
21 Volta vs. Pascal Quelle: Tesla V100 PB, Nvidia, [4] Quelle: Tesla P100 PB, Nvidia, [5] 21 / 29
22 Volta vs. Pascal Quelle: V100 vs. P100 Performance, Nvidia, [4] 22 / 29
23 Tensor Core Operation Ein 4x4x4 Matrix Processing Array pro Tensor Core Parallele Verarbeitung von 4x4 Matrix Multiplikation 64 Produkte pro Instruktion mit Akkumulation vgl. Pascal: 4 Produkte pro Instruktion mit Akkumulation Multiplikation mit 16FP Input, Addition mit 16FP oder 32FP 64 FMA Op. pro Takt pro Tensor Core 8 x 64 x 2 = 1024 Op. pro Takt pro SM 1024 x 80 = Op. pro Takt pro GPU 23 / 29
24 Komplettsysteme Nvidia DGX-1, 400 servers in a box 8x Tesla V Tensor TFLOPS 866 D x 444 W x 131 H (mm), 3200W Preis: $ Nvidia DGX Station 4x Tesla V Tensor TFLOPS 518 D x 256 W x 639 H (mm), 1500W Preis $ 24 / 29
25 Intel Nervana Neue Neural Network Prozessor Familie von Intel ehemals Lake Crest Deep Learning Architecture Nervana Systems 2016 von Intel gekauft auf künstliche Intelligenz spezialisierte Software Firma In Zusammenarbeit mit Facebook entstanden Erster Release für Ende 2017 angekündigt 25 / 29
26 Intel Nervana: Technische Details Eigens entwickelte Bi-Directional High Bandwidth Links 6 pro Prozessor ermöglichen nahezu linearen Speedup Keine Standard Cache Hierarchie vorhandener on-chip Memory per Software verwaltet 32GB HBM2 Neues numerisches Format: Flexpoint beschrieben als Mischung aus floating point und fixed point gleicher Exponent für einen Datenblock 26 / 29
27 Loihi Chip Self-Learning Neuromorphic Chip von Intel erste Ausgabe Anfang 2018 an ausgewählte Einrichtungen Imitiert Funktionsweise des Gehirns On-Chip Learning, Training und Inferenz Neuronen, Synapsen 1 Million mal schneller als typische NNs, gemessen an der Anzahl von Operationen bei MNIST Ziffer Erkennung 27 / 29
28 Zusammenfassung Machine Learning Branche stark am Wachsen enorm große Datenvolumen zu verarbeiten hohe Nachfrage nach Beschleunigern Tensor Leistung der Architekturen im Vergleich: TPU: 92 TOPS 75W TESLA V100: W TESLA P100: W ML Hardware noch sehr junges Forschungsgebiet aktuelle Lösungen noch nicht optimal 28 / 29
29 Quellen: [1] [2] [3] [4] [5] Volta-AI-Supercomputer-Datasheet.pdf / 29
Grundlagen der Rechnerarchitektur
Grundlagen der Rechnerarchitektur Einführung Unsere erste Amtshandlung: Wir schrauben einen Rechner auf Grundlagen der Rechnerarchitektur Einführung 2 Vorlesungsinhalte Binäre Arithmetik MIPS Assembler
Grafikkarten-Architektur
> Grafikkarten-Architektur Parallele Strukturen in der GPU Name: Sebastian Albers E-Mail: [email protected] 2 > Inhalt > CPU und GPU im Vergleich > Rendering-Pipeline > Shader > GPGPU > Nvidia Tesla-Architektur
HW/SW Codesign 5 - Performance
HW/SW Codesign 5 - Performance Martin Lechner e1026059 Computer Technology /29 Inhalt Was bedeutet Performance? Methoden zur Steigerung der Performance Einfluss der Kommunikation Hardware vs. Software
Inhalt. Prozessoren. Curriculum Manfred Wilfling. 28. November HTBLA Kaindorf. M. Wilfling (HTBLA Kaindorf) CPUs 28. November / 9
Inhalt Curriculum 1.4.2 Manfred Wilfling HTBLA Kaindorf 28. November 2011 M. Wilfling (HTBLA Kaindorf) CPUs 28. November 2011 1 / 9 Begriffe CPU Zentraleinheit (Central Processing Unit) bestehend aus Rechenwerk,
GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm. Einführung CUDA. Ralf Seidler. Friedrich-Alexander-Universität Erlangen-Nürnberg
Einführung CUDA Friedrich-Alexander-Universität Erlangen-Nürnberg PrakParRA, 18.11.2010 Outline 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell
Eine Einführung in die Architektur moderner Graphikprozessoren
Eine Einführung in die Architektur moderner Graphikprozessoren Seminarvortrag von Sven Schenk WS 2005/2006 Universität Mannheim, Lehrstuhl für Rechnerarchitektur Inhalt Historische Eckpunkte Einführung
Multicore-Architekturen
Universität Erlangen- Nürnberg Technische Universität München Universität Stuttgart Multicore-Architekturen Vortrag im Rahmen der Ferienakademie 2009 Kurs 1: Programmierkonzepte für Multi-Core Rechner
Untersuchung und Vorstellung moderner Grafikchiparchitekturen
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Untersuchung und Vorstellung moderner Grafikchiparchitekturen Hauptseminar Technische
Die Sandy-Bridge Architektur
Fakultät Informatik - Institut für Technische Informatik - Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Die Sandy-Bridge Architektur René Arnold Dresden, 12. Juli 2011 0. Gliederung 1.
OpenCL. OpenCL. Boris Totev, Cornelius Knap
OpenCL OpenCL 1 OpenCL Gliederung Entstehungsgeschichte von OpenCL Was, warum und überhaupt wieso OpenCL CUDA, OpenGL und OpenCL GPUs OpenCL Objekte Work-Units OpenCL Adressbereiche OpenCL API Codebeispiel
Convey, Hybrid-Core Computing
Convey, Hybrid-Core Computing Vortrag im Rahmen des Seminars Ausgewählte Themen in Hardwareentwurf und Optik HWS 09 Universität Mannheim Markus Müller 1 Inhalt Hybrid-Core Computing? Convey HC-1 Überblick
Praxiseinheit: Realisierung einer hardwarebeschleunigten Disparitätenberechnung zur automatischen Auswertung von Stereobildern
Praxiseinheit: Realisierung einer hardwarebeschleunigten Disparitätenberechnung zur automatischen Auswertung von Stereobildern Institut für Betriebssysteme und Rechnerverbund TU Braunschweig 25.10., 26.10.
MULTICORE- UND GPGPU- ARCHITEKTUREN
MULTICORE- UND GPGPU- ARCHITEKTUREN Korbinian Pauli - 17. November 2011 Seminar Multicore Programmierung, WS11, Universität Passau 2 Einleitung Klassisches Problem der Informatik: riesige Datenmenge! Volkszählung
Ein kleiner Einblick in die Welt der Supercomputer. Christian Krohn 07.12.2010 1
Ein kleiner Einblick in die Welt der Supercomputer Christian Krohn 07.12.2010 1 Vorschub: FLOPS Entwicklung der Supercomputer Funktionsweisen von Supercomputern Zukunftsvisionen 2 Ein Top10 Supercomputer
GPGPUs am Jülich Supercomputing Centre
GPGPUs am Jülich Supercomputing Centre 20. April 2012 Jochen Kreutz Jülich Supercomputing Centre (JSC) Teil des Forschungszentrums Jülich und des Institute for Advanced Simulation (IAS) betreibt Supercomputer
Die Mikroprogrammebene eines Rechners
Die Mikroprogrammebene eines Rechners Das Abarbeiten eines Arbeitszyklus eines einzelnen Befehls besteht selbst wieder aus verschiedenen Schritten, z.b. Befehl holen Befehl dekodieren Operanden holen etc.
Aufbau und Funktionsweise eines Computers
Aufbau und Funktionsweise eines Computers Thomas Röfer Hardware und Software von Neumann Architektur Schichtenmodell der Software Zahlsysteme Repräsentation von Daten im Computer Hardware Prozessor (CPU)
Intel 80x86 symmetrische Multiprozessorsysteme. Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte
Intel 80x86 symmetrische Multiprozessorsysteme Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte Gliederung I. Parallel Computing Einführung II.SMP Grundlagen III.Speicherzugriff
TECHNISCHE HOCHSCHULE NÜRNBERG GEORG SIMON OHM Die Mikroprogrammebene eines Rechners Das Abarbeiten eines Arbeitszyklus eines einzelnen Befehls besteht selbst wieder aus verschiedenen Schritten, z.b. Befehl
Die Vision Landschaft und was sie mit Moore s Gesetz zu tun hat
Die Vision Landschaft und was sie mit Moore s Gesetz zu tun hat Horst A. Mattfeldt Produkt Manager Matrix Vision GmbH V1.0 10/2010 MATRIX VISION GmbH 1 Inhalt/Content: Vom Vision Sensor über Atom Boxen
Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.
Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition
Manycores: Hardware und Low-Level Programmierung
Manycores: Hardware und Low-Level Programmierung Florian Sattler Universität Passau 18. Juni 2014 Übersicht Einführung Neue Architekturen Programmierung Supercomputing Fazit 2 / 29 Top 500 3 / 29 Motivation
Rechner Architektur. Martin Gülck
Rechner Architektur Martin Gülck Grundlage Jeder Rechner wird aus einzelnen Komponenten zusammengesetzt Sie werden auf dem Mainboard zusammengefügt (dt.: Hauptplatine) Mainboard wird auch als Motherboard
Orientierungsveranstaltungen 2009 Informatikstudien der Universität Wien
Orientierungsveranstaltungen 2009 Informatikstudien der Universität Wien Scientific Computing 07. Oktober 2009 Siegfried Benkner Wilfried Gansterer Fakultät für Informatik Universität Wien www.cs.univie.ac.at
Computer: PC. Informationstechnik für Luft-und Raumfahrt Aerospace Information Technology
Computer: PC Informationstechnik für Luft-und Raumfahrt Ab Morgen nur eingebete Systeme Aber es gibt auch PCs Na gut... dann Heute. dann haben wir es hinter uns Und nicht wenige! PCs in N Jahren Industrie
OpenCL. Seminar Programmiersprachen im Multicore-Zeitalter Universität Siegen Tim Wiersdörfer [email protected].
OpenCL Seminar Programmiersprachen im Multicore-Zeitalter Universität Siegen Tim Wiersdörfer [email protected] Abstract: In diesem Dokument wird ein grundlegender Einblick in das relativ
Vom Chip zum Gehirn Elektronische Systeme zur Informationsverarbeitung
Vom Chip zum Gehirn Elektronische Systeme zur Informationsverarbeitung Johannes Schemmel Forschungsgruppe Electronic Vision(s) Lehrstuhl Prof. K. Meier Ruprecht-Karls-Universität Heidelberg Mitarbeiter:
IT für Führungskräfte. Zentraleinheiten. 11.04.2002 Gruppe 2 - CPU 1
IT für Führungskräfte Zentraleinheiten 11.04.2002 Gruppe 2 - CPU 1 CPU DAS TEAM CPU heißt Central Processing Unit! Björn Heppner (Folien 1-4, 15-20, Rollenspielpräsentation 1-4) Harald Grabner (Folien
Performant Rendern mit Solidworks Visualize und PNY
Performant Rendern mit Solidworks Visualize und PNY Bechtle- Solidworks Experience Day Neckarsulm, 30.09.2016 Michael Rabinovici, Key Account Manager CE Warum PNY Agenda Grafikkarten und GPU Hardware Software
moderne Prozessoren Jan Krüger [email protected]
moderne Prozessoren Jan Krüger [email protected] Übersicht FachChinesisch SPARC - UltraSparc III/IV PowerPC - PowerPC 970(G5) X86 - Pentium4(Xeon), Itanium, (Pentium M) X86 - AthlonXP/MP,
Big-Data and Data-driven Business KMUs und Big Data Imagine bits of tomorrow 2015
Big-Data and Data-driven Business KMUs und Big Data Imagine bits of tomorrow 2015 b Wien 08. Juni 2015 Stefanie Lindstaedt, b Know-Center www.know-center.at Know-Center GmbH Know-Center Research Center
Übersicht. Vergleich der Spielekonsole mit dem PC. Historie der Spielekonsolen von 1976 bis 1999
Übersicht Vergleich der Spielekonsole mit dem PC Historie der Spielekonsolen von 1976 bis 1999 Heutige Generation der Konsolen Überblick Vergleich der PS2 mit der XBox Ausblick auf die kommende Konsolengeneration
Johann Wolfgang Goethe-Universität
Flynn sche Klassifikation SISD (single instruction, single data stream): IS IS CU PU DS MM Mono (Mikro-)prozessoren CU: Control Unit SM: Shared Memory PU: Processor Unit IS: Instruction Stream MM: Memory
Entwicklung eines Benchmarks für die Performance von In-Memory OLAP-Systemen. Abschlusspräsentation Master-Thesis
Entwicklung eines Benchmarks für die Performance von In-Memory OLAP-Systemen Abschlusspräsentation Master-Thesis Zu meiner Person Informatik- und Wirtschaftsinformatik-Studium an der HS Karlsruhe seit
Entwicklung von Partitionierungsstrategien im Entwurf dynamisch rekonfigurierbarer Systeme
Entwicklung von Partitionierungsstrategien im Entwurf dynamisch rekonfigurierbarer Systeme R. Merker, Technische Universität Dresden, Fakultät ET und IT J. Kelber, Fachhochschule Schmalkalden, ET Gliederung
Angewandte Informatik
Angewandte Informatik Teil 2.1 Was ist Hardware? Die Zentraleinheit! 1 von 24 Inhaltsverzeichnis 3... Was ist Hardware? 4... Teile des Computers 5... Zentraleinheit 6... Die Zentraleinheit 7... Netzteil
EyeCheck Smart Cameras
EyeCheck Smart Cameras 2 3 EyeCheck 9xx & 1xxx Serie Technische Daten Speicher: DDR RAM 128 MB FLASH 128 MB Schnittstellen: Ethernet (LAN) RS422, RS232 (nicht EC900, EC910, EC1000, EC1010) EtherNet / IP
WIE ERHÖHT MAN DIE EFFIZIENZ DES BESTEHENDEN RECHENZENTRUMS UM 75% AK Data Center - eco e.v. 1. Dezember 2009
WIE ERHÖHT MAN DIE EFFIZIENZ DES BESTEHENDEN RECHENZENTRUMS UM 75% AK Data Center - eco e.v. 1. Dezember 2009 HOST EUROPE GROUP Größter Anbieter von standardisierten Managed Hosting Lösungen in Deutschland
Wie groß ist die Page Table?
Wie groß ist die Page Table? Im vorigen (typischen) Beispiel verwenden wir 20 Bits zum indizieren der Page Table. Typischerweise spendiert man 32 Bits pro Tabellen Zeile (im Vorigen Beispiel brauchten
Die Linux Kernel Virtual Machine - Wo steht der Linux Hypervisor? 2. März 2008
Die Linux Kernel Virtual Machine - Wo steht der Linux Hypervisor? 2. März 2008 Jörg Rödel Virtualization - Whats out there? Virtualisierung hat bereits längere Geschichte auf x86 Startete mit VMware Setzte
Parallelrechner (1) Anwendungen: Simulation von komplexen physikalischen oder biochemischen Vorgängen Entwurfsunterstützung virtuelle Realität
Parallelrechner (1) Motivation: Bedarf für immer leistungsfähigere Rechner Leistungssteigerung eines einzelnen Rechners hat physikalische Grenzen: Geschwindigkeit von Materie Wärmeableitung Transistorgröße
Proseminar - Data Mining
Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,
Eine kurze Geschichte der Grafikkarten
3.1 Einführung Eine kurze Geschichte der Grafikkarten ursprünglich: Graphics Card steuert Monitor an Mitte 80er: Grafikkarten mit 2D-Beschleunigung angelehnt an Arcade- und Home-Computer frühe 90er: erste
Introduction Workshop 11th 12th November 2013
Introduction Workshop 11th 12th November 2013 Lecture I: Hardware and Applications Dr. Andreas Wolf Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum Overview Current and next System Hardware Sections
Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion
Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der
Grundlagen der Rechnerarchitektur. Einführung
Grundlagen der Rechnerarchitektur Einführung Unsere erste Amtshandlung: Wir schrauben einen Rechner auf Grundlagen der Rechnerarchitektur Einführung 2 Vorlesungsinhalte Binäre Arithmetik MIPS Assembler
Multicore Herausforderungen an das Software-Engineering. Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück 15.09.2010
Multicore Herausforderungen an das Software-Engineering Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück 15.09.2010 Inhalt _ Motivation _ Herausforderung 1: Hardware _ Herausforderung 2: Software-Partitionierung
Instruktionssatz-Architektur
Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2005/2006 Übersicht 1 Einleitung 2 Bestandteile der ISA 3 CISC / RISC Übersicht 1 Einleitung 2 Bestandteile
Simplivity Rechenzentrum in a Box
09-10.09 2 Tag Simplivity Rechenzentrum in a Box Markus Schmidt Consultant [email protected] Agenda 1.Motivation Warum ein neuer Ansatz 2.Technischer Überblick 3.Anwendungsszenarien 4.Performancebetrachtung
Die nächste Storage Generation Vorteile und Änderungen mit 12Gb/s SAS von Avago Storage Dominik Mutterer, Field Application Engineer
Die nächste Storage Generation Vorteile und Änderungen mit 12Gb/s SAS von Avago Storage Dominik Mutterer, Field Application Engineer Agenda Avago Who? 12Gb/s SAS Produktüberblick Vorteile durch 12Gb/s
MATCHING VON PRODUKTDATEN IN DER CLOUD
MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's
Programmierbeispiele und Implementierung. Name: Michel Steuwer E-Mail: [email protected]
> Programmierbeispiele und Implementierung Name: Michel Steuwer E-Mail: [email protected] 2 > Übersicht > Matrix Vektor Multiplikation > Mandelbrotmenge / Apfelmännchen berechnen > Kantendetektion
GPGPU-Architekturen CUDA Programmiermodell Beispielprogramm Organiosatorisches. Tutorial CUDA. Ralf Seidler
Friedrich-Alexander-Universität Erlangen-Nürnberg 05.10.2010 Outline 1 GPGPU-Architekturen 2 CUDA Programmiermodell 3 Beispielprogramm 4 Organiosatorisches Outlook 1 GPGPU-Architekturen 2 CUDA Programmiermodell
Die IBM Netezza Architektur für fortgeschrittene Analysen
Michael Sebald IT Architect Netezza Die IBM Netezza Architektur für fortgeschrittene Analysen 2011 IBM Corporation Was ist das Problem aller Data Warehouse Lösungen? I / O Transaktionaler und analytischer
Samsungs Exynos 5 Dual
Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Samsungs Exynos 5 Dual Candy Lohse Dresden, 12.12.12 Gliederung 1. Motivation und
Wissenschaftliches Rechnen in der Praxis: Hardware und Hardware-orientierte Programmierung
Wissenschaftliches Rechnen in der Praxis: Hardware und Hardware-orientierte Programmierung Dominik Göddeke [email protected] Vorlesung Wissenschaftliches Rechnen Fakultät für Mathematik
TecNews: Sandy Bridge
TecNews: Sandy Bridge Werner Fischer, Technology Specialist Thomas-Krenn.AG Thomas Krenn Herbstworkshop & Roadshow 2011 23.09. in Freyung 06.10. in Wien (A) 10.10. in Frankfurt 11.10. in Düsseldorf 12.10.
Technische Informatik 1
Technische Informatik 1 1 Einleitung Lothar Thiele Computer Engineering and Networks Laboratory Technische Informatik 1 2 Was ist Technische Informatik? A. Ralston, E.D. Reilly: Encyclopedia of Computer
Proseminar - Data Mining
Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen
Proseminar Rechnerarchitekturen. Parallelcomputer: Multiprozessorsysteme
wwwnet-texde Proseminar Rechnerarchitekturen Parallelcomputer: Multiprozessorsysteme Stefan Schumacher, , PGP Key http://wwwnet-texde/uni Id: mps-folientex,v
Kap 4. 4 Die Mikroprogrammebene eines Rechners
4 Die Mikroprogrammebene eines Rechners Das Abarbeiten eines Arbeitszyklus eines einzelnen Befehls besteht selbst wieder aus verschiedenen Schritten (Befehl holen, Befehl dekodieren, Operanden holen etc.).
Spielst du noch oder rechnest du schon?
Spielst du noch oder rechnest du schon? Mit Spielkonsole und Co. zum Supercomputer der Zukunft Fachbereich Elektrotechnik und Informationstechnik Fachhochschule Bielefeld University of Applied Sciences
Datenpfad einer einfachen MIPS CPU
Datenpfad einer einfachen MIPS CPU Zugriff auf den Datenspeicher Grundlagen der Rechnerarchitektur Prozessor 19 Betrachten nun Load und Store Word Erinnerung, Instruktionen lw und sw sind vom I Typ Format:
Grundlagen der Rechnerarchitektur
Grundlagen der Rechnerarchitektur ARM, x86 und ISA Prinzipien Übersicht Rudimente des ARM Assemblers Rudimente des Intel Assemblers ISA Prinzipien Grundlagen der Rechnerarchitektur Assembler 2 Rudimente
Tag der Umweltmeteorologie 12.05.2015. Michael Kunz
Tag der Umweltmeteorologie 12.05.2015 Michael Kunz Beschleunigung von Ausbreitungsmodellen durch Portierung auf Grafikkarten Einleitung Das GRAL/GRAMM-System Cuda-GRAL Ergebnisse Vergleich der Modellergebnisse
technische universität dortmund Lehrstuhl für Hochfrequenztechnik Übertragungssysteme
Lehrstuhl für Hochfrequenztechnik GPU-beschleunigte numerische Simulation faseroptischer Übertragungssysteme, Marius Helf, Peter Krummrich Übersicht Motivation Split-Step p Fourier Methode Ansätze für
Architektur paralleler Plattformen
Architektur paralleler Plattformen Freie Universität Berlin Fachbereich Informatik Wintersemester 2012/2013 Proseminar Parallele Programmierung Mirco Semper, Marco Gester Datum: 31.10.12 Inhalt I. Überblick
Next generation of Power
Next generation of Power 29. April Executive Briefing Center Böblingen Volker Haug Power Systems Architekt Mitglied des IBM Technical Expert Council (TEC) IBM Deutschland GmbH Systems & Technology Group
Multicore Architektur vs. Amdahl`s Gesetz
Fakultätsname Informatik, Professur Technische Informatik Multicore Architektur vs. Amdahl`s Gesetz Dresden, 21.Juli.2010 Motivation Veröffentlichung von IEEE Computer 2008 von Mark D. Hill (University
Raytracing auf Desktop PCs Optimizing Cache Usage (Intel Corp.)
Raytracing auf Desktop PCs Optimizing Cache Usage (Intel Corp.) von Martin Stöcker Motivation Geschwindigkeit der Prozessoren verdoppelt sich alle 18 Monate (Moore s Law) Geschwindigkeit des Speichers
Masterpraktikum Scientific Computing
Masterpraktikum Scientific Computing High-Performance Computing Thomas Auckenthaler Wolfgang Eckhardt Prof. Dr. Michael Bader Technische Universität München, Germany Outline Organisatorisches Entwicklung
Erfolg mit Embedded Vision Systemen. Dipl.-Ing. Carsten Strampe Embedded Vision Systeme 1
Erfolg mit Embedded Vision Systemen Dipl.-Ing. Carsten Strampe Embedded Vision Systeme 1 Erfolg mit Embedded Vision Systemen Embedded Prozessoren vs. X86er Derivate DSP vs. FPGA vs. GPP wer ist geeigneter
GPGPU mit NVIDIA CUDA
01.07.12 GPGPU mit NVIDIA CUDA General-Purpose on Formatvorlagecomputing des Graphics Processing durch Units Untertitelmasters mit KlickenCompute bearbeiten NVIDIA Unified Device Architecture Gliederung
CUDA. Jürgen Pröll. Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg Jürgen Pröll 1
CUDA Jürgen Pröll Multi-Core Architectures and Programming Jürgen Pröll 1 Image-Resize: sequentiell resize() mit bilinearer Interpolation leicht zu parallelisieren, da einzelne Punkte voneinander unabhängig
Software Engineering für moderne, parallele Plattformen
Software Engineering für moderne, parallele Plattformen b. Ergänzungen zur Performanz Dr. Victor Pankratius Dr. Victor Pankratius IPD Lehrstuhl für Programmiersysteme-Tichy KIT die Kooperation von Forschungszentrum
Aufbau eines VR-Systems zur multimodalen Interaktion mit komplexen physikalischen Modellen
Fazit Aufbau eines s zur multimodalen Interaktion mit komplexen physikalischen Modellen Guido Rasmus Maximilian Klein, Franz-Erich Wolter Leibniz Universität Hannover Institut für Mensch-Maschine-Kommunikation
Ausarbeitung Seminarvortrag High-Performance-Computing WS 2011/2012
Ausarbeitung Seminarvortrag High-Performance-Computing WS 2011/2012 Matthias Bott 9. Januar 2012 2 VOM PC ZUM HPC 2 1 Movtivation Auf die Frage, wofür Computer in der Kernphysik benötigt werden, gibt es
Neue Prozessor-Architekturen für Desktop-PC
Neue Prozessor-Architekturen für Desktop-PC Bernd Däne Technische Universität Ilmenau Fakultät I/A - Institut TTI Postfach 100565, D-98684 Ilmenau Tel. 0-3677-69-1433 [email protected] http://www.theoinf.tu-ilmenau.de/ra1/
Datenblatt: TERRA PC-BUSINESS 5000 GREENLINE 539,00. Bestseller Core i5 PC. Zusätzliche Artikelbilder IT. MADE IN GERMANY. 02.10.
Datenblatt: TERRA PC-BUSINESS 5000 GREENLINE Bestseller Core i5 PC Ermöglichen Sie Ihren Mitarbeiteren ein effektives und schnelles Arbeiten mit Ihren Unternehmensanwendungen. Profitieren Sie von robusten
CUDA 3230 GPU-COMPUTE NODE, KEPLER READY
CUDA 3230 GPU-COMPUTE NODE, KEPLER READY II 1HE Rackmount II Dual Intel Xeon Processor E5-2600 v3 Serie (Haswell EP) II max. 1 TB Hauptspeicher (LRDIMM) II max. 8 TB Speicher II 3 NVIDIA Tesla GPUs der
Grundlagen der Rechnerarchitektur
Grundlagen der Rechnerarchitektur Ein und Ausgabe Übersicht Grundbegriffe Hard Disks und Flash RAM Zugriff auf IO Geräte RAID Systeme SS 2012 Grundlagen der Rechnerarchitektur Ein und Ausgabe 2 Grundbegriffe
Big Data in der Forschung
Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die
L3. Datenmanipulation
L Datenmanipulation Aufbau eines Computers Prozessor, Arbeitsspeicher und system Maschinensprachen und Maschinenbefehle Beispiel einer vereinfachten Maschinensprache Ausführung des Programms und Befehlszyklus
UltraSPARC T2 Processor
UltraSPARC T2 Processor Vortrag im Rahmen des Seminars Ausgewählte Themen in Hardwareentwurf und Optik HWS07 Universität Mannheim Janusz Schinke Inhalt Überblick Core Crossbar L2 Cache Internes Netzwerk
Aquado 1599,00 ANGEBOT / DATENBLATT. Notebook. Travel & work economy! Aquado Notebooks arbeiten zuverlässig und stromsparend in jeder Situation.
Travel & work economy! Aquado s arbeiten zuverlässig und stromsparend in jeder Situation. Optionaler Vor-Ort-Service! Sie arbeiten wieder, wenn sich andere Systeme noch in der Reparaturphase befinden.
Was ist die Performance Ratio?
Was ist die Performance Ratio? Wie eben gezeigt wäre für k Pipeline Stufen und eine große Zahl an ausgeführten Instruktionen die Performance Ratio gleich k, wenn jede Pipeline Stufe dieselbe Zeit beanspruchen
Programmierung von Multicore-Rechnern
Programmierung von Multicore-Rechnern Prof. Dr.-Ing. habil. Peter Sobe HTW Dresden, Fakultät Informatik/Mathematik www.informatik.htw-dresden.de Gliederung: Ein Blick auf Multicore-Prozessoren/ und -Rechner
Aktuelle Trends und Herausforderungen in der Finite-Elemente-Simulation
Aktuelle Trends und Herausforderungen in der Finite-Elemente-Simulation Kai Diethelm GNS Gesellschaft für numerische Simulation mbh Braunschweig engineering software development Folie 1 Überblick Vorstellung
