2 Homogene und Heterogene Multi-/Vielkernprozessoren

Größe: px
Ab Seite anzeigen:

Download "2 Homogene und Heterogene Multi-/Vielkernprozessoren"

Transkript

1 2.1 Motivation Multikern-Architekturen 2.2 Analyse von Multikern-Prozessoren Energieaspekte Bandbreitenmessung Roofline-Modell 2.3 Beispiele Multi-Core-Architekturen Intel Nehalem bis Intel Haswell AMD Bulldozer 2.4 Heterogene Multi-Core-Architekturen GPGPUs Ausblick: Vielkern-Architekturen Adapteva Parallela WS 2013/ Folie 1

2 2.1 Motivation Multikern-Architekturen Kein Vortrag in der Technischen Informatik ohne Moore s Law Mooresche Gesetz gilt nach wie vor Zwar Verlangsamung, aber es gilt In der Vergangenheit Höhere Transistorleistung höhere Frequenz Höhere Transistordichte komplexere Architekturen Geringerer Energieverbrauch pro Logikoperation gesamte Leistungsdissipation kann unterhalb bestimmter Grenze bleiben Technologie wird weiter voranschreiten Milliarden von Transistoren Jedoch damit verbunden grundlegende Barrieren Z.B. Energieverbrauch WS 2013/ Folie 2

3 2.1.1 Motivation Multikern-Architekturen Problem Energie Leistungssteigerung bis ca Primär durch Drehen an der Taktschraube Sekundär durch intelligentere Architektur Seit 2003/04 Verlagerung hin zur Architektur WS 2013/ Folie 3

4 2.1.1 Motivation Multikern-Architekturen Problem Energie Erhöhung des Taktes stößt an Grenzen WS 2013/ Folie 4

5 2.1.1 Motivation Multikern-Architekturen Problem Energie Antwort: Multicore-Architekturen Mehrere Prozessorkerne auf einem Chip Grund: Technologie: Drehen Taktschraube kostet zu viel Energie P diss V dd Architektur: superskalares Prinzip ausgereizt: z.b. dynamische Sprungvorhersage bei mehr als 95% Trefferquote Wayt Gibbs, Spektrum d. Wissenschaft, 03/2005 Es war nie die Frage ob, sondern wann und warum: Wann würden die Hersteller von Mikroprozessoren gezwungen sein, einen kleineren Gang einzulegen, warum würde die scheinbar so eiserne Regel alle zwei Jahre ein schnellerer Chip nicht mehr durchzuhalten sein? Mehr Leistung erzielbar nur noch durch echte Parallelität f WS 2013/ Folie 5 f (Frequenz) und V dd (Versorgungsspannung) miteinander korreliert

6 2.1.1 Motivation Multikern-Architekturen Problem Energie mehr Kerne geringere Frequenz einzelner Kerne gleichmäßigere Verteilung der Wärme einzelne Kerne bei (Nicht-)Bedarf abschaltbar Wirtschaftliche Gründe mehr als ein Kern auf einem DIE spart Produktionskosten zusätzlicher Prozessorkern lässt den Aufwand für die Kühlung nur linear steigen zusätzlich: bisherige Architekturmaßnahmen nahezu ausgereizt Justin R. Rattner, Leiter der Entwicklungsabteilung Systemtechnologie bei Intel»Wir haben das Gesetz des Quadrats gegen uns. Man benötigt exponentiellen Zuwachs der Transistorenzahl, damit steigt aber Chipfläche und Stromverbrauch, um auch nur geringe weitere Verbesserungen bei der parallelen Befehlsverarbeitung zu erreichen «WS 2013/ Folie 6

7 2.1.1 Motivation Multikern-Architekturen Problem Energie Somit: die Multikern-Revolution ist da Paralleles Rechnen: keine akademische Nische mehr Homogene und heterogene Multikern-Prozessoren Homogen: Intel, AMD, SUN Heterogen: Cell Am Horizont: Vielkern-Prozessoren 100 und mehr Kerne (wirklich nötig?) Intel Polaris Intel SCC (Single Cloud Computer) WS 2013/ Folie 7

8 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Trend der letzten Jahre 2001: 130 nm Technologie Heute: 32 nm Strukturbreite Prognose im Jahr 2007 für Milliarden Transistoren auf 300 mm² Chip-die Ca. 1.5 Milliarden für Logik, der Rest für Cache WS 2013/ Folie 8

9 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Was tun mit vielen Transistoren Trend: bis vor kurzem Wenige große Prozessorkerne 20 bis 100 Millionen Logiktransistoren und großer gemeinsamer Cache Vernünftige Strategie immer größere Kerne zu nutzen? Pollacks Regel Rechenleistungszuwachs ~ Anstieg Komplexität Verdopplung der Logik in Prozessor 40% mehr Leistung WS 2013/ Folie 9

10 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Pollacks Regel veranschaulicht Ganzzahl-Rechenleistung vs. Fläche für neue Mikroarchitekturen Neue Generation Mikroarchitektur für gleiche Prozesstechnologie Quelle: S. Borkar, Intel, Thousand Core Chips A Technology Perspective WS 2013/ Folie 10

11 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Multikern-Architektur Verdopplung von Einzelkern zu doppelt so großen monolithischen Einzelkern-Prozessor 40% Leistungszuwachs Von Einzelkern zu Doppelkern-Prozessor im Idealfall 100% Leistungszuwachs? (Abschätzung s. später inverse Pollack-Regel) Weitere Vorteile (bzgl. Energie) Einzelnen Kern ab-/anschalten Einzelnen Kern mit optimaler Versorgungsspannung und Frequenz betreiben Rechenlast gleichmäßiger verteilen -> keine Hotspots über Die Zuverlässigkeit und Leckströme geringer bei niedrigerer Temperatur WS 2013/ Folie 11

12 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Multikern-Architektur Frequenz und Leistungsverbrauch Transistor-Leistung wird nicht weiter steigen wie bisher Zu große Subschwellwert-Leckströme Versorgungsspannung muss weiter runter gehen Frequenz kann nur moderat ansteigen Schätzung Entwicklung eines 300 mm² Die WS 2013/ Folie 12

13 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? 1000 Watt an benötigter elektrischer Leistung nicht machbar Umgekehrte Anwendung von Pollacks Regel Im oberen beherrschbaren Energieverbrauchs-Spektrum bleiben und Anzahl Kerne erhöhen Beispiel: Geg.: 1 Milliarde Transistoren Statt 10 Kerne á 100 Millionen Transistoren Lieber 100 Kerne á 10 Millionen Transistoren Oder 1000 Kerne á 1 Million Transistoren WS 2013/ Folie 13

14 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Pollacks Regel rückwärts Leistung nimmt invers quadratisch ab, auf halber Fläche 70% der Leistung des größeren Systems Leistungsverbrauch pro Kern hingegen nimmt linear ab Durchsatz steigt (annähernd) linear mit größerer Anzahl Kerne Flexibilität steigt Kerne nicht notwendig homogen, sondern heterogen Grafikkerne kombiniert mit Einzelkerne (manche Intel COREi3) General-Purpose mit Special-Purpose (SP) Mit lokalem Cache Verbunden mit on-die Verbindungsnetzwerk WS 2013/ Folie 14

15 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Amdahlsche Gesetz Speed-up, d.h. der Geschwindigkeitszuwachs ist nach oben limitiert Für N Kerne gilt: WS 2013/ Folie 15

16 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Eben gezeigt: Grenze gilt für eine auf allen Kernen laufende Applikation Häufig jedoch: viele Applikationen Total Throughput (TPT) (peinlich parallel) vs. echt -parallel WS 2013/ Folie 16

17 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Leistung und Energie Vielkern-System in vorgegebenes Power-Budget integrieren Spannungsreduzierung beste Maßnahme Leistungsbudget zu reduzieren Beliebig technisch schwer realisierbar Autor schlägt diskrete Stufenvorgehensweise vor WS 2013/ Folie 17

18 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? On-die Netzwerk zur Verbindung der Knoten notwendig Leistungsverbrauch steigt mit Anzahl Kerne Anforderungen sorgfältig abwägen WS 2013/ Folie 18

19 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Speicherbandbreite Viele Kerne sind auch speicherhungrig Mögliche Lösung? 3D-Stapeltechnik WS 2013/ Folie 19

20 2.1.2 Motivation Multikern-Architekturen Reicht Multikern? Resiliency Elastizität Redundanz zur Tolerierung von Fehlern Ersatzkerne Wenn Schaltkreis (z.b. Kern) altert dann bisher ungenutzten Kern zuschalten Kein TMR (Triple Modular Redundancy) Verdreifachung eines Schaltkreises und Mehrheitsentscheidung über Voter (2 aus 3) Bei Nanoelektronik TMR evtl. nicht mehr tragfähig, da aufgrund höherer Fehlerwahrscheinlichkeit Voter ebenfalls fehleranfällig WS 2013/ Folie 20

21 2.2 Analyse von Multikern-Architekturen Roofline: ein einfaches Leistungsmodell Jeder Desktop- oder Server-Rechner hat heute Caches Pipelining superskalare Befehlsverarbeitung Sprungvorhersage Befehlsausführung außer der Reihe Übergang von Einzelkern- zu Mehrkern-Prozessoren Prozessor(kerne) werden eher unterschiedlicher Homogene vs. Heterogene Prozessoren Verschiedene Funktionalitäten Verschiedene Frequenzen» Siehe Cell, GPGPUs, Intel SCC WS 2013/ Folie 21

22 2.2 Analyse von Multikern-Architekturen Gerade Vielfalt macht einfaches Leistungsmodell wünschenswert Es muss nicht perfekt sein Aber einsichtig Analogie zu den 3Cs bei Cache-Architekturen Compulsory, Conflict, Capacity Seit 20 Jahren einfaches, anerkanntes Modell Hat Schwächen, dennoch nützlich für Rechnerarchitekten und Programmierer Modellgröße anhand der die Leistung gemessen wird Fließkomma-Rechenleistung WS 2013/ Folie 22

23 2.2 Analyse von Multikern-Architekturen Andere Modelle Stochastische, analytische und statistische Leistungsmodelle Sind sehr genau Jedoch häufig schwierig zu behandeln Für nicht-experten nicht unbedingt geeignet Liefern jedoch kaum Einsichten wie Leistung eines Rechners, Compilers oder Programms zu verbessern ist Einfachere alternative Modelle Bound and Bottleneck -Modelle (Schranken und Flaschenhals) Quantifiziert die Systemflaschenhälse Bestes Beispiel: Amdahlsche Gesetz Roofline-Modell gehört ebenfalls zu dieser Klasse WS 2013/ Folie 23

24 2.2 Analyse von Multikern-Architekturen Einfaches zweidimensionales Modell vorteilhaft Hauptursache für Flaschenhals: die off-chip Speicherbandbreite Wunsch: Modell Das Beziehung zwischen Prozessorleistung und off-chip Speicherverkehr ausdrückt Wichtige Größe: Operationelle Intensität Anzahl der Operationen pro geholtem Byte [Flops / Byte] Messgröße für Verkehr zwischen DRAM-Speicher und Caches Nicht zwischen Caches und Prozessor Arithmetische Intensität Pro Takt ein Zugriff auf Operanden des Kernels Quasi: Kosten-freier Zugriff auf Operanden Roofline-Modell 2D-Modell, das operationelle Intensität, Speicherbandbreite und maximal erzielbare Rechenleistung vereint WS 2013/ Folie 24

25 2.2 Analyse von Multikern-Architekturen Operationelle Intensität Arithmetische / Operationelle Intensität für bestimme so genannte Kerneloperationen Kernel: SparseMatrix, Structured Grids (Stencils), Structured Grids (Lattice Methoden), Spektrale Methoden (Fast Fourier Transformationen FFT), Dichte Matrizen, N-Körper-Probleme Skalierung abhängig O(N), O(log(N)), bzw. unabhängig von Problemgröße O(1) WS 2013/ Folie 25

26 2.2 Analyse von Multikern-Architekturen Roofline-Modell Arithmetische bzw. Operationelle Intensität Gemessen in [Flops / Byte] Daraus ableitbar die notwendige Bandbreite fürs Speichersystem Quotient aus erreichbarer Spitzen-Fließkommaleistung / Operationelle bzw. Arithmetische Intensität Floating PointOperations/Sec Floating PointOperations/Byte Bytes Sec Erreichbare Rechenleistung Attainable FLOP/sec Min(Peak Floating Point Performance, Peak Memory Bandwidth Operational Intensity) WS 2013/ Folie 26

27 2.2 Analyse von Multikern-Architekturen Roofline-Modell Graphische Darstellung des Roofline-Modells Opteron X2, Dual 2 GHz Kernel 1: Speicherbandbreiten-begrenzt 0.5 FLOPSs / Byte; Speicherbandbreite begrenzt Leistung auf 8 GFLOPs / sec Kernel 2: Rechenkapazitäts-begrenzt 4 FLOPs / Byte; Speicherbandbreite (max. 16 GB/s) nicht das Problem WS 2013/ Folie 27

28 2.2 Analyse von Multikern-Architekturen Roofline-Modell Graphische Darstellung des Roofline-Modells Peak-Memory-Performance durch Benchmark ermitteln STREAM bekannter Benchmark Autoren schrieben eigenen optimierten Benchmark Beinhaltet spezielle Techniken um optimale Performanz zu erzielen Berücksichtigt Dinge wie vorausschauendes Laden (Prefetching), korrekte Datenanordnung im Speicher auf Adressgrenzen (Data Alignment) Spitzen-Rechenleistung bestimmt durch Abschätzung Maximale Rechenleistung pro Kern Anzahl Kerne WS 2013/ Folie 28

29 2.2 Analyse von Multikern-Architekturen Roofline-Modell Roofline-Modell für zwei Generationen von AMD Opterons (X2 und X4) Gleicher Prozessorsockel, gleiche Anzahl DRAM-Kanäle gleiche Speicherbandbreite X4 doppelt so viele Kerne, doppelte SSE2-Spitzen-Performanz (2 SSE2-Instruktionen / Takt), 2.3 GHz vs. 2.2 GHz (Taktrate X2) etwas mehr als 4-fache Leistung WS 2013/ Folie 29

30 2.2 Analyse von Multikern-Architekturen Roofline-Modell Optimierungsmaßnahmen, um sich möglichst nahe an die Decke der Roofline heranzuschieben ( Adding ceilings to the roofline ) ILP (Instruction Level Parallelism) und SIMD (Single Instruction Multiple Data) anwenden Schleifen aufrollen um Instruktionslatenz zu vermindern Vektorinstruktionen Gute Balance bei Fließkomma-Operationen Gleiche Anzahl an FPADD- und FPMUL-Operationen Schleifen umstrukturieren für Speicherzugriffe pro Schritt Daten in gegebenen Einheitsgrößen ansprechen (unit-stride memory accesses) Speicher-Affinität (in Multiprozessor-Multicores) Multicore-/Speicherchip-Paar Alle Zugriffe auf DRAM innerhalb eines Paars Software-Prefetching Daten durch entsprechende Befehle lange vor eigentlichem Gebrauch ansprechen und dadurch in Cache laden WS 2013/ Folie 30

31 2.2 Analyse von Multikern-Architekturen Roofline-Modell Dach verschieben für die maximal erzielbare Rechenleistung (Computational Ceiling) WS 2013/ Folie 31

32 2.2 Analyse von Multikern-Architekturen Roofline-Modell Anstiegsgerade nach links verschieben für die maximal erzielbare Speicherbandbreite (Bandwidth Ceiling) WS 2013/ Folie 32

33 2.2 Analyse von Multikern-Architekturen Roofline-Modell Kombination aus beiden Maßnahmen Für welchen Kernel hilft welche Maßnahmenkombination WS 2013/ Folie 33

34 2.2 Analyse von Multikern-Architekturen Roofline-Modell Demonstration und Anwendbarkeit: Angewandt für vier verschiedene Multicore-Architekturen für vier verschiedene Fließkomma-Kernels Xeon e3545 (Clovertown) - SUN UltraSPARC T (Niagara) AMD Opteron 2346 (Barcelona) Cell BE QS20 WS 2013/ Folie 34

35 2.2 Analyse von Multikern-Architekturen Roofline-Modell Eigenschaften der verschiedenen Multikern-Prozessoren FIGURE 7.18 Characteristics of the four recent multicores. Although the Xeon e5345 and Opteron X4 have the same speed DRAMs, the Stream benchmark shows a higher practical memory bandwidth due to the inefficiencies of the front side bus on the Xeon e5345. Copyright 2009 Elsevier, Inc. All rights reserved. WS 2013/ Folie 35

36 2.2 Analyse von Multikern-Architekturen Roofline-Modell Vier Kernels WS 2013/ Folie 36

37 2.2 Analyse von Multikern-Architekturen Roofline-Modell Ergebnisse AMD Barcelona Für Stencil, LBMHD, FFT WS 2013/ Folie 37

38 2.2 Analyse von Multikern-Architekturen Roofline-Modell Leistungsanalyse Lattice-Boltzmann (LBHMD) WS 2013/ Folie 38

39 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Intels Tick-Tock-Prinzip Gleiche Mikroarchitektur Prozess-Technologiesprung Neue Mikroarchitektur mit gleicher Prozess-Technologie WS 2013/ Folie 39

40 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Modularer Aufbau: Architektur besteht aus wenigen Grundbausteinen Mikroprozessor Kern mit eigenem L1 und L2 Cache gemeinsamer L3-Cache Integrated Memory Controller (IMC) Quick Path Interconnect (QPI) Bus controller GPU Kern Dadurch hohe Flexibilität bei der Gestaltung von CPU- Modellen für verschiedene Anwendungsbereiche. WS 2013/ Folie 40

41 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Beispiel: Nehalem Quad-Core Prozessor WS 2013/ Folie 41

42 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Veränderungen beim Loop Buffer (s. Kap , Folie 39) (Makro-)Instruktionen müssen nicht mehr dekodiert werden Mikrooperationen im Puffer ablegen WS 2013/ Folie 42

43 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Energiemanagement Überwachung von Temperatur, Spannung und Stromstärke der einzelnen Cores vorher nur Spannung und Frequenz für alle Kerne global regelbar nun individuelle Anpassung von Taktrate und Spannung nach Bedarf einzelne Cores können in Energiesparmodus versetzt werden ziemlich komplex: ca. 1 Million Transistoren WS 2013/ Folie 43

44 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Turbo Boost Technologie kurzzeitige Übertaktung einzelner Cores möglich automatische Steuerung und Kontrolle durch PCU (Power Control Unit) Thermal Design Power (TDP) muss eingehalten werden Anhebung des Takts in 133 MHz Schritte (ab SandyBridge 100 MHz) Beispielszenario: Die Arbeitslast ist ungleich verteilt, so dass nur 2 Cores arbeiten Die beiden anderen Cores sind untätig und gehen in den Energiesparmodus Die PCU erhöht den Takt der aktiven Cores um 2x 133 MHz WS 2013/ Folie 44

45 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Hyperthreading Intels Bezeichnung für Simultaneous Multithreading logische Prozessoren mit eigenem Registersatz, Befehlszähler, logische Prozessoren teilen sich Ressourcen wie Rechenwerke Quasi-parallele Bearbeitung von mehreren Threads möglich Verschiedene Threads weisen meistens keine Datenabhängigkeit auf bessere Auslastung Rechenwerke und damit höherer Gesamtdurchsatz zielt auf RAW-Hazard-Vermeidung WS 2013/ Folie 45

46 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Hyperthreading Veranschaulichung Die blauen Felder symbolisieren Instruktionen aus Thread 1 Die orangenen Instruktionen aus Thread 2 Die gelben Felder stehen für den Leerlauf der Ressourcen WS 2013/ Folie 46

47 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Leistungsvergleich mit aktiviertem und deaktiviertem Hyperthreading WS 2013/ Folie 47

48 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Speicher-Controller Bisher: Speicher-Controller in der Northbridge Nun: Integrierter Speichercontroller bei der Nehalem Architektur geringere Latenzen unabhängig von Mainboard Hardware bessere Transferraten als bei Core 2 Vergleich der Speicher-Performanz von Nehalem und Core 2 WS 2013/ Folie 48

49 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Quick-Path Interconnect Bus QPI schnelle direkte Kommunikation zwischen Prozessoren Kommunikation mit Eingabe/Ausgabe Der ehemalige Front Side Bus konnte diese Anforderungen nicht mehr erfüllen Aufbau eines Mehrprozessorsystems WS 2013/ Folie 49

50 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Cache-Organisation Cache-Hierarchie eigener L1 Cache (32 KB Instruction/ 32KB Data) in jedem Kern eigener L2 Cache (256 KB) in jedem Kern großer gemeinsamer L3 Cache (z.b. 8 MB bei Quadcore) Vergleich der Cache-Latenzen mit der Core-2 Architektur WS 2013/ Folie 50

51 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Cache-Organisation Cache-Kohärenz Mechanismen benötigt für die Cache-Kohärenz bei den einzelnen Cores innerhalb eines Prozessors bei den einzelnen Prozessoren in einem Mehrprozessorsystem WS 2013/ Folie 51

52 2.3 Beispiele für Multikern-Architekturen Von Intel-Nehalem- bis Haswell-Architektur Organisation L3 Cache - Inclusive Cache alle Daten, die sich im individuellen L1 und L2 Cache eines Cores befinden, sind immer auch im L3 Cache vorhanden Somit: wenn sich eine Zeile nicht im L3 Cache befindet, kann sie auch nicht im Cache eines anderen Cores liegen zusätzliche Valid Bits signalisieren in welchen Cores eine bestimmte Cachezeile vorhanden sein könnte positiv: Cachezeile wurde von Core X angefragt. Es kann aber durchaus sein, dass die Zeile mittlerweile nicht mehr im Cache von Core X vorhanden ist negativ: Cachezeile wurde nicht von Core X angefragt und befindet sich daher definitiv nicht im Cache von Core X WS 2013/ Folie 52

Software Engineering für moderne, parallele Plattformen

Software Engineering für moderne, parallele Plattformen Software Engineering für moderne, parallele Plattformen b. Ergänzungen zur Performanz Dr. Victor Pankratius Dr. Victor Pankratius IPD Lehrstuhl für Programmiersysteme-Tichy KIT die Kooperation von Forschungszentrum

Mehr

Universität Karlsruhe (TH)

Universität Karlsruhe (TH) Universität Karlsruhe (TH) Forschungsuniversität gegründet 5 Software Engineering für moderne, parallele Plattformen b. Ergänzungen zur Performanz Dr. Victor Pankratius Agenda Das Roofline Model [Williams

Mehr

2 Homogene und Heterogene Multi-/Vielkernprozessoren

2 Homogene und Heterogene Multi-/Vielkernprozessoren 2 Homogene und Heterogene Multi-/Vielkernprozessoren 2.1 Motivation Multikern-Architekturen 2.2 Analyse von Multikern-Prozessoren Energieaspekte Bandbreitenmessung Roofline-Modell 2.3 Optimierung Anzahl

Mehr

2 Rechnerarchitekturen

2 Rechnerarchitekturen 2 Rechnerarchitekturen Rechnerarchitekturen Flynns Klassifikation Flynnsche Klassifikation (Flynn sche Taxonomie) 1966 entwickelt, einfaches Modell, bis heute genutzt Beschränkung der Beschreibung auf

Mehr

2 Homogene und Heterogene Multi-/Vielkernprozessoren

2 Homogene und Heterogene Multi-/Vielkernprozessoren 2 Homogene und Heterogene Multi-/Vielkernprozessoren 2.1 Motivation Multikern-Architekturen 2.2 Analyse von Multikern-Prozessoren Energieaspekte Bandbreitenmessung Roofline-Modell 2.3 Beispiele Multi-Core-Architekturen

Mehr

2 Homogene und Heterogene Multi-/Vielkernprozessoren

2 Homogene und Heterogene Multi-/Vielkernprozessoren 2 Homogene und Heterogene Multi-/Vielkernprozessoren 2.1 Motivation Multikern-Architekturen 2.2 Analyse von Multikern-Prozessoren Energieaspekte Bandbreitenmessung Roofline-Modell 2.3 Beispiele Multi-Core-Architekturen

Mehr

Technische Grundlagen der Informatik 2 SS Einleitung. R. Hoffmann FG Rechnerarchitektur Technische Universität Darmstadt E-1

Technische Grundlagen der Informatik 2 SS Einleitung. R. Hoffmann FG Rechnerarchitektur Technische Universität Darmstadt E-1 E-1 Technische Grundlagen der Informatik 2 SS 2009 Einleitung R. Hoffmann FG Rechnerarchitektur Technische Universität Darmstadt Lernziel E-2 Verstehen lernen, wie ein Rechner auf der Mikroarchitektur-Ebene

Mehr

Beispiele von Branch Delay Slot Schedules

Beispiele von Branch Delay Slot Schedules Beispiele von Branch Delay Slot Schedules Bildquelle: David A. Patterson und John L. Hennessy, Computer Organization and Design, Fourth Edition, 2012 Grundlagen der Rechnerarchitektur Prozessor 97 Weniger

Mehr

Seminar Multicore-Programmierung

Seminar Multicore-Programmierung Multicore- und GPGPU-Architekturen Fakultät für Informatik und Mathematik Universität Passau 04. November 2010 APUs / 1 / 39 Inhaltsverzeichnis I APUs / APUs / 2 / 39 Inhaltsverzeichnis II APUs / 3 / 39

Mehr

Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP)

Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP) Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP) @wefinet Werner Fischer, Thomas-Krenn.AG Webinar, 17. Oktober 2017 Intel Xeon Scalable Performance _ Das ist NEU: Neue

Mehr

Vorstellung der SUN Rock-Architektur

Vorstellung der SUN Rock-Architektur Fakultät Informatik Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Vorstellung der SUN Rock-Architektur Hauptseminar Ronald Rist Dresden, 14.01.2009

Mehr

TecNews: Sandy Bridge

TecNews: Sandy Bridge TecNews: Sandy Bridge Werner Fischer, Technology Specialist Thomas-Krenn.AG Thomas Krenn Herbstworkshop & Roadshow 2011 23.09. in Freyung 06.10. in Wien (A) 10.10. in Frankfurt 11.10. in Düsseldorf 12.10.

Mehr

Beispielvortrag: HPCG auf Intel Haswell-EP

Beispielvortrag: HPCG auf Intel Haswell-EP Beispielvortrag: HPCG auf Intel Haswell-EP Johannes Hofmann 1 Seminarvortrag Architekturen von Multi- und Vielkern-Prozessoren Erlangen, 19.4.2016 1 Computer Architecture, University Erlangen-Nuremberg

Mehr

Games with Cellular Automata auf Parallelen Rechnerarchitekturen

Games with Cellular Automata auf Parallelen Rechnerarchitekturen Bachelor Games with Cellular Automata auf Parallelen en ( ) Dipl.-Inf. Marc Reichenbach Prof. Dietmar Fey Ziel des s Paralleles Rechnen Keine akademische Nische mehr Vielmehr Allgemeingut für den Beruf

Mehr

Die Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien

Die Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur, Prof. Spallek Die Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien Tobias Berndt, to.berndt@t-online.de

Mehr

RST-Labor WS06/07 GPGPU. General Purpose Computation On Graphics Processing Units. (Grafikkarten-Programmierung) Von: Marc Blunck

RST-Labor WS06/07 GPGPU. General Purpose Computation On Graphics Processing Units. (Grafikkarten-Programmierung) Von: Marc Blunck RST-Labor WS06/07 GPGPU General Purpose Computation On Graphics Processing Units (Grafikkarten-Programmierung) Von: Marc Blunck Ablauf Einführung GPGPU Die GPU GPU Architektur Die Programmierung Programme

Mehr

CPU-Update. Wie Äpfel zu Melonen werden. best OpenSystems Day April 2010. Unterföhring

CPU-Update. Wie Äpfel zu Melonen werden. best OpenSystems Day April 2010. Unterföhring CPU-Update Wie Äpfel zu Melonen werden best OpenSystems Day April 2010 Unterföhring Wolfgang Stief wolfgang.stief@best.de Senior Systemingenieur best Systeme GmbH GUUG Board Member Motivation Alles wird

Mehr

Inhalt. Prozessoren. Curriculum Manfred Wilfling. 28. November HTBLA Kaindorf. M. Wilfling (HTBLA Kaindorf) CPUs 28. November / 9

Inhalt. Prozessoren. Curriculum Manfred Wilfling. 28. November HTBLA Kaindorf. M. Wilfling (HTBLA Kaindorf) CPUs 28. November / 9 Inhalt Curriculum 1.4.2 Manfred Wilfling HTBLA Kaindorf 28. November 2011 M. Wilfling (HTBLA Kaindorf) CPUs 28. November 2011 1 / 9 Begriffe CPU Zentraleinheit (Central Processing Unit) bestehend aus Rechenwerk,

Mehr

Vertiefungsrichtung Rechnerarchitektur

Vertiefungsrichtung Rechnerarchitektur srichtung () ( für ) Prof. Dietmar Fey Ziele der srichtung RA Vertiefen des Verständnis vom Aufbau, Funktionsweise von Rechnern und Prozessoren Modellierung und Entwurf von Rechnern und Prozessoren ()

Mehr

AUGE e.v. - Der Verein der Computeranwender Die i3/5/7-desktop-prozessoren von Intel im Einsatz

AUGE e.v. - Der Verein der Computeranwender Die i3/5/7-desktop-prozessoren von Intel im Einsatz Die i3/5/7-desktop-prozessoren von Intel im Einsatz Peter G. Poloczek M5543 i7 Neuheiten 1 Multicore-Technik (bis zu) 4 physikalische Kerne Intel Turbo Boost Technology beschleunigt anspruchsvolle Anwendungen

Mehr

Die Sandy-Bridge Architektur

Die Sandy-Bridge Architektur Fakultät Informatik - Institut für Technische Informatik - Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Die Sandy-Bridge Architektur René Arnold Dresden, 12. Juli 2011 0. Gliederung 1.

Mehr

Multicore-Architekturen

Multicore-Architekturen Universität Erlangen- Nürnberg Technische Universität München Universität Stuttgart Multicore-Architekturen Vortrag im Rahmen der Ferienakademie 2009 Kurs 1: Programmierkonzepte für Multi-Core Rechner

Mehr

3. Architekturen moderner Prozessoren 3.1 Einführung (1)

3. Architekturen moderner Prozessoren 3.1 Einführung (1) 3.1 Einführung (1) Nahezu jeder Prozessor in einem Desktop-Rechner (der auf oder unter dem Tisch steht) und in einem Server- Rechner (auf dem man sich von der Ferne einloggt und dort rechnet) nutzt heute

Mehr

Energiesparmechanismen des

Energiesparmechanismen des Energiesparmechanismen des Prozessors (x64) 2 Gliederung Motivation Einleitung Advanced Configuration and Power Interface (ACPI) P-States C-States Implementierung Intel AMD 3 Motivation von Marius Eschen

Mehr

Parallele Rechnerarchitekturen

Parallele Rechnerarchitekturen Bachelor Parallele en Informatik 3 ( ) Prof. Dietmar Fey Ziel des s Paralleles Rechnen Keine akademische Nische mehr Vielmehr Allgemeingut für den Beruf des Informatikers Bedingt durch Multikern- (und

Mehr

Architektur paralleler Plattformen

Architektur paralleler Plattformen Architektur paralleler Plattformen Freie Universität Berlin Fachbereich Informatik Wintersemester 2012/2013 Proseminar Parallele Programmierung Mirco Semper, Marco Gester Datum: 31.10.12 Inhalt I. Überblick

Mehr

moderne Prozessoren Jan Krüger jkrueger@techfak.uni-bielefeld.de

moderne Prozessoren Jan Krüger jkrueger@techfak.uni-bielefeld.de moderne Prozessoren Jan Krüger jkrueger@techfak.uni-bielefeld.de Übersicht FachChinesisch SPARC - UltraSparc III/IV PowerPC - PowerPC 970(G5) X86 - Pentium4(Xeon), Itanium, (Pentium M) X86 - AthlonXP/MP,

Mehr

Multicore Architektur vs. Amdahl`s Gesetz

Multicore Architektur vs. Amdahl`s Gesetz Fakultätsname Informatik, Professur Technische Informatik Multicore Architektur vs. Amdahl`s Gesetz Dresden, 21.Juli.2010 Motivation Veröffentlichung von IEEE Computer 2008 von Mark D. Hill (University

Mehr

LEISTUNGSVERGLEICH VON FPGA, GPU UND CPU FÜR ALGORITHMEN ZUR BILDBEARBEITUNG PROSEMINAR INF-B-610

LEISTUNGSVERGLEICH VON FPGA, GPU UND CPU FÜR ALGORITHMEN ZUR BILDBEARBEITUNG PROSEMINAR INF-B-610 LEISTUNGSVERGLEICH VON FPGA, GPU UND CPU FÜR ALGORITHMEN ZUR BILDBEARBEITUNG PROSEMINAR INF-B-610 Dominik Weinrich dominik.weinrich@tu-dresden.de Dresden, 30.11.2017 Gliederung Motivation Aufbau und Hardware

Mehr

Grundlagen der Rechnerarchitektur

Grundlagen der Rechnerarchitektur Grundlagen der Rechnerarchitektur Einführung Unsere erste Amtshandlung: Wir schrauben einen Rechner auf Grundlagen der Rechnerarchitektur Einführung 2 Vorlesungsinhalte Binäre Arithmetik MIPS Assembler

Mehr

Hochleistungsrechnen in Darmstadt: Der Lichtenberg- Hochleistungsrechner. Dr. Andreas Wolf. Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum

Hochleistungsrechnen in Darmstadt: Der Lichtenberg- Hochleistungsrechner. Dr. Andreas Wolf. Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum Hochleistungsrechnen in Darmstadt: Der Lichtenberg- Hochleistungsrechner Dr. Andreas Wolf Gruppenleiter Hochleistungsrechnen Hochschulrechenzentrum Überblick Randbedingungen der HPC Beschaffung an der

Mehr

CUDA. Moritz Wild, Jan-Hugo Lupp. Seminar Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg

CUDA. Moritz Wild, Jan-Hugo Lupp. Seminar Multi-Core Architectures and Programming. Friedrich-Alexander-Universität Erlangen-Nürnberg CUDA Seminar Multi-Core Architectures and Programming 1 Übersicht Einleitung Architektur Programmierung 2 Einleitung Computations on GPU 2003 Probleme Hohe Kenntnisse der Grafikprogrammierung nötig Unterschiedliche

Mehr

Mehrprozessorarchitekturen

Mehrprozessorarchitekturen Mehrprozessorarchitekturen (SMP, UMA/NUMA, Cluster) Arian Bär 12.07.2004 12.07.2004 Arian Bär 1 Gliederung 1. Einleitung 2. Symmetrische Multiprozessoren (SMP) Allgemeines Architektur 3. Speicherarchitekturen

Mehr

CPU, GPU und FPGA. CPU, GPU und FPGA Maximilian Bandle, Bianca Forkel 21. November 2017

CPU, GPU und FPGA. CPU, GPU und FPGA Maximilian Bandle, Bianca Forkel 21. November 2017 CPU, GPU und FPGA, Bianca Forkel 21. November 2017 CPU, GPU und FPGA Inhalt CPU: Central Processing Unit GPU: Graphical Processing Unit FPGA: Field Programmable Gate Array 2 CPU Central Processing Unit

Mehr

Spielst du noch oder rechnest du schon?

Spielst du noch oder rechnest du schon? Spielst du noch oder rechnest du schon? Mit Spielkonsole und Co. zum Supercomputer der Zukunft Fachbereich Elektrotechnik und Informationstechnik Fachhochschule Bielefeld University of Applied Sciences

Mehr

IT-Infrastruktur, WS 2014/15, Hans-Georg Eßer

IT-Infrastruktur, WS 2014/15, Hans-Georg Eßer ITIS-D'' IT-Infrastruktur WS 2014/15 Hans-Georg Eßer Dipl.-Math., Dipl.-Inform. Foliensatz D'': Rechnerstrukturen, Teil 3 v1.0, 2014/11/27 Folie D''-1 Dieser Foliensatz Vorlesungsübersicht Seminar Wiss.

Mehr

Georg Hager Regionales Rechenzentrum Erlangen (RRZE)

Georg Hager Regionales Rechenzentrum Erlangen (RRZE) Erfahrungen und Benchmarks mit Dual- -Prozessoren Georg Hager Regionales Rechenzentrum Erlangen (RRZE) ZKI AK Supercomputing Karlsruhe, 22./23.09.2005 Dual : Anbieter heute IBM Power4/Power5 (Power5 mit

Mehr

Grafikkarten-Architektur

Grafikkarten-Architektur > Grafikkarten-Architektur Parallele Strukturen in der GPU Name: Sebastian Albers E-Mail: s.albers@wwu.de 2 > Inhalt > CPU und GPU im Vergleich > Rendering-Pipeline > Shader > GPGPU > Nvidia Tesla-Architektur

Mehr

Pipelining. Die Pipelining Idee. Grundlagen der Rechnerarchitektur Prozessor 45

Pipelining. Die Pipelining Idee. Grundlagen der Rechnerarchitektur Prozessor 45 Pipelining Die Pipelining Idee Grundlagen der Rechnerarchitektur Prozessor 45 Single Cycle Performance Annahme die einzelnen Abschnitte des MIPS Instruktionszyklus benötigen folgende Ausführungszeiten:

Mehr

Prozessor- und Rechnerarchitekturen (Master)

Prozessor- und Rechnerarchitekturen (Master) Prozessor- und Rechnerarchitekturen (Master) Themen am 28.06.17: Semesterrückblick, Terminplanung Ihrer Vorträge ProRecArc17_V10 Ulrich Schaarschmidt HS Düsseldorf, SS 2017 V1 (5.4.): Termine + mögliche

Mehr

Entwurf eines FPGA-Cores zur Simulationsbeschleunigung zeitkontinuierlicher Modelle im HiL Kontext

Entwurf eines FPGA-Cores zur Simulationsbeschleunigung zeitkontinuierlicher Modelle im HiL Kontext Entwurf eines FPGA-Cores zur Simulationsbeschleunigung zeitkontinuierlicher Modelle im HiL Kontext Till Fischer 03.11.2011 FZI Forschungszentrum Informatik Embedded Systems & Sensors Engineering (ESS)

Mehr

IT für Führungskräfte. Zentraleinheiten. 11.04.2002 Gruppe 2 - CPU 1

IT für Führungskräfte. Zentraleinheiten. 11.04.2002 Gruppe 2 - CPU 1 IT für Führungskräfte Zentraleinheiten 11.04.2002 Gruppe 2 - CPU 1 CPU DAS TEAM CPU heißt Central Processing Unit! Björn Heppner (Folien 1-4, 15-20, Rollenspielpräsentation 1-4) Harald Grabner (Folien

Mehr

Was ist die Performance Ratio?

Was ist die Performance Ratio? Was ist die Performance Ratio? Wie eben gezeigt wäre für k Pipeline Stufen und eine große Zahl an ausgeführten Instruktionen die Performance Ratio gleich k, wenn jede Pipeline Stufe dieselbe Zeit beanspruchen

Mehr

Technische Informatik 1

Technische Informatik 1 Technische Informatik 1 1 Einleitung Lothar Thiele Computer Engineering and Networks Laboratory Technische Informatik 1 2 Was ist Technische Informatik? A. Ralston, E.D. Reilly: Encyclopedia of Computer

Mehr

Computergrundlagen Geschichte des Computers

Computergrundlagen Geschichte des Computers Computergrundlagen Geschichte des Computers Axel Arnold Institut für Computerphysik Universität Stuttgart Wintersemester 2010/11 1641: Rechenmaschine von B. Pascal B. Pascal, 1632-1662 mechanische Rechenmaschine

Mehr

Intels Tick-Tock-Prinzip

Intels Tick-Tock-Prinzip 2.3 Beispiele für Multikern-Architekturen 2.3.1 Von Intel-Nehalem- bis Haswell-Architektur Intels Tick-Tock-Prinzip Gleiche Mikroarchitektur und Prozess-Technologiesprung (Tick) Neue Mikroarchitektur (Tock)

Mehr

General Purpose Computation on GPUs

General Purpose Computation on GPUs General Purpose Computation on GPUs Matthias Schneider, Robert Grimm Universität Erlangen-Nürnberg {matthias.schneider, robert.grimm}@informatik.stud.uni-erlangen.de M. Schneider, R. Grimm 1 Übersicht

Mehr

MULTICORE- UND GPGPU- ARCHITEKTUREN

MULTICORE- UND GPGPU- ARCHITEKTUREN MULTICORE- UND GPGPU- ARCHITEKTUREN Korbinian Pauli - 17. November 2011 Seminar Multicore Programmierung, WS11, Universität Passau 2 Einleitung Klassisches Problem der Informatik: riesige Datenmenge! Volkszählung

Mehr

Grundlagen der Rechnerarchitektur. Einführung

Grundlagen der Rechnerarchitektur. Einführung Grundlagen der Rechnerarchitektur Einführung Unsere erste Amtshandlung: Wir schrauben einen Rechner auf Grundlagen der Rechnerarchitektur Einführung 2 Vorlesungsinhalte Binäre Arithmetik MIPS Assembler

Mehr

Konzepte und Methoden der Systemsoftware. Aufgabe 1: Polling vs Interrupts. SoSe bis P

Konzepte und Methoden der Systemsoftware. Aufgabe 1: Polling vs Interrupts. SoSe bis P SoSe 2014 Konzepte und Methoden der Systemsoftware Universität Paderborn Fachgebiet Rechnernetze Präsenzübung 3(Musterlösung) 2014-05-05 bis 2014-05-09 Aufgabe 1: Polling vs Interrupts (a) Erläutern Sie

Mehr

Multicore- und GPGPU-Architekturen. Manuel Danisch

Multicore- und GPGPU-Architekturen. Manuel Danisch Multicore- und GPGPU-Architekturen Manuel Danisch 04. November 2010 Zusammenfassung Ziel dieser Arbeit ist es, einen Überblick über aktuell verfügbare CPU- und GPGPU-Architekturen zu geben. Es soll außerdem

Mehr

DOAG Konferenz 2007 in Nürnberg

DOAG Konferenz 2007 in Nürnberg DOAG Konferenz 2007 in Nürnberg Auswahl und Sizing: Die richtige Hardware (+Software) für Oracle Björn Bröhl Projektmanager Handlungsbevollmächtigter Seite 1 Inhalt Die Zielsetzung Vorgehensweise Auswahl

Mehr

Architektur und Organisation von Rechnersystemen

Architektur und Organisation von Rechnersystemen Architektur und Organisation von Thema heute: More need for more Speed, Weitere Architekturmerkmale, Zahlendarstellungen, Makroassembler BKH-ArcOrg16-V3 am 01.12.2016 Ulrich Schaarschmidt BK-H/HS Düsseldorf,

Mehr

Computergrundlagen Geschichte des Computers

Computergrundlagen Geschichte des Computers Computergrundlagen Geschichte des Computers Axel Arnold Institut für Computerphysik Universität Stuttgart Wintersemester 2011/12 1641: Rechenmaschine von B. Pascal B. Pascal, 1623-1662 mechanische Rechenmaschine

Mehr

Sun HPC Agenda

Sun HPC Agenda Sun HPC 2005 - Agenda 10:00 Willkommen und Einleitung Klaus Brühl, RZ, 10:15 Neues vom Aachener Sun Fire SMP Cluster Dieter an Mey, RZ, 10:30 UltraSPARC - Today and Tomorrow Ruud van der Pas, Scalable

Mehr

Multicore Herausforderungen an das Software-Engineering. Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück 15.09.2010

Multicore Herausforderungen an das Software-Engineering. Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück 15.09.2010 Multicore Herausforderungen an das Software-Engineering Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück 15.09.2010 Inhalt _ Motivation _ Herausforderung 1: Hardware _ Herausforderung 2: Software-Partitionierung

Mehr

Architektur von Parallelrechnern 50

Architektur von Parallelrechnern 50 Architektur von Parallelrechnern 50 Rechenintensive parallele Anwendungen können nicht sinnvoll ohne Kenntnis der zugrundeliegenden Architektur erstellt werden. Deswegen ist die Wahl einer geeigneten Architektur

Mehr

Raytracing auf Desktop PCs Optimizing Cache Usage (Intel Corp.)

Raytracing auf Desktop PCs Optimizing Cache Usage (Intel Corp.) Raytracing auf Desktop PCs Optimizing Cache Usage (Intel Corp.) von Martin Stöcker Motivation Geschwindigkeit der Prozessoren verdoppelt sich alle 18 Monate (Moore s Law) Geschwindigkeit des Speichers

Mehr

Wie groß ist die Page Table?

Wie groß ist die Page Table? Wie groß ist die Page Table? Im vorigen (typischen) Beispiel verwenden wir 20 Bits zum indizieren der Page Table. Typischerweise spendiert man 32 Bits pro Tabellen Zeile (im Vorigen Beispiel brauchten

Mehr

Untersuchung und Vorstellung moderner Grafikchiparchitekturen

Untersuchung und Vorstellung moderner Grafikchiparchitekturen Fakultät Informatik, Institut für Technische Informatik, Professur für VLSI-Entwurfssysteme, Diagnostik und Architektur Untersuchung und Vorstellung moderner Grafikchiparchitekturen Hauptseminar Technische

Mehr

Systeme 1: Architektur

Systeme 1: Architektur slide 1 Vorlesung Systeme 1: Architektur Prof. Dr. Ulrich Ultes-Nitsche Forschungsgruppe Departement für Informatik Universität Freiburg slide 2 Prüfung 18. Februar 2004 8h00-11h40 13h00-18h20 20 Minuten

Mehr

Ein kleiner Einblick in die Welt der Supercomputer. Christian Krohn 07.12.2010 1

Ein kleiner Einblick in die Welt der Supercomputer. Christian Krohn 07.12.2010 1 Ein kleiner Einblick in die Welt der Supercomputer Christian Krohn 07.12.2010 1 Vorschub: FLOPS Entwicklung der Supercomputer Funktionsweisen von Supercomputern Zukunftsvisionen 2 Ein Top10 Supercomputer

Mehr

Quiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset.

Quiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset. Quiz Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset 32 Bit Adresse 31 3 29... 2 1 SS 212 Grundlagen der Rechnerarchitektur

Mehr

Was ist Rechnerleistung

Was ist Rechnerleistung Was ist Rechnerleistung Leistung im engeren Sinne: Leistung gemessen in seltsamen Einheiten, bestimmt vorwiegend von der Zentraleinheit: MIPS (Millionen Instruktionen pro Sekunde) FLOPS (Floating Point

Mehr

Rechnerstrukturen, Teil 2

Rechnerstrukturen, Teil 2 12 Rechnerstrukturen, Teil 2 Vorlesung 4 SWS WS 17/18 2.6 Prozessortrends (Erweiterung von 2.3) Prof. Dr. Jian-Jia Chen Fakultät für Informatik Technische Universität Dortmund jian-jia.chen@cs.uni-.de

Mehr

Zusammenhang Interrupt, Befehlszyklus, indirekte Adressierung und Mikroprogramm [Stallings, Kap. 15, S ]

Zusammenhang Interrupt, Befehlszyklus, indirekte Adressierung und Mikroprogramm [Stallings, Kap. 15, S ] 2.1.2 Behandlung von Unterbrechungen (Interrupts) Zusammenhang Interrupt, Befehlszyklus, indirekte Adressierung und Mikroprogramm [Stallings, Kap. 15, S. 582-585] t 1 : MAR (PC) t 2 : MBR Memory[MAR] PC

Mehr

CPU-Update. Von Äpfeln und Birnen. best OpenSystems Day Herbst Dornach. Wolfgang Stief

CPU-Update. Von Äpfeln und Birnen. best OpenSystems Day Herbst Dornach. Wolfgang Stief CPU-Update Von Äpfeln und Birnen best OpenSystems Day Herbst 2008 Dornach Wolfgang Stief stief@best.de Senior Systemingenieur best Systeme GmbH GUUG Board Member Motivation Earlier, we used 10 elements

Mehr

Arithmetische und Logische Einheit (ALU)

Arithmetische und Logische Einheit (ALU) Arithmetische und Logische Einheit (ALU) Enthält Blöcke für logische und arithmetische Operationen. n Bit Worte werden mit n hintereinander geschalteten 1 Bit ALUs bearbeitet. Steuerleitungen bestimmen

Mehr

Rechnerarchitektur und Betriebssysteme (CS201): Multiprogramming und -Tasking Flynn-Klassifikation, ILP, VLIW

Rechnerarchitektur und Betriebssysteme (CS201): Multiprogramming und -Tasking Flynn-Klassifikation, ILP, VLIW Rechnerarchitektur und Betriebssysteme (CS201): Multiprogramming und -Tasking Flynn-Klassifikation, ILP, VLIW 26. Oktober 2012 Prof. Dr. Christian Tschudin Departement Informatik, Universität Basel Uebersicht

Mehr

Kingston Technology WHD. November 30, 2012. Andreas Scholz, BDM Integration und Server D-A

Kingston Technology WHD. November 30, 2012. Andreas Scholz, BDM Integration und Server D-A Kingston Technology WHD Andreas Scholz, BDM Integration und Server D-A November 30, 2012 Agenda Trends Speicher Konfigurationen Warum KingstonConsult? KingstonConsult Speicher Bandbreite: balanced vs.

Mehr

Mikroprozessoren. Aufbau und Funktionsweise. Christian Richter. Ausgewählte Themen der Multimediakommunikation SS 2005

Mikroprozessoren. Aufbau und Funktionsweise. Christian Richter. Ausgewählte Themen der Multimediakommunikation SS 2005 Mikroprozessoren Aufbau und Funktionsweise Christian Richter Ausgewählte Themen der Multimediakommunikation SS 2005 Christian Richter (TU-Berlin) Mikroprozessoren AT MMK 2005 1 / 22 Gliederung Was ist

Mehr

Schreiben von Pages. Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen).

Schreiben von Pages. Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen). Schreiben von Pages Schreiben einer Page in den Swap Space ist sehr teuer (kostet millionen von CPU Zyklen). Write Through Strategie (siehe Abschnitt über Caching) ist hier somit nicht sinnvoll. Eine sinnvolle

Mehr

Multicore und mobile, stromsparende Anwendungen ein Widerspruch? Hubert Hafner Product Marketing

Multicore und mobile, stromsparende Anwendungen ein Widerspruch? Hubert Hafner Product Marketing Multicore und mobile, stromsparende Anwendungen ein Widerspruch? Hubert Hafner Product Marketing Winterthur, September 2010 Agenda Über Kontron Anforderungen der mobilen Welt Aktuellen Atom -Techniken

Mehr

CPU Speicher I/O. Abbildung 11.1: Kommunikation über Busse

CPU Speicher I/O. Abbildung 11.1: Kommunikation über Busse Kapitel 11 Rechnerarchitektur 11.1 Der von-neumann-rechner Wir haben uns bisher mehr auf die logischen Bausteine konzentriert. Wir geben jetzt ein Rechnermodell an, das der physikalischen Wirklichkeit

Mehr

Philipp Grasl PROZESSOREN

Philipp Grasl PROZESSOREN 1 PROZESSOREN INHALTSVERZEICHNIS Definition/Verwendung Prozessor Historische Entwicklung Prozessor Aufbau Prozessor Funktionsweise Prozessor Steuerung/Maschinenbefehle Prozessorkern Prozessortakt 2 DEFINITION

Mehr

Kapitel 4 Grundlagen zur Parallelverarbeitung

Kapitel 4 Grundlagen zur Parallelverarbeitung Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Kapitel 4 Grundlagen zur Parallelverarbeitung SWT I Sommersemester 2009 Prof. Dr. Walter F. Tichy Dipl.-Inform. David J. Meder Warum Parallelverarbeitung?

Mehr

Vorlesung Rechnerarchitektur. Einführung

Vorlesung Rechnerarchitektur. Einführung Vorlesung Rechnerarchitektur Einführung Themen der Vorlesung Die Vorlesung entwickelt an Hand von zwei Beispielen wichtige Prinzipien der Prozessorarchitektur und der Speicherarchitektur: MU0 Arm Speicher

Mehr

Opteron und I/O. Toni Schmidbauer. 11. Mai Zusammenfassung. Eine kurze Beschreibung der AMD Opteron Architektur.

Opteron und I/O. Toni Schmidbauer. 11. Mai Zusammenfassung. Eine kurze Beschreibung der AMD Opteron Architektur. Opteron und I/O Toni Schmidbauer 11. Mai 2005 Zusammenfassung Eine kurze Beschreibung der AMD Opteron Architektur Inhaltsverzeichnis 1 Allgemeines 2 2 Was ist ein Interconnect? 2 3 Traditionelles PC Chipset

Mehr

Rechner Architektur. Martin Gülck

Rechner Architektur. Martin Gülck Rechner Architektur Martin Gülck Grundlage Jeder Rechner wird aus einzelnen Komponenten zusammengesetzt Sie werden auf dem Mainboard zusammengefügt (dt.: Hauptplatine) Mainboard wird auch als Motherboard

Mehr

CHF Inkl. MWSt.

CHF Inkl. MWSt. Wenn Sie dieses Produkt bestellen möchten, geben Sie bitte die gewünschte Anzahl ein. Klicken Sie dann auf den Warenkorb neben der Anzahl. Wenn Sie das Produkt nicht bestellen wollen, klicken Sie unten

Mehr

Neue Prozessor-Architekturen für Desktop-PC

Neue Prozessor-Architekturen für Desktop-PC Neue Prozessor-Architekturen für Desktop-PC Bernd Däne Technische Universität Ilmenau Fakultät I/A - Institut TTI Postfach 100565, D-98684 Ilmenau Tel. 0-3677-69-1433 bdaene@theoinf.tu-ilmenau.de http://www.theoinf.tu-ilmenau.de/ra1/

Mehr

Teil 1: Prozessorstrukturen

Teil 1: Prozessorstrukturen Teil 1: Prozessorstrukturen Inhalt: Mikroprogrammierung Assemblerprogrammierung Motorola 6809: ein einfacher 8-Bit Mikroprozessor Mikrocontroller Koprozessoren CISC- und RISC-Prozessoren Intel Pentium

Mehr

HP Enterprise ProLiant DL360 G7 Performance

HP Enterprise ProLiant DL360 G7 Performance Gruppe Hersteller HP Enterprise ProLiant DL360 G7 Performance DL360 G7 Intel Xeon X5650 2.66GHz 6-core Processor 2P 12GB-R P410i/1GB FBWC Hot Plug 8 Small Form Factor 460W 92 Efficiency RPS Performance

Mehr

Cell Broadband Engine

Cell Broadband Engine Cell Broadband Engine 21.March 2006 Benjamin Keck Outline Why Cell?!? Application Areas Architectural Overview SPU Programming Model Programming on the PPE C/C++ Intrinsics The Cell Supercomputer on a

Mehr

Compute Unified Device Architecture CUDA

Compute Unified Device Architecture CUDA Compute Unified Device Architecture 06. Februar 2012 1 / 13 Gliederung 2 / 13 : Compute Unified Device Architecture entwickelt von Nvidia Corporation spezifiziert Software- und Hardwareeigenschaften Ziel:

Mehr

Fachbereich Medienproduktion

Fachbereich Medienproduktion Fachbereich Medienproduktion Herzlich willkommen zur Vorlesung im Studienfach: Grundlagen der Informatik Themenübersicht Rechnertechnik und IT Sicherheit Grundlagen der Rechnertechnik Prozessorarchitekturen

Mehr

HYPER - THREADING HYPER-THREADING TECHNOLOGY SERGE FOPOUSSI. Serge Fopoussi UNIVERSITÄT BREMEN SEMINAR RECHNERARCHITEKTUR. Prof. Dr.

HYPER - THREADING HYPER-THREADING TECHNOLOGY SERGE FOPOUSSI. Serge Fopoussi UNIVERSITÄT BREMEN SEMINAR RECHNERARCHITEKTUR. Prof. Dr. SEMINAR RECHNERARCHITEKTUR HYPER-THREADING TECHNOLOGY SERGE FOPOUSSI SEMINAR RECHNERARCHITEKTUR GLIEDERUNG 1. BACKGROUND : Arbeitsweise eines von Neumann-Rechners 2. ENTWICKLUNG VON PROZESSOREN 3. HYPER-THREADING

Mehr

Multiprozessor System on Chip

Multiprozessor System on Chip Multiprozessor System on Chip INF-M1 AW1-Vortrag 25. November 2009 Übersicht 1. Einleitung und Motivation 2. Multiprozessor System on Chip (MPSoC) 3. Multiprozessoren mit Xilinx EDK 4. FAUST SoC Fahrzeug

Mehr

Tutorium Rechnerorganisation

Tutorium Rechnerorganisation Woche 3 Tutorien 3 und 4 zur Vorlesung Rechnerorganisation 1 Christian A. Mandery: KIT Universität des Landes Baden-Württemberg und nationales Grossforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu

Mehr

Intel Core i5 3570K GHz

Intel Core i5 3570K GHz Intel Core i5 3570K - 3.4 GHz FSB1.333,16-6 MB - Box-Set - 3-Core - Quad Core - Hexa-Core Gruppe Prozessoren Hersteller Intel Hersteller Art. Nr. BX80637I53570K EAN/UPC 5032037036399 ITscope Art. Nr. 2174066000

Mehr

HW/SW Codesign 5 - Performance

HW/SW Codesign 5 - Performance HW/SW Codesign 5 - Performance Martin Lechner e1026059 Computer Technology /29 Inhalt Was bedeutet Performance? Methoden zur Steigerung der Performance Einfluss der Kommunikation Hardware vs. Software

Mehr

Wissenschaftliches Rechnen in der Praxis: Hardware und Hardware-orientierte Programmierung

Wissenschaftliches Rechnen in der Praxis: Hardware und Hardware-orientierte Programmierung Wissenschaftliches Rechnen in der Praxis: Hardware und Hardware-orientierte Programmierung Dominik Göddeke dominik.goeddeke@math.tu-dortmund.de Vorlesung Wissenschaftliches Rechnen Fakultät für Mathematik

Mehr

Technische Informatik - Eine Einführung

Technische Informatik - Eine Einführung Martin-Luther-Universität Halle-Wittenberg Fachbereich Mathematik und Informatik Lehrstuhl für Technische Informatik Prof. P. Molitor Technische Informatik - Eine Einführung Rechnerarchitektur Aufgabe

Mehr

Der Aufbau der Fusion-APU von AMD

Der Aufbau der Fusion-APU von AMD Fakultät Informatik Institut für Technische Informatik, Lehrstuhl für VLSI-Entwurf, Diagnostik und Architektur Der von AMD Johannes Müller Dresden, 05.07.2011 Inhalt Geschichtliche Entwicklung Was ist

Mehr

CISC ( Complex Instruction Set Computer ) mächtige Instruktionssätze zur Unterstützung von Hochsprachenkonstrukten

CISC ( Complex Instruction Set Computer ) mächtige Instruktionssätze zur Unterstützung von Hochsprachenkonstrukten Hochleistungs-CPUs CISC ( Complex Instruction Set Computer ) mächtige Instruktionssätze zur Unterstützung von Hochsprachenkonstrukten durch Hardware (Idee: don t do in software what you can do in hardware

Mehr

Fragestellung: Wie viele CPU Kerne sollte eine VM unter Virtualbox zugewiesen bekommen?

Fragestellung: Wie viele CPU Kerne sollte eine VM unter Virtualbox zugewiesen bekommen? Fragestellung: Wie viele CPU Kerne sollte eine VM unter Virtualbox zugewiesen bekommen? Umgebung Getestet wurde auf einem Linux-System mit voller invis-server Installation, auf dem eine virtuelle Maschine

Mehr

Outline. Cell Broadband Engine. Application Areas. The Cell

Outline. Cell Broadband Engine. Application Areas. The Cell Outline 21.March 2006 Benjamin Keck Why Cell?!? Application Areas Architectural Overview Programming Model Programming on the PPE C/C++ Intrinsics 1 2 The Cell Supercomputer on a chip Multi-Core Microprocessor

Mehr

Instruktionen pro Takt

Instruktionen pro Takt (c) Peter Sturm, Universität Trier (u.a.) 1 Instruktionen pro Takt 500 MIPS (Dhrystone) Taktfrequenz 450 400 350 300 250 200 150 100 50 0 8086 80286 80386 80486 Pentium Pentium Pro Die-Größen: Intel Vorlesung

Mehr

Introduction to Technologies for Interaction Design. Einführung

Introduction to Technologies for Interaction Design. Einführung Introduction to Technologies for Interaction Design Einführung Organisatorisches Vorlesung: Rita Freudenberg, Universität Magdeburg, Fakultät für Informatik, Institut für Simulation und Graphik Tel. 0391

Mehr

Komplettsysteme. Hersteller Art. Nr EAN/UPC

Komplettsysteme. Hersteller Art. Nr EAN/UPC NEC Display Slot-In PC - Digital Signage-Player RAM 4 GB - Festplatte - Windows 10 Pro Gruppe Hersteller Komplettsysteme NEC Display Hersteller Art. Nr. 100014305 EAN/UPC 4260400612104 Marketing NEC Slot-In

Mehr