Rechnerarchitektur SS 2012

Ähnliche Dokumente
Proseminar Rechnerarchitekturen. Parallelcomputer: Multiprozessorsysteme

Parallelrechner (1) Anwendungen: Simulation von komplexen physikalischen oder biochemischen Vorgängen Entwurfsunterstützung virtuelle Realität

Architektur paralleler Plattformen

Grundlagen der Parallelisierung

Intel 80x86 symmetrische Multiprozessorsysteme. Eine Präsentation im Rahmen des Seminars Parallele Rechnerarchitekturen von Bernhard Witte

Hardware-Architekturen

Johann Wolfgang Goethe-Universität

COMPUTERKLASSEN MULTICOMPUTER und SPEZIALANWENDUNGSSYSTEME

Aktuelle Trends und Herausforderungen in der Finite-Elemente-Simulation

IT für Führungskräfte. Zentraleinheiten Gruppe 2 - CPU 1

Parallelverarbeitung. Parallelverarbeitung. 2. Grundlagen. 2. Grundlagen. 2.1 Parallelität

Grundlagen der Rechnerarchitektur

Raytracing auf Desktop PCs Optimizing Cache Usage (Intel Corp.)

Grundlagen der Rechnerarchitektur. Ein und Ausgabe

Linux-Cluster mit Raspberry Pi. Dr. René Richter Sächsische Studienakademie Dresden

CABLE TESTER. Manual DN-14003

Grundlagen der Programmierung 2. Parallele Verarbeitung

Rechnerarchitektur und Betriebssysteme (CS201): Multiprogramming und -Tasking Flynn-Klassifikation, ILP, VLIW

Software ubiquitärer Systeme

Simulation of a Battery Electric Vehicle

GRIPS - GIS basiertes Risikoanalyse-, Informations- und Planungssystem

IT-Infrastruktur, WS 2014/15, Hans-Georg Eßer

Multicore Herausforderungen an das Software-Engineering. Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück

Geometrie und Bedeutung: Kap 5

Überblick. 2 Bestandsaufnahme 2.1 Beispiele von verteilten Systemen 2.2 Anwendungsszenarien 2.3 Vorteile 2.4 Problembereiche

Mehrprozessorarchitekturen (SMP, Cluster, UMA/NUMA)

Synthese Eingebetteter Systeme. 14 Abbildung von Anwendungen auf Multicore-Systeme

Die Mikroprogrammebene eines Rechners

Infrastructure as a Service (IaaS) Solutions for Online Game Service Provision

Video Line Array Highest Resolution CCTV

Kapitel 3 Software Quality III

Grafikkarten-Architektur

Wozu dient ein Logikanalysator?

Hochleistungsrechnen Hybride Parallele Programmierung. Prof. Dr. Thomas Ludwig Universität Hamburg Informatik Wissenschaftliches Rechnen

Software Engineering für moderne, parallele Plattformen

Vorlesung Rechnerarchitektur. Einführung

Orientierungsveranstaltungen 2009 Informatikstudien der Universität Wien

Protected User-Level DMA in SCI Shared Memory Umgebungen

Fluid-Particle Multiphase Flow Simulations for the Study of Sand Infiltration into Immobile Gravel-Beds

Grundlagen der Rechnerarchitektur

JONATHAN JONA WISLER WHD.global

The English Tenses Die englischen Zeitformen

p^db=`oj===pìééçêíáåñçêã~íáçå=

Grundlagen der Rechnerarchitektur

SS 2011 Network Security Dozent(en): Prof. Dr. Peter Martini

Komplexe Softwaresysteme 2 - SS Dominik Korner

Tuning des Weblogic /Oracle Fusion Middleware 11g. Jan-Peter Timmermann Principal Consultant PITSS

IDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz

2.2 Rechnerorganisation: Aufbau und Funktionsweise

Level of service estimation at traffic signals based on innovative traffic data services and collection techniques

Technische Informatik 1

Group and Session Management for Collaborative Applications

OpenCL Implementierung von OpenCV Funktionen

Software Distributed Shared Memory. Vortrag im Rahmen des Seminars Ausgewählte Themen in Hardwareentwurf und Optik Sarah Neuwirth, 05.

Was haben Viehweiden mit Software zu tun?

Fleet Manager 100 Bedienungsanleitung User Manual Hardware

Vortrag zum Hauptseminar Hardware/Software Co-Design

Häufigkeit des Vorlesens innerhalb einer Woche

Informationen zum Elterngeld in Englisch. Parental allowance

Mitglied der Leibniz-Gemeinschaft

BLK Quick Installation Guide. English. Deutsch

Release Notes BRICKware Copyright 23. March 2010 Funkwerk Enterprise Communications GmbH Version 1.0

Support Technologies based on Bi-Modal Network Analysis. H. Ulrich Hoppe. Virtuelles Arbeiten und Lernen in projektartigen Netzwerken

Franke & Bornberg award AachenMünchener private annuity insurance schemes top grades

TW Struktura / TW ArchiMed

Rechnergrundlagen SS Vorlesung

Einkommensaufbau mit FFI:

Projekt für Systemprogrammierung WS 06/07

SemTalk Services. SemTalk UserMeeting

Klausur Verteilte Systeme

UM ALLE DATEN ZU KOPIEREN. ZUNÄCHST die Daten des alten Telefons auf einen Computer kopieren

Grundlagen der Rechnerarchitektur

Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str Jena

Virtueller Speicher. SS 2012 Grundlagen der Rechnerarchitektur Speicher 44

Customer-specific software for autonomous driving and driver assistance (ADAS)

Einführung. Internet vs. WWW

p^db=`oj===pìééçêíáåñçêã~íáçå=

Open Source. Legal Dos, Don ts and Maybes. openlaws Open Source Workshop 26 June 2015, Federal Chancellery Vienna

There are 10 weeks this summer vacation the weeks beginning: June 23, June 30, July 7, July 14, July 21, Jul 28, Aug 4, Aug 11, Aug 18, Aug 25

Labour law and Consumer protection principles usage in non-state pension system

Restschmutzanalyse Residual Dirt Analysis

Hazards and measures against hazards by implementation of safe pneumatic circuits

AS Path-Prepending in the Internet And Its Impact on Routing Decisions

Context-adaptation based on Ontologies and Spreading Activation

Programmierung Paralleler Prozesse

IBM SPSS Data Access Pack Installationsanweisungen für Linux

Inhalt. Prozessoren. Curriculum Manfred Wilfling. 28. November HTBLA Kaindorf. M. Wilfling (HTBLA Kaindorf) CPUs 28. November / 9

Hardware versus Brainware

Instruktionssatz-Architektur

Zum Download von ArcGIS 10, 10.1 oder 10.2 die folgende Webseite aufrufen (Serviceportal der TU):

Internationale Energiewirtschaftstagung TU Wien 2015

Transkript:

Rechnerarchitektur SS 2012 Parallele Rechnersysteme TU Dortmund, Fakultät für Informatik XII Literatur: Hennessy/Patterson: Computer Architecture, 3. Auflage, 2003, Kapitel 6, S. 527ff. Huang: Advanced Computer Architecture, 1993, Abschnitt 3.3, S. 118ff. Stand 6. Juni 2012 Folien teilweise a.d. Basis von Materialien von R. Yahyapour, ehem. TU Dortmund

Mehrprozessorsysteme The turning away from the conventional organization came in the middle 1960s, when the law of diminishing returns began to take effect in the effort to increase the operational speed of a computer... Electronic circuits are ultimately limited in their speed of operation by the speed of light... and many... were already operarting in the nanosecond range. W. Jack Bouknight et al.: The Illiac IV System (1972)... sequential computers are approaching a fundamental physical limit on their potential power. Such a limit is the speed of light... Angel L. DeCegama: The Technology of Parallel Processing (1989) Rechnerarchitektur SS 2012 º» 1

Mehrprozessorsysteme: Einführung Beobachtung: Einschätzung, dass Fortschritte bei Uni-Prozessor-Architekturen sich ihrem Ende nähern, wurde verschiedentlich und zu verschiedenen Zeiten vertreten. Allerdings: Allerdings: 1985-2000 höchste Leistungssteigerung bei Uni-Prozessoren zu beobachten (seit d. Einführung transistorbasierter Rechner Ende der 1950er) Triebkraft: Verwendung/Technologie von Mikroprozessoren Trotzdem: Bedeutung paralleler Prozessoren wächst und wird mit Sicherheit in der Zukunft weiter steigen Rechnerarchitektur SS 2012 º» 2

Mehrprozessorsysteme: Einführung II Gründe für wachsende Bedeutung von MPs Mikroprozessoren werden vorherrschende Technologie für Uni-Prozessoren bleiben Weg zur Leistungssteigerung: Kombination mehrerer Prozessoren (seit einiger Zeit auch on-chip, z.b. Dual/Quad-Core-Prozessoren, MPSoCs) Annahme: Kosteneffektiver als Spezialprozessoren Fraglich, ob Fortschritt bei Ausnützung von ILP (seit ca. 20 Jahren Basis für Innovationen und Leistungssteigerungen bei Uni-Prozessoren) gehalten werden kann Beachte: Komplexität von z.b. multiple-issue Prozessoren Stetiger Fortschritt bei größter Hürde für MP-Einsatz: Software Groß bei Server-Anwendungen (haben häufig natürlichen Parallelismus) Problematischer bei Desktop-Systemen/Anwendungen Ex. erste weiter verbreitete Programmiersysteme (z.b. OpenMP) Rechnerarchitektur SS 2012 º» 3

Mehrprozessorsysteme: Einführung III Motivation der Themenbehandlung Bereits jetzt Abschwächung der Leitstungssteigerung bei Uni-Prozessoren bemerkbar! Trotzdem: Steigerung der Integrationsdichte folgt (vorerst?) ungebrochen dem Moore schen Gesetz... betrifft aber mehr und mehr Intergration weiterer Komponenten on-chip! Vorstoss von MPs in breitere Märkte vollzogen (im Desktop/Server-Bereich: Multi-Core-Prozessoren) Parallelisierung immer schon wichtigste algorithmische Triebkraft bei der Leistungssteigerung: MPs wenden Prinzip nur auf anderer Granularitätsstufe an (i. Vgl. zu Pipelining) Mehrprozessorsysteme werden in Zukunft weiter an Attraktivität gewinnen! Rechnerarchitektur SS 2012 º» 4

Mehrprozessorsysteme: Einführung IV Skopus der Themenbehandlung Problem: MP-Architektur ist großes, sehr heterogenes Gebiet, das immer noch relativ am Anfang seiner Entwicklung steht Kommen und Gehen vieler Ideen / Methoden / Systeme Mehr erfolglose als erfolgreiche Rechner / Architekturen Wie viele der aktuellen Verfahren werden überdauern? Fokus auf main stream MP-Systemen Kleine bis mittlere Anzahl von Prozessoren (bis ca. 128) Keine Behandlung von sehr speziellen Architekturen mit extrem vielen Prozessoren ( 128) Aber: Cluster als Hybride Lösung (= spezielle, vernetzte Uni-Prozessoren / Standardrechner ) Rechnerarchitektur SS 2012 º» 5

Welche Arten der Parallelität kennen wir? Rechnerarchitektur SS 2012 º» 6

Parallelität: Pipelining Quelle: R. Yahyapour, ehem. TU Dortmund Rechnerarchitektur SS 2012 º» 7

Parallelität: Superskalarität Quelle: R. Yahyapour, ehem. TU Dortmund Rechnerarchitektur SS 2012 º» 8

Parallelität: Vektorprozessoren Quelle: R. Yahyapour, ehem. TU Dortmund Rechnerarchitektur SS 2012 º» 9

Parallelität: Very Long Instruction Word (VLIW) Quelle: R. Yahyapour, ehem. TU Dortmund Rechnerarchitektur SS 2012 º» 10

MP-Beispiel: IBM Scalable Parallel Quelle: R. Yahyapour, ehem. TU Dortmund Rechnerarchitektur SS 2012 º» 11

MP-Beispiel: JUGENE Cluster Quelle: www.physikblog.eu Rechnerarchitektur SS 2012 º» 12

MP-Leistungsentwicklung: Die Top500 Rechner Quelle: www.top500.org Rechnerarchitektur SS 2012 º» 13

Ausblick: Exaflop-Rechner in 2017/18 Quelle: www.top500.org Rechnerarchitektur SS 2012 º» 14

Taxonomie von Mehrprozessorsystemen Idee der Leistungssteigerung durch Paralleles Rechnen bereits i.d. Anfängen der Rechnerentwicklung verfolgt Taxonomie möglicher Architekturen nach Flynn (1966) (betrachtet Parallelismus im Befehls- und Datenstrom) Single instruction, single data (SISD) Entspricht klassischem/normalem Uni-Prozessor-System Single instruction, multiple data (SIMD) Gleicher Befehl(-sstrom) wird von mehreren Prozessoren auf unterschiedlichen Daten(strömen) ausgeführt Eigene Datenspeicher pro Prozessor, aber gemeinsamer Befehlsspeicher und Kontrolleinheit (zum Holen/Ausgeben der Befehle) Beispiel: Vektorrechner Vergleichbar: Multimedia-Befehle ˆ= eingeschränkte Variante Rechnerarchitektur SS 2012 º» 15

Taxonomie von Mehrprozessorsystemen II Single instruction, single data (SISD)... Single instruction, multiple data (SIMD)... Multiple instruction, single data (MISD) Ex. Mehrere Verarbeitungsknoten, in Matrix angeordnet, bearbeiten verschiedene Befehlsströme Ein Datenstrom durchläuft Berechnungsmatrix Bezeichnet als systolisches Array Multiple instruction, multiple data (MIMD) Jeder Prozessor bearbeitet eigenen Befehls- und eigenen Datenstrom Verwendung normaler Mikroprozessoren möglich! Verbreitetstes Architektur-Schema paralleler Rechner Rechnerarchitektur SS 2012 º» 16

Taxonomie von Mehrprozessorsystemen: Diskussion Grobe Kategorisierung Ex. hybrideformen SIMD und MISD nur für spezielle Berechnungen geeignet ( keine kommerziellen MISD-Systeme) Viele frühe MPs nach SIMD-Prinzip, seit 1990er praktisch verschwunden (Ausnahme: Vektorrechner) MIMD ist vorherrschende Architektur für general purpose Mehrprozessorsysteme Große Flexibilität (gesamtes MP für eine(n) Anwendung/Benutzer bis parallele Bearbeitung vieler unterschiedlicher Tasks/Prozesse) Können von Kosten-Leistungs-Vorteilen gängiger Mikroprozessoren profitieren praktisch alle heutigen MIMD-Systeme mit gleichen Mikroprozessoren wie Server/Desktops realisiert! Betrachten im Folgenden nur MIMD-Rechner! Rechnerarchitektur SS 2012 º» 17

Klassen von MIMD-Rechnern Unterscheidung nach Speicherorganisation und Verbindungsstrategie (beachte: wesentlich beeinflußt durch Anzahl der Prozessoren) 1. Architekturen mit zentralem Speicher Heute ca. < 100 Prozessoren Möglichkeit besteht, dass... alle Prozessoren gemeinsamen Speicher verwenden und... Prozessoren u. Speicher über Bussystem verbunden sind. Mit großen Caches kann Bus und zentraler Speicher Anforderungen weniger(!) Prozessoren befriedigen Beachte: Zentraler Bus kann durch mehrere Busse oder Switch ersetzt werden Skaliert ggf. bis wenige Dutzend Prozessoren Aber: Nicht attraktiv bei weiterer Steigerung der Anzahl von Prozessoren! Rechnerarchitektur SS 2012 º» 18

Klassen von MIMD-Rechnern II c 2003 Elsevier Science Da zentraler Hauptspeicher symmetrisches Verhalten zu allen Prozessoren und uniforme Zugriffszeit ermöglicht: symmetric shared-memory multi processors (SMP) Speicherzugriff: uniform memory access (UMA) Verbreitetste Architektur für Mehrprozessorsysteme Rechnerarchitektur SS 2012 º» 19

Klassen von MIMD-Rechnern III 2. Architekturen mit verteiltem Speicher Speicher ist physikalisch verteilt kann größere Anzahl Prozessoren unterstützen (hohe Anforderungen an Speicherbandbreite nicht durch zentralen Speicher erfüllbar) Aber: Erfordert Verbindungsstruktur/-netz mit (relativ) großer Bandbreite zwischen Prozessorknoten (Bandbreite aber deutlich kleiner möglich, als bei Speicher!) Möglichkeiten der Verbindung Direkte Verbindungsstrukturen ( Switches ) Indirekte Verbindung (via beteiligter Knoten; z.b. mehrdimensionale Gitter [später mehr]) Rechnerarchitektur SS 2012 º» 20

Klassen von MIMD-Rechnern IV c 2003 Elsevier Science Kosteneffektive Methode, Bandbreite für lokale Zugriffe mit Prozessoranzahl skalierbar zu machen Auch Latenz lokaler Zugriffe reduziert E Datenaustausch zwischen Prozessoren deutlich komplexer! E Wesenlich größere Latenz entfernter Zugriffe (ab 100 )! Rechnerarchitektur SS 2012 º» 21

Modelle für Kommunikation und Speicherarchitektur Problem: Wie Daten zwischen Prozessoren mit physikalisch verteiltem Speicher austauschen? 2 grundlegende Methoden 1. Gemeinsamer Adressraum (shared address space) Physikalisch getrennte Speicher werden zu einem logischen Adressraum zusammengefaßt Jede Speicherstelle (lokal oder entfernt ) kann von jedem Prozessor mit passender Adresse angesprochen werden Bezeichnet als distributed shared-memory architecture (DSM) Beachte: shared memory hier nur für Adressraum! Im Gegensatz zu UMA-Architekturen (d.h. SMPs) hängt Zugriffszeit auf Speicher von konkretem Ort der physikalischen Speicherstelle ab non-uniform memory access (NUMA) Architektur Datenaustausch erfolgt implizit durch Speichertransferbefehle Rechnerarchitektur SS 2012 º» 22

Modelle für Kommunikation und Speicherarchitektur 2. Mehrere private Adressräume Speicher sind logisch disjunkt, können von entfernten Prozessoren nicht angesprochen werden Gleiche physikliasche Adresse bezieht sich auf unterschiedliche Speicherstellen in jedem Prozessor Prozessorknoten entsprechen de facto separaten Rechnern Auch bezeichnet als multi computer [vs. multi processor] (bzw. Mehr-Rechner-System vs. Multi-Prozessor-System) Extremfall: multi computer aus separaten Rechnersystemen verbunden über lokales (ggf. spezialisiertes) Netzwerk Cluster (kosteneffektive MPs, falls wenig Kommunikation zwischen Rechenknoten erforderlich) Rechnerarchitektur SS 2012 º» 23

Herausforderung der Parallelverarbeitung Zwei wesentliche Herausforderungen ex. beim Versuch, Parallelverarbeitung zur Leistungssteigerung einzusetzen: 1. Leistungssteigerung durch zuzätzliche Prozessoren 2. Kosten der notwendigen Kommunikation Fragen: Welchen Leistungsgewinn erzielt ein N-Prozessor-System gegenüber einem Uni-Prozessor?... im allgemeinen??... für eine best. Aufgabe? Wieviel Overhead entsteht durch Datenaustausch?... wieso eigentlich Datenaustausch? Gesetze von Amdahl und Gustafson machen darüber Aussagen! Rechnerarchitektur SS 2012 º» 24

Das Amdahl sche Gesetz Welchen Leistungsgewinn erzielt ein N-Prozessor-System gegenüber einem Uni-Prozessor? Speedup Stot = Laufzeit ohne Parallelisierung Laufzeit mit Parallelisierung Nach Amdahl schem Gesetz abhängig von: Anteil P des parallelisierbaren Codes des betreffenden Programms / der Anwendung Speedup S, der durch paralleles Rechnen erreicht wird (vereinfachende Annahme: Parallelisierung auf diesem Code [Anteil P] perfekt Speedup S = N = Anz. der Prozessoren) Stot = 1 = 1 (1 P) + P S (1 P) + P N Rechnerarchitektur SS 2012 º» 25

Das Amdahl sche Gesetz II Stot = 1 = 1 (1 P) + P S (1 P) + P N Betrachten Beispiel (jeweils N = 64 Prozessoren): 80% parallelisierbarer Code Speedup ca. 4.7 50% parallelisierbarer Code Speedup ca. 2 20% parallelisierbarer Code Speedup ca. 1.3.6 Maximaler Speedup bei beliebig vielen Prozessoren: lim S tot = N 1 (1 P) Allein vom sequentiellen Programmanteil abhängig!! Max. Speedup bei 80% parrallel. Code: 5! (d.h. 128 statt 64 Prozessoren kaum Gewinn [4.8]) Rechnerarchitektur SS 2012 º» 26

Das Amdahl sche Gesetz II Stot = 1 = 1 (1 P) + P S (1 P) + P N Betrachten Beispiel (jeweils N = 64 Prozessoren): 80% parallelisierbarer Code Speedup ca. 4.7 50% parallelisierbarer Code Speedup ca. 2 20% parallelisierbarer Code Speedup ca. 1.3.6 Maximaler Speedup bei beliebig vielen Prozessoren: lim S tot = N 1 (1 P) Allein vom sequentiellen Programmanteil abhängig!! Max. Speedup bei 80% parrallel. Code: 5! (d.h. 128 statt 64 Prozessoren kaum Gewinn [4.8]) Rechnerarchitektur SS 2012 º» 26

Das Amdahl sche Gesetz II Stot = 1 = 1 (1 P) + P S (1 P) + P N Betrachten Beispiel (jeweils N = 64 Prozessoren): 80% parallelisierbarer Code Speedup ca. 4.7 50% parallelisierbarer Code Speedup ca. 2 20% parallelisierbarer Code Speedup ca. 1.3.6 Maximaler Speedup bei beliebig vielen Prozessoren: lim S tot = N 1 (1 P) Allein vom sequentiellen Programmanteil abhängig!! Max. Speedup bei 80% parrallel. Code: 5! (d.h. 128 statt 64 Prozessoren kaum Gewinn [4.8]) Rechnerarchitektur SS 2012 º» 26

Das Gesetz von Gustafson (& Barsis)... stellt quasi Gegenstandpunkt zum Amdahl schen Gesetz dar: S tot = N (1 P) (N 1) Betrachten Beispiel (wieder jeweils N = 64 Prozessoren): 80% parallelisierbarer Code Speedup ca. 51.4 50% parallelisierbarer Code Speedup ca. 32.5 20% parallelisierbarer Code Speedup ca. 13.6 Wieso dieser (scheinbare) Widerspruch zum Amdahl schen Gesetz? Annahme: Problemgröße wächst linear mit der Anzahl d. Prozessoren! S tot = (1 P) + P N (1 P) + P) Rechnerarchitektur SS 2012 º» 27

Das Gesetz von Gustafson (& Barsis)... stellt quasi Gegenstandpunkt zum Amdahl schen Gesetz dar: S tot = N (1 P) (N 1) Betrachten Beispiel (wieder jeweils N = 64 Prozessoren): 80% parallelisierbarer Code Speedup ca. 51.4 50% parallelisierbarer Code Speedup ca. 32.5 20% parallelisierbarer Code Speedup ca. 13.6 Wieso dieser (scheinbare) Widerspruch zum Amdahl schen Gesetz? Annahme: Problemgröße wächst linear mit der Anzahl d. Prozessoren! S tot = (1 P) + P N (1 P) + P) Rechnerarchitektur SS 2012 º» 27

Amdahl vs. Gustafson Eine automobilistische Metapher: Amdahl s Law approximately suggests: Suppose a car is traveling between two cities 60 miles apart, and has already spent one hour traveling half the distance at 30 mph. No matter how fast you drive the last half, it is impossible to achieve 90 mph average before reaching the second city. Since it has already taken you 1 hour and you only have a distance of 60 miles total; going infinitely fast you would only achieve 60 mph. (Quelle: Wikipedia) Gustafson s Law approximately states: Suppose a car has already been traveling for some time at less than 90mph. Given enough time and distance to travel, the car s average speed can always eventually reach 90mph, no matter how long or how slowly it has already traveled. For example, if the car spent one hour at 30 mph, it could achieve this by driving at 120 mph for two additional hours, or at 150 mph for an hour, and so on. Rechnerarchitektur SS 2012 º» 28

Leistungsbewertung Problem: Ermittlung des Speedup erfordert immer die Betrachtung eines Programms/einer Anwendung E Die theoretische Peak Performance ist häufig weit entfernt von der realistischen Leistung eines Systems Lösungsansatz: Benchmarks für die Bewertung der Rechenleistung Beispiele: NAS Parallel Benchmarks (http://www.nas.nasa.gov/)... set of programs designed to help evaluate the performance of parallel supercomputers.... derived from computational fluid dynamics (CFD) applications and consist of five kernels... LINPACK (http://www.netlib.org/benchmark/hpl/) Ursprünglich numerische Programmbibliothek zum Lösen von lin. Gleichungssystemen! Achtung: Einfluss von Programmierung, Compiler,... Rechnerarchitektur SS 2012 º» 29