CPU-Update. best OpenSystems Day Herbst Unterföhring. Wolfgang Stief Senior Systemingenieur best Systeme GmbH GUUG Board Member

Ähnliche Dokumente
Xeon, Opteron, UltraSPARC höher, schneller, weiter?

CPU-Update. Wie Äpfel zu Melonen werden. best OpenSystems Day April Unterföhring

CPU-Update. best OpenSystems Day Herbst Unterföhring. Wolfgang Stief.

CPU-Update. Von Äpfeln und Birnen. best OpenSystems Day Herbst Dornach. Wolfgang Stief

Die Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien

TecNews: Sandy Bridge

moderne Prozessoren Jan Krüger

Opteron und I/O. Toni Schmidbauer. 11. Mai Zusammenfassung. Eine kurze Beschreibung der AMD Opteron Architektur.

UltraSPARC T1 (Niagara)

UltraSPARC T2 Processor

Testbericht Thomas-Krenn.AG Supermicro PDSME+

M5000 einfach ablösen durch T4/T5 LDoms und Solaris Zonen

JBF Server Neue Rechnergenerationen und deren Einsatz im JBF Umfeld. Dirk Walkenhorst & Andreas Kress, Sun Microsystems GmbH

SPARC LDom Performance optimieren

CPU-Update Dualcore Manycore Hypercore? best OpenSystems Day Mai Unterföhring

Computer und mehr.. Willkommen bei BMCHS-Computer aus Bergheim. Hardware - Motherboards Sockel 478/939 Intel Atom 6 auf Anfrage

Performance Report PRIMERGY TX120 S1

Die neuen Sun x64 Server Hubert Reith

WORTMANN AG IT - Made in Germany

Frank Kuchta Markus Rüger

Server-Virtualisierung VMware ESX Xen

Exklusive Preisliste für Nur für Sie!! Ihr exone Systemhauspartner Friedrich Ritschel GmbH & Co. KG Herr Jacobsen edv@ritschelkg.

Ein Windows Vista-PC. Peter G. Poloczek M5543 PGP II/07

Die nächste Storage Generation Vorteile und Änderungen mit 12Gb/s SAS von Avago Storage Dominik Mutterer, Field Application Engineer

Jede zweite SSD jetzt GRATIS!

Next generation of Power

Outline. Cell Broadband Engine. Application Areas. The Cell

HPC an der Uni Mainz

Cell Broadband Engine

Einsparung von Wartungs- und Lizenzkosten durch Konsolidierung

Ausblick auf den HLRN III - die neue HPC Ressource für Norddeutschland

Simplivity Rechenzentrum in a Box

Testbericht Thomas-Krenn.AG Open-E DSS

WORTMANN AG IT - Made in Germany

Inhaltsangabe zu den Systemvoraussetzungen:

Server und Workstation Lösungen

Chip Level Multithreading

SG-TRONiC IT - Made in Germany

Ihr exone Systemhauspartner Buxtenet Systemhaus GmbH & Co. KG

ParX T5060i G3 Server

mehr als 25 Jahre PC-, Notebook- und Serverproduktion Servicecenter am Produktionsstandort hunderte Arbeitsplätze und 20% Ausbildungsquote KW 13/14

Benchmarking Intel Pentium III-S vs. Intel Pentium 4

2011 Oracle Corporation Customer Presentation Version 5.2.2/

Hyperthreads in Itanium - Prozessoren

mehr als 25 Jahre PC-, Notebook- und Serverproduktion Servicecenter am Produktionsstandort hunderte Arbeitsplätze und 20% Ausbildungsquote KW 50/51

Datenblatt: TERRA PC-GAMER Zusätzliche Artikelbilder IT. MADE IN GERMANY.

Milliarden in Sekunden: Demo zu PureData for Analytics. Marc Bastien Senior Technical Professional Big Data, IBM

Die Superleisen sind wieder da!

mehr als 25 Jahre PC-, Notebook- und Serverproduktion Servicecenter am Produktionsstandort hunderte Arbeitsplätze und 20% Ausbildungsquote KW 28/29

Client: min. Intel Pentium IV oder höher bzw. vergleichbares Produkt

IBH- Fachveranstaltung / 64- bit Welten. June CSG Training

Neues in Hyper-V Version 2

SG-TRONiC IT - Made in Germany

Virtualisierung: Neues aus 2010 und Trends 2011

best Open Systems Day 20. April 2005 Migration auf 64Bit, - steigt die Performance um Faktor 4? Rüdiger Gunther

WORTMANN AG IT - Made in Germany

Testbericht Thomas-Krenn.AG Open-E DSS

Systemvoraussetzungen für ConSol*CM Version Architektur Überblick

RACK4-ATX-Q77. Features

Enterprise Computing

Januar Workstation Line Up Seite 1/2

Freiberuflicher IT-Berater Schwerpunkte: Unix, Oracle, Netzwerk. Dipl.-Inform. Joachim Jäckel

mehr als 25 Jahre PC-, Notebook- und Serverproduktion Servicecenter am Produktionsstandort hunderte Arbeitsplätze und 20% Ausbildungsquote KW 13/14

Multicore Herausforderungen an das Software-Engineering. Prof. Dr.-Ing. Michael Uelschen Hochschule Osnabrück

mehr als 20 Jahre PC-, Notebook- und Serverproduktion Servicecenter am Produktionsstandort hunderte Arbeitsplätze und 20% Ausbildungsquote KW 14/15

Performance Tuning & Scale-Out mit MySQL

August Workstation Line Up Seite 1/5

Xenologie oder wie man einen Plastikmainframe baut

BlackBerry Mobile Fusion Universal Device Service. Thomas Dingfelder, Senior Technical Account Manager ubitexx a Subsidiary of Research In Motion

In Hannover 4 Go! Dynamic Virtualization

HP ProLiant Gen8 Server

Technische Informatik

Wie profitiert SAP MaxDB von SSD Technologie?

Patchen von Solaris 10 How to touch a running system

Aquado 1599,00 ANGEBOT / DATENBLATT. Notebook. Travel & work economy! Aquado Notebooks arbeiten zuverlässig und stromsparend in jeder Situation.

Windows 7, Windows XP, Windows XP Embedded, Windows 7 Embedded Standard, Linux

best OpenSystems 20.April 2005

Sparen Sie mit der Nummer 1*

Datenblatt: TERRA PC-GAMER ,00. Gaming-PC mit 240GB SSD + AMD R9 Grafik. Zusätzliche Artikelbilder IT. MADE IN GERMANY

AMD : Ein Preis, beliebig viele virtuelle Server?

Bericht über das Projekt Server

Computer Architecture

Arrow - Frühjahrs-Special

CHARON-AXP Alpha Hardwarevirtualisierung

Die neue Sophos SG Serie

Innovative Technik, die begeistert. Umweltfreundlich, effizient, individuell. Vielseitigkeit ist Trumpf mit den Anwendungsgebieten des LES v2

XEN Performance. Projektpraktikum Informatik. Arne Klein Arne Klein () XEN Performance / 25

-,N. ep S ät KW 32/33

CHiC Chemnitzer Hochleistungs-Linux Cluster. Stand HPC Cluster CHiC. Frank Mietke, Torsten Mehlan, Torsten Höfler und Wolfgang Rehm

Angebot. Tel.: Fax: Website: Shop:

-,N. ep S ät KW 7/8. Müller PC Hofgarten Brislach Tel.: 076 / Tel: 061 / wwwmueller-pc.ch info@mueller-pc.

mehr als 25 Jahre PC-, Notebook- und Serverproduktion Servicecenter am Produktionsstandort hunderte Arbeitsplätze und 20% Ausbildungsquote KW 3/4

Chronos Software Option: Betriebssystem Windows 7 Professional 64bit vorinstalliert ENU NEU. Computersysteme im November

Bringt Servertechnologie richtig zur Geltung: MAXDATA PLATINUM Server 3200 I

BSS Server S Technische Daten - BSS Enterprise Solution. business solutions. LAN 10/100/1000 MBit/s

HP Enterprise ProLiant DL160 Gen9 Base - Server - Rack-Montage

Praxisbericht: T4-1 mit Oracle VM Server for SPARC

SimpliVity. Hyper Converged Infrastruktur. we do IT better

HP Z440 WORKSTATION Bild Art.-Nr. Name Bestellt Lager Brutto

ASIC-SYNTHESE DER SHAP-MIKROARCHITEKTUR

Transkript:

CPU-Update best OpenSystems Day Herbst 2006 Unterföhring Wolfgang Stief stief@best.de Senior Systemingenieur best Systeme GmbH GUUG Board Member

Einführung Welcome to 64 Bit! Sämtliche Server-CPUs sind mittlerweile 64bit Alle wichtigen Server-Betriebssysteme sind in aktueller Version 64bit: Linux, {Net,Free,Open}BSD, Windows, Solaris, AIX, HPUX, IRIX CPU-Trends allgemein Multithreaded: 2...8 Threads Multicore: 2...8 Cores zunehmend Special Purpose Units (SPU) on Chip: Hypervisor, Crossbar, Netzwerk I/F, PCIe etc. No more One size fits all. Seite 2 von 39

Agenda Intel Woodcrest + Intel Clovertown (Dualcore / Quadcore) AMD Opteron + AMD Barcelona (Dualcore / Quadcore) Sun UltraSPARC T1 und T2 (Niagara-2) Sun UltraSPARC IV+, Fujitsu SPARC64 VI und VI+ Benchmark-Abenteuer Seite 3 von 39

Intel Woodcrest Dualcore, 65nm Prozess 4MB shared L2 Cache dual 1333 MHz FSB Interface (max) 1.6GHz / 1.86GHz @ 1066MHz FSB (8.5GB/s), 2.0GHz...3.0GHz @ 1333MHz FSB (10.7GB/s) 65W-85W Stromaufnahme 40W @ 2.33 GHz geplant Seite 4 von 39

Intel Woodcrest Smart Cache Data Sharing im Cache mehr Cache Hit Rate keine Cache Data Replication insgesamt bessere Cache-Ausnutzung Haken bei Intel: In all these designs, neither core realizes the other lies in close physical proximity (Nathan Brookwood, Insight 64) Seite 5 von 39

Intel Woodcrest System Architecture switched architecture, Intel 5000P Chipset (Blackford) Memory Controller (= Northbridge) kann Engpass werden Je nach Benchmark ist Woodcrest od. Opteron vorne Seite 6 von 39

Intel Clovertown Quadcore, 65nm Prozess Ad hoc Design: 2x Dualcore zusammengepappt Engpass: FSB Memory Seite 7 von 39

Intel Clovertown Insight64 zum Design: Based on the timing of the recent drumbeats, we believe that Clovertown will consist of two woodcrest dice crammed into a single package, as illustrated. We've seen this movie before, and it didn't have a ending then, either. Hypervisor Technologie: Vanderpool Seite 8 von 39

Agenda Intel Woodcrest + Intel Clovertown (Dualcore / Quadcore) AMD Opteron + AMD Barcelona (Dualcore / Quadcore) Sun UltraSPARC T1 und T2 (Niagara-2) Sun UltraSPARC IV+, Fujitsu SPARC64 VI und VI+ Benchmark-Abenteuer Seite 9 von 39

AMD Dualcore Opteron Dualcore, 90nm Prozess 1MB L2 Cache je Core Crossbar on Chip MMU on Chip: DDR400, 6.4GB/s memory bandwidth (dual core Rev. E) Stromaufnahme max. 90W bzw. 120W, wird von AMD garantiert (design goal) Neighbours + I/O: Hypertransport, 3x 8GB/s Seite 10 von 39

AMD Quadcore Opteron Quadcore, 65nm Prozess 2MB shared L3 Cache (?) Crossbar on Chip MMU on Chip: DDR2-667, 10.7GB/s memory bandwidth (dual core Rev. F + quad core) Stromaufnahme max. 90W bzw. 120W, wird von AMD garantiert (design goal) Neighbours + I/O: Hypertransport, 3x 8GB/s Seite 11 von 39

AMD Quadcore Opteron Vorteil: Memory-Bandbreite zu lokalem RAM Nachteil: NUMA (Latenz bei Memory-Zugriff, Cache Coherency) Insight 64: AMD system partners accomplished the move from single to dual-core systems by merely dropping dual-core Opterons into the socket previously designated for single-core processors, a far simpler move than the gymnastics Intel's system OEMs hat do unterdake in their move to dualcore Xeon systems Dual-Core und Quad-Core haben den selben Sockel F und das selbe Chipset, also einfaches Drop-In Replacement Seite 12 von 39

AMD Opteron Multiprocessing 4-Way u. U. Performance-Gewinn bei 4 3 CPUs wg. Verkürzung der Memory-Latenzen Seite 13 von 39

AMD Opteron Multiprocessing 8-Way ladder twisted ladder extended twisted ladder entscheidend: Anzahl Hops ins nicht lokale RAM Ausfall einer CPU = Ausfall des Systems, kein Blacklisting Sun X4600: extended twisted ladder Seite 14 von 39

AMD Opteron Systemdesign Sun X4600 8-Way extended twisted ladder auch mit 2 od. 4 CPUs lauffähig I/O: nvidia, 1x HT/PCIBridge, 1x Multifunktion Seite 15 von 39

AMD Opteron Roadmap Hypervisor: Pacifica nicht kompatibel mit Intel Vanderpool (wg. MMU) kommt mit Sockel F (= Rev. F) Drop-In Replacement Vor Kurzem: Übernahme ATI durch AMD: Grafik-Subsystem auf dem Die? (SPU) Seite 16 von 39

Agenda Intel Woodcrest + Intel Clovertown (Dualcore / Quadcore) AMD Opteron + AMD Barcelona (Dualcore / Quadcore) Sun UltraSPARC T1 und T2 (Niagara-2) Sun UltraSPARC IV+, Fujitsu SPARC64 VI und VI+ Benchmark-Abenteuer Seite 17 von 39

Sun Niagara-2 (UltraSPARC T2?) 65nm, vorauss. 1.4GHz Core-Takt 8 Cores mit je 8 Strands 64 CPUs on die! Verdoppelung der Strands ist flächeneffizienter als Verdoppelung der Cores. Crossbar on Chip (SPU) Seite 18 von 39

Sun Niagara-2 (UltraSPARC T2?) PCIe 8x + 2x 10GBE on Chip Bandbreite der Datenpfade noch nicht öffentlich je Core 1 FPU je Core 1 Crypto-Unit: RSA, Polynomical Elliptic Curve, DES/3DES, AES128, AES192, AES256, SHA-1, SHA-256, RC4, MD5 Design-Ziel: 2x Throughput T1 Design-Ziel: Crypto in Wirespeed auf beiden 10GBE Integer Pipeline: 8 Stages Float Pipeline: 12 Stages (divide/sqrt ist länger) DMA Engine teilt sich den Crossbar-Port mit dem jeweiligen Core Seite 19 von 39

Sun Niagara-2 (UltraSPARC T2?) Parity Protection: I$, D$ Tags, D$ Data, ITLB, DTLB, Arithmetic Memory, Store Buffer Address Server-on-a-Chip : alle wichtigen Funktionen auf dem Chip enthalten verbesserte Stromsparfunktionen eingebauter Hypervisor (seit Niagara-1), Logical Domains (LDOMs) wird vorauss. mit Solaris 10 U4 (ca. Anfang 2008) unterstützt CPU ist OpenSource: http://www.opensparc.net/ Verilog RTL Sources Dokumentation Tools / Application Stack (Apache, PHP, mysql etc.) GCC for SPARC Systems bereits seit UltraSPARC T1 (= Niagara) Seite 20 von 39

Agenda Intel Woodcrest + Intel Clovertown (Dualcore / Quadcore) AMD Opteron + AMD Barcelona (Dualcore / Quadcore) Sun UltraSPARC T1 und T2 (Niagara-2) Sun UltraSPARC IV+, Fujitsu SPARC64 VI und VI+ Benchmark-Abenteuer Seite 21 von 39

Sun UltraSPARC IV+ 2x UltraSPARC III Core auf einem Die 90nm Prozess (Texas Instruments) bis 1.8GHz, ca. 90W 2MB L2 Cache on Chip 32MB L3 Cache, Tags on Chip, Data off Chip Mixed CPU-Betrieb möglich, je nach System mit UltraSPARC III, IV und IV+ NUMA-Architektur, Crossbar-Switch auf Backplane (SunFire Interconnect) Seite 22 von 39

Sun UltraSPARC IV+ Sun V890 Seite 23 von 39

Fujitsu SPARC64 VI 2 Cores + 2 Strands je Core 90nm Prozess 2.4GHz @ 120W 6MB L2 Cache on Chip (ggf. wesentlicher Performance-Vorteil) verbesserter SPARC64 V, keine wesentlichen Änderungen (Modellpflege) Seite 24 von 39

Fujitsu SPARC64 VI+ 4 Cores + 2 Strands je Core 65nm Prozess > 2.7GHz wahrscheinlich > 6MB L2 Cache on Chip wird sehr wahrscheinlich in Sun APL verbaut werden (Advanced Product Line), Anfang/Mitte 2007 Seite 25 von 39

Sun SPARC Roadmap (nicht brandaktuell) Seite 26 von 39

Agenda Intel Woodcrest + Intel Clovertown (Dualcore / Quadcore) AMD Opteron + AMD Barcelona (Dualcore / Quadcore) Sun UltraSPARC T1 und T2 (Niagara-2) Sun UltraSPARC IV+, Fujitsu SPARC64 VI und VI+ Benchmark-Abenteuer Seite 27 von 39

Eine kleine Benchmarklehre Benchmarks are Voodoo: Understand, what to benchmark! Understand, how to benchmark! Never trust the numbers alone! SPECint und SPECfp, 2000 und 2006: Kombination CPU / Cache / RAM kein Realworld-Benchmark Suite passt sich alle paar Jahre an die CPU-/Systementwicklung an, Ergebnisse nur schwer oder gar nicht vergleichbar TPC-C und TPC-D I/O-Subsystem, lassen sich durch geschickte Plattenkombination stark beeinflussen! kein Realworld-Benchmark veraltet, nicht adäquat für aktuelle Systeme Seite 28 von 39

Eine kleine Benchmarklehre Frage: Welche Metrik? Wie werden Systeme vergleichbar? Ansatz: Performance / Watt Leistungsaufnahme ~ erforderlichen Kühlleistung Leistungsdichte ist in RZs maßgebliche Größe: Kühlleistung je Quadratmeter weniger Leistungsaufnahme mehr Server auf gleichem Raum Seite 29 von 39

Benchmarking ein paar Zahlen aktueller Spitzenreiter ist Niagara bzw. Niagara-2: ca. 60W 70W bei 100% Load (in Summe auf allen Cores mit allen Strands) AMD Opteron und Intel Woodcrest ca. gleich für CPU: ca. 90W 120W bei 100% Load (lt. Datenblatt) Aber: auch RAM braucht Strom! FBDIMM deutlich mehr als DDR, dafür auch deutlich schneller Auch Peripherie braucht Strom (Bootplatten, NICs etc.) Forderung: Bei Benchmarks auch genau angeben, welche Konfiguration gemessen wurde! Seite 30 von 39

Benchmarking ein paar Zahlen Beispiel: Woodcrest 2-Way T2000 T1000 RAM 8GB 16GB 32GB 32GB 16GB Disk 1x150GB SATA 7k2 1x73GB SAS 15k 2x SATA 7k2 4x73GB SAS 10k?? 330W 430W 510W 330W 185W Leistungsaufnahme 1 Rack mit 32GB Woodcrest: 510W x 20 Server = 10.2kW / Rack ca. 20kW Gesamtleistung (incl. Cooling) Seite 31 von 39

Benchmarking ein paar Zahlen Skalierung über Taktfrequenz: SPEC CPU2000 Benchmark (http://www.spec.org/) Fujitsu Siemens Celsius R540 CPU / GHz Config SPECfp_rate 2000 Intel 5160 / 3.0 Intel 5160 / 2.6 Intel 5160 / 2.0 4 Core / 2 Socket 4 Core / 2 Socket 4 Core / 2 Socket 80.6 77.4 68.4 2GHz 3GHz 50% Steigerung der Taktrate Steigerung SPECfp_rate bei 17.8% Memory Latency @ FSB? Seite 32 von 39

Benchmarking ein paar Zahlen Skalierung über Anzahl CPUs: Fluent 6.2 Benchmark (http://www.fluent.com/) Intel S5000 XAL, 3.0GHz Xeon Woodcrest 5160 FL5L1 (scaling) FL5L2 (scaling) 4 Core / 2 Socket 631.8 (3.3) 400.0 (3.0) 2 Core / 1 Socket 372.8 (1.9) 226.0 (1.7) 1 Core / 1 Socket 194.0 (1.0) 133.0 (1.0) mit 4 Cores nur 3.0- bis 3.3-fache Leistung Memory Latency @ FSB? Sun insgesamt etwas schlechter, skaliert aber nahezu linear, insgesamt wenig Streuung bei allen gemessenen Systemem Seite 33 von 39

Benchmarking ein paar Zahlen Opteron vs. Woodcrest Intel S5000 XAL, 3.0GHz Xeon Woodcrest 5160 Sun X4100 M2, 2.8GHz Opteron DC 2200 Fluent 6.2 Benchmark (http://www.fluent.com/) Intel Sun/AMD # Cores FL5M3 (scaling) FL5L2 (scaling) 4 Core 827.0 (2.8) 400.0 (2.9) 2 Core 553.7 (1.9) 226.0 (1.6) 1 Core 297.3 (1.0) 138.0 (1.0) 4 Core 979.9 (3.6) 486.6 (4.1) 2 Core 516.1 (1.9) 241.8 (2.1) 1 Core 273.5 (1.0) 117.6 (1.0) Seite 34 von 39

Benchmarking ein paar Zahlen Server haben doch Stromsparmodi? Richtig! Aber: Server 1: 400W @ 100%, spart 20W je 10% weniger Auslastung Server 2: 300W @ 100%, spart 20W je 10% weniger Auslastung Utilization Server 1 Server 2 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% Watts @ Utilization 400 380 360 340 320 300 280 260 240 220 Watts / Work 400 422 450 486 533 600 700 867 1200 2200 Watts @ Utilization 300 280 260 240 220 200 180 160 140 120 Watts / Work 300 311 326 343 367 400 450 533 700 1200 Seite 35 von 39

Benchmarking ein paar Zahlen Und was sagt uns das jetzt? Annahme 1: 5 Server @ 10% Load 5x 220W = 1100W Aber! 1 single server mit 5x10% = 50% Load 300W Annahme 2: 4 Server @ 20% Load 5x 140W = 560W Aber! 1 single server mit 4x 20% = 80% Load 260W Ziel: vorhandene Resourcen besser ausnutzen! Seite 36 von 39

Quellen und Links Greg Grohoski Niagara-2: A highly threaded Server-on-a-Chip Sun Microsystems, August 2006 David Kanter Niagara II: The Hydra Returns http://www.realworldtech.com/ Nathan Brookwood The role of intelligent design in the evolution of multiple processors Insight 64, 2006 Jason Clark, Ross Whitehead Intel Woodcrest: the birth of a new king http://www.anandtech.com/printarticle.aspx?i=2793 Weblog: BM Seer http://blogs.sun.com/bmseer Seite 37 von 39

Quellen und Links CoolTools http://cooltools.sunsource.net/ Compiler, Binary Tools, Testwerkzeuge für UltraSPARC-Systeme OpenSparc http://www.opensparc.net/ Dokumentation, Foren, Sourcen zu Sun UltraSPARC T1 Seite 38 von 39

Danke für die Aufmerksamkeit. Fragen? best OpenSystems Day Herbst 2006 Unterföhring Wolfgang Stief stief@best.de Senior Systemingenieur best Systeme GmbH GUUG Board Member