Die Hammer Familie. Ein Kurzreferat von Frank Grümmert im Fach Rechnerstrukturen bei Herrn Prof. Dr. Risse an der Hochschule Bremen

Ähnliche Dokumente
Der Front Side Bus ist eine Schnittstelle zwischen dem Hauptprozessor (CPU) und der

Computer und mehr.. Willkommen bei BMCHS-Computer aus Bergheim. Hardware - Motherboards Sockel 478/939 Intel Atom 6 auf Anfrage

Opteron und I/O. Toni Schmidbauer. 11. Mai Zusammenfassung. Eine kurze Beschreibung der AMD Opteron Architektur.

Die Sandy-Bridge Architektur

moderne Prozessoren Jan Krüger

Busse. Dr.-Ing. Volkmar Sieh. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg WS 2008/2009

Busse. Dr.-Ing. Volkmar Sieh WS 2005/2006. Institut für Informatik 3: Rechnerarchitektur Friedrich-Alexander-Universität Erlangen-Nürnberg

Mehrprozessorarchitekturen

Neue Dual-CPU Server mit Intel Xeon Scalable Performance (Codename Purley/Skylake-SP)

Die Architektur des Sun UltraSPARC T2 Prozessors, Anwendungsszenarien

Hardware-Komponenten. DI (FH) Levent Öztürk

Virtueller Speicher und Memory Management

DOAG Konferenz 2007 in Nürnberg

Seminar: Multi-Core Architectures and Programming

AMD 64 Bit Architektur

Supermicro VDI-Lösungen mit NVIDIA GRID

Neue Prozessor-Architekturen für Desktop-PC

Rechnerorganisation. 1. Juni 201 KC Posch

Rechner Architektur. Martin Gülck

Architektur und Organisation von Rechnersystemen

RST-Labor WS06/07 GPGPU. General Purpose Computation On Graphics Processing Units. (Grafikkarten-Programmierung) Von: Marc Blunck

Im Bereich der Entwicklung und Herstellung von Prozessoren spielen

Instruktionen pro Takt


Produktnummer Produktbeschreibung Listpreis HP 2-Wege 1 GHz PA-RISC 8900 Prozessor mit 1.5 MB L1 Cache und keinem L2

Dell PowerEdge T20 Minitower-Server: Häufig gestellte Fragen

CUDA 4230 GPU WORKSTATION, KEPLER READY

Kirchstrasse 11 CH Sins Telefon: Fax: info@tinline.ch

Seminar Parallele Rechnerarchitekturen SS04 \ SIMD Implementierung aktueller Prozessoren 2 (Dominik Tamm) \ Inhalt. Seite 1

IT für Führungskräfte. Zentraleinheiten Gruppe 2 - CPU 1

Optimierungen der Lattice Boltzmann Methode auf x86-64 basierten Architekturen

CALLEO INFRASTRUCTURE SERVER 1101

3. Rechnerarchitektur

Produktupdate HP DESKTOP PORTFOLIO - OKTOBER

Komplettsysteme. Hersteller Art. Nr EAN/UPC

Veriton M. Mit Skalierbarkeit für die Zukunft gewappnet. Eingebaute Kontrolle. Nur das Beste für Sie und die Umwelt

CHARON-AXP Alpha Hardwarevirtualisierung

TecNews: Sandy Bridge

Rückseite vom Celeron Coppermine 128, 600 MHz

ZENTRALEINHEITEN GRUPPE

Produktupdate HP DESKTOP PORTFOLIO

Wichtige Rechnerarchitekturen

An Introduction to Simultaneous Multi-Threading Prinziples and Architectures

Datenblatt: TERRA PC-GAMER Zusätzliche Artikelbilder IT. MADE IN GERMANY.

Vorstellung der SUN Rock-Architektur

Datenblatt: TERRA PC-GAMER ,00. Gaming-PC mit 120GB SSD + NVIDIA GTX 970 Grafik. Zusätzliche Artikelbilder IT. MADE IN GERMANY

CompactPCI Tualatin CPU CC7-JAZZ

Cell and Larrabee Microarchitecture

Philipp Grasl PROZESSOREN

Datenblatt: TERRA PC-GAMER Zusätzliche Artikelbilder IT. MADE IN GERMANY.

Betriebssysteme I WS 2017/18. Prof. Dr. Dirk Müller. 05a 64-/32-Bit-Architekturen

parat. AMDs x86-prozessoren bieten hierfür das 3

CALLEO INFRASTRUCTURE SERVER 1107

Rechnerstrukturen. 6. System. Systemebene. Rechnerstrukturen Wintersemester 2002/03. (c) Peter Sturm, Universität Trier 1. Prozessor.

Rechnernetze und Organisation

Computergrundlagen Moderne Rechnerarchitekturen

Computergrundlagen Geschichte des Computers

Datenblatt: TERRA PC-HOME Zusätzliche Artikelbilder IT. MADE IN GERMANY. Technische Änderungen und Irrtümer vorbehalten. Keine Mitnahmegarantie.

Mikrorechner-Technik

Notizen-Neuerungen PC- HAUPTSPEICHER

Datenblatt: TERRA MINISERVER G ,00. Chipsatz: Intel C232 / Sockel 1151 / Single-Prozessor-System. Zusätzliche Artikelbilder IT. MADE IN GERMANY.

Computergrundlagen Geschichte des Computers

z/architektur von IBM

Übersicht. Vergleich der Spielekonsole mit dem PC. Historie der Spielekonsolen von 1976 bis 1999

Systemanforderungen Verlage & Akzidenzdruck

Datenblatt: TERRA PC-GAMER ,00. Gaming-PC mit 240GB SSD + NVIDIA GTX 970 Grafik. Zusätzliche Artikelbilder IT. MADE IN GERMANY

Fachbereich Medienproduktion

Intel P6 (Intel Pentium Pro) - Besonderheiten, Techniken und Architektur

Bezeichnung des Materials Anzahl Bemerkungen

Marketing. Hersteller. EAN/UPC ITscope Art. Nr Overview

Cache Blöcke und Offsets

HP Workstation z640 - Workstation - Xeon E5 2,4 GHz - RAM: MB DDR-4 - HDD: 256 GB Serial ATA - Nicht verfügbar

Mikroprozessoren Grundlagen AVR-Controller Input / Output (I/O) Interrupt Mathematische Operationen

Datenblatt: TERRA PC-BUSINESS 5000 GREENLINE 539,00. Bestseller Core i5 PC. Zusätzliche Artikelbilder IT. MADE IN GERMANY

CALLEO SILENT SERVER T181

Systemanforderungen. für Sage WINCARAT. Systemanforderungen Sage bäurer GmbH, D VS-Villingen

Rechnernetze und Organisation

Systemvoraussetzungen Einplatzanlage

Hyrican GIGABYTE Edition CTS MT- 1 x Pentium G4500 / 3.5 GHz - RAM 8 GB

exone BUSINESS S 1101 i W8.1Pro>W7

Quiz. Gegeben sei ein 16KB Cache mit 32 Byte Blockgröße. Wie verteilen sich die Bits einer 32 Bit Adresse auf: Tag Index Byte Offset.

Datenübertragung per Direct Memory Access (DMA)

Mikroprozessortechnik Grundlagen 1

Testbericht Thomas-Krenn.AG Open-E DSS

Datenblatt: TERRA PC-GAMER ,00. Gaming-PC mit 240GB SSD + AMD R9 Grafik. Zusätzliche Artikelbilder IT. MADE IN GERMANY

5. PC-Architekturen und Bussysteme

Ihr exone Systemhauspartner Buxtenet Systemhaus GmbH & Co. KG

Xeon, Opteron, UltraSPARC höher, schneller, weiter?

Das Motherboard (Hauptplatine) beinhaltet Prozessor (CPU), Speicher (RAM) Anschlüsse für interne Disks, Steckkarten, Anschlüsse nach aussen

SENYO MINI PC 1000MP. II Intel Core i3/i5 Prozessor. II Intel HD-Grafik 520. II 1 x msata M.2

Performance-Vergleich

Systemanforderungen Manufacturing Execution System fabmes

IHR ANGEBOT. PC-Profis Computer GmbH. erstellt durch

Quad-Port SFP+ Server Netzwerkkarte - PCI Express - Intel XL710 Chip

Display PC Der PC im Monitor

erstellt durch Fixel-Computer

HP Z4 Workstation. Unsere Empfehlung bei anspruchsvollen Modellen und konstruktionsbegleitenden Berechnungen und Analysen. ab 2.

Datenblatt: TERRA PC-HOME Zusätzliche Artikelbilder IT. MADE IN GERMANY. Technische Änderungen und Irrtümer vorbehalten. Keine Mitnahmegarantie.

Transkript:

AMD s Next Generation Die Hammer Familie Ein Kurzreferat von Frank Grümmert im Fach Rechnerstrukturen bei Herrn Prof. Dr. Risse an der Hochschule Bremen 1

Inhaltsverzeichnis EINLEITUNG 3 VARIANTEN DER HAMMERS 3 Athlon-64 4 OPTERON 5 DER CORE 6 DIE PIPELINE 7 OPERATING MODES 8 SPEICHER-INTERFACE 10 HYPERTRANSPORT-INTERFACE 11 FAZIT 13 QUELLEN 14 2

Einleitung Während Intel mit der EPIC-Architektur ein neues Computer-Modell bei seinen 64-Bit-Prozessoren der Itanium-Maschine einsetzt, versucht es AMD mit einen weichen Übergang in die 64-Bit-Welt. Ähnlich wie die Transition von 286er (16 Bit) auf 386er (32 Bit) sollen die Hammer-CPU als vollwertige 32-Bit-CPUs agieren. Mit dieser Synthese aus den verschieden Welten verspricht sich AMD eine deutliche Leistungssteigerung auch in der alten 32-Bit-Welt. AMD setzt dabei weiterhin auf allgemeine Design Techniken und nichtexotischer Silizium Prozesse. Dies führt dazu, dass die Produktionskosten und Entwicklungskosten im Rahmen bleiben und versprechen so gegenüber dem Hauptkonkurrenten, Intels Itanium sogar einen entscheidenden Vorteil zu bringen. Einerseits setzt AMD weiterhin auf Kompatibilität [ SSE / 32 Bit Architektur ] andererseits geht AMD neue Wege im Multiprozessorbereich. Mit der Hammerfamilie soll es möglich sein 4 Prozessor bzw. 8 Prozessor Systeme zu fertigen. Nimmt man den wahrscheinlich günstigen Verkaufspreis, die Multiprozessormöglichkeit, die Kompatibilität und letztlich die Möglichkeiten der neuen 64 Bit Architektur zusammen, verspricht AMD s 8-te Prozessorgeneration ein echter Erfolg zu werden. Wir werden nun einen tieferen Einblick in die Architektur und das Design dieser Prozessorgeneration werfen. [6][7] Varianten der Hammers AMD begründet unter anderem die unterschiedlichen Varianten des AMD damit dem Kunden einen zugeschnittenen Prozessor anzubieten und dabei soweit es geht kostendeckend zu produzieren. Die Hammer-Ära leitet zunächst Claw-Hammer ein. Die CPU erscheint zunächst als Single-Prozessor-Implementation für Workstations. Im Anschluss folgt eine Dual-CPU-fähige Variante des Claw-Hammer für Highend-Workstations und Server. AMD läst den Claw-Hammer jedoch auch unter den Namen Athlon-64 laufen um an die erfolgreiche Athlon Serie anzuknüpfen und von dessen Popularität zu profitieren. Circa ein halbes Jahr später soll dann der lange erwartete Sledge-Hammer auf den Markt kommen und von da an den Markennamen Opteron führen. Diese Server-CPU skaliert bis acht Wege ohne zusätzliche Crossbar-Komponenten, was bedeutet das es möglich ist bis zu 8 Prozessoren in einen System zu vereinen, ohne zusätzlichen Hardwareaufwand zu benötigen. Prinzipiell unterscheiden sich die verschiedenen Hammer-Varianten nur durch die Zahl der integrierten Hyper-Transport-Ports. Während Athlon-64 mit einem oder zwei Hypertransports arbeitet, offeriert der Opteron mehr als 2 dieser Kanäle. Bei ihm es sogar möglich, mehr als 8 Prozessoren über Switches zu verbinden. Die Übersicht über den Aufbau der unterschiedlichen Varianten soll einen etwas näheren Einblick geben. [6][7] 3

Denn schaut man sich die Unterschiede etwas genauer an, so unterscheiden sich die Prozessoren nicht nur in der Anzahl der Ports sondern auch in ihrer Bandbreite. Der Athlon-64 bietet entweder einen vollen 16bit breiten Port oder zwei 8bit breite Ports an. (Abbildung 1 & 2 ). Der Opteron hat immer 16 Bit breite Ports, egal ob es 2, 3 oder mehr Ports sind. ( Abbildung 3 ) Weiter unterscheiden sich die Varianten auch im Cache auf dem Prozessor. Der Athlon-64 muss mit 256-512kB L2 Cache auskommen während der Opteron mehr als 1 MB aufzuweisen hat. Ein sehr signifikanter Unterschied besteht weiterhin in der Anzahl der Speicherkanäle. Auch hier hat der kleine Bruder des Opteron der Athlon-64 nur einen 72 bit DDR Kanal, während der Opteron dergleichen zwei aufweist. Somit liegen die Grenzen beim Athlon-64 bei 4 GB RAM und beim Opteron bei 8GB RAM. Letztendlich sieht man auch an Hand der Sockel, um welchen der beiden Prozessoren es sich handelt. Der Athlon-64 kommt noch mit 754 Pins aus während der Opteron durch die hohe Integration 940 Pins benötigt. Die nun folgende Übersicht soll die Unterschiede graphisch hervorheben. Athlon-64 X86-64 Bit 1P Desktop Prozessor ein 72-bit DDR Kanal 200, 266, and 333 MHz 4GB DDR DRAM Ein 16-bit HT Port (HT =HyperTransport) On chip L1 & L2 cache 64K-Byte L1 Instruction 64K-Byte L1 Data 256/512KB ECC protected L2 754-pin mpga Package 64 wide DRAM 72 64k L1 Instruction Cache x86-64 Processor Core 64k L1 Data Cache DDR Memory Controller HyperTransport 512k or 256K Byte L2 Cache 16 1600MT/s Ersetzt Address, Data und Control Bus Abbildung 1 4

X86-64 Bit 2P Desktop Prozessor ein 72-bit DDR Kanal 200, 266, and 333 MHz 4GB DDR DRAM Zwei 8-bit HT Ports (HT =HyperTransport) On chip L1 & L2 cache 64K-Byte L1 Instruction 64K-Byte L1 Data 256/512KB ECC protected L2 754-pin mpga Package 64 wide DRAM 72 64k L1 Instruction Cache X86-64 Processor Core 64k L1 Data Cache DDR Memory Controller HyperTransport 512k or 256K Byte L2 Cache Abbildung 2 8 8 1600MT/s OPTERON X86-64 Bit 2-8P Desktop Prozessor zwei 72-bit DDR Kanäle 200, 266, and 333 MHz 8GB DDR DRAM mehr als zwei 16-bit HT Ports (HT =HyperTransport) On chip L1 & L2 cache 64K-Byte L1 Instruction 64K-Byte L1 Data mehr als 512 KB ECC protected L2 940-pin mpga Package 64 wide DRAM 72 72 64k L1 Instruction Cache X86-64 Processor Core 64k L1 Data Cache Dual DDR Memory Controller HyperTransport 1M or 2M Byte L2 Cache 16 16 16 1600MT/s Abbildung 3 5

Der Core Die Hammer-Prozessoren basieren auf einem Core der achten Generation. AMD führt damit seit dem K7-Core (aktuell als Palomino-Core) des Athlon erstmals wieder eine neue Architektur ein. Die Hammer-Architektur setzt dabei auf hohe Integration und verfügt über eine interne Northbridge. [6][7] Abbildung 4 Hammer-Architektur: AMDs erster 64-Bit-Prozessor kommt mit integriertem Memory-Controller und HyperTransport-Interface. Die komplette Architektur des Hammer lässt sich in fünf Funktionsblöcke aufteilen: Prozessor-Core, L1-Daten- und Befehls-Cache, L2-Cache, DDR- Memory-Controller sowie das HyperTransport-Interface. AMDs Hammer ist zudem multiprozessorfähig und verfügt über eine entsprechende Controller- Logik. Der Hammer-Core bietet neun Ausführungseinheiten für Integer- und Floating- Point-Operationen. Darin ist eine SSE2-kompatible Einheit enthalten. Gefüttert werden die Ausführungseinheiten über drei unabhängige Befehlsdecoder-Pipes, die in den Schedulern enden. Level 2 Cache Instr n Level 1 Instr n Cache TLB Fetch 2 - transit Pick Decode 1 Decode 2 Decode 1 Decode 2 Decode 1 Decode 2 2k Branch Targets 16k History Counter RAS & Target Address Abbildung 5 Hammer-Core: Neun Ausführungseinheiten warten auf Befehle. Die Floating-Point-Units beherrschen SSE2. Kurzerläuterung : RAS = Return Adress Stack AGU = Address Generation Units L2 ECC L2 Tags L2 Tag ECC System Request Queue (SRQ) Cross Bar (XBAR) Memory Controller & HyperTransport Northbridge Pack Pack Pack Decode Decode Decode 8-entry Scheduler 8-entry Scheduler 8-entry Scheduler 36-entry Scheduler AGU ALU AGU ALU AGU ALU FADD FMUL FMISC Data TLB Level 1 Data Cache ECC Drei davon können je acht Einträge puffern und bedienen die sechs Integer- Units. Diese bestehen aus drei ALUs und den drei Address Generation Units ( AGU), die für die Load-/Store-Vorgänge vom und zum Cache verantwortlich 6

zeichnen. Die drei Fließkomma Einheiten (FPU) versorgt schließlich ein 36 Einträge fassender vierter Scheduler. Die Pipeline Beim Hammer setzt AMD auf eine mit 32 Stufen sehr tief ausgeführte Pipeline, in der Cache- und Speicherzugriffe enthalten sind. Von vormals 10 Stufen beim Athlon kann der Hammer nun auf eine 12-stufige Pipeline bei Integer- Operationen zurückgreifen. Die Basis-Pipeline für die Befehlsdurchführung ist dabei zwölf Stufen tief. Insgesamt lässt sich die Hammer-Pipeline in vier Abschnitte mit den angegebenen Funktionen unterteilen: Stufe 1 bis 7: Fetch-Vorgang und Befehlsdekodierung Stufe 8 bis 12: Befehlsausführung Stufe 13 bis 19: L2-Pipeline Stufe 20 bis 32: DRAM-Zugriffe Die ersten zwölf Pipeline-Stufen führt der Hammer innerhalb einer Nanosekunde aus. Diese Zeitangabe basiert auf einer CPU-Taktfrequenz von 2 GHz. Genaue Angaben zu den Taktfrequenzen der ersten Hammer-Prozessoren machte AMD jedoch nicht. Nach den Timing-Angaben zu schließen kann man aber von einem Takt von 2 GHz ausgehen. [8] [10] Abbildung 6 Hammer-Pipeline: Die insgesamt 32 Stufen gliedern sich in Fetch, Execution, L2-Cache und Speicherzugriff. [Fetch+Exec bilden Integer Pipeline ] Die Integer Pipeline ist innerhalb der ersten 12 Stufen abgebildet. Die in der Execution befindlichen Stages Data Cache 1 und Data Cache 2 beinhalten die write back Funktionen. Siehe auch [12] Folie 14 16 sowie [11] Folie 15-19 für weitere Informationen. Die letzten 20 Stufen sind für die Kommunikation zum L2 Cache bzw. Ram gedacht. Leder findet sich hierzu nichts genaueres außer der Präsentation von AMD [11]. Eines der Probleme die durch den hohen Takt auftreten können, ist die Misprediciton. Allein die zwei Stufen innerhalb der Integer Pipeline erhöhen die Misprediciton Gefahr um 20% im Gegensatz zum alten Athlon mit 10 Stufen. AMD entwickelte dazu auch einen neuen branch predictor in der Hoffung das der Effekt dadurch weniger auftritt. Weitere Informationen zum Thema Branch Prediction können z.b. unter [9] abgerufen werden. 7

Operating Modes Die x86-64-architektur von AMDs Hammer erweitert den x86-standard um einen Long Mode getauften Modus. Über das globale Kontroll-Bit LMA (Long Mode Active) wird festgelegt, ob der Prozessor im 64-Bit-Modus arbeiten soll. Steht das LMA-Bit auf 0, verhält sich die Hammer-CPU wie ein normaler x86-prozessor. Die CPU befindet sich dann im so genannten Legacy Mode und ist voll kompatibel zu vorhandenen 16- und 32-Bit-Betriebssystemen und -Anwendungen. Die 64-Bit- Features des Hammer sind komplett deaktiviert. (Abbildung 7) Abbildung 7 Der Long Mode der x86-64-technologie (LMA = 1) beinhaltet zwei Untermodi: den 64-Bit-Mode und einen Compatibility Mode. Diese beiden Prozessorzustände werden über zwei weitere Flags gewählt: Der CS-Descriptor legt fest, ob Anwendungen in der 64-Bit-Umgebung im Compatibility Mode mit 16 oder 32 Bit laufen oder den 64-Bit-Mode nutzen. Im 64-Bit-Mode bietet der Hammer folgende neue Features: 40-Bit- physikalischer Adressraum (+48 Bit Virtual Address ) Register-Erweiterung der acht GPRs auf 64 Bit durch das Präfix R Zusätzlich acht neue GPRs R8 bis R15 Acht neue 128-Bit-SSE-Register XMM8 bis XMM15 64-Bit-Befehlszeiger (RIP) Relative Datenadressierung mit 64-Bit-Offset 8

Beim Hammer hat AMD die Zahl der allgemeinen Register (GPRs) verdoppelt. Für 64-Bit-Berechnungen stehen die über das R-Präfix erweiterten ersten acht Register (RAX bis RSP) sowie die acht neuen Register R8 bis R15 zur Verfügung. Für Fließkomma-Berechnungen wurden außerdem die 128 Bit breiten SSE- Register mit XMM8 bis XMM15 verdoppelt. Diese sind nun SSE2-kompatibel. Abbildung 8 Register-Ausbau: Die x86-64-architektur des Hammer erweitert die 32-Bit- Register der IA32-Prozessoren auf 64 Bit. Der Compatibility Mode des Hammer-Prozessors erlaubt unter 64-Bit- Betriebssystemen eine binäre Kompatibilität mit vorhandenen 16- und 32-Bit- Anwendungen. Die Programme müssen somit nicht neu kompiliert werden. Den 64-Bit großen Adressraum des Betriebssystems können diese Anwendungen aber nicht nutzen, sie bleiben auf 4 GByte beschränkt. Der Compatibility Mode wird dabei wie der 64-Bit-Mode vom Betriebssystem aktiviert. 9

Speicher-Interface AMD hat dem Hammer mit seiner Northbridge-Funktionalität einen integrierten Memory-Controller spendiert. Der Vorteil der Integration sind die geringeren Latenzzeiten bei Zugriffen auf Speicher, da der Umweg über eine "klassische" externe Northbridge umgangen wird. Durch den integrierten Memory-Controller steigt in Multiprozessor-Systemen auch der maximale Speicherausbau, weil jede CPU einen eigenen lokalen Speicher ansteuert. Untereinander tauschen die CPUs Daten via HyperTransport aus. [3] [9] Gerade dies hat in Multiprozessorsystemen einen entscheidenden Vorteil. Nicht dass nur die theoretische Speichermenge steigt, sondern auch die Bandbreite. Ein kleines Rechenbeispiel soll dies verdeutlichen. Bsp Opteron o o Speicherbandbreite von 5,3 GByte/s Xfire beträgt zusätzlich 3,53 GByte/s ( Verbindung durch HyperTransport Bus zum anderem Speicher ) o ~ bei 2Prozessoren = Speicherbandbreite 8,83 GByte/s (lokal + XFire) Diese Zusammenarbeit bezeichnet man als NUMA-Verband. Dank der geringen Latenzzeiten solle es aber kaum Unterschiede zwischen Near- und Far-Memory- Zugriffen geben. Der Memory-Controller des Hammer unterstützt ausschließlich DDR-SDRAM auf PC200-, PC266- sowie den bereits verfügbaren PC333-Modulen. Dabei können die DIMMs ungepuffert oder registered sein. Das Interface des Memory-Controller bietet eine Datenbreite von 64 oder 128 Bit. Beim 128-Bit-Interface lassen sich bis zu acht registered DIMMs ohne zusätzliche Hardware direkt ansteuern. Support von Chipkill ECC ist vorhanden, womit es den Ausfall eines der maximal acht DIM-Module verkraftet. [7] [2] 10

HyperTransport-Interface Nun befassen wir uns mit einem der wichtigsten Neuerungen der Hammer Familie. Das HyperTransport Konsortium umfasst viele der bekannte Firmen der Welt, die es zum Ziel haben ein einheitliches und schnelles Bussystem zu entwickeln. Hier seien nur kurz einige aufgezählt: Toshiba, AMD, NVIDIA, VIA, SUN, ATI, HP.. Nur AMD`s Konkurrent Intel ist nicht von der Partie. Intel vermarktet sein eigenes System 3GIO oder auch PCI-Express. Im August einigten sich AMD und Intel nach kurzer heftiger Auseinandersetzung darauf, AMDs PC I/O-Technologie in Intels Gegenentwurf PCI Express zu integrieren. PCI Express wird von der Intel nahen Organisation Arapahoe Working Group überwacht. Dieser ist AMD im folgenden Monat beigetreten. [ZD-Net News] Dabei soll PCI Express nicht als Konkurrenz zu anderen I/O-Technologien wie HyperTransport, InfiniBand, IEEE 1394b, USB 2.0, Serial ATA und 1/10Gb Ethernet stehen sondern leicht an diese angebunden werden können. [http://www.golem.de/0204/19385.html] Über das HyperTransport-Interface läuft der gesamte Datenverkehr der Hammer-Prozessoren und des integrierten Memory Controller. Um beispielsweise AGP-Grafikkarten oder einer benachbarten CPU einen direkten Zugriff auf den Arbeitsspeicher zu gewähren, besitzt der Hammer eine Schaltzentrale XBAR. Diese Cross-Bar-Architektur leitet Datenströme vom HyperTransport-Interface über 64 Bit breite interne Busse direkt an die System Request Queue des Hammer- Core oder an den Memory Controller weiter. Für Befehle und Adressen stehen der XBAR zusätzlich 64 Bit breite Busse zur Verfügung. [14] Bei HyperTransport selbst handelt es sich um eine High-Speed-Verbindung für integrierte Schaltungen. Die HyperTransport-Technologie ist skalierbar und universell ausgelegt, um die Zahl unterschiedlicher Bussysteme innerhalb eines Systems zu verringern. Dabei kann AMDs neuer Bus I/O-Bausteine verbinden oder als Bussystem zwischen den CPUs eines Multiprozessorsystems dienen. Der Hammer-Prozessor verfügt über ein HyperTransport-Interface. Abbildung 9 Universell: HyperTransport dient als Verbindung zur Peripherie oder zwischen Prozessoren. Auf dem Bild sehen Sie ein Vier-Wege- System 11

HyperTransport ist eine unidirektionale Punkt-zu-Punkt-Verbindung. Für jede Datenrichtung gibt es somit eigene Signalleitungen. Die Datenbreite von HyperTransport ist dabei variabel: Sie kann in beiden Richtungen jeweils 2, 4, 8, 16 oder 32 Bit betragen. Verschickt werden die Daten paketweise mit einer Größe von 4 bis 64 Bytes. [13] Die HyperTransport-Technologie basiert auf einem differenziellen Bussystem, wie es auch LVD-SCSI (Ultra80, Ultra160 und Ultra320) verwendet. Somit werden für jedes Bit zwei Leitungen benötigt, die jeweils das Signal und das inverse Signal transportieren. Der Vorteil dieser Technik: Für die Datenübertragung genügen geringe Signalpegel. Beim HyperTransport-Bus sind pro Bit vier Daten-Pins notwendig, um das Signal in beiden Richtungen zu übertragen. HyperTransport kommt in zwei Ausführungen als I/O-Verbindung HTIO (HyperTransportIO) und mit der Bezeichnung HT (HyperTransport) als Bussystem zwischen Prozessoren. Bei einem Takt von 400 MHz kann HyperTransport I/O 800 MBit/s pro Pin jeweils in beiden Richtungen übertragen. Die Variante für den CPU-Connect erlaubt Datenübertragungsraten von 1,6 GBit/s pro Pin. Ein 32 Bit breiter HyperTransport-CPU-Bus erreicht damit 6,4 GByte/s in jede Richtung. Bei dieser Busbreite sind dann allerdings schon 128 Daten-Pins erforderlich. Geht man davon aus das der Takt bei 800 MHZ liegen wird so verdoppelt sich der Durchsatz auf 12,8 GByte/s in jede Richtung. Hauptvorteile Bitbreite und Taktfrequenz lassen sich jeder Verbindung individuell anpassen lassen (Skalierbarkeit) Hohe Teilnahme von verschiedenen Firmen (Akzeptanz) Vereinheitlichung der Bus Topologie innerhalb eines Rechnersystems (Standardisierung) Im Vergleich zu andern Bussystemen schlägt sich der HyperTransportBus momentan recht wacker. In der Datentransferleistung konkurriert er nur mit Motorola`s Rapid I/O und mit Intels PCI Express [15]. Das HT-Konsortium hat aber schon die Version 2 veröffentlicht, welche im Gegensatz zu Version 1 mit 6,4 GByte/s je Richtung, schon 9 GByte/s Durchsatz je Richtung an einem 16 Bit breiten HT-Bus an bietet. Nur Rapid I/0 hat einen ähnlichen Durchsatz von 16 GByte/s. In der 32 Bit breiten Busversion bietet HT in Version 2 stolze 16 GByte/s Transferleistung in jeder Richtung an. Einen sehr interessanten Vergleich zwischen de bestehenden Verbindungsverfahren findet sich in der CT 2/2003 [15]. Andere Vergleiche mit Bussystemen wie Rapid und PCI Express, sind eher von Standpunkt geprägt als von Objektivität. So sollte man sich selbst ein Bild davon machen und sich in den unten angegeben Quellen vertiefen. 12

Fazit AMDs Hammer-Architektur wirkt sehr durchdacht, äußerst flexibel und skalierbar, doch dennoch günstig. Ob und wie weit sich die Hammer-Familie einen Stück vom Itanium-Kuchen abschneiden kann, hängt nun davon ab, wie viele Hardund Softwarepartner die Architektur unterstützen. Auf die klingenden Namen der PC- und PC-Server-Branche wird AMD leider verzichten müssen, da Unternehmen wie Dell oder HP sehr eng mit Intel zusammenarbeiten. Immerhin zeigen schon mal Firmen wie Fujitsu-Siemens gesteigertes Interesse am Hammer. Die Demonstration des Claw-Hammer-Systems auf der CeBIT beschränkte sich auf 32-Bit-Windows-XP und 64-Bit-Suse-Linux. Ein Erfolg für AMD ist die enge Zusammenarbeit im kommerziellen Server-Markt insbesondere Microsoft. Dessen 64-Bit-Windows soll für den Hammer optimiert werden. Anders als Intel fährt AMD künftig nicht parallele Produktlinien. Wenn die Hammer-CPUs erst einmal auf dem Markt sind, lässt AMD die Athlon-Familie auslaufen. Die Kundenakzeptanz muss dann zeigen, ob der Hammer sein Dasein als überwiegend 32-bittig genutzte Workstation-CPU fristet oder ob er den Sprung in 64-Bit-Enterprise-Server schafft. 13

Quellen [1] White Papes / AMD AMD x86-64 Technologie http://www.amd.com/dede/processors/developwithamd/0,,30_2252_875,00.html [2] CT / Heise -Artikel http://www.heise.de/ct/02/22/020/default.shtml http://www.heise.de/ct/02/10/030/ http://www.heise.de/newsticker/data/jk-16.10.01-002/ [3] A1 Electronics AMD Hammer 64-bit K8 x86-64 processors review. http://www.a1-electronics.co.uk/amd_section/cpus/hammer_review.shtml [4] Extremetech - 2002-64-Bit CPUs: What You Need to Know http://www.extremetech.com/article2/0,3973,231,00.asp [5] sandpile.org AA-64 architecture http://www.sandpile.org/aa64/index.htm [6] Hammerfest CT 9.2003 Seite 106-111 [7] Der Hammer http://www.networkcomputing.de/news_00/news_2002/news_0602/news_0602 _a.html [8] AMD's Hammer's two extra Pipeline Stages http://www.chiparchitect.com/news/2002_06_24_hammers_two_extra_pipelinestages.html [9] An Introduction to 64-bit Computing and x86-64 http://www.arstechnica.com/cpu/03q1/x86-64/x86-64-1.html [10] AMD's Hammer Architecture - Making Sense of it All http://www.anandtech.com/printarticle.html?i=1546 [11] Hammer Presentation http://www.x86-64.org/documentation_folder/mpf_hammer_presentation.pdf [12] AMD Hammer Architecture http://www.ece.utexas.edu/projects/ece/lca/courses/382n/presentations/amd_h ammer.ppt [13] HyperTransport Technology http://www.hypertransport.org/technology.html [14] AMD Hammer vs. Intel Xeon http://www.de.tomshardware.com/cpu/20030422/opteron-06.html [15] Flotte Bahnen CT 2.2003 Seite 88-92 14