Intel-Pentium-Prozessoren Chi Thanh Dao, Thomas Wimberger Oensingen, 03. Februar 2003 Seite 1 von 1
Zusammenfassung In vorliegendem Bericht wird ein grober Abriss über die geschichtliche Entwicklung der Intel Prozessoren gegeben. Anhand aktueller Prozessortypen (Pentium Reihe) werden verschiedene Technologien aufgezeigt und kurz beschrieben. Anschliessend werfen wir einen kurzen Blick auf die Systemarchitektur. Schlagworte wie: Chipsatz, Northbridge, FSB, Cache usw. werden am Schluss keine Fremdworte mehr sein. Seite 2 von 2
Inhaltsverzeichnis 1 Geschichte und Entwicklung... 4 1.1 Die Firma Intel und ihre Prozessortypen... 4 1.2 Die MMX-Technologie... 5 2 Aktuelle Prozessortypen... 6 2.1 Typen... 6 2.1.1 Pentium (Pro)... 6 2.1.2 Pentium II... 7 2.1.3 Pentium III... 8 2.1.4 Pentium IV... 9 3 Architektur...11 3.1 Innere Werte...11 3.2 Front Side Bus...11 3.3 Chipsatz...12 3.4 Northbridges und Southbridge...13 3.5 Das Zusammenspiel...15 3.6 Cache Speicher...16 3.6.1 Cache Strategien...16 3.6.2 Was ist Cache?...17 Seite 3 von 3
1 Geschichte und Entwicklung 1.1 Die Firma Intel und ihre Prozessortypen Intel stellt bereits seit 1969 Mikroprozessoren her, die für die Intel Pentium Architektur interessante Produktreihe der 80x86 Prozessoren beginnt allerdings erst mit dem 8086 im Jahre 1978. Der 8086 war der erste Intel Prozessor mit Segment Unterstützung, allerdings handelte es sich hierbei jedoch noch um eine sehr frühe Form, die nur im Real Adress-Mode arbeitete also nur direkte Speicherpointer (keine Segmentdeskriptoren) verwenden konnte. Das sollte sich vier Jahre später (1982) mit dem 80286 schlagartig ändern, denn dieser Chip verfügte als erster Intel Prozessor über einen Protected-Mode und war zudem noch in der Lage Speichermanagement auf Segmentebene (Segment-Swapping) sowie prozessorunterstützte Kontextwechsel (Hardware Task-Switching) durchzuführen. Um weiterhin im heiß umkämpften Prozessormarkt erfolgreich bestehen zu können erweiterte Intel 1985 seine Produktpalette um einen neuen Prozessortyp, die 32 Bit Architektur (IA-32), deren erster Vertreter der 80386 war. Wichtigstes Merkmal dieses Prozessors war die auf 32 Bit erweiterte Architektur, wodurch dem Anwender eine wesentlich größere Menge an Hardwareressourcen zur Verfügung stand, so z.b. ein Adreßraum von vier Gigabyte (statt der bisherigen 16 Megabyte). Damit einher ging auch die Notwendigkeit einer 16 Bit Emulation des 8086 (im sogenannten virtual 8086 mode) um die abwärts Kompatibilität zu gewährleisten ohne gleichzeitig auf den Performancegewinn der neuen Hardware verzichten zu müssen. Weiterhin hatten die Software-Entwickler jetzt erstmals die Möglichkeit den Speicher auch in einem Flaches Adreßmodell zu verwenden um so z.b. UNIX problemlos auch auf Intel Prozessoren implementieren zu können. Im Zuge der immer höheren Speicheranforderungen der Programme war es auch für Intel unausweichlich ein flexibleres virtuelles Speichermanagement bereit zu stellen, so das der 80386 der erste Intel-Prozessor mit der Möglichkeiten zur Seitenorientierten Speicherverwaltung war. Zudem setzte man bei Intel zunehmend auf den performancesteigernden Aspekt des Parallelismus innerhalb des Prozessors, dieser Trend, der sich bis heute fortsetzt hat, wurde auch im Nachfolger des 80386, dem 80486, im Jahre 1989 konsequent weiter geführt. Die hierbei mit Abstand wichtigste Neuerung war die Einführung einer fünfstufigen Pipeline, aber auch die erstmalige Verwendung eines prozessorinternen Caches (acht Kilobyte first Level) und die (theoretische) Unterstützung einer weiteren Cacheebene (second Level) waren wichtige Meilensteine auf dem Weg zu höheren Geschwindigkeiten. Ein weitere wichtige Neuerung beim 80486 war die erstmalige Integration der Fließkommaeinheit (FPU) in den Prozessorkern, da hierdurch ihre Geschwindigkeit erhöht werden konnte (Cache Nutzung, interner Bus,...). Man findet auch schon erste Ansätze zur Unterstützung von mehreren Prozessoren im 80486, diese Entwicklung sollte sich aber erst mit dem nächsten Mitglied der Intel Prozessorfamilie, den Intel Pentium Prozessor wirklich durchsetzen. Nach dem 80486 änderte Intel die Benennungsphilosophie seiner Prozessoren dahingehend, dass von nun an mehr mnemonische Namen für die Prozessoren verwendete und so hießen die 32 Bit Nachfolger des 80486 Intel-Pentium, Celeron,... und nicht einfach 80586 oder ähnlich. Der 1993 eingeführte Intel Pentium Prozessor stellt bezüglich des 80486 insbesondere im punkto Parallelismus eine Weiterentwicklung dar, er verfügt über eine 2-Way Superscalar Architecture. Das heißt er kann zwei Basis-Instruktionen in einem Takt ausführen, hierzu verfügt er über zwei unabhängige Pipelines. Neu war bei diesem Prozessor auch, daß nun auch Seiten mit vier Megabyte Größe für das Paging zur Verfügung standen und daß der Chip nun über die Möglichkeiten der Sprungvorhersage (Branch Prediction) verfügte, was zu einer besseren Ausnutzung der Pipeline und somit zu einem allgemeinen Performancegewinn führte. Außerdem wurden nun tatsächlich zwei Prozessoren im Parallelbetrieb unterstützt (dual prozessor mode), so daß auch hier noch mal die Möglichkeit zu mehr Rechenpower gegeben war. Für den High-End Markt entwickelte Intel schon sehr bald eine verbesserte Version des Pentium Prozessors, den Pentium Pro. Genau betrachtet, sind die Veränderungen sogar derart groß, daß man bereits den Pentium Pro als Seite 4 von 4
Pentium II hätte verkaufen können, denn der Pentium Pro stellt den Beginn der Intel P6-Architektur dar, die unter anderem über spekulative Ausführung (out of order processing) und einen 36 Bit Adreßbus verfügt. Doch der Pentium II ließ nicht lange auf sich warten (er erschien 1998) und stellte nun auch dem Heimanwender die neue P6-Architektur zur Verfügung (wenngleich auch der Speicherbustakt im vergleich zum Pentium Pro nicht mehr auf vollem Prozessortakt lief - dazu gab es ja dann wieder eine Profiversion, den Pentium II Xeon...). Die wichtigsten Neuerungen bestanden hier in der entgültigen Integration von MMX und der standardmäßigen Bereitstellung von Level zwei Cache außerdem war der PII jetzt 3-Way Superscalar und die Funktionalität der FPU wurde ebenfalls erweitert. Für den Low-End PC-Markt wurde eine abgespeckte Version des Pentium II entwickelt, der Intel Celeron Prozessor, der über einen Pentium II Kern verfügt, dem aber alle Multiprozessor Features fehlen und der im Allgemeinen als Chip (PPGA Technologie) und nicht mehr als Cartride (Slot 1) ausgeliefert wird. Mit dem nachfolgenden Mitglied der Intel Pentium Familie, dem Pentium III, kam auch noch ISSE (eine FP SIMD Technik) und eine Prozessorserienummer dazu, die derzeitige Version, der Pentium III Copermine, wurde darüber hinaus durch finetuning (insbesondere im Cachebereich) nochmals beschleunigt. Im September 1999 wurde der erste funktionsfähige Prototyp des IA-64 Chipsatzes von Intel vorgestellt, die Verkaufsbezeichnung wird Itanium sein (die Entwicklungsbezeichnung war Merced ). 1.2 Die MMX-Technologie Seit Einführung des Pentium-MMX baut Intel diese Erweiterung des Befehlssatzes (57 Befehle mehr) in alle Prozessoren der P6-Reihe ein. Im Gegensatz zu anderen Techniken wie z.b. dem ISSE ist MMX keine neue Prozessorhardware im eigentlichen Sinn, sondern vielmehr eine Erweiterung der FPU Funktionalität. Die Aufgabe des MMX-Instruktionssatzes besteht in der Verarbeitung von Multimediadaten (MMX = Multi Media extension), für Intel waren damals Multimediadaten kleine (vorzeichenbehaftete) Integerwerte gleichen Typs. Die Idee der MMX-Technologie besteht nun einfach darin jeweils einige dieser Daten zu einem 64-Bit Paket zusammenzufassen und parallel auf diesen 64-Bit mehrere gleiche Operation durchzuführen (wie add, mult,...) und dadurch die Verarbeitungsgeschwindigkeit zu erhöhen (Single Instruction Multiple Data - SIMD). In der Praxis hat sich dieses Konzept als durchaus brauchbar erwiesen, insbesondere deshalb, da durch die Verwendung des FPU Registerstacks keine Änderungen an bestehenden Betriessystemen vorgenommen werden müssen (denn der Zustand der FPU-Register wird beim Kontextwechsel bereits gesichert). Durch diesen Trick konnte eine problemlose Integration in bestehende Systeme ermöglicht werden, es ergibt sich jedoch sofort folgendes Problem: Es ist nicht möglich MMX und FPU Instruktionen parallel zu nutzen, schlimmer noch, da die MMX-Technologie über keine eigenen Register verfügt ist sogar eine Mischung von MMX und FPU Operationen unmöglich (das FPU-Statusregister würde falsche Informationen enthalten und Registerinhalte würden überschrieben!). Hieraus folgt ein nicht unerheblicher Overhead für das Speichern und Restaurieren des FPU-Statuswortes und eventueller Registerinhalte vor und nach jedem Wechsel von FPU beziehungsweise MMX Operationen. Die vier MMX Datentypen sind, wie auch die Befehle, sehr einfach aufgebaut: Ein Quadword (64Bit) wird entweder in 8x8, 4x16, 2x32 oder 1x64 Bit aufgeteilt. Der Instruktionssatz verfügt nun für jeden dieser Typen über einen passenden Befehl um z.b. eine parallele Addition auszuführen. Um die Befehle einfach und effizient (und kompatible zur FPU Architektur) zu halten arbeitet der Instruktionssatz Registerstack orientiert und explizite Angaben der Operanden sind nur bei der Datenkonvertierung (pack, unpack) und dem Speichertransfer möglich, in allen anderen Fällen sind sie implizit über den Stack gegeben. Hauptanwendungsgebiet ist die Sound- und Bildverarbeitung, wo MMX taugliche Datenformate (8/16 Bit Samples, 8/16/32 Bit Pixel) in großen Mengen ähnlichen Operationen unterworfen werden (Pegelanpassung, Alphablending usw.). Seite 5 von 5
2 Aktuelle Prozessortypen Intel bietet verschiedene Prozessorserien für unterschiedliche Anforderungen in Bezug auf Anwendung, Leistung und Preis: Desktop Notebook Server Pentium 4 Celeron Pentium 4 M Pentium III M Celeron Centrino Nachfolgend wollen wir einige ausgewählte näher betrachten: 2.1 Typen 2.1.1 Pentium (Pro) Xeon Xeon MP Itanium 2 Mit dem Pentium hat Intel auf RISC-Prozessor- Architektur umgestellt. Der Befehlssatz des Prozessors ist bis auf die wichtigsten und häufigsten benutzten Operationen reduziert worden im Gegensatz zu einen Vorgängern. Ebenfalls neu, sind die voneinander getrennten internen Bus-Systeme und voneinander unabhängigen Verarbeitungseinheiten. Das ermöglicht Parallelverarbeitung und damit einen höheren Datendurchsatz. Die BIU (Bus Interface Unit) ist das Verbindungsstück zwischen Arbeitsspeicher und dem Rest des Prozessors. Sie schickt die Daten im internen Bus zum Cache. Sie unterscheidet dabei zwischen dem Code-Cache für die Anwendungsprogramme und dem Daten-Cache. Beide Caches sind 8 KByte groß. In der MMX-Variante des Pentiums sind die Caches doppelt so groß. Die Verzweigungskommandoeinheit entscheidet darüber, welche der beiden ALUs den Programmcode ausführen soll. Beide ALUs werden mit Programmcode versorgt! Der Puffer holt den Programmcode zum Dekodieren aus dem Cache und übergibt ihn auf Anweisung der Verzweigungskommandoeinheit an eine der beiden ALUs. Bei Gleitkommazahlen werden die Befehle an die Gleitkommaeinheit übergeben, die in der MMX-Version extra auf die Abarbeitung der 57 Multimediakommandos zugeschnitten ist. Die beide ALUs verarbeiten gleichzeitig die Daten, die vom Datencache in das Register transportiert worden sind. Sie und Gleitkommaeinheit schicken ihre Ergebnisse zum Datencache. Dieser wiederum an die BIU und diese an den Arbeitsspeicher. Seite 6 von 6
2.1.2 Pentium II In der Grundstruktur sind sich der Pentium II und der Pentium Pro sehr ähnlich. Die wesentlichen Unterschiede sind der größere L1-Cache und die MMX-Erweiterung auf Seiten des Pentium II. Dazu kommt noch, dass der L2-Cache von der CPU getrennt ist. Aus diesem Grund werden die Informationen zwischen CPU und L2-Cache nur mit halber Prozessorgeschwindigkeit ausgetauscht. Der Pentium II ist eine relativ große Kassette mit einem noch größeren Kühlkörper. Die Kassette nennt sich SEC Cartridge (Single Edge Contact) und erfordert einen neuen Steckplatz auf dem Motherboard. Dieser Steckplatz wird Slot-1 genannt. Die Steckkontakte sind an einer Seite der Kassette als Steckleiste herausgeführt. Im Gegensatz zu anderen Prozessoren besteht der Pentium II aus mehreren einzelnen Chips, die auf einer gemeinsamen Platine integriert sind. Dadurch erreicht Intel eine bessere Ausbeute bei der Produktion, da bei fehlerhaftem Material nicht der gesamte Chip unbrauchbar ist. Pentium II Prozessortakt [MHz] Systembus L1-Cache L2-Cache [MHz] Code / Daten Klamath 233, 266, 300 66 16 KB / 16 KB 512 KB extern Deschutes 333, 350, 400, 450, 500 66, 100 16 KB / 16 KB 512 KB extern Celeron 266, 300 66, 100 16 KB / 16 KB - Celeron A (Mendocino) 300, 333, 366, 400, 433, 450, 500 66, 100 16 KB / 16 KB 128 KB intern Seite 7 von 7
2.1.3 Pentium III Generell funktioniert der Pentium III genauso wie der Pentium II. Die Unterschiede in der Prozessorarchitektur finden sich nur im Detail. Die Leistungsmerkmale des Pentium III: 72 neue ISSE-Befehle (MMX) SECC2-Gehäuse Prozessortakt ab 450 MHz Front-Side-Bus 100 MHz (Katmai-Kern) 512 kbyte großer L2-Cache (Katmai-Kern) Der 512 KByte grosse L2-Cache läuft mit halbem Prozessortakt (Katmai-Kern) Der Systembus wird mit 100 MHz betrieben (Katmai-Kern) Die SIMD-Einheit (Single Instruction Multible Data) kommt bei der Bearbeitung großer Datenmengen zum Zuge, wie zum Beispiel 3D-Anwendungen. Internet Streaming SIMD Extension (ISSE) Die ursprünglich Katmai New Instructions (KNI) genannten 72 neuen MMX-Befehle, nennen sich Internet Streaming SIMD Extension (ISSE). Die neuen Befehle sollen mehr Leistung bei 3D-Spielen und bei der MPEG2- Kodierung bringen. Einige Befehle davon sollen den Datentransfer zwischen Prozessor, Cache, AGP-Bus und dem Hauptspeicher beschleunigen. Außerdem soll das Surfen im Internet schneller werden. Pentium III Tualatin Obwohl Intel den Pentium 4 bereits im Rennen um die Megahertz-Krone hat, wurde dem Pentium III und dem Celeron ein neuer Kern spendiert. Die Tualatin-Ausführung ist im 0,13-µm-Prozess gefertigt und ist im Pentium III und Celeron mit 256 kbyte L2-Cache integriert. Dazu gibt es eine dual-taugliche Server-Version, den Pentium Processor-S mit 512 kbyte L2-Cache. Alle Tualatin-Prozessoren sind mit dem FC-PGA2-Gehäuse ausgestattet. Hier sitzt das Die (Prozessorchip) unter einem Hitze-Verteilblech, dem Integrated Heat Spreader (IHS). Dieser schützt das empfindliche Die bei der Kühler- Montage und sorgt für eine bessere Wärmeverteilung. Das Busprotokoll hat sich mit dem Tualatin-Kern geändert. Es nennt sich sich AGTL und hat als auffälligstes Merkmal eine auf nur noch 1,25V verminderte Signalspannung. Prozessor Pentium III Pentium III EB Pentium III E Pentium III Pentium III S Codename Katmai Coppermine Coppermine Tualatin Tualatin Taktfrequenzen 600 / 550 / 500 / 450 1333 / 1200 / 1133 1400 / 1260 / 1133 933 / 866 / 800 / 733 / 667 / 533 1100 / 1000 / 950 / 900 / 850 / 800 / 750 / 700 / 650 / 600 / 550 / 500 Front-Side-Bus 100 MHz 133 MHz 100 MHz 133 MHz 133 MHz L2-Cache 512 kbyte 256 kbyte 256 kbyte 256 kbyte 512 kbyte L2- halber Prozessortakt Prozessortakt Prozessortakt Prozessortakt Taktfrequenz Prozessortakt DIE-Size 140 mm 2 106 mm 2 106 mm 2 - - Transistoren 9,5 Millionen 28 Millionen 28 Millionen - - Seite 8 von 8
2.1.4 Pentium IV Pentium 4 ist nicht gleich Pentium 4. Die unter den Codenamen: Willamette und Northwood firmierenden Intel-CPUs unterscheiden sich deutlich in Leistung, Taktrate und Preis. Intels Pentium 4 - Launch liegt eineinhalb Jahre zurück. Mit dem ersten P4 (Codename Willamette), der mit einer Startfrequenz von 1,3 GHz ins Rennen ging, zog man sich viel Hohn und Spott zu. In punkto Leistung erfüllte der Prozessor kaum die hoch gesteckten Erwartungen, die an die Taktrate geknüpft waren. Doch die Zeiten ändern sich - und für den Pentium 4 besonders schnell. Der P4 - Start ging für Intel zwar kräftig in die Hose, bald zeigte sich jedoch, wofür die CPU-Architektur ausgelegt war. In wenigen Monaten purzelte die Taktfrequenz. Aus 1,3 GHz wurden schnell 1,7 GHz bis hin zur 2-GHz-CPU, die im August 2001 ihre offizielle Geburt feierte. Mit der Einführung des Northwood Pentium - 4 im Januar 2002 soll's für Intel nun noch schneller nach oben gehen. Vergleich Willamette und Northwood: Codename Taktfrequenzen in GHz FSB (MHz) L2-Cache Prozess-Technik Willamette 1,3 / 1,4 / 1,5 / 1,6 / 1,7 / 1,8 / 1,9 / 400 (4 x 100) 256 kbyte 0,18 µm 2,0 Northwood 2,0A / 2,2 / 2,4 / 2,5 / 2,6 (FSB400) 2,26 / 2,4 / 2,53 / 2,66 / 2,8 / 3,06 (FSB533) 400 (3 x 133) 533 (4 x 133) 512 kbyte 0,13 µm 2.1.4.1 Willamette Die neue Pentium 4 - Bauform besitzt 478 statt bislang 423 Pins und ist für Mainboards mit µpga-sockel (= Micro Pin Grid Array) konzipiert. Außer der neuen Verpackung hat sich am ersten Pentium 4 (Codename Willamette) aber nichts geändert. Intels Pentium 4 - Armada reicht mittlerweile vom ersten P4, der noch in 0,18-µm- Prozesstechnik hergestellt wird, bis hin zu den brandneuen Northwoods, die in 0,13 µm gefertigt werden. CHIP Online hat in drei großen Teilen sämtliche Eckpfeiler, auf der die gesamte Pentium 4 - Technologie aufbaut, für Sie zusammengefasst: Hyper Pipelined Technology und Rapid Execution Engine Hinter der Hyper Pipelined Technology steckt eine zwanzigstufige Dekoder-Pipeline, über die der Pentium 4 höhere Taktfrequenzen erreicht. Pentium III - Modelle besassen hier lediglich zehn Stufen. Hinter der zweiten Neuerung, der Rapid Execution Engine, verbergen sich die mit dem doppeltem Nominaltakt der CPU arbeitenden Einheiten für Integer-Arithmetik. Bestimmte Befehle kann der Pentium 4 deshalb in einem halben Prozessortakt verarbeiten. Das macht ihn zumindest theoretisch schneller. Seite 9 von 9
MMX-, SSE und SSE2-Befehlserweiterungen Der Pentium 4 erhält neben allen bisherigen MMX- und SSE-Befehlen zusätzlich 144 neue Kommandos für 128-bit-Integer- und Fließkomma-Operationen mit doppelter Genauigkeit. Intel erweitert deshalb die bisherige Namensgebung SSE (Streaming SIMD Extension) auf SSE2. SIMD steht für Single Instruction Multiple Data, also Befehle, die mehrere Daten auf einmal bearbeiten können. Derartige Befehle kommen vor allem in Multimedia-Anwendungen und Spielen sehr gelegen, da sie die Leistung erheblich steigern. L1/L2-Pufferspeicher-Struktur Komplexe x86-instruktionen zerlegt der Pentium 4 in RISC-ähnliche Mikro-Operationen. Damit diese nicht jedes Mal neu übersetzt werden müssen, wenn sie aus dem L1-Befehls- Cache geholt werden können, speichert der neue Advanced Level 1 Execution Trace Cache fertig dekodierte Mikro-Operationen. Zusammen mit dem nur noch 8 kbyte (Pentium III: 16 kbyte) großen L1-Daten-Cache ergeben sich so rund 185 kbyte des schnellen Pufferspeichers. Dazu kommen noch 256 kbyte an integriertem L2-Cache, der einen Durchsatz von rund 48 GByte pro Sekunde schafft und wie im Pentium III Advanced Transfer Cache heißt. FSB-Taktraten und Quad-Pumped-Engine Während der Pentium III mit FSB-Taktraten von 100 oder 133 MHz betrieben wird, liegt der Pentium 4 mit einem effektiven FSB-Takt von 400 MHz klar an der Spitze. Zwar kommt nur ein nomineller Takt von 100 MHz zum Einsatz, doch werden in jedem Taktzyklus gleich viermal Daten übertragen. Intel spricht hier von der Quad-Pumped-Engine. 2.1.4.2 Northwood Zwei neue Eigenschaften zeichnen Intels Northwood-CPU aus. Das ist zum einen der Second-Level-Cache, der im Vergleich zur ersten Pentium-4-CPU - egal ob Sockel 423 oder Sockel 478 - auf 512 kbyte verdoppelt wurde und die Anzahl der Transistoren auf 55 Millionen anwachsen lässt. Zum anderen verringerte Intel die Strukturbreiten im Herstellungs-Prozess von 0,18 auf 0,13 Mikron, was die Die-Größe (Fläche des CPU-Kerns) von 218 mm² auf 146 mm² schrumpfen lässt. Seite 10 von 10 Das übrige technische Innenleben des Northwood ist mit dem Pentium 4 der ersten Generation (Willamette) identisch. Als Folge der Verkleinerung der Schaltkreise, die beim Northwood aus Kupfer bestehen, benötigt Intels neuer Pentium 4 nunmehr eine Versorgungsspannung von 1,5 Volt. Die maximale Leistungsaufnahme der 2,2-GHz-Version beträgt "nur noch" 49,8 Watt, die des Willamette-Prozessors mit 2 GHz belief sich hingegen auf 75,3 Watt. Alles in allem schafft das viel Luft nach oben. Mit Hilfe des Schrumpfungsprozesses und des geringeren Wärmewiderstandes von Kupfer kann Intel weiter an der Taktfrequenzschraube drehen - und peilt so ein 3-GHz-Modell an. Für den Anwender hat die um ein Drittel verringerte Verlustleistung den Vorteil, dass leisere und eventuell auch günstigere CPU-Kühler eingesetzt werden können. Kurz nach Einführung der beiden schnellen Northwoods mit 2,0 und 2,2 GHz hat Intel übrigens noch einmal nachgelegt und die Palette der neuen P4-Versionen mit einem 1,8- und einem 1,6-GHz-Modell nach unten abgerundet. Die sind natürlich günstiger und brauchen noch weniger Strom, weshalb sie für preiswerte und leise Desktop-Systeme recht gelegen kommen.
3 Architektur Der Chipsatz ist fest auf dem Mainboard montiert. Er entscheidet wesentlich über die Leistungsfähigkeit des gesamten Rechners. Es empfiehlt sich durchaus einen Blick auf die Chipsätze der heutzutage angebotenen Rechner zu werfen. 3.1 Innere Werte Die Hauptplatine beinhaltet die gesamte Steuerungslogik für den Computer, in der Regel den Prozessor, in einem speziellen Sockel und den so genannten Chipsatz, der aus einer Reihe integrierter Bausteine (ICs) besteht. Auf ihr sitzt auch der Hauptspeicher. Je nach Qualität des Mainboards sind mehr oder weniger viele Anschlüsse und/oder Bauteile vorhanden. Die Güte dieser Bauteile gibt Auskunft über die tatsächliche Leistungsfähigkeit des eingesetzten Mainboards. Es hilft nämlich wenig die schnellsten Festplatten zu haben, wenn das Bord mit dem Speicher nicht hinterher kommt. 3.2 Front Side Bus Wie schnell ein Prozessor intern getaktet ist, also rechnet, ist nur die halbe Miete. Mindestens ebenso wichtig ist, wie schnell seine Datenbusleitungen nach draußen sind, also wie viele MByte/s ein Prozessor an Übertragungsleistung nach draußen hat. Wir trennen daher den Internen Bus von dem Externen Bus, welcher auch Front Side Bus (FSB) genannt wird. Dabei gilt: Je schneller der Rechner die Daten über den FSB schaufeln kann, desto schneller ist das System. Umgekehrt gilt daher auch, dass der FSB zum Flaschenhals werden kann, wenn die angeschlossenen Komponenten zu viele Daten in zu kurzer Zeit liefern. Da die CPU ständig mit den Steckplätze, RAM, Schnittstellen und der Festplatte Daten austauscht, muss die Datenautobahn auch für den nötigen Datenverkehr ausgebaut sein. Es gilt also die richtige CPU mit dem richtigen Arbeitsspeicher und dem richtigen Mainboard zu kombinieren. Unabhängig von allen technischen Tricks ist entscheidend, was letztendlich rauskommt, also wie viele MByte/s über den Bus geschaufelt werden. Entsprechend der Bandbreite die passende Speicher Empfehlung: CPU Typen FSB-Taktrate Datenpakete pro Takt Datentransport Leistung Bandbreite (MByte/s) Sinnvolles RAM Pentium II, AMD K6 100 MHz 1 800 MByte/s SDRAM PC100 Celeron, Pentium III 100 MHz 1 800 Mbyte/s SDRAM PC100 Athlon, Duron 100 MHz (200 MHz) 2 1600 MByte/s DDR-RAM PC1600 Pentium III 133 MHz 1 1064 MByte/s SDRAM PC133 Athlon 133 MHz (266 MHz) 2 2128 MByte/s DDR-RAM PC2100 Pentium IV 133 MHz (533 MHz) 4 3200 MByte/s RDRAM PC800 Seite 11 von 11
3.3 Chipsatz Nachdem wir jetzt einiges über den Front Side Bus erfahren haben, werfen wir nun einen kurzen Blick auf den Chipsatz, wie er auf heutigen modernen Mainboards fest integriert ist. Der Chipsatz entscheidet über die Leistungsfähigkeit des Mainboards. Je stärker und leistungsstärker der Chipsatz, desto besser ist die Ansteuerung von Arbeitsspeicher und CPU. Eines der besten Beispiele ist der ältere Intel Chipsatz, die Rede ist vom inzwischen legendären BX Chipsatz. Der Intel BX Chipsatz Die nachfolgende Grafik zeigt einen legendären Chip des BX Chipsatzes. Quelle: Intel Bisher konnte man davon ausgehen, dass man sich mit einem Rechner mit BX Chipsatz nicht verkauft. Die Leistungen dieses von Intel hergestellten Chips sind geradezu legendär. Die Stabilität und die Leistung sind die Punkte weshalb auch heute, im dritten Jahrtausend, noch immer Mainboards mit BX Chipsatz eingesetzt werden. Auch oder gerade wegen der Stabilität im laufenden Betrieb war dieser Chipsatz die erste Wahl bei wichtigen Anwendungen, im Professionellen Bereich wie auch beim Heimanwender. Die Nachfolge i820 Auf Mainboards für Intel-Prozessoren von Celeron bis Coppermine dominiert derzeit immer noch der Intel hauseigene BX-Chipsatz. Auch die Funktionsvielfalt der Apollo- Familie des Konkurrenten Via konnte daran nicht viel ändern, der BX blieb der schnellste und beliebteste Chipsatz. Intel selbst etablierte nun den i820 (Codename Camino) als würdigen Chipsatz-Nachfolger, der vor allem mit seinem neuem Speicher-Interface auf sich aufmerksam macht: RAMBUS. Dafür wird der Nachfolger des mächtigen BX Chipsatzes einiges an Leistung aufweisen können. Abbildung: Die seltsamen Umwege der Leitungen zwischen dem i820 und dem i805 MTH (Memory Translation Hub) deuten auf RAMBUS hin: Sie bewirken gleiche Leitungslängen und Signallaufzeiten, nur so sind die hohen Taktraten des RAMBUS realisierbar. Seite 12 von 12
3.4 Northbridges und Southbridge Die heutigen Mainboards haben entweder einen Haupt-Kontroll-Chip für das Bussystem oder lassen diese Aufgaben von zwei Chips erledigen. Die letztere Variante kommt sehr häufig vor und damit die beiden Chips klar zu unterscheiden sind wurden sie von den Amerikanern in Nord- und Südbrücke getauft, daher die Bezeichnungen Northbridge und Southbridge. Mehr steckt nicht dahinter. Die Aufgaben der beiden Chips sind wie folgt geregelt: Northbridge Dieser Chip ist für den High-Speed Bereich von CPU, Arbeitsspeicher sowie der AGP- Grafikkarte verantwortlich. Hier laufen die meisten und schnellsten Daten hin und her. Außerdem ist die Entwicklung dieser Baugruppen sehr viel weiter als die Entwicklung der anderen Komponenten. Southbridge Dieser Chip regelt den Rest des Datenverkehrs. Hierzu zählen die Laufwerke, sämtliche Schnittstellen sowie die Steckplätze für die restlichen Erweiterungskarten. Seite 13 von 13
Die Problematik Wie wir gesehen haben regeln zwei Chips den Datenverkehr auf dem Mainbord. Die Hersteller in den Chipsatz-Schmieden bringen immer wieder neuere Chips heraus, sei es für den schnellen North- oder den langsameren Southbridge Chip. Gerade bei "kostengünstigen" Bords kommen immer wieder Mischungen der Chips vor, da wird gerne ein billiger aus dem Norden mit einem etablierten aus dem Süden gemischt, was kostentechnisch sicherlich interessant ist, aber eben nicht die beste Lösung für ein gutes Mainbord darstellt. Die Mainboardhersteller wollen aber wie üblich immer die schnellsten Chips für das wenigste Geld haben und das geht nun mal nicht, Leistung hat ihren Preis. Achten Sie daher auf die "Inneren Werte" des Mainboards. Die beiden Abbildungen zeigen moderne Chipsätze für Pentium 4 Prozessoren. Der untere ist bereits für den derzeitigen Boliden von Intel ausgelegt und verkraftet daher auf dem Front Side Bus stolze 533 MHz, während der etwas ältere Bruder oben "nur" mit 400 MHz arbeitet Seite 14 von 14
3.5 Das Zusammenspiel Wichtig für die Leistungsfähigkeit eines Mainboards ist das Zusammenspiel der gesamten Komponenten. Die Northbridge sollte die Daten so schnell transportieren können wie sie die CPU liefert. Der Arbeitsspeicher sollte die Daten so schnell aufnehmen können wie sie von der CPU kommen. Die Interne Verbindung (Datenautobahn) zwischen North- und Southbridge sollte so groß sein wie nur möglich um einen Flaschenhals zu vermeiden. Hier krankt es bei den meisten Mainboards erheblich. Die üblichen Leistungsklassen für die interne Verbindung lag bei 100 MByte/s und liegt derzeit bei 133 MByte/s bzw. 266 MByte/s. Weitere Steigerungen sind garantiert. Wie sagte schon der Altkanzler Herr Kohl so treffend: "Wichtig ist, was hinten rauskommt!" Für den Arbeitsspeicher stimmt das sicherlich, den nur die Angabe wie viel MByte/s transportiert werden können ist entscheidend. Leider kommt es immer wieder vor, dass einige Hersteller das "übersehen" und oft merkwürdige Konstellationen zusammenschrauben. So kommt es immer noch vor, dass in einen Pentium III Rechner veraltetes SDRAM-100 eingebaut wird. Dieser Rechner wird vom RAM ausgebremst, die CPU könnte 1064 MByte/s verkraften, der Speicher liefert aber 800 MByte/s. Pentium III Systeme mit sündhaft teuerem DDR-RAM sind ebenfalls nicht empfehlenswerte, weil DDR-RAM bis zu 2656 MByte/s übertragen kann. Hier wäre die CPU der Bremser. Sonderangebote mit teueren Pentium 4 CPU's und SDRAM sind ebenfalls lächerlich, da SDRAM maximal 1064 MByte/s verkraften kann, die CPU aber mit 3200 MByte/s gut das Dreifache verkraften könnte. Wie Sie sehen lohnt sich ein Blick in das Innenleben des Rechners, ehe man sich für den Kauf entscheidet. Speicherbaustein Takt (MHz) Pakete pro Takt Datenwort-Breite Bandbreite (MByte/s) SDRAM PC133 133 MHz 1 64 Bit 1064 MByte/s DDR-RAM PC266 / PC2100 DDR-RAM PC333 / PC2600 RDRAM PC800, 1 Kanal RDRAM PC800, 2 Kanäle 133 MHz 2 64 Bit 2128 MByte/s 166 MHz 2 64 Bit 2656 MByte/s 400 MHz 2 16 Bit 1600 MByte/s 400 MHz 2 16 Bit 3200 MByte/s Seite 15 von 15
3.6 Cache Speicher Beim Caching versucht man die Vorteile von Statischem RAM (SRAMs = hohe Geschwindigkeit) und Dynamischem RAM (DRAM = günstiger Preis) zu kombinieren, um ein möglichst effektives Speichersystem zu erreichen. Zwischen der CPU und dem Hauptspeicher DRAM ist ein schneller Cache-SRAM geschaltet, der die häufig benutzten Daten zwischenspeichert und der CPU viel schneller zur Verfügung stellt. Gesteuert wird der ganze Vorgang durch einen Cache-Controller, der verschiedene Schreibstrategien implementieren kann. On-Chip- und Second-Level-Caches CPUs ab dem 80486 besitzen einen Cache, der auf dem Prozessorchip selbst integriert ist. Dieser Cache wird On-Chip Cache oder kurz L1-Cache genannt und hat z.b. beim Intel 80486 DX 4-100 eine Größe von 16KByte. Selbst dieser kleine Cache bringt eine recht ansehnliche Geschwindigkeitssteigerung, vor allem für das Einlesen von CPU-Code. Neben dem L1-Cache befindet sich auf dem Mainboard noch ein zusätzlicher Cache, der Second- Level Cache oder kurz L2-Cache genannt wird. Gängige Mainboards wiesen in der Regel Platz für einen L2-Cache von 128KByte bis 512KByte SRAM auf, der aber zum Teil aus Kostengründen nicht komplett bestückt war und nachgerüstet werden konnte. Arbeitsweise Wenn die CPU Daten liest, gibt sie gewöhnlich die entsprechende Speicheradresse aus. Hier ist aber der Cache-Controller zwischen den Prozessor und den Hauptspeicher geschaltet. Er ermittelt, ob die gewünschten Daten im Cache-SRAM vorliegen. Ist dies der Fall, so spricht man von einem Cache-Hit oder Cache-Treffer. Sind die Daten dagegen nur im Hauptspeicher vorhanden, bezeichnet man das als Cache-Miss oder Cache-Fehltreffer. Im ersten Fall liest der Cache-Controller die Daten aus dem schnellen Cache-Speicher und gibt sie an die CPU weiter. Das geschieht normalerweise ohne Wait State, d.h. mit der maximalen Busgeschwindigkeit. Der Lesezugriff wird vom Cache vollkommen abgefangen, ohne dass die CPU dies bemerkt. Tritt dagegen ein Cache-Miss auf, muss der Cache- Controller die Daten zuerst aus dem Hauptspeicher lesen, also den Lesezugriff der CPU zum Hauptspeicher durchschalten. Heutige moderne wie Pentium und AMD Zwischenzeitlich haben die Prozessorhersteller erkannt, dass die Größe des Chache Speichers auch ein Verkaufsargument sein kann. Daher finden sich auf den heutigen CPUs zwischen 128 KByte und 512 KByte Cache. Einige leistungsstärkere CPUs bringen gar zwischen 1 MB (Xenon) und vier MB mit (R10.000). Diese laufen in der Regel nicht mehr unter Windows als Betriebssystem. 3.6.1 Cache Strategien Schreibt die CPU Daten, so ermittelt der Cache-Controller, ob sich die Daten auch im Cache- SRAM befinden. Ist dies der Fall, so werden die Daten von der CPU in den Cache-SRAM geschrieben. Für die weitere Vorgehensweise des Cache-Controllers gibt es nun verschiedene Strategien: Write-Through und Write-Back. Write-Through Der einfachere Fall ist die Write-Through-Strategie. Ein Schreibvorgang der CPU führt hier selbst bei einem Cache-Hit stets zu einer Übertragung der Daten zum Hauptspeicher; alle Schreibvorgänge werden also zum Hauptspeicher durchgeschaltet. Natürlich wird auch der entsprechende Eintrag im Cache beschreiben und damit aktualisiert. Write-Through hat den Nachteil, dass alle Schreibvorgänge zum langsamen Hauptspeicher durchgeschaltet werden müssen. Seite 16 von 16
Write-Back Ein Write-Back Cache sammelt praktisch alle Schreibvorgänge und aktualisiert nur die Einträge des Cache, nicht aber den Inhalt des Hauptspeichers. Erst nach einer entsprechenden Anweisung werden die Daten in den Hauptspeicher kopiert, um dort die Daten zu aktualisieren. Dies kann z.b. der Fall sein, wenn die Daten im Cache schon längere Zeit nicht mehr gebraucht wurden und der Platz im Cache dann von wichtigeren Daten beansprucht wird. Der Write-Back Cache ist dem Write-Through Cache aufgrund der höheren Geschwindigkeit überlegen. 3.6.2 Was ist Cache? Ein Cache ist ein relativ kleiner Hochgeschwindigkeitsspeicher, üblicherweise SRAM, der häufig benötigte Daten zwischen der CPU und dem Hauptspeicher puffert. Die CPU kann auf Daten im Cache sehr viel schneller zugreifen als auf Daten aus dem Hauptspeicher. Ein kleiner Cache-Speicher kann daher die Performance eines Computers ohne große zusätzliche Kosten erheblich verbessern. Bei Cache wird - je nach Position des Speichers im Datenstrom - zwischen verschiedenen Levels unterschieden. Was ist Level 0 Cache? Entkoppelt den Datenstrom der unterschiedlichen Recheneinheiten innerhalb der CPU. Seine Größe liegt bei etwa 1 Byte bis 128 Byte. Was ist Level 1 Cache? Entkoppelt den Datenstrom innerhalb der CPU von der Außenwelt, Größe von wenigen Bytes (128) bis zu mehreren KBs. Was ist Level 2 Cache? Entkoppelt den Datenstrom der CPU vom Memory Bus, an dem der Hauptspeicher angeschlossen ist. Größe von 256 KBs bis zu mehreren MB. Was ist Level 3 Cache? Entkoppelt ggf. bei Mehrprozessorsystemen den separaten Systembus vom Memory Bus. Seite 17 von 17