UltraSPARC T2 Processor

Ähnliche Dokumente
Cell and Larrabee Microarchitecture

Memory Management Units in High-Performance Processors

Neue Prozessor-Architekturen für Desktop-PC

Die Sandy-Bridge Architektur

Computergrundlagen Geschichte des Computers

Vorlesung: Rechnerstrukturen, Teil 2 (Modul IP7)

Computergrundlagen Geschichte des Computers

Hyperthreads in Itanium - Prozessoren

An Introduction to Simultaneous Multi-Threading Prinziples and Architectures

Virtueller Speicher und Memory Management

Java-Prozessoren. Die Java Virtual Machine spezifiziert... Java Instruktions-Satz. Datentypen. Operanden-Stack. Konstanten-Pool.


Lehrveranstaltung: PR Rechnerorganisation Blatt 8. Thomas Aichholzer

RO-Tutorien 15 und 16

Datenpfaderweiterung Der Single Cycle Datenpfad des MIPS Prozessors soll um die Instruktion min $t0, $t1, $t2 erweitert werden, welche den kleineren

Chip Level Multithreading

Computer-Architektur Ein Überblick

Linux Paging, Caching und Swapping

Tutorium Rechnerorganisation

Die Intel Atom Architektur

Arbeitsfolien - Teil 4 CISC und RISC

Zwei Möglichkeiten die TLB zu aktualisieren

Überschrift. Speicherverwaltung. Prof. Dr. Margarita Esponda Freie Universität Berlin 2011/2012

Name: Vorname: Matr.-Nr.: 4. a) RISC-Architekturen müssen zur Decodierung von Maschinenbefehlen stets ein mikroprogrammierbares Steuerwerk verwenden.

HYPER - THREADING HYPER-THREADING TECHNOLOGY SERGE FOPOUSSI. Serge Fopoussi UNIVERSITÄT BREMEN SEMINAR RECHNERARCHITEKTUR. Prof. Dr.

Mikroprozessoren Grundlagen AVR-Controller Input / Output (I/O) Interrupt Mathematische Operationen

Teil VIII Von Neumann Rechner 1

Technische Grundlagen der Informatik 2 SS Einleitung. R. Hoffmann FG Rechnerarchitektur Technische Universität Darmstadt E-1

Mikrocomputertechnik. Thema: Der Aufbau des XC888-Mikrocontrollers -Teil 1 -

Instruktionen pro Takt

Multicore-Architekturen

Fachbereich Medienproduktion

Convey, Hybrid-Core Computing

Was ist die Performance Ratio?

Prinzipieller Aufbau und Funktionsweise eines Prozessors

Neues in Hyper-V Version 2

High Performance Embedded Processors

Struktur der CPU (1) Die Adress- und Datenpfad der CPU: Befehl holen. Vorlesung Rechnerarchitektur und Rechnertechnik SS Memory Adress Register

7. Speicherverwaltung

Kapitel 11 RISC-Rechner

Multi-Port-Speichermanager für die Java-Plattform SHAP

2 Rechnerarchitekturen

Informatik 12 Kapitel 3 - Funktionsweise eines Rechners

Rechnernetze und Organisation

Grundlagen der Datenbanksysteme 2 (M-DB2) Dr. Karsten Tolle

2. Computer (Hardware) K. Bothe, Institut für Informatik, HU Berlin, GdP, WS 2015/16

Proseminar Konzepte von Betriebssystem- Komponenten (KVBK) Vortrag zum Thema: Speicheraddressierung, Segmentierung, Paging

Seminar Multicore-Programmierung

Pipelining. Die Pipelining Idee. Grundlagen der Rechnerarchitektur Prozessor 45

1. Übersicht zu den Prozessorfamilien 2 2. Grundlagen der Rechnerorganisation 3

Auch hier wieder. Control. RegDst Branch MemRead MemtoReg ALUOp MemWrite ALUSrc RegWrite. Instruction[31 26] (also: das Opcode Field der Instruktion)

Rechnergrundlagen SS Vorlesung

DIGITALE SCHALTUNGEN II

Praktische Erfahrungen mit SPARC S7-2 Server

Cache-Kohärenz und -Konsistenz. Betreuer: Prof. Brüning Veton Kajtazi Mat.-Nr.: Universität Heidelberg

Inhalt. Prozessoren. Curriculum Manfred Wilfling. 28. November HTBLA Kaindorf. M. Wilfling (HTBLA Kaindorf) CPUs 28. November / 9

Rechnernetze und Organisation

ZENTRALEINHEITEN GRUPPE

Grundlagen der Spieleprogrammierung

System-Architektur und -Software

Johann Wolfgang Goethe-Universität

Transkript:

UltraSPARC T2 Processor Vortrag im Rahmen des Seminars Ausgewählte Themen in Hardwareentwurf und Optik HWS07 Universität Mannheim Janusz Schinke

Inhalt Überblick Core Crossbar L2 Cache Internes Netzwerk PCI-Express Power Management System Status & Einsatz Bereich Zusammenfassung Janusz Schinke 2

UltraSPARC T2 Processor Überblick

Überblick 1/5 Zweite Generation eines Chip Multi-Threading (CMT) Prozessors 8 Sparc Cores, 4MB shared L2 Cache. Ausführung von 64 Threads (8 Threads pro Core). mehr als doppelte UltraSparc T1's Rechenleistung und Rechenleistung/Watt. mehr als zehn mal schnellere Floating Point Berechnung Janusz Schinke 4

Überblick 2/5 Server-on-a-Chip Komponenten (SOC) zwei 10G Ethernet Anschlüsse Verschlüsselungseinheit On-chip PCI-Express FBDIMM Speicher Janusz Schinke 5

Überblick 3/5 Block Diagramm Janusz Schinke 6

Überblick 4/5 Niagara2 Die Micrograph Janusz Schinke 7

Überblick 5/5 Janusz Schinke 8

UltraSPARC T2 Processor Core

Core IFU Instruction Fetch Unit EXU0/1 Integer Execution Units LSU Load/Store Unit FGU Floating-Point/Graphics Unit SPU Security Processing Unit TLU Trap Logic Unit MMU Memory Management Unit Janusz Schinke 10

Core Pipeline 8-stufige Integer Pipeline 3-Taktzyklen load-use Latenz Speicher Bypass Writeback Janusz Schinke 11

Core Pipeline 12-stufige Floating-Point Pipeline 6-Taktzyklen Latenz für abhnängige FP Operationen Längere Pipeline Stufe für Division/Quadratwurzel Janusz Schinke 12

IFU Instruction Fetch Unit Die IFU besteht aus: Fetch Unit Pick Unit Decode Unit Sprungvorhersage Bei falscher Vorhersage 5 Takte Latenz Janusz Schinke 13

EXU0/1 Integer Execution Units Führt alle ganzzahlige Berechnungen und logischen Operationen aus Untermodule Arithmetic Logic Einheit (ALU) Shifter (SHFT) Operand Bypass (BYP) Inetger Register File (IRF) Register Management Logic (RML) Janusz Schinke 14

LSU Load/Store Unit Eine Load /Store Operation pro Takt Funktions Blöcke: Data Cache Array (DCA) Data Tag Array (DTAG) Data Translation Lookaside Buffer (DTLB) Load Miss Queue (LMQ) Store buffer (STB) Gasket Janusz Schinke 15

FGU Floating/Graphics Unit Ein FGU pro Core 8 Threads teilen sich eine FGU Komplett gepipelined (ausgenommen Division/Quadratwurzel) FGU führt Integer Multiplikationen und Divisionen aus Janusz Schinke 16

SPU - Security Processing Unit Eine SPU pro Core Zwei unabhängige Submodule Modular Arithmetic Einheit (MA) Cipher/Hash Einheit Direct Memory Access (DMA) Engine benutzt den Crossbar Port des Cores Janusz Schinke 17

SPU - Security Processing Unit Linear Feedback Shift Register (LFSR) Voltage Controlled Oscillator (VCO) Liefert 64-bittige Zufallszahlen etwa 10 mal schnellere Verschlüsselungsfunktion Janusz Schinke 18

TLU Trap Logic Unit Flush Logic erzeugt Flushes als Antwort auf Exception Trap Stack Array (TSA) verwaltet Trap Zustände für acht Threads Trap State Machine arbitriert Trap Anfragen für acht Threads in zwei Gruppen. Janusz Schinke 19

MMU Memory Management Unit Hardware Tablewalk bis zu 4 Page Tables gleichzeitig Jede Page Table unterstützt eine Seitengröße von 8KB, 64KB, 4MB oder 256MB Drei Suchmodi : Sequential Burst Prediction Janusz Schinke 20

MMU Memory Management Unit Translation Storage Buffer(TSB) Translation Lookaside Buffer (TLB) Translation Table Entries (TTE) Real Adress (RA) Physical Adress (PA) Alternate Space Identifier(ASI) Janusz Schinke 21

UltraSPARC T2 Processor Crossbar

Crossbar 65nm, vorauss. 1.4GHz Core-Takt 8 Cores mit je 8 Threads 64 CPUs on Die! Verdoppelung der Threads ist flächeneffizienter als Verdoppelung der Cores. Crossbar on Chip Janusz Schinke 23

UltraSPARC T2 Processor L2 Cache

L2 Cache 4 MB L2 Cache 16 fach assoziativ 8 L2 Bänke 64 Byte Cache Line Größe Kohärenz wird durch den L2 Cache gehandhabt Datentransfer zwischen L2 Cache und Core erfolgt in 16 byte Paketen Janusz Schinke 25

UltraSPARC T2 Processor Internes Netzwerk

Internes Netzwerk 1/2 Janusz Schinke 27

Internes Netzwerk 2/2 Networking Features Mehrere DMA (Direct Memory Access) Einheiten Ordnet die DMAs den Threads zu 16 Sende- und 16 Empfangskanäle Zwei Ethernetanschlüsse 2 dual-speed (10G/1G) Janusz Schinke 28

UltraSPARC T2 Processor PCI-Express

PCI-Express I/O Memory Mapping Unit (IOMMU) Transaction Layer Packets (TLPs) Datentransfer geschieht in Form von Paketen mit Header und einer Payload zwischen 128B und 512B Janusz Schinke 30

UltraSPARC T2 Processor Power Management

Power Management Durch den Einsatz der Chip Multi Threading (CMT) Technlogie konnte die Leistung pro Watt optimiert werden. 'GATE-BIAS' Zellen benutzt um Leckströme zu reduzieren. Janusz Schinke 32

Power Management Janusz Schinke 33

Power Management Janusz Schinke 34

UltraSPARC T2 Processor System Status & Einsatz Bereich

System Status & Einsatz Bereich Erste CPU wurde schon Ende Mai ausgeliefert Die ersten UltraSparc T2 Systeme werden 2H2007 erwartet Server: Web, DB, etc. Janusz Schinke 36

UltraSPARC T2 Processor Zusammenfassung

Zusammenfassung Niagara2 kombiniert alle hauptsächlichen Serverfunktionen auf einem Chip Internes Netzwerk PCI-Express Kryptographische Einheit Niagara2 hat die Leistung verbessert ggü. UltraSparc T1 Besserer Integer Durchsatz und Durchsatz/Watt (>2x) Verbesserte Integer Single-Thread Leistung (>1.4x) Besserer Floating-Point Durchsatz (>10x) Bessere Floating-Point Single-Thread Leistung (>5x) Ermöglicht neue energiesparsame, Hochsicherheits rechenzentren Janusz Schinke 38

Janusz Schinke 39

Janusz Schinke 40

Ausblick : Der ROCK 16 CPU Kerne in einem Viererverband Je Verband 32KB I - Cache Je Verband 32KB D - Cache 4x512KB L2 Cache Wahrscheinlich Hybrid Transaction Memory (HTM) Janusz Schinke 41

Quellenverzeichnis [1] http://opensparc.net/cgi-bin/goto.php?w=http://opensparct2.sunsource.net/specs/opensparct2_core_micro_arch.pdf [2] http://opensparct2.sunsource.net/specs/opensparct2_soc_micro_arch.pdf [3] http://realworldtech.com/page.cfm?articleid=rwt090406012516 [4] http://www.golem.de/0708/54029.html [5] http://www.pcmagazin.de/common/nws/einemeldung.php?id=53721 [6] http://www.heise.de/newsticker/meldung/93999 [7]http://www.embedded.com/news/embeddedindustry/192300656?p gno=1 [8]http://www.opensparc.net/pubs/preszo/06/HotChips06_09_ppt_ma ster.pdf Janusz Schinke 42

UltraSPARC T2 Processor FRAGEN?