V1: Spez/In. RA

Transkript

1 V1: 144 Spez/In RA I,) Einleitung II) Vektorrechner (Supercomputer, Multimediaergänzungen) III) Virtuelle Befehlssatz-Architekturen IV) Datenfluss-Architekturen V) Processing in memory (PIM) VI) Neuro-Computer VII) Tendenzen bei Steuerfluss-Architekturen VIII) Optische Computer IX) Quantencomputer Homepage: * I Einleitung * - weglassen von Axiomen bekannter Technik neue Ergebnisse (schnelleres, effizienteres Rechnen) - Verknüpfung von bestehender und "theoretischer" Technik * II Vektorrechner * - SIMD (Single-Instruction Multiple-Data) - nur ein einziger Befehlsstrom, aber mehrere Datenströme) - Bsp: "Earth-Simulater" (Japan) Funktionsweise * nicht-parallel: Vektor A Vektor B #Schritte = #Elemente der einzelnen Vektoren * parallel: Vektorrechner der Parallelität 2 gehört zusammen

2 Aufbau: Rückführung (Ergebnis) VRS: Vektor-Register-Satz - ein Register (Kästchen) enthält jeweils eine Zahl - eine Spalte Vektor VRS 1 Vektor jeweils 2 Operanden: von Vekt A u Vekt B ALU's 1 Befehlsstrom! (dh: alle ALU's machen das gleiche) LOAD-STORE Einheit Steuereinheit Programmspeicher Befehlsstrom Datenspeicher Skalar-Einheit ist nicht immer vorhanden * LOAD-STORE-Einheit: hat Zugriff auf die Register * Datenspeicher: Harvard-Architektur!! ( getrennte Programm~/Datenspeicher) * Steuerwerk: Programmablauf Vorteile: - Parallelisierung mit weniger HW-Aufwand (im Gegensatz zu anderen Parallel-Architekturen) - einfachere Software als MIMD (bei SIMD ist keine Synchronisation der Prozesse notwendig) - gut skalierbar (HW und SW!) HW: identische Vervielfachung des Datenpfades SW: keine großen Änderungen notwendig; Struktur bleibt erhalten - Verringerung der Programmspeicherbandbreite im Vergl zu MIMD - gute Eignung für Vektor- und Matrixrechnungen Nachteile: - "verschärfter Flaschenhals" bei Bus und Datenspeicher - globaler Takt (gleicher Takt kann bei großem Register-Satz nicht immer eingehalten werden) - Schwierigkeiten bei Rekursionen

3 Anwendungsbeispiele: - amerik Kernwaffenforschung - in der Meteorologie - Numerik (große DGL-Systeme) - statistische Berechnungen - Signalbearbeitung / Bildbearbeitung (Multimedia) - 3D Modellierung Besonderheit: "Vektor-Pipeline" Vorteile: - Besserer Kompromiss zwischen Auslastung und Nutzen - Datenspeicherbelastung wird besser verteilt Vektor-Registersatz jeweils eigene Rechenwerke für die verschiedenen Operationen FP-Add FP-Mult FP-Div Ergebnis Int-Rechenwerk Ablauf ohne Pipeline (n=4): Mult Mult Mult Mult Add Add Add Add Div Div Div Div Int Int Int Int t Ablauf mit Pipeline (n=4): Mult Add Div Int Mult Add Div Int Mult Add Div Int Mult Add Div Int - mehr Zeit aber besser ausgelastet - bei verschiedenen Operationen pro ZE statistischer Zeitverlust gering! - mit n=12 wäre selber HW-Aufwand wie oben, aber dann wirklich effizienter!! t

4 22 Software-Herstellung für Vektormaschinen V2: 844 Spez-Inov Vektor-Software Assembler gewöhnliche Hochsprachen mit Modellbasierte Sprache Hochsprache Vektor-Elementen SW-Generatoren Vorauss: Datentyp: Vektoren/ Matrizen zb: Vektor-Pascal / APL2 zb: Matlab Simulink Vektor- Bibliotheken Vektorisierende Compiler Schwierigkeiten: Umsetzung der Zeitvorteile bei Matrix~/ Vektorberechnungen Beispiele bei Verfahren bei vektorisierenden Compilern: I) for (i=2 ; i<=1 ; i++) ergibt einen Vektorbefehl a[i-1]=a[i]+b[i]; (entspr 1 Zyklus) - vektorisierender Compiler muß erkennen, dass es eine Schleife ist - aus Schleife wird 1 Befehl, weil für alle Elemente dieselbe Operation gilt - Elemente der Berechnung beziehen sich nicht auf vorhergehende Berechnung "Loop Unrolling" II) for (i=2 ; i<=1 ; i++) a[i+1]=a[i]+b[i]; diese Schleife ist nicht vektorisierbar Grund: - vorausgehender Wert wird verändert Schleifendurchläufe hängen voneinander ab Iteration bringt bei Vektorisierung keinen Vorteil

5 III) for (i=1 ; i<=1 ; i++) for (j=2 ; j<=1 ; j++) c[j,i]=c[j-1,i]+a[j,i]; - innerste Schleife interessiert zuerst!! diese ist nicht vektorisierbar (siehe II) Compiler tauscht innere und äußere Schleife: nach Vertauschen: for (j=2 ; j<=1 ; j++) for (i=1 ; i<=1 ; i++) c[j,i]=c[j-1,i]+a[j,i] - jetzt ändert sich nur das "i" in der innersten Schleife - da sich damit die Berechnung nicht auf den vorhergehenden Wert bezieht, ist dieser Schleifenkonstrukt jetzt vektorisierbar! "Loop Interchange" IV) for (i=1 ; i <=1 ; i++) { if (a[i] > ) c[i]=3*a[i] else c[i]=1*b[i];} Bsp-Belegung der Vektoren: a: b: Berechnung: 3*a: *b: (a > ): 1 -in einem Hilfsregister -Vergl mit Ausgangsvektoren von a und b MERGE: Ergeb ist abhängig von der Maske "Maskierung"

6 23 Beispiele - Cray-1 (1 Vektorprozessor; 115 KW Leistungsaufnahme) - Earth-Simulator (NEC, Japan) - IRAM: dram Vektor- Skalar Steuer Intereinheit einheit werk face dram Verkopplung mehrerer Einheiten möglich Erhöhung der Vektorlänge 24 Vektoroperationen bei Universalprozessoren Name MMX 3DNow! SSE Beginn Intel Pentium MMX 1997 AMD K Intel P Vektorformat Integer (mit var Breite) 8 / 16 / 32 / 64 bit Vekt-länge n: 8 / 4 / 2 / 1 Float 32 bit n=2 Float 32 bit n=4 Beispiel paddb mm3,mm1 pfadd mm1,mm addps xmm5,xmm4

7 3 Virtuelle Befehlssatz-Architekturen V3: 1544 SpezInovRA - phys Befehlssatz ist ein anderer als der "sichtbare" Bef-satz - Prozessor ist RISC-Proz - sichtb Befehlssatz (Maschinenprgr) CISC Umformung durch Softwarekomponenten - es existiert zusätzlich Softwareschicht (nicht im Silizium) HW (phys Befsatz) SW-Schicht eigentliche SW + Betrsystem + Treiber + Bios -SW-Schicht gehört zum Prozessor "Anpassungssoftware" - Anpassungs-SW kann auch ins Betrsystem integriert werden hier aber nicht der Fall hier strikt von Anwender- SW getrennt Sinn dieser Sache: * Kompatibilität: - Proz der einerseits gut optimiert ist, andererseits einen Bef-satz "besitzt", der auch auf dem Markt gefragt ist (Bsp: x86-bef-satz) * Nutzung neuer Möglichkeiten: * Einsparung von HW: - bzgl HW-Architektur - Kompatib zum Vorhandenen - Proz kann stromsparender gemacht werden " ---- einfacher gemacht werden Verlagerung von HW-Fkt auf die SW * Änderbarkeit: - ist wesentlich einfacher mit SW zu realisieren * Flexibleres Bef-scheduling: - Optimierung der Abarbeitung der Befehle "Auto-Order-Execution" - Optimierung des Fensters und der Abarbeitungsalgorithmen

8 Bem: Befehls-Scheduling - Optimierung durch Steuerung der Befehlsreihenfolge - "Compile-Time" durch Compiler während der Ausführungszeit - "Walk-Time" mit Zwischenstufe zur Optimierung vor der eigentlichen Laufzeit - "Run-Time" Proz entscheidet auf Grund der benötigten Bef-ausführungszeit die Reihenfolge der Befehle 31 Der Crusoe-Prozessor (Transmeta) (neu: "Efficeon") - sichtbarer Befehlssatz vollst kompatible zu x86 - physische Architektur (völlig versch zu x86): RISC VLIW (VLIW: very large instr word) - wenig Logik (dadurch: kleinere Chips, stromsparender und kostengünstiger) - Compiler mit Technologien vom "Just-in-time"-Compiler typische Anwendungen: - stromsparende mobile Geräte - embedded PC - geplant: Einsatz im Serverbereich Grund: - weniger Stromverbrauch - weniger Platzbedarf - weniger Kosten für Kühlung bei hoher Stkzahl aber: - setzte sich nicht durch, da die Leistung letztendlich nicht höher war als die mit normaler Technik nähere Erklärung: Weniger Chipfläche? - Einsparungen im Steuerwerk (keine Abhängigkeitslogik) - kein CISC-Bef-dekoder - kein Befehls-Scheduler - kein "Register-Reorder" - wenig Logik für: * Unterbrechungen * Speicher-Segmentierung * Ausnahmebehandlungen alles in SW-Schicht bei gleicher Stk-zahl billiger und stromsparender

9 Blockstruktur: mehr Komponenten des Motherboards im Prozessor (trotzdem kein 1-Chip-Mikrorechner, weil nicht alle Komponenten enthalten sind [insb kein interner Speicher] ) Prozessor Flash- EEPROM VLIW-Kern North- Bridge SDRAM Platz für Anpassungs- SW Cache PCI-Bus Flash-EEPROM: - enthält Maschinencode für VLIW-Kern - wird nach dem RESET (Einschalten) im phys Speicher (SDRAM) untergebracht - Befehlssatz des x86 wird als Daten behandelt und abgearbeitet - Anpassungs-SW: "Code-Morphing"

10 VLIW-Befehlswort: - 1 Befehlswort kann mehrere Befehle enthalten, die voneinander unabhängig sind 128 bit FADD ADD LD BR "Molekül" ; einzelnes Feld: "Atom" Atom ADD FADD LD BR Festkomma Addition Gleitkomma-Addition Load Branch (Sprung) F I I L/S B Ausführungseinheiten (AE) Floating- Festkomma- Load / Branch point AE AE Store - alle Befehle werden gleichzeitig ausgeführt in einem Takt - Datenabhängigkeit der Befehle muß im Maschinencode geklärt sein!! (keiner darf vom anderen abhängig sein) Registersatz: - 64 Register mit je 32bit Breite - teilweise feste Zuordnung zu x86-registern Übersetzung mit "JIT-Compiler" - Unterscheidung von Befehlsfolgen die öfters ausgeführt werden und solche, die nur einmal auftauchen - belegen große Speicherbereiche (mehrmalige Ausführung) Bsp: DVD abspielen: sich wiederholende Abarbeitung ein und desselben Befehlsblockes gute Optimierbarkeit Mehrstufigkeit: 1) Dekodierung: x86-befehl Folge von Atomen 2) Optimierung: Entfernen physischer Atome / konst Ausdrücke aus Schleifen immer noch Folge von Atomen die in den Übersetzungscache geschrieben werden 3) Scheduling: Umgruppierung zu Molekülen

11 ii) Aliases bei Speicherzugriffen Adresse Lsg der Überlappung: Verbieten des STORE vor dem LOAD oder: LOAD-Befehl wird aus Optimierungsgründen vor den STORE-Befehl gesetzt STORE LOAD t Lösung: - durch Alias-HW - Ausnahmebehandlung (dies ist eine SW-Maßnahme) iii) Änderung des Programm-Codes - es ist erlaubt, das Programm während der Laufzeit zu ändern (durch den eigenen Code den eigenen Code ändern) - Steuerbit "translated" in der Speicherverwaltung (Segmentdeskriptor) führt wieder zur Ausnahmebehandlung E2K (Elbus, Russland) hochgezüchteter RISC-Prozessor 32 Der Java-Prozessor - teilweise virtuelle Befehlssatzarchitektur (partielle ~) - Prozessor, um den Java-Bytecode auszuführen Dargestellte Architekturen: virtuelle Java-Maschine (JVM: Java virtual maschine) Maschinensprache von Java: Java-Bytecode: - um aktive Webseiten plattformunabhängig zu machen - Applets in Java-Bytecode JVM: - Implementierung des Bytecodes (typ Befehl hat Länge von 1 Byte) wird für JVM - Klassenloader benötigt - Basisklassen

12 Möglichkeiten zur Ausführung von Bytecode: Interpretieren Compilieren direkte Ausführung Java- Bytecode Interpreter beliebiges BS CPU Java- Bytecode Compiler nativer Code beliebiges BS CPU Java- Bytecode JAVA-BS JAVA-CPU Eigenschaften des Byte-Codes: - vom Programmiermodell her, handelt es sich um eine -Adress-Maschine auch "Stackmaschine" genannt Erinnerung: 3-Adress-Maschine: ADD R1, R2, R3 + = 2-Adress-Maschine: ADD EAX, EBX + 1-Adress-Maschine: ADD B - es wird immer ein Akkumulator dazu verwendet AKKU B + -Adress-Maschine: ADD Stacklänge ändert sich - kein adressierte Speicher - sehr unterschiedliche Komplexität der einzelnen Maschinenbefehle

13 Befehlsgruppen Implementierung * Einfach: zb: Arithmetik, direkt, feste Verdrahtung Stackbewegung Wertigkeit: normale RISC-Befehle * Mittelkomplex direkt, über Mikrocodesequenz zb: Methodenaufruf * Hochkomplex virtuell (im Java-BS) zb: "new" * Reserviert nur Java-BS (zb: adressierter Speicherzugriff; Ein-/Ausgabe)

14 Speicherorganisation beim Java-Prozessor V5: 2944 SpInovRA CPU "Register" Cache RAM - RAM ist hierbei das größte Bauelement - Cache kleiner - CPU/Register am kleinsten - -Adress-Maschine (Register ist als großer Stack realisiert) nach dem LIFO Prinzip auch als "Stack-Cache" bezeichnet - Arbeitsspeicher: - ganz normaler Speicher - adressiert - Cache: - wie gewöhnlich - transparent - schneller Speicher - bereits vor dem Cache muß ein adressierter Zugriff erfolgen, wenn auf den RAM zugegriffen werden soll Zeichnung: - bei Überschreiten der Hochwassermarke werden Teile des Registersatzes in den RAM verschoben (dies geschieht blockweise) - diese verschobenen Register werden im RAM ebenfalls wie im Stack behandelt - bei Unterschreiten werden Register aufgefüllt (ebenfalls blockweise) dieser Datentransport wird als "Dribbler" bezeichnet

15 Realisierungen * SUN: - erstmalige Entwürfe von pico-java und pico-java II dazu existierte auch ein Chip: micro-java 71 * AJILE: aj-1 (Java Mikro-Controller) 4 Datenfluss-Architekturen Steuerfluss: - grundlegende Organisation des Prozessors zur Abarbeitung (richtige Reihenfolge) von Befehlen Datenfluss: - für jeden Befehl wird festgelegt, von welchen Befehlen er Daten bekommt bzw an welche Befehle er Daten sendet Verfügbarkeit der Daten Prinzip: Datenfluss Beispiel-Berechnung: z=x xy xy 2 Datenflussgraph 7 x y POWER MULT MULT (1) (3) 12 MULT (2) Strich bed: 2 Operand ADD SUB "implizite Parallelität" solche eine Hardware, die so etwas ausführen kann, nennt man "Datenfluß-Architektur"

16 Vorteile: Nachteile: - implizite Parallelität - implizite Synchronisation - einfache Programmierung - imperative Operationen schwierig - größerer Overhead im Befehlszyklus 42 Varianten * statische Datenfluss-Architektur * dynamische Datenfluss-Architektur * Hybride Datenfluss-Architektur (bed: Daten- und Steuerfluss) * Festverdrahtete Datenfluss-Architektur (ist ebenfalls mit programmierbarer Logik mögl) 421 Statische Datenfluss-Architekturen result packets Operation-Units operation packets Update- Unit Fetch- Unit Ergebnisse im activity store eintragen activitystore beschafft Informationen - activity store: speichert alles (Werte von Variablen, )

17 Ausschnitt aus dem "activity store": Nr operate Fetch 11 POWER Operand 1 Operand 2 Dest 1 Dest 1 C/V P value C/V P value Offset Side Offset Side V - C L MULT (1) V - V - +1 R +2 L 13 MULT (2) C V - +2 R MULT (3) V - V - +2 R ADD V - V - +1 L SUB V - V - nach der Ausführung der POWER Operation (mit: x=2 ; y=3) Nr operate Fetch 11 POWER 1 Operand 1 Operand 2 Dest 1 Dest 1 C/V P value C/V P value Offset Side Offset Side V 1 +2 C L MULT (1) 1 V 1 +2 V R +2 L 13 MULT (2) C V - +2 R MULT (3) V 1 - V R ADD V V - +1 L SUB V - V -

18 422 Dynamische DF-Architektur V6: 654 SpezInovRA - activity-story: read only!! Blockschaltbild: "Zettel" mit Ergebnissen u Zuordnungsinformationen Result-Token Prozess- Units Instruction- Tokens (Operanden für die Operation + eingentliche Aufgabe) Token- Queue Matching- Unit Token-Pairs Fetch- Unit activity store - da der activity-store nun nur read-only ist, können dort keine Ergebnisse mehr gespeichert werden deshalb ist jetzt Token-Queue + Matching-Unit erforderlich Matching-Unit: - prüft, ob 2 gleiche "Adresszettel" vorhanden sind, die dann "gepaart" werden, um Ausgangsoperanden für die nächste Operation bereitzustellen sind 2 gleiche vorhanden, werden die Operanden als Paar an die Fetch-Unit übergeben und die entsprechende nächste Operation ausgeführt Token-Aufbau: Instruction- Token: mind 2 vorhanden Operationscode Op1 Op2 Dest 1 Dest 2 ADD, MUL, usw Literal Status Zuordnungsinformationen

19 Literal: eindeutige Kennzeichnung für Folgeoperation Status: Info's über: * linker / rechter Operand für nächste Operation L linker Operand R rechter Operand möglicher N nicht paaren Status C Konstante * Ausnahmebehandlung - Operations-Unit macht dann für jede Destination ein eigenes Token mit den jeweiligen Ergebnissen Result- Token: Literal Status Result in der Regel: 2 mal vorhanden (resultierden aus den 2 Destinations) Eindeutige Kennzeichnung für Folgeoperation - wenn 2 gleiche Literale existieren, weis dann die Matching-Unit, welche 2 Operanden für die nächste Operation zusammengehören (nähere Erläuterung siehe Beispiel) - bei N (nicht paaren) wird dieser Operand direkt an die Fetch-Unit weitergegeben, weil dann für die nächste Operation kein 2 Operand erforderlich ist; - die Token enthalten den aktuellen Maschinenzustand!! (nicht der activity-store!!!) Beispiel: x = 2 ; y = 3 7 x y POWER MULT MULT (1) (3) 12 MULT (2) ADD SUB

20 Aufbau des activity-stores: Operations- Destination 1 Destination 2 Literal code Literal Status Literal Status C1 CONST P1 R +7 C P1 POWER A1 L - - M1 MUL M2 R T1 N M2 MUL A1 R - - M3 MUL S1 R - - T1 TEE M3 L C2 N C2 CONST M2 L +12 C A1 ADD S1 L - - S1 SUB - Reihenfolge ist völlig egal - activity store ist ein inhaltsadressierter Speicher - Konstanten werden über zusätzliche CONST Funktion erzeugt: CONST +7 X Konstanten-Operationen haben nur eine Destination; in der zweiten Dest steht die Konstante POWER - die TEE Operation reproduziert eine zweite Destination: TEE - macht aus einem Operanden zwei; - wird benötigt, wenn ein und derselbe Operand 2 mal benötigt wird Result-Token: Literal Status Wert P1 L +2 M1 L +2 C1 N +2 P1 R +7 M1 R +3 M3 R +3 M2 R +6 T1 N +6 A1 L +128 M3 L +6 C2 N +6

21 Unterschiede: Statische / Dynamische Df-Architekturen Statisch Merkmal Dynamisch - im actitvity-store (dh: dieser muß gelesen und geschrieben werden R / W ) - erst nach Beendigung der vorherigen -einfach Zustand nächste Berechnung starten?? Hardware - befindet sich vollständig in den umlaufenden Token (nicht im activity store dieser ist read-only) - hier sind überlappende Berechnungen möglich (durch FIFO-Struktur für die Token) - aufwendiger (durch Matching-Unit; diese muß sehr schnell arbeiten) 423 Hybride Df-Architekturen hybrid: Kombination aus Df- und Steuerfluss-Prinzipien schon als HW realisiert Beispiel: Makro Datenfluss mikroskopisch: makroskopisch: Steuerfluss Datenfluss Blockschaltbild: Fetch- Unit Activitystore Matching Unit Token queue Token- Former 1 Steuerwerk Operationsanweisung Datenpfad Programmspeicher * Datenpfad: hier wird gerechnet * Progr-Speicher: Maschinencode Steuerflußelement (mehrfach) 1 Welche Makro-Operationen sollen ausgeführt werden? Token-Former: erzeugt Result-Token - ist dies universeller? - Ausführungen passieren auf abstrakter Ebene mehr Zeit vorhanden - es muß nicht alles in einem einzigen Zyklus geschehen

22 43 Software-Herstellung für Df-Maschinen - im Prinzip ist der Datenfluss-Graph die "Software" (strukturell gleich mit Signalfluss-Graphen) visuelle Df-Sprachen - textuelle Df-Sprachen - gewöhnliche Programmiersprachen Compiler muß Datenabhängigkeiten analysieren und erzeugt dann Df-Graphen algorithmisch sehr aufwendig

23 5 Processing in Memory (PIM) V: 1354 SpezInovRA - Funktionen des Rechnens und des Speicherns werden miteinander verschmolzen Vorteile: Nachteile: * erhöhter Datendurchsatz (Datenbus entfällt) * massive Parallelität * weniger unterschiedliche Elemente notwendig (es wird mehr zusammengefasst) * gute Skalierbarkeit * einzelne Elemente sind relativ komplex * Nichtverwendbarkeit von Standardbausteinen * komplizierte Programmierung * schlechte Akzeptanz PIM konventionell assoziativ 51 Konventionelles PIM Struktur eines einzelnen Elementes: n-zeilen m-bit RAM PE PE PE PE VN VN VN VN PE Processing Element - n-stück - arbeitet mit 1-Bit Datenbreite VN Verbindungsnetzwerk - jede Zeile kann Daten mit ihrer Nachbarzeile austauschen Adresse Befehlsstrom - es werden immer alle Zeilen gleichzeitig über 1 Bit angesprochen Adresse gilt für genau 1 Bit; dieses aber auf alle Zeilen gleichzeitig (Spalte, 1-Bit Breite, m-bit Länge) an diesen Stellen können weitere Elemente angeschlossen werden gute Skalierbarkeit

24 Gesamtsystem: Programmspeicher Befehls- Befehlsdekoder register Ablaufsteuerung Operanden adresse +1 Befehlsadressregister Befehl Adresse PIM PIM PIM Vereinfachtes PE (Beispiel) 1-bit Verarbeitung! - auch hier existieren Register (jeweils 1 Bit) Teile der Steuersignale Speicher A zu den Nachbarn (VN) VN Multiplexer B 1-Bit ALU Speicher C zu den Nachbarn (VN) ALU: - 3 Eingänge für 3 Bit (logische Operationen möglich) Multiplexer: wahlfreie Zuordnung der Bit-Register - Befehle im Programmspeicher können komplexer sein werden dann von der Ablaufsteuerung "aufgetrennt" Mehrbit-Operationen: * seriell (Zeilenoperand; Operand steht in einer Zeile) * parallel (Spaltenoperand; Operand steht in einer Spalte) - direkte Adressierung der PE`s nicht möglich, weil dadurch die Skalierbarkeit verloren geht

25 52 Assoziative Rechner Ursprung: Assoziativ-Speicher inhaltsadressierter Speicher (CAM content adressable memory) - nutzt spezielle Form einer Adresse Muster Maske ("" bed: don't care) bei "1" wird verglichen letzte "1" stimmt nicht erste "1" stimmt nicht erste "o" stimmt nicht hier stimmt alles zu jeder Speicherzelle gehört ein Digitalkomperator Responseregister 1 out out: Treffer: ja Anzahl= 1 Erster Treffer: 111 Reduktionslogik Algorithmus für "Maximum-Suche" (CAM): Muster Maske zurücksetzen - dieser Algorithmus ist gut skalierbar, weil er nicht abhängig von der Anzahl der Daten ist, sondern nur von der Datenbreite

26 Grundstruktur des Assoziativ-Rechners Programmspeicher Muster Steuerwerk Maske CAM PE PE PE PE PE PE VN VN VN VN VN VN Red- logik Responseregister - Response-Bit's dienen zur Aktivierung / Deaktivierung der zugeordneten Rechenwerks(PE) Unterschiede zum Konventionellen: - implizite Prozessoradressierung - implizite Kommunikation flexibles Datenlayout (Unterbringung der Variablen) - starke Beschleunigung bestimmter Operationen (Max-suche, Min-suche, ) Beispiel für Datenlayout: Zeilenvariable A Zeilenvariable B C E G H D F J K da jede Variable ihre eigene PE hat, sind die Zeilenvariablen A,B wortparallel, aber bitseriell um J auszuwählen: (Muster) (Maske) die Spaltenvariablen sind bitparallel, aber wortseriell Identifikationsbit: hierüber wird es möglich, die Variablenarten zu unterscheiden ( über Muster und Maske)

27 ff: PIM V8: 2754 SpezInnovRa * mgl Erweiterung zum Assoziativ-Rechner: mehrere Befehlsströme Befehlsströme 1 2 PE PE Schalter - noch bessere Parallelität -Leerlauf wird weitestgehend vermieden - durch Maschinenbef werden die Schalter auf eine jeweilige Pos geschalten PE nur bei den PE, die bei (Maske / Muster) einen Treffer hatten stellt eine Verfeinerung von SIMD dar; erfordert aber eine spez Compilertechnologie, die diese Technik ausnutzt Perspektivische Anwendungsbeispiele für PIM: * Systeme der künstlichen Intelligenz * bei Datenbanken (Suchvorgänge schneller machen) * Statistik * Mustererkennung (Sprache, Bilder, ) 6 Neuro-Computer 61 Allgemeines - spezialisiert zur Arbeit mit neuronalen Netzen Wie muß die Architektur aussehen, damit solche Neuronalen Netze schneller abgearbeitet werden können? Ziel: - schneller - mehr Elemente

28 Gehirn: * Elemente langsam (rd 1 Hz); fehlerhaft * extrem viele Elemente vorhanden (mit Verbindungen untereinander) ca 1 11 Elemente mit ca Verbindungen Ziel der Technik: mglst einfache Einzelelemente; dafür aber entsprechend viele Möglichkeiten zur technischen Realisierung von NN Simulation Neuro-Computer virtuell schrittweise Abarbeitung weniger Elemente direkt für jedes Neuron ein einzelnes Schaltungselement digital analog hybrid Typische Merkmale von Neuro-Architekturen - einfachste Elemente - große Anzahl dieser Elemente - Speichern und Verarbeitung nicht vollständig getrennt geschieht verteilt und parallel Robustheit gegen Einzelfehler (Speicher/~zellen liegen getrennt) - lernfähig Neuronenmodell

29 Virtuelle Neuroarchitektur - klassischer Parallelrechner - normaler Steuerflussrechner Prozessor- Element Prozessor- Element Speicherung w y w y Bus-Interface Bus-Interface Multi-Master-Bus (Kommunikation) * synchronisierte Arbeit (untereinander) Berechnungsphase gleicher Takt für alle * System wartet, bis alle ihre Arbeit beendet haben * danach folgt die Kommunikationsphase Direkte Neuroarchitektur - bildet die eben erwähnten Elemente 1:1 mit elektronischen Elementen nach dh: 1 PE 1 elektrische Elemente - Verbindungen Busleitungen (mit entspr Datenbreiten) - pro Gewicht 1 Registerzelle - bei wird Addierer benötigt - bei Aktivierungsfunktion: einfachste Lösung binäre Aktivierungsfunktion x1 xn * w1 * wn i Digital- Comperator y

30 binäre Aktivierungsfkt: y i Vorteile bei dig Realisierung: - bessere (leichtere) Speicherung der Gewichte (binär); - höhere Zuverlässigkeit (weil nur und 1 rauskommen kann; exakte Ergebnisse Vorteile bei anal Realisierung: - weniger struktureller Aufwand (# Transistoren, ) mehr Neuronen möglich - schneller Hybride direkte Neuronenarchitektur - Rechnung + Übertragung : analog - Speicherung (Gewicht) : digital Schaltbild (1 Neuron) Summe aller Eingangswiderstände Operationsverstärker (Schwelle) Xi je nach Ausgabe y wird Schalter geöffnet bzw nicht wi

31 Realisierung der Spannungsquellen - als Zwischenspeicher: Kondensator D A analog-signal Schalter Digital- Rechner - Spannung am Kondensator bleibt nur für einen sehr kurzen Zeitraum erhalten ( s-bereich) benötigt Refresh - Digital-Rechner hat sämtliche auszugebende Spannungen (Gewichte) in einer Art Tabelle gespeichert gibt diese der Reihe nach aus gibt dem entspr Analog-Signal-Schalter einen Impuls je nach Stellung wird dann die entsprechende Ladung am Kondensator aufgebaut - in Lernphase wird Digital-Rechner beteiligt insgesamt langsamer - in Anwendungsphase ist Digital-Rechner nicht beteiligt schnell; Zyklus des Digital-Rechners spielt dann keine Rolle mehr

32 63 Zusammenfassung V9: 364 SpezInnovRA Merkmal virtuell direkt, digital Anzahl der Neuronen Geschwindigkeit in CPS (connections per second) rd (groß) rd 1 8 (mittel) rd 1² (klein) rd 1 1 (groß) direkt analog /hybrid rd 1 3 (mittel) rd 1 12 (sehr groß) Gehirn rd 1 11 (gigantisch) rd (gigantisch) Beispiele Mantra Mark III + IV SYNAPSE CNAPS ETANN (Intel, analog) Boltzmann (hybrid) 7 Tendenzen für hochintegrierte Steuerfluß-Prozessoren - Erhöhung der Mikroparallelität durch: - Skalar - Superskakar - Pipelining - Out of Order siehe RA 2 (Bem: 2 Rechenwerke in einem Prozessor kein Problem Problem ist es aber, aus Befehlen 2 Operationen herauszutrennen und diese gleichzeitig ausführen zu lassen) Ziele: - Rechenleistung erhöhen - Verlustleistung senken (relevant für mobile Geräte Akkulaufzeit) - Zuverlässigkeit - Sicherheit (bzgl Security, also Schutz gegen Angriffe) - effektive Programmierung (speziell: Parallelprogrammierung) typ Probleme: - globaler Takt nicht für alle Baugruppen des Prozessors realisierbar; einige Befehle benötigen uu mehr Takte als andere widerspricht Grundidee dig Schaltungen asynchrone Architektur mit unterschiedlichen Taktzyklen wird eingeführt

33 71 Superspekulare Prozessoren - Leistungssteigerung durch Spekulation (Erraten von Befehlen durch statistische Werte; Wahrscheinlichkeit muß aber genügend groß sein) Historie: Mechnismus zur Erfolgsüberwachung der Spekulation erforderlich Pipeline Superpipeline Superskalar Out-of-Order Superspekulativ Spekulation über bedingt Sprünge teilweise Spekulation über Datenabhängigkeiten * Cache: Spekulation über Speicherzugriffe vielfältige Spekulation Beispiel: Spekulation über bedingte Sprünge (Ja / Nein Entscheidung: wird Sprung ausgeführt oder nicht?) Einfache Sprungvorhersage 1-Bit-Vorhersage Grundansatz: Schleifen im Programm (einfache nichtabweisende Schleife) hier: häufiger Fall: Sprung ausführen seltener: Vorhersage: wird nicht ausgeführt es wird so, wie beim letzten mal Eine Zustandsvariable

34 - jede Schleife hat ihre eigene Zustandsvariable - diese Variante liefert für die typische Schleife 2 Fehler bei % Fehler 2-Bit-Vorhersage 4 Zustände kodierbar (1 = Vorhersage Ja ) ( = Vorhersage Nein ) hier: typische Schleife liefert nur 1 Fehler nach falscher Vorhersage bleibt man zunächst im selben Zustand 1 1 1: 75% Fehler weitere Zustände bringen keine Verbesserung! Zweistufige Vorhersage Bsp: Branch-History- Register (Schieberegister) Beobachtung des aktuellen Sprunges Zustandsvariablen dieser ZM (Zustandsmasch) 2 4 = 16 Einträge in Tabelle Index 111 1

35 Bsp: Möglichkeiten im Branch-History-Register sagt Nein voraus sagt Ja voraus - bei ausreichend häufiger Ausführung der Befehle keine Fehler - bei typ Schleife: 1 Fehler (am Schleifenausgang) Weitere Spekulationsmöglichkeiten * Trace-Vorhersage (Zusammengefasste Betrachtung mehrerer bedingter Sprünge) * Sprungziel-Adressen (wird zur Laufzeit berechnet) * Adressen für Datenzugriffe (nützlich bei komplexen zusammengesetzten Adressierungsarten) * Alias-Beziehungen (Vorhersage, dass 2 Datenspeicherzugriffe eine Beziehung zueinander haben) * Datenwert bei Arithmetikoperationen * Datenabhängigkeiten

36 Folie: Was bringt der Merced V1: 164 SpezInnovRA - Spekulation beruht auf mehrmaligen Durchlaufen einer Schleife Folie: bei Push und Pop steht immer dieselbe Adresse selber Stackpointer; dh man kann nach mehrmaligen Durchlaufen der Schleife die Adresse schon vorher aktivieren stride Adressänderung um einen konstanten Wert alias das was der Push-Befehl als Adresse geschrieben hat, muß beim Pop-Befehl gelesen werden

37 Spekulation über Datenabhängigkeiten - bzgl Out-Of-Order Execution ( Mikroparallelität erhöhen durch mehrere Ausf- Einheiten) Bsp-Progr: R R1 + R2 R4 R + R3 R3 R3 + 1 R R + 1 RAW-Abhängigkeit (read after write) bzgl R WAR-Abhängigkeit; falsche Abhängigkeit kann umgangen werden, durch Register-Renaming? hier ist Abhängigkeit nicht bekannt es wird daher spekuliert: - wird spekulativ ausgeführt und später entschieden, ob es richtig war oder nicht; Aber: - dafür muss das Ergebnis der Spekulation entsprechend hoch sein Treffsicherheit > 7% - IA 64 Itanium Prozessor mit Super-Spekulations-Logik Multi-Thread / Multi-Skalar Prozessoren - sind 2 verwandte Verfahren Prozessoren mit mehreren Befehlszählern, dh auch mehrere Befehlsströme!!! einfacher superskalarer Prozessor: diese (Pipelines) können auch beliebig verwendet werden (vermischt): Lösung nächste Seite! alles auf einem Chip (Prozessor)!!!

38 ^ gemeinsamer Befehlsscheduler gemeinsame Pipelines Unterschied Thread / Skalar: Extrahierung der Befehlsströme Multithread - mehrere Befehlsströme werden Explizit definiert - Tasks, Threads oä werden aus der Software genutzt (Prinzipien der Parallel- Programmierung) - idr: Multitaskkern der Multiproz-fähig Ist (BS mit SMP-Kernel) Bsp: Pentium 4, Alpha 21464; IBM: Power 5 (RISC-Architektur) Multiskalar - Software liefert einen Befehlsstrom; Prozessor muß in der Lage sein, mehrere Befehls-ströme daraus zu machen - Betrachtung eines mögl großen Code- Fensters - Prozessor muß größere unabhängige Programmstücke herausfinden Traceanalyse + Spekulation in der HW des Prozessors - hier nicht notwendig; Verfahren ist völlig transparent zur SW das ist noch Zukunft; Bisher nur Experimente 73 Raw-Machines konkrete Prozessor-Architektur kann teilweise durch Software bestimmt werden - einfache Grundelemente große Anzahl regelmäßige Struktur - große Flexibilität - Dominanz der lokalen Kommunikation; dh: größter Anteil von Kommunikationsvorgängen geht nur über kurze Strecken