Ausführungszeitvorhersage. Dipl.-Inf. J. Richling M. Mergner Wintersemester 2003/2004

Größe: px

Ab Seite anzeigen:

Download "Ausführungszeitvorhersage. Dipl.-Inf. J. Richling M. Mergner Wintersemester 2003/2004"

Otto Armbruster
vor 6 Jahren
Abrufe

1 Ausführungszeitvorhersage Dipl.-Inf. J. Richling M. Mergner Wintersemester 2003/2004

2 Gliederung 1. Einleitung 2. Theoretische Vorbetrachtungen 3. Technische Grundlagen der Referenzarchitektur 4. Ein Beispielalgorithmus 5. Messungen am Prozessor 6. Vorhersagem des Algorithmus vs. Messungen 06-1 Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

3 Motivation Schedulingverfahren basieren auf Kenntnis der Ausführungszeit einer Task Zeitliche Garantien können nur gegeben werden, wenn man Ausführungszeiten kennt Problem: Wie mißt man eine Ausführungszeit? Stoppuhr? Logic-Analyzer? Genügt das? 06-2 Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

4 Worst ase Execution Time I Kenntnis einer Ausführungszeit genügt nicht, denn Laufzeit eines Programmes kann von den Eingaben abhängen Interessant ist die längstmögliche Ausführungszeit (WET) WET hängt ab von Programmcode ompiler, benutzte Bibliotheken Pfaden durch den Programmcode (abhängig von Eingaben) benutzter PU Parametern der Umgebung der PU (Speicher, aches) sowie Wechselwirkungen zwischen diesen Parametern 06-3 Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

5 Worst ase Execution Time II Es gibt zwei generelle Probleme: Welches ist der längste Pfad durch ein Programm? Unterproblem: Wie bewertet man einen Pfad? Highlevel Analyse Wie berechnet man zu einem gegebenen Pfad die Ausführungszeit? Lowlevel Analyse 06-4 Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

6 Bestimmen der WET einer Task Analysewerkzeug erstellt einen Kontrollflussgraphen Kontrollflussgraph besteht aus Basic Blocks Ausführungszeit aller Basic Blocks wird ermittelt (Lowlevel-Analyse!) Berechnung des längsten Pfades Gegebenenfalls weitere Optimierungen (ist längster Pfad feasable?) Basic Blocks sind Blöcke von Maschinenbefehlen, die genau einen Ein- und einen Austrittspunkt haben Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

7 Lowlevel-Analyse: Voraussetzungen Genaue Reihenfolge der Instruktionen muss bekannt sein, d.h. keine (unvorhergesehenen) Interrupts keine Exceptions Prozessor muss spezifikationsgetreu betrieben werden Prozessorzustand muss konstant bleiben DMA-Zugriffe sind verboten Detaillierte Beschreibung des gewünschten Prozessors/Systems muss vorliegen 06-6 Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

8 Wichtige Systemparameter Pipeline? Funktionsweise der einzelnen Stufen Länge Organisation Funktionseinheiten Speicher Aufbau Struktur achestruktur Geschwindigkeit Busorganisation Burstmodi Taktteiler Bus/PU 06-7 Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

9 Referenzarchitektur PowerP 604 Warum? RIS - Architektur Mitglied einer ganzen Familie von Prozessoren Komplexität ist noch handhabbar Existiert als Hostprozessor und als eingebettetes Gerät Preiswert Implementiert Performance Enhancements Pipeline Große aches Sprungvorhersage Spekulative Ausführung Out-of-Order-Execution Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

10 Referenzarchitektur PowerP 604 Pipeline Fetch (IF) Decode (ID) (Four-instruction dispatch per clock cycle in any combination) Dispatch (DS) Execute Stage SIU1 SIU2 MIU FPU BPU LSU omplete () Write-Back (W) 06-9 Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

11 Time-Base ounter/decrementer Fetcher Instruction Queue (8 word) 64 Bit INSTRUTION UNIT Branch Processing Unit BTA R Rename- Buffers (8) TR R LR SRs ITLB I MMU 128 Bit IBAT Array lock Multiplier JTAG/OP Interface 128 Bit Dispatch Unit BHT 128 Bit Reservation Station (2 Entry) Multiple- ycle Integer Unit / * 32 Bit Reservation Station (2 Entry) Single- ycle Integer Units / Bit GPR File Rename Buffers (12) 32 Bit 32 Bit Reservation Station (2 Entry) Load/Store Unit EA alculation + 64 Bit FPR File Rename Buffers (8) 64 Bit 64 Bit Reservation Station (2 Entry) Floating- Point Unit / * + FPSR OMPLETION UNIT 16-Entry Reorder Buffer Store Queue Finish Load Queue 32 Bit SRs DTLB D MMU DBAT array Tags 64 Bit 16-Kbyte D ache Snoop Tags 16-Kbyte I ache BUS INTERFAE UNIT 32-BIT ADDRESS BUS 64-BIT DATA BUS Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

12 Referenzarchitektur PowerP 604 Branch-Unit Instruction ache Fetcher branch folding Dispatcher Branch Processing Unit Instruction Queue Execution Units ompletion Queue Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

13 Die Datenstruktur IF DE DIS EX WB PL Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

14 Die Datenstruktur II Reservation Table Erlaubt Behandlung von Pipelines Aufbau repräsentiert Merkmale der Architektur Zusammensetzen mehrerer Tabellen ist durch Architektur eingeschränkt Einfaches Ablesen der Laufzeit (Spaltenanzahl) Intuitives Konzept und leicht graphisch darstellbar Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

15 Angepasste Reservation Table - Eine Spalte Instruction Fetch I Branch Prediction Unit (BPU) Instruction Fetch II Decode Dispatch Single ycle Integer Unit (SIU) Multiple ycle Integer Unit (MIU) Load Store Unit (LSU) Floating Point Unit (FPU) omplete Write Back Registers {R} {W} Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

16 Repräsentation eines Addierbefehls 0: addi 8, 9, 42 IF_0 0 BPU IF_1 0 DE 0 DISP 0 REG SIU MIU LSU FPU OMP WB : or 27, 11, 13 Jeder Befehl wird durch seine Adresse dargestellt IF_0 4 BPU IF_1 4 DE 4 DISP 4 REG SIU 11, , MIU LSU Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

17 SIU MIU LSU FPU OMP WB Repräsentation eines OR - Befehls : or 27, 11, 13 IF_0 4 BPU IF_1 4 DE 4 DISP 4 REG SIU MIU LSU FPU OMP WB 11, , : mtctr 12 IF_0 8 BPU IF_1 8 DE 8 DISP 8 REG SIU 12 TR 12 TR 06-16MIU Eigenschaften mobiler und eingebetteter Systeme c J.Richling, 8 M. Mergner

18 SIU MIU LSU FPU OMP WB Repräsentation eines MOVE - Befehls : mtctr 12 IF_0 8 BPU IF_1 8 DE 8 DISP 8 REG 12 TR SIU MIU LSU FPU OMP WB 12 TR b loop IF_0 BPU IF_1 DE DISP REG SIU MIU Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner LSU

19 SIU MIU LSU FPU OMP WB Repräsentation eines Verzweigungsbefehls 8 : b loop IF_0 BPU IF_1 DE DISP REG SIU MIU LSU FPU OMP WB IF_ BPU IF_ DE DISP REG 9, 11, 12, 13 TR, 27, 8 9, 11, 12, 13 TR, 27, 8 SIU MIU Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner 8 LSU

20 SIU MIU LSU FPU OMP WB Verbindung der 4 Tabellen IF_ BPU IF_ DE DISP REG SIU MIU LSU FPU OMP 9, 11, 12, 13 TR, 27, 8 9, 11, TR, 12, 13 27, , 4, 8, WB 0, 4, 8, Alle vier Instruktionen laufen parallel ab odealignment ist essentiell Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

21 Darstellung eines achesmiss Zeit eines Speichertransfers Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

22 Algorithmus 1. Erstelle zu jeder Instruktion eine Tabellenrepräsentation 2. Verbinde die Tabellen unter Berücksichtigung architektureller Gegebenheiten 3. Lese die Anzahl der konsumieren Takte ab Was noch fehlt Die aches und Puffer innerhalb der PU müssen vom Algorithmus verwaltet werden: Daten-/Instruktionscache, TLB Statusregister BTA, BHT Reorder Buffer Store Queue, Finish Load Queue Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

23 Messungen am Prozessor PowerP 604 hat Performance Monitor Register Vielfaltige Monitoringmöglichkeiten konsumierte PU-Takte achemisses Statistiken zu Instruktionen fehlerhaft vorhergesagte Sprünge Speicherzugriffsverzögerung aber: PM laufen nur im Supervisor Mode Tiefgreifende Modifikationen (Interrupts / ache ausschalten) ebenfalls nur im Supervisor Mode möglich Programmierung eines Kerneltreibers Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

24 Ausgabe des Treibers Interrupts are: Enabled Disable Interrupts: [ OK ] Iache is: Enabled [ OK ] Dache is: Enabled [ OK ] Serialization is: Disabled [ OK ] Saving Settings [ OK ] PM1_YLES=[ ] PM2_LOAD_MISS_PENALTY=[ ] PM1_RESERVATIONS_REQ=[ ] PM2_INSN_DISPAHED=[ ] PM1_IAHE_MISS=[ ] PM2_DAHE_MISS=[ ] PM1_DTLB_MISS=[ ] PM2_ITLB_MISS=[ ] PM1_BRANH_MISPREDIT=[ ] PM2_BPU_OUT=[ ] Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

25 Testprogramm Expandierende For Schleife n mal eine Zahl um eins erhöhen mehrmalige Ausführung Veränderung des Verhältnisses von Schleifenlänge und Sprunghäufigkeit Halbierung der Schleifenlänge bei Verdopplung der Sprunghäufigkeit Ausführung mit und ohne ache Ausführung mit Registervariablen (wenige Speichertransfers, kurzer ode) Ausführung mit Variablen im Hauptspeicher (viele Speichertransfers, längerer ode) Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

26 Vergleich von Messungen und Vorhersage I Vorhersagen mit Instruktionscache Messergebnisse Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

27 Vergleich von Messungen und Vorhersage II Vorhersagen ohne ache Messungen Eigenschaften mobiler und eingebetteter Systeme c J.Richling, M. Mergner

Ähnliche Dokumente

Neue Prozessor-Architekturen für Desktop-PC

Neue Prozessor-Architekturen für Desktop-PC Bernd Däne Technische Universität Ilmenau Fakultät I/A - Institut TTI Postfach 100565, D-98684 Ilmenau Tel. 0-3677-69-1433 bdaene@theoinf.tu-ilmenau.de http://www.theoinf.tu-ilmenau.de/ra1/