Adaptive multivariate statistische Methoden zur Prozessüberwachung und -vorhersage



Ähnliche Dokumente
Kapitel 11 Produktion, Sparen und der Aufbau von Kapital

Phillips Kurve (Blanchard Ch.8) JKU Linz Riese, Kurs Einkommen, Inflation und Arbeitslosigkeit SS 2008

15. Netzgeräte. 1. Transformator 2. Gleichrichter 3. Spannungsglättung 4. Spannungsstabilisierung. Blockschaltbild:

Analog-Elektronik Protokoll - Transitorgrundschaltungen. Janko Lötzsch Versuch: 07. Januar 2002 Protokoll: 25. Januar 2002

11. Flipflops NOR-Flipflop. Schaltung: zur Erinnerung: E 1 A 1 A 2 E 2. Funktionstabelle: Fall E 1 E 2 A 1 A

Abiturprüfung Baden-Württemberg 1986


Johann Wolfgang Goethe-Universität

Motivation. Finanzmathematik in diskreter Zeit

Quality Assurance in Software Development

Thema : Rendite und Renditemessung

Die Halbleiterdiode. Demonstration der Halbleiterdiode als Ventil.

5. Flipflops. 5.1 Nicht-taktgesteuerte Flipflops NOR-Flipflop. Schaltung: zur Erinnerung: E 1 A 1 A 2 E 2.

Praktikum Grundlagen der Elektrotechnik Versuch 5. Matrikelnummer:

Schriftliche Abiturprüfung Technik/Datenverarbeitungstechnik - Leistungskurs - Hauptprüfung. Pflichtteil

Fachrichtung Mess- und Regelungstechniker

Thema 6: Kapitalwert bei nicht-flacher Zinsstruktur:

Grundlagen der Informatik III Wintersemester 2010/2011

Versuch 1 Schaltungen der Messtechnik


Berücksichtigung naturwissenschaftlicher und technischer Gesetzmäßigkeiten. Industriemeister Metall / Neu

1. Mathematische Grundlagen und Grundkenntnisse

SERVICE NEWSLETTER. Einführung in die Mechanik Teil 2: Kinematik (2)

Preisniveau und Staatsverschuldung

Kondensator und Spule im Gleichstromkreis

P. v. d. Lippe Häufige Fehler bei Klausuren in "Einführung in die ökonometrische Datenanalyse" Duisburg

4.7. Prüfungsaufgaben zum beschränkten Wachstum

3.2 Festlegung der relevanten Brandszenarien

Masterplan Mobilität Osnabrück Ergebnisse der Verkehrsmodellrechnung

Aufbau von faserbasierten Interferometern für die Quantenkryptografie

Die Sensitivität ist eine spezielle Form der Zinselastizität: Aufgabe 1

Grundlagen zeitveränderlicher Signale, Analyse von Systemen der Audio- und Videotechnik

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Kosten der Verzögerung einer Reform der Sozialen Pflegeversicherung. Forschungszentrum Generationenverträge Albert-Ludwigs-Universität Freiburg

Bericht zur Prüfung im Oktober 2006 über Finanzmathematik und Investmentmanagement

Institut für Industriebetriebslehre und Industrielle Produktion (IIP) - Abteilung Arbeitswissenschaft- REFA. Eine Zeitstudie Kapitel 10, S.

GRUNDLAGENLABOR CLASSIC RC-GLIED

Unternehmensbewertung

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Zeichen bei Zahlen entschlüsseln

Zwei Rechenbeispiele für die einfache lineare Regression

Grundschaltung, Diagramm

Professionelle Seminare im Bereich MS-Office

Signal- und Systemtheorie for Dummies

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Zahlungsverkehr und Kontoinformationen

b) Man erwärmt auf einer Herdplatte mit einer Leistung von 2,0 kw zehn Minuten lang zwei Liter Wasser von 20 C.

Regionale Bildungskonferenz des Landkreises Osterholz. Schlüsselqualifikation und Berufsfähigkeit - Welche Anforderungen stellt die Praxis?

5')6FKHPDXQG'XEOLQ&RUH

Latente Wärme und Wärmeleitfähigkeit

1. LINEARE FUNKTIONEN IN DER WIRTSCHAFT (KOSTEN, ERLÖS, GEWINN)

Hamburg Kernfach Mathematik Zentralabitur 2013 Erhöhtes Anforderungsniveau Analysis 2

Was meinen die Leute eigentlich mit: Grexit?

REX und REXP. - Kurzinformation -

Informationsblatt Induktionsbeweis

Kapitalerhöhung - Verbuchung

Dokumentation von Bildungsaktivitäten

FA Immobilienfonds der SFAMA, Swiss Fund Data AG

Bericht zur Prüfung im Oktober 2009 über Grundprinzipien der Versicherungs- und Finanzmathematik (Grundwissen)

Kreativ visualisieren

INPUT-EVALUATION DER ZHW: PHYSIK SEITE 1. Serie 1

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Primzahlen und RSA-Verschlüsselung

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Untersuchung von Gleitentladungen und deren Modellierung durch Funkengesetze im Vergleich zu Gasentladungen

Seminararbeitspräsentation Risiko und Steuern. On the Effects of Redistribution on Growth and Entrepreneurial Risk-taking

Mathematik III DGL der Technik

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Was ist Sozial-Raum-Orientierung?

Willkommen zur Vorlesung Statistik

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Checkliste Einkommensteuererklärung

INSTITUT FÜR ANGEWANDTE PHYSIK Physikalisches Praktikum für Studierende der Ingenieurswissenschaften Universität Hamburg, Jungiusstraße 11

P = U eff I eff. I eff = = 1 kw 120 V = 1000 W

Musterbeispiele zur Zinsrechnung

Lineare Gleichungssysteme

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Abb.4.1: Aufbau der Versuchsapparatur

Lineare Algebra I - Lösungshinweise zur Klausur

8. Betriebsbedingungen elektrischer Maschinen

5.5 Transaktionsverwaltung/Fehlerbehandlung. Transaktionsbegriff - Was ist eine Transaktion - Wozu braucht man Transaktionen - ACID-Eigenschaften

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Ziel: Abfrage von Vorwissen oder Überprüfung des vermittelten Wissens. Teilweise sind Mehrfachnennungen möglich.

Anleitung über den Umgang mit Schildern

1. Richtig oder falsch? R F

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Das Persönliche Budget in verständlicher Sprache

Warum ist die Frage, wem ein Leasingobjekt zugerechnet wird, wichtig? Welche Vorteile kann ein Leasinggeber (eine Leasinggesellschaft) ggf. erzielen?

Wechselspannung. Zeitlich veränderliche Spannung mit periodischer Wiederholung

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl

Übungsaufgaben Prozentrechnung und / oder Dreisatz

Lernwerkstatt 9 privat- Freischaltung

Deine Meinung ist wichtig. Informationen für Kinder und Jugendliche zur Anhörung

1 Mathematische Grundlagen

10.1 Auflösung, Drucken und Scannen

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Day-Trading. Ich zeige Ihnen hier an einem Beispiel wie das aussieht.

Das Leitbild vom Verein WIR

Kapitalerhöhung - Verbuchung

Transkript:

echnische Universiä Darmsad Fachbereich Mahemaik, Arbeisgruppe Sochasik Degussa GmbH Abeilung Verfahrensechnik Auomaisierungsechnik und Produkionsmanagemen Maserarbei Adapive mulivariae saisische Mehoden zur Prozessüberwachung und -vorhersage Vorgeleg von: Krum Syarov Sudiengang: Mahemaik mi Arbeiswissenschaf Marikelnummer: 72296 Darmsad, den 3.03.2007

Danksagung Die folgende Arbei ensand bei der Degussa GmbH in der Abeilung Verfahrensechnik Auomaisierungsechnik und Produkionsmanagemen im Indusriepark Wolfgang in Hanau. Deswegen möche ich mich herzlich bei allen Miarbeiern dieser Abeilung bedanken. Mein besonderer Dank gil meiner Bereuerin der Degussa GmbH Frau Dr. Sibylle Srand, sowie meinem Bereuer an der U Darmsad Herrn Prof. Jürgen ehn. Frau Srand ha mich bei meiner Arbei immer völlig unersüz, moivier und gue Rahmenbedingungen für meine Arbei geschaffen. Bei Herrn ehn bedanke ich mich für die Bereischaf diese Maserarbei zu bereuen. Weier möche ich mich bei Herrn Dr. Rober Mühlhaus der Degussa GmbH für seine wervolle Ideen, Opimierungsvorschläge und Hilfsbereischaf bedanken. Darmsad, März 2007 Krum Syarov 2

Eidessaliche Erklärung Hiermi erkläre ich an Eides Sa, dass ich die vorliegende Arbei selbssändig und ohne Benuzung anderer als der angegebenen Hilfsmiel angeferig habe. Die aus fremden Quellen direk oder indirek übernommenen Gedanken wurden als solche kennlich gemach. Die Arbei wurde bisher in gleicher oder ähnlicher Form keiner anderen Prüfungsbehörde vorgeleg und auch noch nich veröffenlich. Darmsad, 03. 2007 (Krum Syarov) 3

Schlagwörer adapive Mehoden Adapion (Adapiviä, Anpassung) (blockweise) (fas) Moving Window PS Haupkomponenenanalyse (PCA) Modell muliple lineare Regression (MR) mulivariae Saisik Projekion auf laene Srukuren (PS) Prozess Saisiken saisische Prozesskonrolle (SPC) 4

Inhalsverzeichnis Abbildungsverzeichnis... 8 abellenverzeichnis... abellenverzeichnis... Abkürzungsverzeichnis... 2 Abkürzungsverzeichnis... 2. Problemsellung und Aufbau der Arbei... 3.. Einleiung... 3.2. Wichige Begriffe... 3.2.. Der Prozess... 3.2.2. Das Modell... 4.2.3. Die Anpassung... 4.2.4. Zusammenspiel der drei Begriffe... 5.3. Problemsellung und Ziele... 5.4. Aufbau der Arbei... 5 2. Saisische Grundlagen der adapiven Modellbildung... 7 2.. Einleiung... 7 2... Unersuchung von einem Merkmal... 7 2..2. Unersuchung von zwei Merkmalen... 8 2..3. Unersuchung von mehreren Merkmalen... 9 2..4. Saisische Mehoden... 2 2.2. Mulivariae Saisik... 22 2.2.. Mulivariae Daenanalyse... 22 2.2.2. Mulivariae saisische Mehoden... 22 2.2.3. Muliple lineare Regression (MR)... 23 2.2.4. Projekionsmehoden... 25 2.3. Haupkomponenenanalyse (PCA)... 25 2.3.. Einleiung und geomerische Darsellung... 25 2.3.2. Algebraische Darsellung... 28 2.3.3. NIPAS Algorihmus... 29 2.3.4. Saisiken zur Analyse... 3 2.4. Projekion auf laene Srukuren (PS)... 36 2.4.. Einleiung und geomerische Darsellung... 36 5

2.4.2. Algebraische Darsellung... 39 2.4.3. PS Algorihmus... 40 2.4.4. Saisiken zur Analyse... 42 2.5. Die adapive Modellbildung... 45 2.5.. Einleiung... 45 2.5.2. Parameeradapion... 46 2.5.3. Srukuradapion... 46 2.5.4. Vergleich zwischen Srukur- und Parameeradapion... 47 3. Ausarbeien eines adapiven Prozessmodells... 48 3.. Einleiung... 48 3.2. eilaspeke der adapiven Modellbildung... 48 3.3. Das Modell... 49 3.3.. Anforderungen an Modell... 49 3.3.2. Modellalernaiven... 50 3.3.3. Erweierungen von PCA / PS... 53 3.4. Das adapive Modell... 58 3.5. Saisiken zur Modellkonrolle... 59 3.6. Die Sofware... 60 3.6.. esen des adapiven Modells... 60 3.6.2. Sofwareechnische Implemenierung des adapiven Modells... 6 3.7. Zusammenfassung... 64 4. Modellanwendung, -bewerung und verfeinerung... 65 4.. Einleiung... 65 4.2. Der Degussa Beispielprozess... 65 4.3. Das ale Degussa Modell... 66 4.4. Das adapive Modell für den Beispielprozess... 67 4.5. Bewerung des adapiven Modells... 73 4.5.. Vergleich mi dem alen Modell... 73 4.5.2. Vergleich mi dem rekursiven Modell... 75 4.6. Verfeinerung des adapiven Modells... 77 4.6.. Die Fensergröße... 77 4.6.2. Die Blockgröße... 78 4.6.3. Der Adapionszeipunk... 80 4.7. Zusammenfassung... 8 6

5. Zusammenfassung und Ausblick... 82 5.. Zusammenfassung... 82 5.2. Ausblick... 83 5.2.. Anwendung an anderem Prozessen... 83 5.2.2. Die Sofwareimplemenierung... 83 5.2.3. Fehlererkennung... 84 ieraurverzeichnis... 85 Inerneseien... 89 Anhang A Vergleich zwischen bmwps und Sofsensor... 90 Anhang B Vergleich zwischen bmwps und RPS... 94 Anhang C DmodX für bmwps... 00 Anhang D Hoelling s 2 für bmwps... 05 7

Abbildungsverzeichnis Abbildung : Beobachungswolke im 3-dimensionalen Raum... 20 Abbildung 2: Beobachungswolke nach dem Sandardisierung... 20 Abbildung 3: Sandardisierung... 2 Abbildung 4: Mulivariae Verfahren (Quelle: [0, Eck])... 23 Abbildung 5: Erse Haupkomponene in dem 3-dimensionalen Raum... 26 Abbildung 6: Hyperebene in dem 3-dimensionalen Raum... 27 Abbildung 7: Koordinaen der projizieren Beobachungspunke (Quelle: [I4, Ume])... 27 Abbildung 8: Richungsvekoren der Variablen in der Hyperebene (Quelle: [I4, Ume])... 28 Abbildung 9: Graphische Darsellung des NIPAS Algorihmus... 30 Abbildung 0: DModX für PCA (Quelle: [I4, Ume])... 32 Abbildung : R 2 X und Q 2 X für das Beispiel Esskulur in Europa... 34 Abbildung 2: Abhängigkei der R 2 X und Q 2 X von der Anzahl der PCs (A)... 35 Abbildung 3: Beobachungswolken bei der PS Mehode... 36 Abbildung 4: Beobachungswolke der Y-Raum in dem Fall m =... 37 Abbildung 5: Korrelaion zwischen y und y... 37 Abbildung 6: Residuum f nach dem ersen PS Schri... 38 Abbildung 7: Die ersen zwei PS Komponenen... 38 Abbildung 8: Innere Korrelaion für die erse und zweie PS Komponene... 39 Abbildung 9: Graphische Darsellung des PS Algorihmus... 4 Abbildung 20: DModY Saisik für PS... 43 Abbildung 2: VIP Saisik für PS... 44 Abbildung 22: Vorgehensweise bei der Ermilung eines adapiven Verfahrens... 48 Abbildung 23: Moving Window PS... 56 Abbildung 24: Blockweise Moving Window PS... 59 Abbildung 25: Vergleich der Were des Sofsensors mi den aborweren... 67 Abbildung 26: Scores Plo p[] gegen p[3] für das Modell für KW 22 bis 03... 68 Abbildung 27: R 2 X und Q 2 X Variablen für das Modell für Wochen 22 bis 03... 68 Abbildung 28: Scores Plo [] gegen [2] für das PCA Modell der Wochen 22 bis 03... 69 Abbildung 29: Scores Plo [] gegen [3] für das Modell für Wochen 22 bis 03... 69 Abbildung 30: Scores Plo p[] gegen p[2] für das Modell für KW 22 bis 03... 70 Abbildung 3: Were für x 5 bei den Beobachungen der Gruppe links unen ab KW 50... 70 8

Abbildung 32: Anlage mi weniger as... 7 Abbildung 33: Beobachungen aus der KW 30-34... 7 Abbildung 34: Scores Plo [2] gegen [3] für das PS Modell für KW 22 bis 03... 72 Abbildung 35: Bedeuung der unabhängigen Variablen für das PS Modell... 72 Abbildung 36: bmwps für den Beispielprozess... 73 Abbildung 37: Sofsensor und bmwps. Beobachungen 50 bis 200... 74 Abbildung 38: Sofsensor und bmwps. Beobachungen 80 bis 900... 74 Abbildung 39: RMSEP für bmwps und Sofsensor... 75 Abbildung 40: RPS und bmwps. Beobachungen 20 bis 200... 75 Abbildung 4: RPS und bmwps. Beobachungen 80 bis 900... 76 Abbildung 42: RMSEP für bmwps und RPS... 76 Abbildung 43: RMSEP für bmwps und das Gesammodell... 77 Abbildung 44: RMSEP Vergleich verschiedener Fensergrößen für die bmwps... 78 Abbildung 45: DModX für das ale Modell mi PS KW 26 bis KW 03... 79 Abbildung 46: RMSEP Were für bmwps... 79 Abbildung 47: RMSEP für obmwps und bmwps... 80 Abbildung 48: Sofsensor und bmwps. Beobachungen 50 bis 200... 90 Abbildung 49: Sofsensor und bmwps. Beobachungen 50 bis 600... 90 Abbildung 50: Sofsensor und bmwps. Beobachungen 60 bis 700... 9 Abbildung 5: Sofsensor und bmwps. Beobachungen 70 bis 800... 9 Abbildung 52: Sofsensor und bmwps. Beobachungen 80 bis 900... 92 Abbildung 53: Sofsensor und bmwps. Beobachungen 90 bis 000... 92 Abbildung 54: Sofsensor und bmwps. Beobachungen 00 bis 00... 93 Abbildung 55: Sofsensor und bmwps. Beobachungen 0 bis 200... 93 Abbildung 56: RPS und bmwps. Beobachungen 20 bis 200... 94 Abbildung 57: RPS und bmwps. Beobachungen 20 bis 300... 94 Abbildung 58: RPS und bmwps. Beobachungen 30 bis 400... 95 Abbildung 59: RPS und bmwps. Beobachungen 40 bis 500... 95 Abbildung 60: RPS und bmwps. Beobachungen 50 bis 600... 96 Abbildung 6: RPS und bmwps. Beobachungen 60 bis 700... 96 Abbildung 62: RPS und bmwps. Beobachungen 70 bis 800... 97 Abbildung 63: RPS und bmwps. Beobachungen 80 bis 900... 97 Abbildung 64: RPS und bmwps. Beobachungen 90 bis 000... 98 Abbildung 65: RPS und bmwps. Beobachungen 00 bis 00... 98 9

Abbildung 66: RPS und bmwps. Beobachungen 0 bis 200... 99 Abbildung 67: DModX für bmwps Fenser KW 23-27... 00 Abbildung 68: DModX für bmwps Fenser KW 25-29... 00 Abbildung 69: DModX für bmwps Fenser KW 27-3... 0 Abbildung 70: DModX für bmwps Fenser KW 29-33... 0 Abbildung 7: DModX für bmwps Fenser KW 3-35... 0 Abbildung 72: DModX für bmwps Fenser KW 33-37... 02 Abbildung 73: DModX für bmwps Fenser KW 35-39... 02 Abbildung 74: DModX für bmwps Fenser KW 37-4... 02 Abbildung 75: DModX für bmwps Fenser KW 39-43... 03 Abbildung 76: DModX für bmwps Fenser KW 4-4546... 03 Abbildung 77: DModX für bmwps Fenser KW 43-49... 03 Abbildung 78: DModX für bmwps Fenser KW 4546-5... 04 Abbildung 79: DModX für bmwps Fenser KW 49-0... 04 Abbildung 80: 2 für bmwps Fenser KW 23-27... 05 Abbildung 8: 2 für bmwps Fenser KW 25-29... 05 Abbildung 82: 2 für bmwps Fenser KW 27-3... 06 Abbildung 83: 2 für bmwps Fenser KW 29-33... 06 Abbildung 84: 2 für bmwps Fenser KW 3-35... 06 Abbildung 85: 2 für bmwps Fenser KW 33-37... 07 Abbildung 86: 2 für bmwps Fenser KW 35-39... 07 Abbildung 87: 2 für bmwps Fenser KW 37-4... 07 Abbildung 88: 2 für bmwps Fenser KW 39-43... 08 Abbildung 89: 2 für bmwps Fenser KW 4-4546... 08 Abbildung 90: 2 für bmwps Fenser KW 43-49... 08 Abbildung 9: 2 für bmwps Fenser KW 4546-5... 09 Abbildung 92: 2 für bmwps Fenser KW 49-0... 09 0

abellenverzeichnis abelle : Food Daen (Quelle: [I4, Ume])... 9 abelle 2: Saisische Mehoden (Quelle: [29, Ke])... 2

Abkürzungsverzeichnis (b)(f)mwps (blockweise) (fas) Moving Window PS bzgl. bezüglich bzw. beziehungsweise ca. circa d. h. das heiß MR muliple lineare Regression PCA Principal Componen Analysis / Haupkomponenen Mehode PS Parial eas Squares / Projekion auf laene Srukuren SPC Saisical Process Conrol u. a. uner anderen usw. und so weier vs. versus z.b. zum Beispiel 2

. Problemsellung und Aufbau der Arbei.. Einleiung Bei großen und komplexen Produkionsprozessen reen of verschiedene Aren von Prozessveränderungen (z. B. in Inpu-Größen und Mengen) und Fehler (z. B. Anlagenausfall), aber auch Änderungen in den exernen Bedingungen wie z. B. Weerwechsel, auf. Um sie feszusellen und zu erfassen, werden Prozessüberwachungssyseme (engl. DCS Disribued Conrol Sysems) eingesez. Sie übernehmen die Prozessführung, und dami im Wesenlichen Regelungs- und Seuerungsaufgaben. Diskoninuierliche Größen, wie z. B. aboranalysen von Produkeigenschafen, werden mi Hilfe von saisischer Prozesskonrolle (engl. SPC Saisical Process Conrol) überprüf. Dahiner liegen saisischen Annahmen zur Prozesssreuung und Messfehlern. Neben den klassischen Verfahren zum Monioring einzelner Prozessgrößen werden zunehmend auch Verfahren der mulivariaen Saisik eingesez. Häufig benuze Mehoden sind die Haupkomponenenmehode (engl. PCA Principal Componen Analysis) und die Projekion auf laene Srukuren (engl. PS Parial eas Squares). Sie ermöglichen durch Inerpreaion des Prozessmodells ein verbesseres Versändnis der Prozesszusammenhänge. Gleichzeiig haben sie aber auch ihre Grenzen. Da diese Modelle auf Prozessdaen basieren, sind sie dami außerhalb des erlernen Bereichs nur beding gülig. Permanene Weierenwicklung und Verbesserung der Prozesse mach somi ein aufwendiges Neuraining der Modelle nowendig. Dieses Neuraining verlang ein koninuierliches Milernen, das nich ohne weieres zu erreichen is. Es exisieren bereis verschiedene Ansäze, um dieses Problem zu lösen. Als besonders anspruchsvoll und viel versprechend zeichnen sich dabei die adapiven Mehoden, wie z. B. Adapive Filer, Maschinelles ernen (eng. Machine earning), Suppor Vecor Machines (SVM) und Neuronale Neze, aus. Sie ermöglichen eine weiergehende Prozesslernfähigkei zu enwickeln. Die Problemaik bei der Anwendung dieser adapiven Mehoden beseh eher in ihrer Überragung auf mulivariae Saisik. Diese Problemaik is Haupgegensand meiner Maserarbei..2. Wichige Begriffe In diesem Kapiel werden die Begriffe Prozess, saisische Prozessmodellbildung und Adapiviä erläuer. Ein gründliches Versändnis dieser Begriffe is nowendig, um deren Zusammenhänge zu erkennen und die Krierien für ein adapives Prozessmodell zu definieren. Anhand dieser Krierien kann ein konkrees Modell ersell und ensprechende Adapiviäsalgorihmen erarbeie werden..2.. Der Prozess Ein Prozess is eine definiere oder wahrscheinliche Aufeinanderfolge von Zusänden eines Sysems in Abhängigkei von den Vorbedingungen und den äußeren Einflüssen. Der Ablauf eines Prozesses kann vorgegeben sein, meis aber auch eigensändig gesale werden. [I2, 3

Wik] Es exisieren zwei Aren von Prozessen - deerminisische Prozesse und sochasische Prozesse. Deerminisische Prozesse sind solche, bei denen jeder Zusand eindeuig aus dem ihm vorangegangenen Zusand hervorgeh. Bei den sochasischen Prozessen folgen die Zusände eines Sysems nur mi einer gewissen Wahrscheinlichkei aus den ihnen vorangegangenen Zusänden. [I2, Wik] Die bei der Degussa GmbH beobacheen chemischen Prozesse können ausschließlich als sochasische eingesuf werden. In dieser Maserarbei werden nur solche Prozesse berache. Die Ergebnisse der Arbei beschränken sich aber keineswegs nur auf chemische Prozesse und lassen sich auch auf andere Fragesellungen überragen. Es exisieren mehrere ypen chemischer Prozesse. Zwei Aufeilungen der chemischen Prozesse sind am meisen verbreie: dynamische bzw. saische und koninuierliche bzw. diskoninuierliche Prozesse. Koninuierliche chemische Prozesse sind solche, die immer ohne Unerbrechung weierlaufen. Inpu wird sändig zugeführ ohne die Anlagen auszuschalen. Diskoninuierliche oder Bachprozesse (auch Baches genann) sind dagegen solche, die ansazweise durchgeführ werden. Charakerisisch dabei sind klar definiere Anfang- und Endzeipunke der einzelnen Baches. Ein dynamischer Prozess is ein Prozess, der sich in Bezug auf eine oder mehrere Prozessgrößen änder. Ein saischer Prozess is dagegen ein, der sich in Bezug auf alle Prozessgrößen konsan is. Es exisieren aber auch Prozesse die weder als völlig saisch, noch als völlig dynamisch zu beschreiben sind. Ein seady sae Prozess is ein Prozess, der bei besimmen Bedingungen konsan in Bezug auf eine Prozessgröße is. Weier werden auch so genanne quasi seady sae Prozesse unerschieden. Quasi heiß, dass der Prozess asächlich nich ganz konsan in Bezug auf die Prozessgröße is, sondern leich von ihr abweich..2.2. Das Modell Ein Prozessmodell (auch Modell genann) eines Prozesses is eine vereinfache und angenähere Prozessdarsellung. Es basier auf vereinfachen chemischen, physikalischen und / oder mahemaischen Grundlagen und is nowendig, um die Komplexiä des Prozesses in Griff zu bekommen. Es exisieren grundsäzlich zwei aren von Modellen rigorose und daenbasiere Modelle. Die rigorosen Modelle berücksichigen eher die physikalischen und chemischen Eigenschafen der Prozesse. Die daenbasiere Modelle dagegen basieren meisens auf verschiedene charakerisische Prozesskennzahlen und liefern eine reine mahemaische Berachung des Prozesses. Solche mahemaischen Modelle werden uner anderen zur Prozessvorhersage und -überwachung verwende. Sie werden auch Schwerpunk dieser Arbei darsellen..2.3. Die Anpassung Anpassung bedeue die Adapion beziehungsweise die Einsellung oder die Angleichung eines Objekes oder Zusandes an einen anderen. [I2, Wik] 4

In dieser Maserarbei wird das Modell koninuierlich an den Prozess angepass. D. h. das Modell soll die Änderungen des Prozesses verfolgen und nachbilden. Dabei soll die Anpassung auomaisch, d. h. ohne Einfluss von außen und nur mi den Kennnissen über den Prozessinpu, passieren. Die Wörer Anpassung, Adapion und Adapiviä werden als Synonyme behandel. Ein anderer wichiger Begriff is adapiver Algorihmus. Ein adapiver Algorihmus is einer, der die koninuierliche Modellanpassung am Prozess ermöglich. Ein adapives Modell is ein Modell, das sich durch einen adapiven Algorihmus koninuierlich auomaisch akualisier..2.4. Zusammenspiel der drei Begriffe Es exisieren bereis viele allgemeine heoreische Ansäze [2, Gab], die das Zusammenspiel von adapiven Mehoden und Prozessmodellen ermöglichen. Ziel dieser Enwicklungen is es ofmals grundsäzliche Ansäze zu liefern, die möglichs prozess- und modellunabhängig sind und sich einfach auf verschiedene Fragesellungen überragen lassen. roz dieser viel versprechenden Enwicklung sind gue Prozesskennnisse in der Praxis unverzichbar. Mi diesen häng die Güe des Modells eng zusammen. Das Modell seinerseis is die wichigse Voraussezung für die erfolgreiche Überragung von adapiven Mehoden..3. Problemsellung und Ziele Eine der Haupaufgaben eines Prozessmodells is nich nur die vorgegebenen Daen möglichs genau zu beschreiben, sondern auch Vorhersagen über neue Daen zu liefern. Bei verschiedenen Problemsellungen aus der Praxis, wie z. B. die Überwachung eines chemischen Prozesses, in dem sich viele Parameer ändern, muss eine sändige Modellweierenwicklung und anpassung sichergesell werden. Eine solche is aber sehr zei- und kosenaufwendig und wird meisens nur in geringem Umfang eingesez. Hier kann eine auomaische, EDV geseuere Modellanpassung sehr hilfreich sein. Solche rechnergesüzen Syseme basieren auf adapiven Algorihmen. Ziel dieser Arbei is es, solche adapiven Algorihmen zu enwickeln und auf bereis vorhandene mulivariae saisische Prozessmodelle zu überragen. Es is besonders auf ihre allgemeine und einfache Anwendbarkei auf ein möglichs breies Spekrum von realen Degussaprozessen zu achen. Dabei sind die saisischen Prozessvoraussezungen zu formulieren, um Saisiken zur Bewerung und Inerpreaion der Verfahren zu erhalen. Das so ensandene adapive Modell wird anhand eines Degussa Beispielprozesses bewere und verfeiner..4. Aufbau der Arbei In Kapiel 2 werden die saisischen Grundlagen der adapiven Modellbildung vorgesell. Zunächs wird eine kurze Einführung in die uni- und bivariae saisische Analyse gegeben. Danach werden einige mulivariae Mehoden, z. B. PS, beschrieben und die Modellbildung anhand dieser Mehoden erläuer. Weier werden mögliche adapive Erweierungen eines Modells berache. 5

In Kapiel drei wird eine Mehode für adapive Prozessmodellbildung anhand verschiedener Krierien ausgearbeie. In Kapiel vier wird das adapive Modell anhand eines Beispielprozesses der Degussa GmbH geese und verfeiner. In Kapiel fünf wird eine Zusammenfassung dieser Arbei gegeben. Weier werden mögliche Verbesserungs-, Erweierungs- und Implemenierungsvorschläge dieser Mehode beschrieben. 6

2. Saisische Grundlagen der adapiven Modellbildung 2.. Einleiung In diesem Kapiel wird zunächs eine Einführung in die saisische Analyse gegeben. Danach wird die mulivariae saisische Analyse verief und verschiedene mulivariae Mehoden, z.b. MR, PCA und PS beschrieben. Am Ende des Kapiels werden auch die möglichen adapiven Erweierungen eines Modells vorgesell. Die Saisik is ein Zweig der Mahemaik, der sich der Daenerhebung, -analyse, - auswerung und darsellung widme. Sie finde nich nur in der Mahemaik, sondern in fas allen anderen Wissenschafen eine Anwendung. In dieser Maserarbei werden einige Anwendungen der Saisik in der chemischen Indusrie berache, um chemische Prozesse mahemaisch zu erfassen und zu konrollieren. Die Dimensionaliä der Daen spiel eine große Rolle in der Saisik. Es können enweder -dimensionale und 2-dimensionale, aber auch mulidimensionale (k-dimensionale) Daen analysier werden. Diese Maserarbei beschäfig sich mi mulidimensionalen Daen. Dabei sind Kennnisse über die -dimensionale und 2-dimensionale Daenanalyse unverzichbar, weil die mulidimensionale Saisik (auch mulivariae Saisik genann), auf diesen beruh und aufbau. 2... Unersuchung von einem Merkmal Die Unersuchung von einem Merkmal (eine Variable) leg den Grundsein für die Daenanalyse. Ziel is es auf eine knappere und einfacher zu versehende Darsellung der Beobachungen zu kommen. Diese Unersuchung kann mi saisischen Maßzahlen geschehen. [35, eh] Solche sind z. B. das arihmeische Miel, die Varianz und die Sreuung. Sei x ( x,..., ) = eine Reihe von Beobachungen, so heiß x n x = n ( x... x ) = n n x i n i= Mielwer der Beobachungsreihe x. Die (empirische) Varianz der Beobachungsreihe x wird mi s 2 bezeichne und berechne sich folgendermaßen: s 2 = n n ( x i x) i= 2 Sie wird ofmals auch mi V(x) oder Var(x) bezeichne. Die (empirische) Sreuung der Beobachungsreihe x (auch Sandardabweichung genann) wird mi s bezeichne: 7

n s = n i= ( x i x) 2 2 2..2. Unersuchung von zwei Merkmalen In diesem Kapiel werden die Definiionen von einigen Begriffen, die in der Unersuchung von zwei Merkmalen (zwei Variablen) vorkommen Kovarianz, Korrelaionskoeffizien, Kovarianzmarix, Korrelaionsmarix, gegeben. Diese Begriffe sind für die mulivariae Analyse in dieser Maserarbei nowendig. Seien x = ( x,..., ) und y ( y,..., ) x n = y n zwei Reihen von Beobachungen (auch 2- dimensionale Beobachungsreihen genann). Dann heiß: s xy n = n i= ( x x)( y y) i i die (empirische) Kovarianz der 2-dimensionalen Beobachungsreihe. Sie wird ofmals auch mi Cov(x, y) bezeichne. Seien s x und s y die Sreuungen der -dimensionalen Beobachungsreihen x und y. Dann nenn sich: r xy = s x s xy s y der (empirische) Korrelaionskoeffizien. Er lieg zwischen - und. Wenn r =, dann wird gesag, dass die Beobachungsreihe x mi der Beobachungsreihe y (völlig) korrelier. Wenn r =, dann wird gesag, dass die Beobachungsreihe x mi der Beobachungsreihe y xy negaiv korrelier. Wenn r = 0, dann wird gesag, dass die Beobachungsreihe x mi der xy Beobachungsreihe y nich korrelier. Der Korrelaionskoeffizien wird ofmals auch mi Kor(x, y) bezeichne. Die Kovarianzmarix is die Marix aller paarweisen Kovarianzen zweier (oder mehrerer) Beobachungsreihen. Sie wird mi bezeichne und bilde sich folgendermaßen: xy Cov( x, x) = Cov( y, x) Cov( x, y) V ( x) = Cov( y, y) Cov( x, y) Cov( x, y V ( y) ) Die Kovarianzmarix is symmerisch und ha die Varianzen der einzelnen Beobachungsreihen als diagonale Were. Die Korrelaionsmarix is die Marix aller paarweisen Korrelaionskoeffizienen zweier (oder mehrerer) Beobachungsreihen. Sie wird mi R bezeichne und bilde sich folgendermaßen: 8

Kor( x, x) R = Kor( y, x) Kor( x, y) = Kor( y, y) Kor( x, y) Kor( x, y) Die Korrelaionsmarix R is ebenfalls symmerisch und ha als diagonale Were. Die Kovarianzmarix und die Korrelaionsmarix werden für mehrdimensionale Beobachungsreihen analog gebilde und haben die gleichen Eigenschafen. 2..3. Unersuchung von mehreren Merkmalen Ab sofor werden die Anzahl der Merkmale (auch Variablen genann) mi k und die Anzahl der Beobachungen (auch Objeke genann) mi n bezeichne. Die Daen können somi in n x k dimensionalen abellen (Marizen) gespeicher werden, wobei k die Anzahl der Spalen und n die Anzahl der Zeilen is. abelle : Food Daen (Quelle: [I4, Ume]) In diesem Beispiel über die Esskulur in Europa sind die verschiedene Produke - Gr_Coffe (Filerkaffee), ea (ee) usw. - die Variablen. Die Were der Variablen sind skaliere ganze Zahlen zwischen 0 und 00, wobei 0 kein Verbrauch des Produks und 00 einen maximalen Verbrauch bedeue. D. h. je größer die Zahl, deso größer der Verbrauch. Die Beobachungen sind die änder - Germany, Ialy usw. [29, Ke]. Jede Beobachung beseh aus den Weren für die jeweiligen Variablen. Also, jede Zeile in der Daenabelle is eine Beobachung. In dem Beispiel is jedes and eine Beobachung, die sich aus den Weren für mehrere Variable zusammensez. Graphisch kann die Gesamhei der Beobachungen in einem k-dimensionalen Raum dargesell werden, wobei jede Variable eine Achse (eine Dimension) und jede Beobachung einen Punk in den Raum darsell. [Abbildung ] Der roe Punk is der Gleichgewichspunk der Berachungswolke. 9

Abbildung : Beobachungswolke im 3-dimensionalen Raum Die Variablen haben ofmals verschiedene Werebereiche. Große Werebereichsunerschiede verhindern, dass der Einfluss der verschiedenen Variablen bei der Unersuchung erkann wird. Eine Variable, die z. B. Were zwischen 0 und 0.000 annimm, is durch eine andere, die Were zwischen 000 und 0000 annimm, von Großenordnung her völlig unergeordne. Beide können aber die gleiche Wichigkei für die Unersuchung haben. Dami die erse immer noch gleichsark wie die zweie berücksichig werden kann, wird eine Daensandardisierung durchgeführ. Die Sandardisierung ha zwei Schrie - Zenrierung und Skalierung. Uner einer Zenrierung wird der Ausgleich der Mielwere aller Variablen versanden. Graphisch bedeue dies, dass das Koordinaensysem verschoben wird, so dass der Koordinaenursprung auf den Gleichgewichspunk der Beobachungswolke gesez wird. Uner einer Skalierung wird der Ausgleich der Varianzen aller Variablen versanden. Graphisch bedeue dies, dass die Achsenlängen gleich lang gemach werden [Abbildung 2]. Abbildung 2: Beobachungswolke nach dem Sandardisierung 20

Normalerweise handel es sich dabei um eine Varianzskalierung (alle Variablen werden durch die Sandardabweichung ihrer Were dividier) und eine Zenrierung nach dem Mielwer (der Mielwer für jede Variable wird berechne und von der ensprechenden Variable abgezogen). Danach haben alle Variablen die gleiche Varianz und den gleichen Mielwer 0. Abbildung 3: Sandardisierung Alle Variablen, die in dieser Maserarbei verwende werden, sind mielwerzenrier und varianzskalier. Alle Formel und Algorihmen basieren auf solchen Daen. 2..4. Saisische Mehoden In der Saisik unerscheide man zwischen einerseis uni- und bivariaen und anderseis mulivariaen Mehoden (Verfahren). Bei einer univariaen bzw. bivariaen Analyse werden ein bzw. zwei Merkmale (Variablen) gleichzeiig unersuch. Die uni- und bivariae Daenanalyse, wie z. B. die Ersellung von Häufigkeisvereilungen, die Berechnung von Maßzahlen und Korrelaionskoeffizienen, die Durchführung von Signifikanzess, soßen bei komplexen Daenmengen schnell an ihren Grenzen. Das is häufig der Fall bei prakischen Aufgabensellungen wo mehrere Merkmale simulan zu unersuchen sind. abelle 2: Saisische Mehoden (Quelle: [29, Ke]) 2

Die mulivariaen Mehoden können in niedrigvariae, eche mulivariae und megavariae Mehoden unereil werden. Niedrigvariae Mehoden werden eingesez, wenn die Anzahl der Variablen weniger oder gleich fünf is. Die Mehoden in der Abbildung 4 eignen sich besonders gu für Analysen mi weniger als fünf Variablen, sind also eher niedrigvariae. Für eche mulivariae Analysen oder sogar megavariae (mi hunder oder ausend Variablen), eine ypische Siuaion bei indusriellen Prozessen, sind sie aber nich mehr sinnvoll anwendbar. Das is besonders der Fall, wenn Daen fehlen oder die Variablen sark mieinander korrelieren. Für Daen mi mehr Variablen als Beobachungen sind diese Mehoden ebenfalls nich geeigne. In solchen Fällen helfen die so genannen Projekionsmehoden. 2.2. Mulivariae Saisik 2.2.. Mulivariae Daenanalyse Die mulivariae Daenanalyse beschäfig sich mi der Erhebung, Analyse, Auswerung und Darsellung von mulivariaen Daen. Die mulivariae Daenanalyse beseh aus drei Haupschrien [29, Ke]: ) Auswerung der Rohdaen 2) Ableiung und Inerpreaion eines Modells 3) Modellbewerung und -einsaz Ziel des ersen Schries is es ein allgemeines Versändnis über die Daen zu bekommen. Danach kann ein Modell der Daen abgeleie werden. Ein Modell is eine angenähere und vereinfache Darsellung der Daen, die die Daenanalyse erleicher. Ziel eines Modells is es nich nur die vorgegebenen Daen sehr gu zu repräsenieren, sondern auch weiere (ähnliche) Daen gu vorhersagen zu können. Weier muss das Modell versanden, aber auch inerpreier werden, um den möglichen Einsaz zu besimmen. D. h. feszulegen für welche Daenmengen es sinnvoll anzuwenden is. Ers danach kann es angewende werden, um eine Vorhersage zu ähnlichen Problemen zu liefern. Dieser ganze Prozess is ieraiv zu gesalen, d. h. es werden immer wieder die drei Schrie durchgeführ, um eine sändige Verbesserung des Modells zu liefern. Dabei is am wichigsen die Dimensionaliä des Modells richig einschäzen zu können. Ein Modell, dass sehr genau die vorgegebenen Daen beschreib, also eine höhere Dimensionaliä ha, kann für leich modifiziere Daen völlig unbrauchbar sein. Es is immer ein Kompromiss zwischen der Modellgenauigkei und der Modellanwendbarkei zu finden. Das Modell soll genau, aber weigehend flexibel und generalisierungsfähig sein, um neue Daen richig zu beschreiben. 2.2.2. Mulivariae saisische Mehoden Es exisieren mehrere mulivariae saisische Verfahren. [0, Eck] Sie werden in zwei großen Gruppen zusammengefass: Dependenzverfahren und Inerdependenzverfahren [Abbildung Mulivariae Verfahren ]. Zur Dependenzanalyse zählen mulivariae Mehoden, die explizi eine Differenzierung zwischen abhängigen und unabhängigen Variablen 22

vornehmen. Die abhängigen Variablen werden auch laene Variablen, manifese Variablen, Modellparameer, versecke Variablen, hypoheische Variablen oder vorhergesage Variablen genann. Die unabhängigen Variablen werden auch sichbaren Variablen genann. Verfahren der Inerdependenzanalyse unerscheiden nich zwischen abhängigen und unabhängigen Variablen. Die Variablen werden einheilich behandel. Bei einer Unersuchung können enweder Merkmale oder Objeke im Vordergrund sehen. Man sprich im Falle eines primär merkmalsbezogenen Verfahrens von einer R-echnik (R), bei einem objekbezogenen Verfahren von Q-echnik (Q). Abbildung 4: Mulivariae Verfahren (Quelle: [0, Eck]) Für diese Arbei is haupsächlich die Regressionsanalyse von Bedeuung. Sie basier auf eine Beziehung zwischen einer oder mehreren abhängigen Variablen und einer Gruppe unabhängiger Variablen. Mehoden der Regressionsanalyse sind z. B. MR und PS, die in der nächsen Kapieln genauer beschrieben werden. 2.2.3. Muliple lineare Regression (MR) Bei der Regression handel es sich um eine Dependenzmehode, d. h. die Variablen werden in unabhängige und abhängige eingeeil. Ziel is es die abhängigen Variablen durch die unabhängigen zu beschreiben. Wenn diese Beschreibung auf eine lineare Abhängigkei zurückzuführen is, dann sprich man von einer linearen Regression. Im einfachsen Fall haben wir nur eine unabhängige Variable x und eine davon abhängige Variable y. Dann sieh die Anhängigkei folgendermaßen aus: y = b x e, wobei y und x - (n x )-Vekoren, d. h. n Beobachungen, und b und e - die zu findenden Koeffizienen sind. Dabei is zu beachen, dass x skalier und zenrier is. Normalerweise häng die abhängige Variable y von mehreren unabhängigen Variablen ab: 23

y = b x... b k x k Die Abhängigkei kann auch so geschrieben werden [4, Gel]: y = X b e, wobei X - die (n x k)-marix mi Spalen x j (j =,..., k), b - der Spalenvekor mi Komponenen b j und e - der Residuenvekor sind. Dabei sind grundsäzlich drei Fälle zu unerscheiden: () k > n, also mehr Variablen als Beobachungen. Es exisieren unendlich viele ösungen für b. (2) k = n. Es gib eine eindeuige ösung. Dann is e = y X b = 0. Diese Siuaion komm sehr selen in der Praxis vor und is deswegen irrelevan. (3) k < n. Es exisier keine exake ösung. Eine Nährungslösung kann aber dennoch gefunden werden, wenn man die änge von e = y X b minimier. Es exisieren viele Opimierungsverfahren, die eine ösung finden. Die gängigse is jedoch die Mehode der kleinsen Quadrae. Sie liefer die ösung b = ( X X ) X y können aber verschiedene Probleme aufreen, z. B wenn ( X X ) Dies is z. B. der Fall, wenn die Marix X nich den vollen Rang ha.. Dabei nich exisier. Eine andere Siuaion, die aufreen kann, is, wenn mehrere abhängige Variable exisieren. Das is die so genanne muliple lineare Regression (MR). Dann haben wir das folgende Gleichungssysem: y = X b e,... y = X b e, wobei m m m m - die Anzahl der abhängigen Variablen is. Oder anders geschrieben: Y - die Marix mi Spalen y g (g =,..., m), B - die Marix mi Spalen b g und E - die Marix mi Spalen e g sind. Y = X B E, wobei Die unabhängigen X-Variablen in einer Daenmarix werden auch X-Block und die abhängigen Y-Variablen Y-Block genann. Die Größe der X- und Y-Blöcke is die Anzahl der jeweiligen X- und Y-Variablen. In dieser Maserarbei is die Größe von X immer k und die Größe von Y immer m. Die Dimension der Marix X is n x k und die Dimension der Marix Y is n x m. 24

2.2.4. Projekionsmehoden Bei der Projekionsmehode handel es sich um echniken, die die Dimensionaliä der Daen verkleinern und somi die Daen komprimieren, um eine einfachere Daenanalyse zu ermöglichen. Das geschieh miels einer Projekion der Beobachungspunke, die in dem k- dimensionalen Raum liegen, auf eine kleinere Dimension, eine so genanne Hyperebene. Diese Hyperebene is, z. B. eine inie, wenn die Beobachungswolke in den -dimensionalen Raum und eine Ebene, wenn sie in den 2-dimensionalen Raum projizier wird. Die Koordinaen der projizieren Beobachungspunke geben die Beobachungen in komprimierer Form wieder. Die Richungsvekoren der Hyperebene geben Auskunf über die Variablen selbs. Somi is es einfacher die Daen zu analysieren und ein verbesseres Versändnis über die Daenzusammenhänge zu bekommen. Hierbei is es prakikabel die Dimensionaliä zwischen 2 und 5 zu wählen. In den folgenden Siuaionen sind die Projekionsmehoden besonders geeigne: o wenn es sich um Daenabellen mi ücken, d.h. fehlende Were für einige Variablen und Beobachungen handel. o wenn die Daenabellen mehr Variablen als Beobachungen enhalen. o wenn die Dimensionaliä der Daen groß is. o wenn die Daen nich frei von Rauschen sind. In solchen Fällen rennen die Projekionsmehoden das Rauschen von der nowendigen Informaion. o wenn die Daen sark kollinear sind. Nich zulez bieen diese Mehoden auch die Möglichkei viele informaive Graphiken zu ersellen. Von den beiden Bildern oben, kann abgelesen werden, dass z. B. in Süd-Europa sehr viel Olivenöl und Knoblauch und in Skandinavien sehr viel Fisch und viele eingefrorene Produke gegessen werden. In den nächsen Kapieln werden zwei häufig benuzen Projekionsmehoden näher beschrieben - die Haupkomponenenmehode (PCA) und die Projekion auf laene Srukuren Mehode (PS). Diese Projekionsmehoden eignen sich besonders gu für Modellbildung, zur Prozessüberwachung und vorhersage, sowohl von koninuierlichen, aber auch von diskoninuierlichen Prozessen. 2.3. Haupkomponenenanalyse (PCA) 2.3.. Einleiung und geomerische Darsellung PCA seh für Principal Componen Analysis (deusch: Haupkomponenenmehode). Diese Mehode finde Hyperebenen (auch Unerräume genann) im k-dimensionalen Raum, die am besen die Beobachungswolke annähern. Die Achsen der zu findenden Hyperebenen heißen Haupkomponenen (engl. Principal Componens oder PC). Diese Achsen werden eine nach 25

der anderen berechne. Die erse Achse is diejenige Gerade in dem k-dimensionalen Raum, die die Beobachungswolke am besen annäher. Dabei wird als Krierium die Mehode der kleinsen Quadrae benuz. Diese Mehode wird auch bei der linearen Regression benuz. Dabei is ein wichiger Unerschied bei der Anwendung zu beachen bei PCA wird der orhogonalen Absand zwischen dem Beobachungspunk und der Hyperebene und bei der linearen Regression der Absand in Bezug auf die Y-Achsen gemessen. Die erse Achse verläuf durch den Ursprung, weil die Daen skalier sind. Jede Beobachung bekomm eine Koordinae auf dieser Gerade. Diese Koordinae nenn man Score. Die erse Haupkomponene gib die maximale Varianzrichung der Beobachungswolke und beschreib somi am besen die Beobachungsdaen. In der Abbildung 5 wird die erse Haupkomponene (PC ) in dem 3-dimensionalen Fall dargesell, also wenn die Daenabelle drei Variablen enhäl. Abbildung 5: Erse Haupkomponene in dem 3-dimensionalen Raum Die zweie, drie usw. Haupkomponene beschreiben die demnächs wichigsen Varianzrichungen. Alle Haupkomponenen verlaufen durch den Ursprung und sind zu einander orhogonal. Anders ausgedrück, PCA maximier die Varianz der Projekionskoordinaen. Das erklär auch, wieso in vielen Fällen die Variablenskalierung und zenrierung nowendig is. Alle Haupkomponenen zusammen spannen einen Unerraum auf. Die Koordinaen der projizieren Beobachungen in diesem Unerraum nenn man Scores. Die Abbildung 6 zeig die ersen zwei Haupkomponenen, die eine Ebene bilden. Jede Beobachung kann in diese Ebene projizier werden und einen Score bekommen. 26

Abbildung 6: Hyperebene in dem 3-dimensionalen Raum Wenn nur mi zwei Haupkomponenen gearbeie wird, dann können die ensprechenden Scores einfach veranschaulich werden. Ein Beispiel liefer Abbildung 7. Die Scores machen Aussagen über die Beobachungen, sie sagen aber nich welche die wichigsen Variablen sind. Das wird miels der oadings erreich. Geomerisch gesehen geben die oadings Auskunf über die Posiion des Unerraums in dem k-dimensionalen Raum. Sie sind die Richungsvekoren jeder Haupkomponene in Bezug auf die ursprünglichen Koordinaen. Somi kann man die oadings benuzen um Aussagen über die Scores zu machen. Die oadings der Variablen zeigen wie die Variablen mi einander korrelieren. Wenn sie nah aneinander sind, dann korrelieren die ensprechenden Variablen sark. Die Enfernung der oadings von dem Ursprung gib an, wie sark die ensprechende Variable die Hyperebene beeinfluss. Für die Projekion der Beobachungspunke der Esskulurdaen [abelle ] in dem 2- dimensionalen Raum ergeben sich die folgenden Bilder: Abbildung 7: Koordinaen der projizieren Beobachungspunke (Quelle: [I4, Ume]) 27

Abbildung 8: Richungsvekoren der Variablen in der Hyperebene (Quelle: [I4, Ume]) Abbildung 8 zeig z. B., dass die Variablen Crisp_Brea (Bro), Fro_Fish (gefrorener Fisch) und Fro_Veg (gefrorenes Gemüse) sark mi einander korrelieren. Sie liegen auch wei von Ursprung enfern. Sie prägen die Beobachungen Sweden, Denmark, Norwegen und Finland und den ganzen Unerraum sark. Sie sind aber negaiv mi Olive_Oil (Oliven Öl) und Garlic (Knoblauch) korrelier, d.h. diese beiden Gruppen von Variablen beeinflussen die Beobachungen in verschiedene Richungen. 2.3.2. Algebraische Darsellung Bis jez habe ich mich haupsächlich mi der geomerischen Erklärung der Haupkomponenenmehode beschäfig. Eine algebraische Darsellung is aber für Berechnungszwecke deulich hilfreicher. Sei X die n x k Daenmarix. Und sei die k x k Kovarianzmarix. Aus der Marixberechnung haben wir, dass: C eine orhonormale k x k Marix und G eine diagonale k x k Marix sind. = C G C, wobei Weier sind die Spalen von C genau die oadings. Und die diagonalen Were von G sind die geordneen Eigenwere von. Also, vorausgesez, dass die n x k Daenmarix X gegeben is, ergib sich mi der Haupkomponenenmehode die folgende Darsellung von X: X = P E, wobei - eine n x A Marix, deren Spalen die berechneen Scores sind. Auch Scoresmarix genann, P - eine k x A Marix, deren Spalen die berechneen oadings sind. Auch oadingsmarix genann. Sie beschreib den Einfluss der Variablen, A - die Anzahl der berechneen Haupkomponenen (A < k, wobei k die höchse mögliche Anzahl von Haupkomponenen is) und E - die Marix der Residuen. E enhäl die Abweichung des PCA Modells (die Projekionskoordinaen) von den realen Daen (die ursprüngliche Koordinaen), also die Informaion die nich in dem PCA Modell erfass wird. 28

Anders geschrieben: X = p 2 p2... A p A E = M M 2... M A E, wobei, 2..., A - die Scores, p, p 2..., p A - die oadings und M, M 2,..., M A - Rang--Marizen sind. Die Vereinfachung der Daenmarix X wird somi mi der Hilfe eines Operaors, der die Spalen von X in eine Dimension projizier und eines Operaors, der die Zeilen von X in eine Dimension projizier, erreich. 2.3.3. NIPAS Algorihmus Der berühmese Algorihmus zur Berechnung der Haupkomponenen heiß NIPAS (Nonlinear Ieraive Parial eas Squares). [4, Gel] Wie der Name bereis sag, handel es sich um einen ieraiven Algorihmus, der eine Haupkomponene pro Schri berechne. Zunächs werden und p aus X berechne. Dann wird die erse Residuummarix E = X p berechne. 2 und p 2 werden dann aus E berechne usw. Jeder Schri a (a =,, A) wird folgendermaßen durchgeführ: ) Nimm einen Spalenvekor x j aus X und sei a := x j. 2) Berechne p a : p a X =. (2) a a a 3) Normiere p a : p p a =. p a a 4) Berechne a : a X p a =. (4) pa pa 5) Vergleiche a aus (2) und a aus (4). Falls gleich: SOP. Falls nich, dann gehe zurück zu 2). 6) Berechne E a : E a = E p, wobei E 0 = X. a a a Graphisch kann den NIPAS Algorihmus folgendermaßen dargesell: 29

Abbildung 9: Graphische Darsellung des NIPAS Algorihmus Die blaue Farbe ensprich die Schrie ) - 3) und die braune Farbe dem Schri 4). Der NIPAS Algorihmus lös eigenlich ein Eigenwer / Eigenvekor Problem. Das kann aus den folgenden Überlegungen ausgelesen werden: Aus (2) folg, dass p a X a = (6) a a Aus (4) folg, dass a p X = (7) p p a a a Jez liefer (2) in (4), uner Berücksichigung von (6): a X X a =. a a pa pa Sei ζ := p p. Dann gil: a a a a ζ a = X X a. Also Somi is a Eigenvekor von ( I X X ) = 0 ζ. n X X zum Eigenwer ζ. a (4) in (2), uner Berücksichigung von (7) liefer, dass p a Eigenvekor von Eigenwer ζ is. X X zum 30

2.3.4. Saisiken zur Analyse Zur Beureilung des konsruieren Modells, sowie der Variablen und der Beobachungen werden Saisiken genuz. Sie liefern objekive Krierien zur Schäzung der Modellgenauigkei und -anwendbarkei. PCA und die Projekionsmehoden erlauben die Anwendung vieler nüzlicher Saisiken und liefern viele Insrumene zur Daenanalyse. Bei den Analysesaisiken spiel die Residuen Marix E eine große Rolle. Mi ihrer Hilfe können z. B. Ausreißer, die das Modell sark oder schwach beeinflussen, erkann werden. Die Analysesaisiken können in drei großen Gruppen aufgeeil werden: ) Saisiken zur Beobachungsanalyse 2) Saisiken zur Variablenanalyse 3) Saisiken zur Modellanalyse Diese Gruppen sollen naürlich nich gerenn beobache werden, sondern in ihrem Zusammenhang sie vervollsändigen und erweiern sich gegenseiig. Eine gue Analyse berücksichig alle drei. 2.3.4.. Saisiken zur Beobachungsanalyse In dieser Arbei werden zwei verschiedene Saisiken zur Beobachungsanalyse verwende 2 die DModX Saisik und die Hoelling s Saisik. Die Zeilen von E enhalen die Residuen der Beobachungen, auch Disanz zum PCA Modell genann und mi DModX bezeichne. DModX eigne sich für die Erkennung schwacher Ausreißer. Auf Abbildung 7 is ein solcher schwacher Ausreißer die Beobachung Sweden. DModX kann sich für eine Beobachung aus den bekannen Modellbildungsdaen oder für eine neue Beobachung aus unbekannen esdaen berechnen. Zunächs wird die Berechnung für unbekanne Beobachungen gegeben: sei S2OX i die Residuenvarianz der i-en Beobachung. Dann is j S2 OX i =, wobei DF e ij - der Einrag in der i-en Zeile und der j-en Spale der Residuenmarix E und DF - die Anzahl der Freiheisgrade (engl. degrees of freedom) sind. Im PCA Fall mi A Haupkomponenen und k Variablen gil: e 2 ij DF = k A. DF is somi ein Maß für die Dimensionsredukion bei der Projekionsmehode. Dann kann DmodX berechne werden: ( S OX ) 2 DModX =. 3 2 i

Für Beobachungen aus bekannen Modellbildungsdaen ergib sich: DModX ( S OX ) υ = 2 2 i, wobei υ ein Korrekionsfakor is, der von der Anzahl der Haupkomponenen und der Beobachungen in den Modellbildungsdaen abhäng. υ is normalerweise ewas größer als. Um sicher sagen zu können, ob es sich wirklich um einen schwachen Ausreißer handel, wird eine kriische Grenzdisanz angewende. Sie wird mi Dcri bezeichne und ergib sich aus der S 2OX i ein schwacher Ausreißer. Vereilung von ( ) 2. Falls DModX > Dcri, dann is die ensprechende Beobachung Abbildung 0: DModX für PCA (Quelle: [I4, Ume]) 2 2 Ein weieres wichiges Insrumen is die Hoelling s Saisik. Die Hoelling s Saisik is eine Verallgemeinerung der Suden s Saisik. Sie eigne sich besonders gu zur Erkennung von sarken Ausreißern. Für das PCA Modell sieh die Berechnung der Hoelling s 2 folgendermaßen aus: i die i-e Beobachung, A die Anzahl der Haupkomponenen, a die a-e Haupkomponene, ia - die Scores und s a - die Varianz der Scores sind. 2 i = A a= 2 ia 2 a s, wobei Dabei is einiges zu beachen. Die Skalierung aller Scores i mi den zugehörigen Varianzen s is nowendig, um die gleichsarke Beachung der Scores in der Berechnung von i 2 zu sichern [40, Mac]. Diese Skalierung führ aber auch zu einigen Problemen, die behandel werden müssen. Es wird, z. B. das Rauschen in den lezen Haupkomponenen, die kaum die Varianz in X repräsenieren, miberücksichig. Um dies zu vermeiden werden nur die ersen A 32

Haupkomponenen berücksichig. Die Anzahl A kann mi der Kreuzvalidierungsmehode [s. Kapiel 2.3.5.3.] besimm werden. 2 i N A ( N A) 2 ( N ) is F-vereil mi A und N A Freiheisgraden. Der Verrauensbereich in den 2-dimensionalen Fall (2 Haupkomponenen) is eine Ellipse, wie auf Abbildung 7 gezeig wird. Falls eine Beobachung ein sarker Ausreißer is, lieg diese außerhalb der Ellipse, also außerhalb des Verrauensbereichs. Das is der Fall, wenn: 2 i > A 2 ( N ) F ( A, N A) N kriisch ( N A), wobei F kriisch das Quanil der F-Vereilung für ein passendes Verrauensniveau is. Sie is normalerweise zwischen 95% und 99% zu wählen. 2.3.4.2. Saisiken zur Variablenanalyse Für die Variablenanalyse wird die erkläre Sreuung (engl. explained variaion) - R 2 X - verwende. Sie gib an, wie wei eine Variable durch das Modell erklär werden kann. Sie variier von 0 (keine Erklärung) bis (volle Erklärung). Mi der Erhöhung der Dimensionaliä des Modells, seig die erkläre Sreuung. Die Spalen von E, die die Residuen der Variablen wiedergeben, bezeichnen die Wichigkei der Variablen für das Modell. Im Folgenden wird gezeig, wie die erkläre Sreuung sich berechne. Sei SSVX j [a] die Residuensreuung der j-en Variable und e 2 [ a ij ] die verbleibenden Residuen nach der Berechnung der a-en Haupkomponene. Dann is: j 2 = i eij SSVX [ a] [ a]. Sei R 2 X[a] die erkläre Sreuung für die akuelle Haupkomponene a =... A. Dann is R 2 SSVX j[ a] X j[ a] =, wobei SSVX [0] SSVX j[0] - die Sreuung der j-en Variable am Anfang der PCA, nach dem die Variablen zenrier, aber noch nich skalier sind, is. Sei R 2 X(cum) die erkläre Sreuung für alle bis jez berechneen Haupkomponenen. Dann gil: R 2 X j ( cum) = a j SSVX j[ a]. SSVX [0] j 33

2.3.4.3. Saisiken zur Modellanalyse Neben der Beobachungs- und Variablenanalyse, spiel auch die Analyse des gesamen Modells eine wichige Rolle. Dabei is es am wichigsen, die Dimensionaliä des Modells richig besimmen zu können, d. h. die nöige Anzahl von Haupkomponenen feszusellen. Dabei sind zwei Saisiken zu berücksichigen: ) Die erkläre Sreuung (R 2 X) für die Modellgenauigkei und 2) Die disposiive (vorhergesage) Sreuung (Q 2 X) für die Modellanwendbarkei (Generalisierungsfähigkei). Die disposiive Sreuung gib an, wie wei eine Variable durch das Modell vorhergesag werden kann. Sie ha auch maximalen Wer (völlig richige Vorhersage), aber kann auch kleiner 0 werden (keine richige Vorhersage). Abbildung : R 2 X und Q 2 X für das Beispiel Esskulur in Europa (Quelle: [I4, Ume]) Anders als beim R 2 X, verursach eine Dimensionaliässeigerung zunächs eine Erhöhung von Q 2 X, dann aber eine Minderung. Dieses Verhalen wird als Überanpassung beschrieben das Modell is zu sehr an eine besimme Daenmenge gebunden und ha keine ausreichende Vorhersagekraf. Die Herausforderung beseh dabei, das goldene Miel zwischen die beiden zu finden. Eine große Differenz zwischen den Weren von R 2 X und Q 2 X is zu vermeiden, um opimale Ergebnisse zu erzielen. 34

Abbildung 2: Abhängigkei der R 2 X und Q 2 X von der Anzahl der PCs (A) Die disposiive Sreuung samm aus der Kreuzvalidierung [29, Ke] eine Mehode, die die opimale Anzahl von Haupkomponenen besimm. Die Idee dieser Mehode is es, einen eil der Beobachungen aus der Modellbildung auszuschließen und dann diese mi dem Modell vorherzusagen. Die normiere Differenz zwischen den beobacheen und vorhergesagen Weren, ergib Q 2 X. Im Folgenden wird gezeig, wie sich die disposiive Sreuung berechne. Sei PRESS die gesame Differenz zwischen vorhergesagen und beobacheen Weren aller Variablen (Predicive Residual Sum of Squares). Das heiß: PRESS = ( ˆ ) 2 i, j x ij x ij, wobei xˆ ij - die vorhergesagen und x ij - die beobacheen Were sind. PRESS wird auch ofmals in der ieraur als SPE (Squared Predicion Error) bezeichne. Sei SS die Quadrasumme der beobacheen Variablen (Sum of Squares). Dann is: SS = i, j x 2 ij. 2 Für die disposiive Sreuung Q X j [ a] der akuellen Haupkomponene a - gil: Q 2 PRESS X j[ a] = [ a]. SS Für die disposiive Sreuung Q 2 X(cum) für alle bis jez berechneen Haupkomponenen gil: 2 PRESS Q X j ( cum) = [ a]. a SS j j 35

2.4. Projekion auf laene Srukuren (PS) 2.4.. Einleiung und geomerische Darsellung PS seh gleichzeiig für Parial eas Squares und Projecion o aen Srucures. PS is eine Projekionsmehode, wie PCA, aber auch eine Mehode zur Hersellung einer Abhängigkeisbeziehung zwischen dem X-Block und dem Y-Block einer Daenmarix. Dami is PS eine Regressionsmehode in der Klasse MR. Sie beseh aus zwei PCA Mehoden, für den X-Block und für den Y-Block, sowie aus ihrer Beziehung, die MR. Miels eines Ieraionsprozesses wird eine Regression zwischen den Scoresmarizen der abhängigen Y- und der unabhängigen X-Variablen berechne. Somi beseh die PS Mehode aus den so genannen äußeren Relaionen (die PCAs für die X- und Y-Blöcke) und der so genannen inneren Relaion (die Beziehung zwischen den beiden Blöcken). Anders als bei PCA, die die Varianz maximier, maximier PS die Kovarianz zwischen X und Y. Bei PS nenn man die oadings der beiden PCAs Weighs. Dieser Name wurde benöig, weil auch die innere Relaion berücksichig werden muss. Abbildung 3: Beobachungswolken bei der PS Mehode Geomerisch gesehen wird die Daenmarix in zwei Räume aufgeeil X-Raum und Y-Raum. D. h. jede Beobachung (jede Zeile in der Daenmarix) ensprich zwei Punken einem im X-Raum und einem im Y-Raum. Somi werden zwei Beobachungswolken berücksichig. Der gesame Daenbesand wird, wie bei PCA, vorher zenrier und skalier, um ein Vergleich zwischen den beiden Räumen zu ermöglichen. Zunächs wird der Fall m = berache, d. h. die Größe des Y-Blockes is. Das is auch der Fall, der in dieser Maserarbei von Ineresse is und ausführlicher behandel wird. Er besiz auch die größe Relevanz in der Praxis. Gib es keine Korrelaionen im Y-Block, so ha sich gezeig, dass ein Modell für jede einzelne laene Variable vor einem gemeinsamen Modell für alle laenen Variablen vorzuziehen is. In dem Fall m = lieg die Beobachungswolke des Y-Raumes auf einer Gerade. 36