Analyse. Optimierung. Faktoren und irrelevante Inputs. Kontrollierbare und nicht kontrollierbare

Ähnliche Dokumente
Taschenbuch Versuchsplanung Produkte und Prozesse optimieren

Kurs Multivariate Datenanalyse (MVA) Versuchsplanung (design of experiments)

Grundlagen und Basisalgorithmus

EINFÜHRUNG IN DIE STATISTISCHE VERSUCHSPLANUNG

2. Übungsaufgabe: Geometrieoptimierung, Verwendung der Z-Matrix

Wie man leicht erkennen kann, steigt die Anzahl notwendiger Versuche zur Basis 2 bei jeder Modellerweiterung um einen weiteren Faktor.

Informatik-Sommercamp Mastermind mit dem Android SDK

Versuchsplanung. Teil 1 Einführung und Grundlagen. Dr. Tobias Kiesling <kiesling@stat.uni-muenchen.de> Einführung in die Versuchsplanung

Methoden zur Visualisierung von Ergebnissen aus Optimierungs- und DOE-Studien

Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen

Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen" Dr. Uwe Waschatz

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Chromatographie Version 04/2008

Artificial Life und Multiagentensysteme

Algorithms for Regression and Classification

Tag 9: Datenstrukturen

Evolutionäre Algorithmen Software

Proseminar Genetische und Evolutionäre Algorithmen

Statistische Versuchsplanung mit JMP von der Klassik zur Moderne

Approximationsalgorithmen

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

Neuronale Netze mit mehreren Schichten

Quantitative Analyse des Polysaccharides Sinistrin in Serum mittels HPLC und elektrochemischer Detektion

13 Java 4 - Entwurfsmuster am Beispiel des Rucksackproblems

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

Statische Versuchsplanung (DoE - Design of Experiments)

Scheduling und Lineare ProgrammierungNach J. K. Lenstra, D. B. Shmoys und É.

Genetische Algorithmen

Nichtlineare Optimierungsprobleme mit Komplexität

Von den Grundlagen der Monte-Carlo-Methode zur Simulation von Teilchenreaktionen und Teilchendetektoren

Numerische Behandlung des Eigenwertproblems

Binäre lineare Optimierung mit K*BMDs p.1/42

Synthese Eingebetteter Systeme. 16 Abbildung von Anwendungen: Optimierung mit DOL

WHERE Klausel Generierung mit.net und Oracle. Aus unserer Projekterfahrung und Architektur-Kurs

Versuchsplanung. Inhalt. Grundlagen. Faktor-Effekt. Allgemeine faktorielle Versuchspläne. Zweiwertige faktorielle Versuchspläne

Aufbau und Operatoren evolutionärer Verfahren

Computational Intelligence

Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg OPTIMIERUNG II. Aufgaben und Lösungen

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Die DOE-Funktionen im Assistenten führen Benutzer durch einen sequenziellen Prozess zum Entwerfen und Analysieren eines oder mehrerer Experimente, in

Heuristiken im Kontext von Scheduling

Bildtransformationen. Geometrische Transformationen Grauwert-Interpolation

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), Michael Roers (Übung),

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

DESIGN OF EXPERIMENTS

Valve Control Unit ValDi

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt

Multivariate Analysemethoden

Model-based Development of Hybrid-specific ECU Software for a Hybrid Vehicle with Compressed- Natural-Gas Engine

Simulation of Longitudinal Beam Dynamics

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Künstliches binäres Neuron

Weiterbildungskurs Stochastik

Das Magnetfeld der Erde. Stephen Kimbrough Damjan Štrus Corina Toma

Anwendung von Geoinformatik: Entwicklung von Open Source Tools für die automatisierte Analyse von Geoinformationen

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Atomic Force Microscopy

Bionische Methoden der Optimierung

Wege zur Überprüfung der Robustheit in der RP-HPLC Dr. Hans Werner Bilke

Ausgewählte Kapitel der Statistik: Regressions- u. varianzanalytische Modelle Lösung von Grundaufgaben mit SPSS Statistics 20.0

SEP 325. Notwendigkeit. häufige Situation: Programm funktioniert im Prinzip fehlerfrei, aber nicht mit gewünschter Performanz

DIE FILES DÜRFEN NUR FÜR DEN EIGENEN GEBRAUCH BENUTZT WERDEN. DAS COPYRIGHT LIEGT BEIM JEWEILIGEN AUTOR.

Lösen von linearen Gleichungssystemen mit zwei Unbekannten:

Taschenbuch Versuchsplanung Produkte und Prozesse optimieren

Transistor-Mismatch bei einem Strom-DAC in 65nm-Technologie

Klausur Mikroökonomie I Diplom SS 06 Lösungen

Beschreibung. Process Description: Sartorius Bestellnummer / Order No.:

Algorithmische Modelle als neues Paradigma

Erster Schritt mit Mocha:

DoE als Werkzeug zur systematischen Prozessoptimierung in der Silikatkeramik

Taschenbuch Versuchsplanung

Structurally Evolved Neural Networks for Forecasting

AUSWERTUNG: LASER B TOBIAS FREY, FREYA GNAM

Taschenbuch Versuchsplanung

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Optimierung mit Genetischen Algorithmen und eine Anwendung zur Modellreduktion

Inhalt 1 Einführung Ausgewählte Begriffe Vorgehensweise im Überblick... 14

Algorithmen und Datenstrukturen Balancierte Suchbäume

Extrema von Funktionen in zwei Variablen

Grundlagen der Elektro-Proportionaltechnik

Inhaltsverzeichnis. 4 Lagrange-Funktion und Dualität Lagrange-FunktionmitGleichheitsrestriktionen... 63

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Optimality and evolutionary tuning of the expression level of a protein. Erez Dekel & Uri Alon Nature Vol 436, July 2005

Inhalt. Vorwort... 1 Einführung Ausgewählte Begriffe Vorgehensweise im Überblick... 17

Kommentierte Musterlösung zur Klausur HM I für Naturwissenschaftler

Analyse komplexer Proben mit multidimensionaler (Heart-Cut) GC-GCMS und LC-GCMS

Einführung in neuronale Netze

Multiple-Choice Test. Alle Fragen können mit Hilfe der Versuchsanleitung richtig gelöst werden.

Proposal zur Masterarbeit. Kombination der neuroevolutionären Methoden EANT mit Q-Learning und CMA-ES

Bestimmung einer ersten

Rekonstruktion 3D-Datensätze

Hochschule Regensburg. Übung 12_3 Genetische Algorithmen 1. Spezielle Algorithmen (SAL) Lehrbeauftragter: Prof. Sauer

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Konfiguration des Novell GroupWise Connectors

Teil II. Nichtlineare Optimierung

(GENERAL FULL FACTORIALS)

Herzlich Willkommen zur Vorlesung Statistik

Schnelle Optimierung in der HPLC ein Vorschlag. Stavros Kromidas, Saarbrücken

Transkript:

Optimierung Zielsetzungen: Systematische Sichtweise Verschiedene Strategien Werkzeuge, aber keine Rezepte Analyse Im ersten Schritt der Analyse eines Problems müssen möglichst alle Inputs und Outputs gefunden werden Input System Output z.b. HPLC: Inputs: Säulenmaterial, ph, Elutionsmittel, Gradienten, Temperatur Outputs: Retentionszeit, Form und Fläche der Signale z.b. Optimierung einer Reaktion Input: Konzentrationen, Temperatur, Druck, Katalysator,... Output: Ausbeute z.b. Ernährung und Gesundheit Faktoren und irrelevante Inputs Faktoren sind Inputs, die den Output beeinflussen Kontrollierbare und nicht kontrollierbare Faktoren Faktoren Irrelevante Einwirkungen System Output irrelevant Auffinden relevanter Faktoren Verhindern unkontrollierter Einwirkungen, z.b. Korrelation der Zeit mit Konzentrationen, Temperatur, Sonneneinstrahlung... Mögliche Massnahme: Randomisierung in Zeit und/oder Raum Input relevant (Faktoren) kontrollierbar nicht kontrollierbar

Definition einer Zielgrösse Eine Voraussetzung der Optimierung ist die Definition einer einzigen Zielgrösse Faktoren Irrelevante Einwirkungen System Output Zielgrösse z. B chromatographische Trennung: Output: Chromatogramm (Retentionszeiten, Signalformen) Zielgrösse: Eine "hinreichend gute Trennung", d.h. die Auflösung der beiden am wenigsten gut aufgelösten Signale Vorbereitung der Optimierung VOR der Optimierung müssen: eine Zielgrösse definiert werden der Bereich der Variablen definiert werden die Anzahl der Versuche festgelegt werden die Strategie festgelegt werden Optimierungsmethoden Modellierung der Antwortfläche: Anpassung eines linearen Modells Direkte Methoden: Simplex Variation eines Faktors pro Schritt Erste Ableitungen: Box-Wilson-Methode Stochastische Optimierungsmethoden: Simulated Annealing Genetische Algorithmen Wahl der Optimierungsmethode Je nach Problem und Vorinformation kann die eine oder andere Methode vorteilhaft sein. Suche des globalen Optimums: Keine Methode ist wesentlich effizienter als das systematische Absuchen des ganzen Raumes. Keine Methode garantiert daher das Auffinden des globalen Optimums Stochastische Methoden sind vorteilhaft, um das globale Optimum zu suchen. Die Modellierung der Antwortfläche ist vorteilhaft für die Feinoptimierung.

Modellierung der Antwortfläche Modell ohne Wechselwirkungsterm 1. Anpassung des allgemeinen linearen Modells zweiten Grades: z.b. für zwei unabhängige Variablen: y i = b o + b 1 x 1i + b 2 x 2i + b 11 x 1i 2 + b 22 x 2i 2 + b 12 x 1i x 2i + e i 2. Erste Ableitungen null setzen: z. B. 0 = dy/dx 1 = b 1 + 2 b 11 x 1 + b 12 x 2 0 = dy/dx 2 = b 2 + 2 b 22 x 2 + b 12 x 1 und für x 1 und x 2 lösen. 3. Sicherstellen, dass alle zweiten Ableitungen das gleiche Vorzeichen haben, positiv für ein Minimum. Modell mit Wechselwirkungsterm Hyperfläche mit Sattelpunkt

Anzahl Parameter Faktoren, n Parameter, (n+1)(n+2)/2 2 6* 3 10 4 15 5 21 *z. B. b o, b 1, b 11, b 2, b 22, b 12 Anzahl notwendiger Versuche Die Anzahl anzupassender Parameter entspricht der minimalen Anzahl der notwendigen Versuche Die Kombination der unabhängigen Variablen bei einem Optimierungsschritt muss vernünftig gewählt werden. Zusätzliche Versuche sind nötig, wenn die Messfehler abgeschätzt und der "lack of fit" geprüft werden sollen. --> Versuchsplanung Anzahl notwendiger Versuche Versuchsplanung Bei n Messungen f Faktorenkombinationen (Kombinationen der unabhänigen Variablen) p Modellparametern resultieren n-f Freiheitsgrade für die Schätzung des Messfehlers f-p Freiheitsgrade für die Prüfung der Modellqualität Für die Festlegung der Faktorenkombinationen eignen sich besonders: Faktorieller Plan Zentraler Plan Zentral zusammengesetzter Plan "D-optimaler" Plan

Faktorieller Plan 2 3 -Faktorieller Plan Anzahl Stufen (verschiedene Werte der Faktoren): k Anzahl Faktoren: n Anzahl Versuche:: k n (wird als k n -Plan bezeichnet) Faktoren n Stufen k Versuche k n 2 2 4 2 3 9 3 2 8 3 3 27 4 2 16 4 3 81 Faktor 3 Faktor 1 Faktor 2 Für ein quadratisches Modell müssen mindestens 3 Stufen vorliegen. 3 2 -Faktorieller Plan Zentraler Plan Geeignet für die Anpassung von Modellen zweiten Grades ohne Wechselwirkungsterm Faktor 2 Faktor 2 Faktor 3 Faktor 2 Faktor 1 Faktor 1 Faktor 1

Zentraler Plan: Anzahl Versuche Zentral zusammengesetzter Plan Modell zweiten Grades ohne Wechselwirkungsterme Kombination eines zentralen Plans mit einem 2 n -faktoriellen Plan für die Anpassung von Modellen zweiten Grades mit Wechselwirkungstermen Faktoren n Versuche 2 n + 1 1 3 2 5 3 7 4 9 Faktor 2 Faktor 3 Faktor 2 Faktor 1 Faktor 1 Zentral zusammengesetzter Plan Zentral zusammengesetzter Plan Modell zweiten Grades mit Wechselwirkungstermen Faktoren n Versuche 2 n + 2n +1 Parameter (n+1)(n+2)/2 2 9 6 3 15 10 4 25 15

D-Optimaler Plan Ein Faktor pro Schritt Ein Versuchsplan mit einer gegebenen Anzahl Experimente ist D-optimal, wenn die Determinante der Varianz-Kovarinanzmatrix der Parameter (Det(P T P) -1 ) minimal ist. Dies ist gelichbedeutend mit dem Kriterium, dass die Determinante der "Informationsmatrix" (P T P) maximal ist, da: Det(P T P) = 1/Det(P T P) -1 Die oben diskutierten Pläne sind meist D-optimal. Der hier gezeigte Zusammenhang erlaubt es aber, Pläne mit beliebiger Anzahl von Versuchen optimal zu gestalten. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 Ein Faktor pro Schritt Ein Faktor pro Schritt 78 78 Dielektrizitätskonstante 76 74 G Dielektrizitätskonstante 76 74 G 72 F D C A B 72 D F C A B E E 7 8 9 10 11 ph 7 8 9 10 11 ph

Schätzung der ersten Ableitung Bei der Methode von Box und Wilson werden Versuche nach einem 2 n -faktoriellen Plan durchgeführt und die Richtung der neuen Messungen (nicht aber die Schrittlänge) aufgrund der ersten Ableitung bestimmt. x 2 x 22 x 21 3 4 A 1 2 B Steigung k: k = x 12 - x 11 y 3 + y 4 - y 1 -y 2 x 22 - x 21 y 2 + y 4 - y 1 -y 3 Simplex In einem N-dimensionalen Faktorenraum startet man mit N+1 Experimenten, jedes bei einer anderen Kombination der Faktoren. Die N+1 Punkte definie-ren den Startsimplex. Aufgrund der Antworten errechnet man aus den Faktorenwerten des Startsimplex die Faktoren des nächsten Experiments. Dazu bestimmt man den Schwerpunkt "centroid" wie folgt: Von den N+1 Faktorenkombinationen wird diejenige mit der schlechtesten Antwort gestrichen. Der Durchschnitt der anderen Faktorenkombinationen definiert den Schwerpunkt. Für die nächste Messung erhält man die Faktorenkombination durch Spiegelung der Faktorenwerte der schlechtesten Antwort am Schwerpunkt. Die weiteren Schritte erfolgen nach dem gleichen Prinzip. x 11 x 12 x 1 =1 für Quadrat Simplex Modifizierter Simplex Der Name der Methode "Simplex" bezeichnet den einfachsten konvexen Polyeder eines Raumes gegebener Dimension. Für 2 Dimensionen: Dreieck Für 3 Dimensionen: Tetraeder Neuer Messpunkt Schlechtester Wert w b -n/2 n/2 m n 2n Erste drei Messungen: b: best, m: medium, w: weakest Neue Messung nach Standardverfahren bei n J.A. Nelder and R. Mead, A simplex method for function minimization, Computer Journal, 7, 308-313 (1965). E. Morgan and K.W. Burton, Optimization using the super-modified simplex method, Chemom. Intell. Lab, Systems, 8, 97-107 (1990).

Modifizierter Simplex Stochastische Optimierungsmethoden w b -n/2 n/2 m n 2n Neuer Simplex wenn m < n < b wenn b < n : dann neue Messung bei 2n wenn b < 2n wenn 2n < b wenn w < n < m wenn n < w m n b m 2n b m n b m n/2 b m -n/2 b Mit Einzelversuchen: Simulated Annealing Mit Populationen: Evolutonäre Algorithmen Genetische Algorithmen Vorteil: Lokale Minima können überwunden werden Nachteil: Nahe beim Optimum nicht effizient --> Hybridmethoden Zur Erinnerung: Keine Methode kann das Auffinden des globalen Optimums garantieren. Einzelversuche und Populationen Simulated Annealing Optimierung mit Einzelversuchen Faktorenwerte, Vektor, Chromosom, Individuum Optimierung mit Populationen 1. Bei einer zufällig generierten Faktorenkombination (a) wird gemessen (Antwort E a ). 2. Die Faktoren werden durch zufällige Störungen verändert. 3. Eine neue Faktorenkombination (n) wird mit der relativen Wahrscheinlichkeit P akzeptiert: P = 1, wenn En<Ea P = e (E n E a )/c, wenn En>Ea c Temperaturparameter, wird während der Optimierung schrittweise verkleinert 4. Auswirkung: lokale Energie -Minima können überwunden werden. Durch die schrittweise Verkleinerung von c nimmt die Wahrscheinlichkeit ab, dass ein schlechterer Wert akzeptiert wird. *Annealing: Glühen, Härten, Tempern Eltern Kinder

Genetische Algorithmen Mutation Optimierung mit Populationen statt Einzelzuständen. Die Startpopulation wird durch zufällige Faktorenkombinationen erzeugt. Die nächste Generation wird durch die genetischen Operationen erzeugt: Mutation Cross-Over Die Wahrscheinlichkeit, dass ein Individuum bei der Erzeugung der neuen Population zu den Eltern mit aufgenommen wird, hängt von seiner Qualität (Fitness) ab. Die Faktoren können binär oder reele Zahlen sein. Bei der Binärkodierung bedeutet die Mutation, dass an den zufällig ausgewählten Positionen 0 durch 1 und 1 durch 0 ersezt wird. Bei reeller Kodierung wird zu den Faktoren bei den zufällig ausgewählten Positionen jeweils eine Zufallszahl addiert. Der Bereich der Zufallszahlen soll der Aufgabe sinnvoll angepasst werden, z. B. 30 bis +30 bei einem dihedralen Winkel während der Optimierung einerkonformation. Cross-Over Fitnessfunktion Beim Cross-Over werden gewisse zufällig ausgewählte Faktoren zwischen zwei für die Erzeugung eines Kindes ausgewählten Individuen ausgetauscht. Single-point -Cross-Over: aaaaa aaa bbbbb bbb aaaaabbb bbbbbaaa Ein Cross-Over-Punkt wird zufällig gewählt. Das Qualitätsmerkmal wird oft in eine Fitnessfunktion transformiert. Einige übliche Transformationsfunktionen sind: Uniform -Cross-Over aaaaaaaa / \ / - \_ bbbbbbbb abaaabba babbbaab Mehrere Bereiche werden zufällig gewählt. Das zweite Kind ist das Gegenteil des ersten. Die Fitnessfunktion kann während der Optimierung automatisch angepasst werden.

Selektionsmethoden Roulette-Rad: Die Wahrscheinlichkeit der Selektion ist der Fitness proportional. Linear Ranking : Die Wahrscheinlichkeit der Selektion hängt von der Position in der Rangliste ab. Truncation Selection : Die besten n Individuen werden mit gleicher Wahrscheinlichkeit ausgewählt. Tournament Selection : Es werden zufällig n Individuen ausgewählt. Das beste wird gewählt. Sharing Es ist vorteilhaft, wenn ein Individuum einer Population nahe beim Optimum liegt, aber die anderen Individuen andere Teile der Suchfläche belegen. Deshalb wird oft eine zusätzliche Mutation eingeschaltet, wenn ein neu erzeugtes Individuum einem anderen zu ähnlich ist. Dadurch verhindert man, dass alle Individuen in die Nähe des gleichen Minimums zu liegen kommen (premature convergence). Diese Strategie nennt man (etwas irreführend) "sharing" (sharing: teilend, gemeinsame Benutzung). Generation gap, Elitism Flussschema eines GAs Um die besten Individuen nicht zur verlieren, werden die n besten einer Population unverändert in die nächste Generation übernommen. n wird typischerweise klein gewählt. Save best chromosomes for new generation Select parents Mutation Cross-Over Sharing Population size reached? no yes

Auswahl von Wellenlängen, Literatur (1) Wavelengths selection and optimization of pattern recognition methods using the genetic algorithm. Smith, B. M.; Gemperline, P. J. Anal. Chim. Acta 2000, 423, 167-177. (2) Genetic algorithms as a tool for wavelength selection in multivariate calibration. Jouan-Rimbaud, D.; Massart, D.-L.; Leardi, R.; De Noord, O. E. Anal. Chem. 1995, 67, 4295-4301. (3) Genetic algorithm-based wavelength selection for near infrared determination of glucose in biological matrices: Initialization strategies and effects of spectral resolution. Ding, Q.; Small, G. W.; Arnold, M. A. Anal. Chem. 1998, 70, 4472-79.