Warum konvergieren Genetische Algorithmen gegen ein Optimum?

1 / 21 Gliederung 1 Das Schematheorem Motivation Begriffe Herleitung Ergebnis Das Schematheorem Das Schematheorem Motivation 3 / 21 Warum konvergieren Genetische Algorithmen gegen ein Optimum? Theoretische Untersuchung von Holland (1975): Untersuche die Entwicklung von partiell definierten Chromosomen (sog. Chromosomenschemata) über die Generationen Wie entwickelt sich die Anzahl der Chromosomen, die zu einem Schema passen? Ziel: Leite grobe statistische Aussage ab Führe dazu folgende Vereinfachungen ein Repräsentation ist Bitstring mit fester Länge l Fitnessproportionale Selektion Standardmutation Ein-Punkt-Crossover

Definitionen Das Schematheorem Begriffe 4 / 21 Schema Ein Schema ist ein partiell definierter Bitstring der Länge l Erweitere dazu den Grundbereich um ein Jokerzeichen Für das Schema h gilt dann: h {0, 1, } l Offensichtlich gibt es 2 l Chromosomen und 3 l Schemata der Länge l Passung Ein Chromosom c {0, 1} l passt zu einem Schema h {0, 1, } l falls es an dessen definierten Stellen mit ihm übereinstimmt, notiert als c h Stellen an denen im Schema ein Jokerzeichen steht werden nicht beachtet Schema Beispiel Das Schematheorem Begriffe 5 / 21 Gegeben sein ein Schema h = 101 11 0 {0, 1, } 10 sowie die Chromosomen c i {0, 1} 10 mit x 1 = 0110010010 x 2 = 0101011110 x 3 = 0001001100 x 4 = 1101101110 Offensichtlich gilt: Chromosom c 2 und c 4 passen zum Schema h, d.h. c 2 h, c 4 h Chromosom c 1 und c 3 passen nicht zum Schema h, d.h. c 1 h, c 3 h

Das Schematheorem Begriffe 6 / 21 Interpretation des Schemas als Hyperebene Ein Schema beschreibt einen Unterraum des gesamten Suchraums Fasst man den Suchraum als Hypereinheitswürfel auf, beschreibt ein Schema achsenparallele Hyperebenen Beispiel 0 0 entspricht der Kante von 000 nach 010 1 entspricht der rechten Würfelfläche entspricht dem gesamten Würfel 010 0*0 000 011 001 *0* *11 110 100 1** 10* 111 101 Das Schematheorem Begriffe 7 / 21 Eigenschaften eines Schemas Definition: Ordnung Die Ordnung eines Schemas h ist die Anzahl seiner definierten Positionen, d.h. die Anzahl der Nullen und Einsen ord(h) = count 0 (h) + count 1 (h) = length(h) count (h) Beispiel: ord( 101 11 0) = 6 Definition: Definierende Länge Die definierende Länge eines Schemas h ist die Länge seines definierten Bereichs, d.h. die Differenz der Positionsnummern der letzten und der ersten 0/1 in h dl(h) = max(i h i {0, 1}) max(i h i {0, 1}), i {1,..., l} Beispiel: dl( 101 11 0) = 10 2 = 8

Das Schematheorem Herleitung 8 / 21 Herleitung des Schematatheorems Frage Wie entwickelt sich die Anzahl der Chromosomen, die zu einem Schema passen, über die Generationen? Ansatz Um Aussagen über die Ausbreitung von zu einem Schema passenden Chromosomen machen zu können, müssen die Auswirkungen der Selektion und der genetischen Operatoren untersucht werden Selektion Welche Fitness haben Chromosomen, die zum Schema passen? Genetische Operatoren (Mutation und Crossover) Mit welcher Wahrscheinlichkeit geht die Passung zu einem Schema verloren bzw. bleibt sie erhalten? Das Schematheorem Herleitung 9 / 21 Einfluss der Selektion Welche Fitness haben Chromosomen, die zum Schema h passen? Ansatz Mittlere Fitness der passenden Chromosomen Mittlere Fitness Die mittlere Fitness der Chromosomen der Generation t, die zum Schema h passen, ist c pop(t),c h f rel (h) = f rel(c) size({c pop(t) c h}) Durchschnittlich erzeugt ein zum Schema h passendes Chromosom f rel (h) popsize Nachkommen Die zu erwartende Zahl von Chromosomen die nach der Selektion zum Schema h passen ist abhängig von der Zahl der vorher passenden Chromosomen: size({c pop(t 1) c h}) f rel (h) popsize

Einfluss der Selektion Das Schematheorem Herleitung 10 / 21 Die Formel für die von einem zum Schema h passenden Chromosom durchschnittlich erzeugten Nachkommen kann umgeformt werden zu c pop(t),c h f rel (h) popsize = f rel(c) size({c pop(t) c h}) popsize (h) = = c pop(t),c h f (c) c pop(t) f (c ) size({c pop(t) c h}) popsize c pop(t),c h f (c) size({c pop(t) c h}) c pop(t) f (c ) popsize = (h) mittlere Fitness der zum Schema h passenden Chromosomen der Generation t mittlere Fitness aller Chromosomen der Generation t Enspricht somit dem Verhältnis der mittleren Fitness des Schemas zur mittleren Gesamtfitness Einfluss des Crossover Das Schematheorem Herleitung 11 / 21 Mit welcher Wahrscheinlichkeit geht die Passung zu einem Schema durch das Crossover verloren bzw. bleibt sie erhalten? Beispiel Bei einem Chromosoms der Länge l gibt es beim Ein-Punkt-Crossover l 1 gleichwahrscheinliche Schnittpositionen dl(h) dieser Positionen liegen so, dass festgelegte Gene des Schemas getrennt würden, wodurch die Passung verloren gehen könnte Somit gilt p c (h) = dl(h) l 1 Bemerkung: Die Passung kann verloren gehen, was aber nicht immer der Fall sein muss

Einfluss der Mutation Das Schematheorem Herleitung 12 / 21 Mit welcher Wahrscheinlichkeit geht die Passung zu einem Schema durch die Mutation verloren bzw. bleibt sie erhalten? Beispiel Wird jedes Gen des Chromosoms der Länge l mit gleicher Wahrscheinlichkeit für die Mutation gewählt, so geht die Passung zum Schema h mit folgenden Wahrscheinlichkeiten verloren p m (h) = ord(h), falls das Bit gekippt wird l p m (h) = ord(h), falls das Bit zufällig neu bestimmt wird 2l Definitionen Das Schematheorem Herleitung 13 / 21 Im Folgenden werden die Definitionen einiger Erwartungswerte benötigt: Erwartungswert passender Chromosmen E (t) (h) ist die im mittel erwartete Anzahl von Chromosomen, die in der t-ten Generation zum Schema h passen Erwartungswert nach der Selektion E (t) s (h) ist die im mittel erwartete Anzahl von Chromosomen, die in der t-ten Generation nach der Selektion zum Schema h passen Erwartungswert nach dem Crossover E (t) s,c(h) ist die im mittel erwartete Anzahl von Chromosomen, die in der t-ten Generation nach Selektion und Crossover zum Schema h passen Erwartungswert nach der Mutation E (t) s,c,m(h) ist die im mittel erwartete Anzahl von Chromosomen, die in der t-ten Generation nach Selektion, Crossover und Mutation zum Schema h passen. Folglich gilt E (t) s,c,m(h) = E (t+1) (h)

Das Schematheorem Herleitung 14 / 21 Herleitung des Schematatheorems Ziel Finde (näherungsweise) den Zusammenhang zwischen E (t) (h) und E (t+1) (h) Vorgehensweise Betrachte schrittweise die Auswirkungen der Selektion, des Crossover und der Mutation. Hilfsmittel Nutze hierzu die mittlere Fitness, die Ordnung und die definierende Länge eines Schemas. Selektion Das Schematheorem Herleitung 15 / 21 Die Auswirkung der Selektion wird durch die mittlere Fitness beschrieben E (t) s (h) = E (t) (h) f rel (h) popsize E (t) (h) f rel (h) f rel (h) popsize Wahrscheinlichkeit, dass ein zum Schema h passendes Chromosom ausgewählt wird Mittlere Anzahl Nachkommen eines zum Schema h passenden Chromosoms Hinweis: Da die Anzahl der zum Schema h passenden Chromosomen über den Erwartungswert geschätzt wird, kann die relative Fitness f rel (h) nicht exakt bestimmt werden

Das Schematheorem Herleitung 16 / 21 Crossover Die Auswirkung des Crossover wird beschrieben durch s,c(h) = (1 p c ) E (t) s (h) + p c E (t) s (h) (1 p loss ) +C }{{}}{{} A B E (t) p c p loss A B C Wahrscheinlichkeit des Crossover Wahrscheinlichkeit, dass durch das Ein-Punkt-Crossover die Passung des Chromosoms zum Schema h verloren geht Mittlere Anzahl der Chromosomen, die zum Schema h passen und nicht am Crossover teilnehmen Mittlere Anzahl der Chromosomen, die am Crossover teilnehmen und deren Passung zum Schema h nicht verletzt wird Gewinn an Chromosomen, die zum Schema h passen Beispiel Das Schematheorem Herleitung 17 / 21 Mutation Die Auswirkung der Mutation wird durch die Ordnung des Schemas beschrieben Ansatz E (t+1) (h) = E (t) s,c,m(h) = E (t) s,c(h) (1 p m ) ord(h) p m Mutationswahrscheinlichkeit eines Bits, d.h. jedes Bit wird mit Wahrscheinlichkeit p m mutiert (gekippt) und mit Wahrscheinlichkeit (1 p m ) nicht mutiert Damit die Passung nicht verletzt wird, darf offensichtlich keines der ord(h) Gene, die das Schema definieren, verändert werden Alternative Mutiere genau ein Gen des Chromosoms E (t+1) (h) = E (t) s,c,m(h) = E (t) s,c(h) ord(h) l ord(h) l Wahrscheinlichkeit mit der ein das Schema definierendes Bit gekippt wird

Schematheorem Das Schematheorem Ergebnis 18 / 21 Insgesamt folgt (mit dem ersten Mutationsmodell) E (t+1) (h) = f rel (h) popsize (1 p m ) ord(h) E (t) (h) ( ) dl(h) 1 p c l 1 (1 E(t) (h) f rel (h)) Einsetzten der Fitnesswahrscheinlichkeit liefert schließlich das Schematheorem E (t+1) (h) = (h) ( 1 p c dl(h) l 1 (1 p m ) ord(h) E (t) (h) ( 1 E(t) (h) popsize )) (h) Das Schematheorem Ergebnis 19 / 21 Analyse des Schematheorems E (t+1) (h) = (h) ( 1 p c dl(h) l 1 (1 p m ) ord(h) E (t) (h) ( 1 E(t) (h) popsize )) (h) Besonders stark vermehren sich Schemata, mit überdurchschnittlicher Bewertung kurzer definierender Länge geringer Ordnung

Baustein-Hypothese Das Schematheorem Ergebnis 20 / 21 Interpretation Das Schematheorem besagt, dass Schemata mit überdurchschnittlicher Bewertung, kurzer definierender Länge und geringer Ordnung sich stark vermehren Das bedeutet aber, dass der Suchraum besonders intensiv in den durch die beschriebenen Schemata definierten Hyperebenen (d.h. Regionen) durchsucht wird Schemata mit o.g. Eigenschaften werden auch als Bausteine ( building blocks ) bezeichnet, obige Aussage deshalb auch als Baustein-Hypothese Hinweis: Die Baustein-Hypothese gilt in dieser Form nur für Kodierungen durch Bitstrings, fitnessproportionale Selektion, Standardmutation und Ein-Punkt-Crossover Kritik Das Schematheorem Ergebnis 21 / 21 Genau genommen gilt das Schematheorem nur für unendlich große Populationen In der Herleitung wurden Erwartungswerte genutzt, deren Werte erheblich von den Werten für konkrete Populationen abweichen können Das Phänomen der Epistase wurde vernachlässigt Implizit wurde unterstellt, dass die Wechselwirkungen zwischen den Genen gering sind; die Fitness von zu einem Schema passenden Chromosomen somit ähnlich ist Implizite Annahme der Nachbarschaft zusammengehöriger Gene Interagierende Gene bilden so kleine Bausteine. Kritik trifft im Grunde jedoch nicht die Genetische Algorithmen an sich und lässt sich durch den Wechsel vom Ein-Punkt-Crossover auf andere Operatoren bzw. geänderte Definitionen für die definierende Länge entkräften