Das Modell: Nichtlineare Merkmalsextraktion (Preprozessing) + Lineare Klassifikation

Transkript

1 Das Modell: Nichtlineare Merkmalsextraktion (Preprozessing) + Lineare Klassifikation Hochdimensionaler Eingaberaum {0,1} Z S quadratisch aufgemalt (zwecks besserer Visualisierung) als Retina bestehend aus ZS vielen Eingabeneuronen Darauf definiert diverse Merkmalsextrahoren f, g, h... Lineare Gewichtung der extrahierten Merkmale Eingaberaum = Retina quadratisch angeordneter Eingabeneuronen = Pixelraum hoher Dimension Merkmalsraum: Wir extrahieren diverse (hier 3 Stück) problemrelevante Merkmale: lokal, nichtlinear Ausgaberaum: Ein Perzeptron, linear f(x) w 1 g(x) w 2 θ y w 3 h(x) Was für Lernaufgaben (bestehend aus diversen positiven und negativen Mustern (Bildern) auf der Retina kann man mit einem solchen Modell lernen (=klassifizieren)?

2 1.) Wenn die zugelassenen Merkmalsfunktionen keinerlei Einschränkungen unterliegen, so ist jede Lernaufgabe (gegeben durch eine Menge positiver Punkte/Vektoren/Bilder x P und eine Menge negativer Punkte/Vektoren/Bilder x N) lernbar, sogar mit nur einem einzigen Merkmal # f (x) = $ 1 falls x " P % 0 sonst und einem sehr trivialen Perzeptron, das nur ein Gewicht 1 und Schwellwert ½ hat. Das ist aber nicht die Idee bei dem Modell. Vielmehr will man einfache Merkmale haben, dafür aber vermutlich mehr als nur eines, und ein Ausgabeperzeptron, das auch noch ein bisschen Arbeit leistet. 2.) Merkmalsfunktionen auf eher einfache einzuschränken, kann nun vieles bedeuten: a. Der Definitionsbereich einer Merkmalsfunktion soll nicht die ganze Retina sein, sondern nur ein Teilbereich einer Größe, die ein fester Bruchteil (vielleicht 30%) der Gesamtretinagröße Z S ist. b. Der Definitionsbereich einer Merkmalsfunktion soll sogar in einem Rechteck enthalten sein, dessen Fläche ein fester Bruchteil (vielleicht 30%) der Gesamtretinagröße Z S ist. c. Der Definitionsbereich einer Merkmalsfunktion soll maximal die Größe Z S 1 haben. (Dies erscheint schon fast so spendabel wie ein auf der gesamten Retina definiertes Merkmal.) d. Weitere Varianten sind denkbar. 3.) Je lokaler die Merkmale sind, also je kleiner ihre Definitionsbereiche sind, umso mehr von ihnen werden wir wohl spendieren müssen. Was dabei so alles passieren kann, beleuchten die folgenden Beispiele.

3 Zusammenhang von Mustern erkennen: Die Felder einer Retina nennen wir Pixel. Ein Muster (Bild) auf der Retina besteht aus schwarzen (Bit 1) und weißen (Bit 0) Pixeln. Zwei Pixel heißen benachbart, wenn sie eine Seite gemeinsam haben (ein gemeinsamer Eckpunkt reicht dagegen nicht). Ein Muster heißt zusammenhängend, wenn je zwei schwarze Pixel des Musters durch einen Pfad benachbarter schwarzer Pixel des Musters verbunden werden können. Die folgenden Diagramme zeigen auf einer 7 21-Retina zwei zusammenhängende und zwei nicht zusammenhängende Muster nicht zusammenhängend zusammenhängend nicht zusammenhängend zusammenhängend

4 Wir nehmen an, dass nur Merkmale, deren Definitionsbereich in einem 7 7-Würfel enthalten sind, verwendet werden Dabei ist es egal, wo auf der Retina der jeweilige Würfel liegt. Die Definitionsbereiche diverser Merkmale dürfen sich überlappen. Satz: Mit Merkmalen der beschriebenen Art (egal, wie viele man erlaubt, und egal, wie trickreich diese sein dürfen) und einem nachgeschalteten Perzeptron kann man nicht zusammenhängende von unzusammenhängenden Muster unterscheiden. Beweis: Wir nehmen an, dies ginge doch mit einem Perzeptron und diversen Merkmalen, deren Definitionsbereich jeweils in einem Quadrat der Seitenlänge 7 enthalten sind. Nun unterteilen wir die 7 21-Retina in drei Teilbereiche: Links Mitte Rechts Fernerhin gruppieren wir die Merkmale in drei Gruppen: Gruppe L enthält alle Merkmale, deren Definitionsbereich mindestens ein Pixel im Retinabereich Links enthält. Gruppe R enthält alle Merkmale, deren Definitionsbereich mindestens ein Pixel im Retinabereich Rechts enthält. Gruppe M enthält alle übrigen Merkmale (deren Definitionsbereich somit ganz im Retinabereich Mitte liegt). Da Links und Rechts durch 7 Spalten getrennt sind, sind die Gruppen L, M, R paarweise disjunkt. Nun bilden wir für jedes der 4 obigen Bilder B 1, B 2, B 3, B 4 den Nettoinput S(B i ) an das klassifizierende Perzeptron und zerlegen diesen entsprechend in drei Summanden S L (B i ), S M (B i ) und S R (B i ):

5 S L (B i ) = gewichtete (mit den Gewichten des Perzeptrons) Summe aller Werte von Merkmalen aus der Gruppe L auf Bild B i S M (B i ) = gewichtete (mit den Gewichten des Perzeptrons) Summe aller Werte von Merkmalen aus der Gruppe M auf Bild B i S R (B i ) = gewichtete (mit den Gewichten des Perzeptrons) Summe aller Werte von Merkmalen aus der Gruppe R auf Bild B i S(B i ) = S L (B i ) + S M (B i ) + S R (B i ) Wir halten einige Zusammenhänge fest: (1) S M (B 1 ) = S M (B 2 ) = S M (B 3 ) = S M (B 4 ) Dies liegt daran, dass S M (B i ) nur auf Pixel in der Retinamitte Mitte zugreift und die vier Bilder im bereich Mitte identisch sind. (2) S R (B 1 ) = S R (B 2 ) (3) S R (B 3 ) = S R (B 4 ) Dies liegt daran, dass die Bilder B 1 und B 2 sich nicht in den Retinabereichen Rechts und Mitte unterscheiden und somit jedes Merkmal in der Gruppe L auf beiden denselben Wert liefert. Dasselbe trifft auf die Bilder B 3 und B 4 zu. (4) S L (B 1 ) = S L (B 4 ) (5) S L (B 2 ) = S L (B 3 ) Dies liegt daran, dass die Bilder B 1 und B 4 sich nicht in den Retinabereichen Mitte und Links unterscheiden und somit jedes Merkmal in der Gruppe L auf beiden denselben Wert liefert. Dasselbe trifft auf die Bilder B 2 und B 3 zu. (6) S(B 1 ) < θ und S(B 3 ) < θ (7) S(B 2 ) θ und S(B 4 ) θ

6 Hier sei θ der Schwellwert des Perzeptrons. Die Ungleichungen gelten, weil B 2 und B 4 zusammenhängend sind, während B 1 und B 3 nicht zusammenhängend sind. Alles zusammen: S M (B 1 ) = S M (B 2 ) = S M (B 3 ) = S M (B 4 ) S R (B 1 ) = S R (B 2 ) S R (B 3 ) = S R (B 4 ) S L (B 1 ) = S L (B 4 ) S L (B 2 ) = S L (B 3 ) S(B 1 ) < θ und S(B 3 ) < θ S(B 2 ) θ und S(B 4 ) θ Daraus ergibt sich der folgende Widerspruch: 2" # S(B 2 ) + S(B 4 ) = S L (B 2 ) + S M (B 2 ) + S R (B 2 ) + S L (B 4 ) + S M (B 4 ) + S R (B 4 ) = S L (B 1 ) + S M (B 1 ) + S R (B 1 ) + S L (B 3 ) + S M (B 3 ) + S R (B 3 ) = S(B 1 ) + S(B 3 ) < 2"

7 Parity erkennen Wir wollen Bilder auf der Retina mit einer geraden Anzahl schwarzer Pixel von Bildern mit einer ungeraden Anzahl von Pixeln unterscheiden. Satz: Mit Merkmalen, deren Definitionsbereich nicht gleich der vollen Retina ist, die also auf mindestens ein Pixel nicht zugreifen (egal, wie viele man erlaubt, und egal, wie trickreich diese sein dürfen) und einem nachgeschalteten Perzeptron kann man nicht Bilder mit einer geraden von Bildern mit einer ungeraden Anzahl schwarzer Pixel unterscheiden. Der allgemeine Beweis ist ziemlich trickreich und aufwändig. Wir zeigen ihn nur für den Fall einer 1 3-Ritina Retina mit nur 3 Pixeln. Dieser Fall klingt schon fast trivial, erfordert aber trotzdem noch einen ziemlichen Rechenaufwand. Den Satz können wir für diesen Fall per brute force beweisen. Wir behandeln zunächst einen Sonderfall eines Perzeptrons, in dem als Merkmale nur sog. 2- Masken benutzt werden dürfen. Eine 2-Maske ist ein Merkmal, das auf genau zwei Pixeln p und q mit 1 p < q 3 der Retina definiert und dort das Vorhandensein eines bestimmten Musters ab mit Bits a und b in einem Eingabebild B überprüft. Eine solche 2-Maske bezeichnen wir mit f pqab. Für ein Bild B = (B 1, B 2, B 3 ) gilt also: # f pqab (B) = 1 fallsb p = a" B b = b $ % 0 sonst Da es 3 Kombinationen von p und q (p, q = 1, 2 oder 1,3 oder 2,3) und 4 Kombinationen von a und b (a, b = 00 oder 01 oder 10 oder 11) gibt, gibt es 12 verschiedene 2-Masken, die wir in folgender Tabelle mit ihren Funktionswerten auf allen 8 möglichen Eingabebildern und ihren Gewichten in einem Perzeptron auflisten. Zur besseren Lesbarkeit notieren wir Bits 1 als schwarze Pixel und Bits 0 als weiße Pixel.

8 pos neg neg neg pos pos pos neg w 1 f w 2 f w 3 f w 4 f w 5 f w 6 f w 7 f w 8 f w 9 f w 10 f w 11 f w 12 f Die gewichtete Summe der 12 Merkmalswerte auf den 4 positiven und den 4 negativen Bildern muss somit folgende Nettoinputs ergeben: w 1 + w 5 + w 9 " # w 2 + w 6 + w 9 < # w 3 + w 5 + w 10 < # w 1 + w 7 + w 11 < # w 4 + w 6 + w 10 " # w 2 + w 8 + w 11 " # w 3 + w 7 + w 12 " # w 4 + w 8 + w 12 < # Nun addieren wir die 4 Terme θ und dann die 4 Terme < θ und beobachten, dass beide Summen identisch sind. Dies ist ein Widerspruch.

9 4" # w 1 + w 5 + w 9 + w 4 + w 6 + w 10 + w 2 + w 8 + w 11 + w 3 + w 7 + w 12 = w 2 + w 6 + w 9 + w 3 + w 5 + w 10 + w 1 + w 7 + w 11 + w 4 + w 8 + w 12 < 4" Nun ist noch zu zeigen, wie man ein Perzeptron, welches beliebige Masken mit Definitionsbereich p,q { } mit 1! < q! 3 Sei f eine beliebige solche Maske mit Gewicht w f. p benutzt, durch ein 2-Masken-Perzeptron simuliert. x 1 Merkmal f output f(x p,x q ) x 2 w f x 3 net =. + f(x p,x q )w f + Mit den vier 2-Masken f pq00, f pq01, f pq10, f pq11 können wir auf Input (x 1, x 2, x 3 ) alle vier möglichen Fälle x p x q = 00 oder 01 oder 10 oder 11 testen und mit Gewicht f(00)w f oder f(01)w f oder f(10)w f oder f(11)w f dem Nettoinput net übergeben. x 1 Merkmal f pq00 x 2 f(00)w f x 3 Merkmal f pq01 f(01)w f f(10)w f net =. + f(x p,x q )w f + Merkmal f pq10 f(11)w f Merkmal f pq11

10 Nun bleibt noch das Problem, dass unser Rosenblattperzeptron manche der 2-Masken gar nicht oder mehrfach benutzt. In letzterem Fall führen wir die fehlende 2-Maske ein und gewichten sie mit Gewicht 0. In ersterem Fall sei eine Maske k mal verwendet und mit Gewichten w 1,, w k an das Ausgabeneuron angeschlossen worden. Wir ersetzen die k identischen Maske durch eine einzige mit Gewicht w w k. Eine weitere Art des Lernens von Trainingsdaten und Generalisierung auf Testdaten durch Merkmalsextraktion als Vorverarbeitungsschritt sind RBF-Netze (radial basis function), die aus einer endlichen Anzahl von auf der Retina aufgespannten und durch das Perzeptron dann gewichteten Gaußglocken im n-dimensionalen Eingaberaum (im Beispiel unten ist n = 2) bestehen. w 5 w 1 w 3 w 2 w 4 w 6 Hat eine dieser Gaußglocken (=Merkmale) als Zentrum den Vektor ( = Punkt) z R n und den Varianz σ 2 (= Weite σ) so wirkt sie auf einem Eingabevektor z R n wie folgt: g z" (x) = 1 2#" e$ x$z 2 2" 2 Je näher x dem Zentrum z liegt, umso näher liegt der Merkmalswert bei 1. Die Weite der Gaußglocke bestimmt, in welcher Nachbarschaft von z man Eingabevektoren x noch als zu z

11 gehörig interpretiert. Die Idee wäre, gegebene Trainingsvektoren als Zentren von Gaußglocken zu wählen, deren Weite man nach gewissen Kriterien passend einstellen müsste. Die Idee ist also, bei gegebener Menge von Trainingsvektoren z mit bekanntem Ausgabewert d(z) um diese Eingabevektoren als Zentren mehr oder weniger enge Gaußglocken zu legen, danach neue Eingaben auf ihre Nähe zu den Zentren der Gaußglocken hin zu untersuchen, und die Nähe zu den Gaußglockenzentren dann in gewichteter Weise zusammen zu fügen. In der Praxis würde man sicherlich nicht für jeden Trainingsvektor eine eigene Gaußglocke haben wollen (das würde einem Auswendiglernen der Trainingsdaten entsprechen), sondern benachbarte Trainingsvektoren durch eine gemeinsame Gaußglocke repräsentieren. So etwas werden wir später mittels (neuronaler) Clusteringverfahren kennen lernen.