Statistische und neuronale Lernverfahren: Selbstorganisierende Merkmalskarten. Holger Arndt WS 03/04, 2 SWS

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten Statistische und neuronale Lernverfahren: Selbstorganisierende Merkmalskarten Holger Arndt arndt@in.tum.de WS 3/4, 2 SWS 8..23 8:3 - Uhr

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten. Motivation i Ziel: Schaffe leistungsfähigen neuronalen Algorithmus durch Nachahmung einiger Eigenschaften des Gehirns. Einige Eigenschaften des Lernens höherer Säugetiere i Entdeckendes Finden von Korrelationen (Koinzidenzen) in der Umwelt. Anm: Auch Lernen mit einem menschlichen Lehrer ist im Sinne der Neuronalen Netzwerke entdeckend (unsupervised); man findet Korrelationen zwischen verschiedenen Sachverhalten (z.b. durch Wiederholung), korreliert Schwätzen mit Strafe, usw. i Extraktion wichtiger Eigenschaften aus den Eingangssignalen i Erstellen interner Repräsentationen von Sachverhalten (z.b. Vorstellung)

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten. Topografische Merkmalskarten Struktur interner Repräsentationen: i Merkmale der Umwelt, z.b. eines sensorischen Signals, werden durch den Ort der stärksten Aktivierung in der Großhirnrinde kodiert. i Diese Kodierung ist stetig, d.h. benachbarte kortikale Orte kodieren für ähnliche Reizmerkmale. Retinotopie: Retinaler Ort wird durch den kortikalen Ort kodiert Orientierungspräferenz-Karte: Orientierung des Reizes wird durch den Ort kortikaler Erregung kodiert

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten.2 Beispiele i Auditorische Karten (Tonhöhe und -Richtung werden kodiert) i Somatosensorische Karten (Kodierung des Reizortes auf der Haut) i Motorische Karten (Bestimmte Bewegungen werden kodiert) Eigenschaften eines Modells für topographische Merkmalskarten: i Netzwerkarchitektur ähnlich wie kortikale Module (z.b. frühe Sehbahn) i Entdeckendes Lernen i Kontinuierliche Neuronenaktivitäten

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten 2. Das Kohonen-Modell Self-Organizing (Feature) Maps = SOM (SOFM) Architektur des Kohonenmodells: d Eingabeneuronen senden Fasern zu allen Neuronen im zweidimensionalen Gitter der Ausgabeschicht. Die Ausgabeneuronen sind durch eine laterale Wechselwirkung I miteinander verbunden Gemischte Netzwerkarchitektur: Feedforward-Teil und rekurrenter Teil

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten 2. Wechselwirkung Mexican-Hat-förmige, zeitunabhängige laterale Wechselwirkung Im Gegensatz zum Hopfieldnetz sind die lateralen Verbindungen I(r,r ) im Ortsraum festgelegt. Biologisch motiviert: Mexican-Hat- Struktur ( Umfeldhemmung ).

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten 2.2 Dynamik Qualitativ: i Die Inputneuronen initialisieren ein Aktivitätsmuster in der Ausgabeschicht i Dieses wird durch die rückgekoppelte Netzwerkdynamik verändert, läuft in einen Attraktor Dynamische Gleichung: f ( r) = g wl ( r) vl + dr I( r r ) f ( r ) θ l= Schwierig zu lösen: d i Iterative, rückgekoppelte Gleichung i Nichtlineare Gleichung

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten 2.3 Winner-take-all Satz : Laterale Wechselwirkungen vom Mexican-Hat-Typ mit genügend starker Inhibition führen immer zur Ausbildung lokalisierter Aktivitäts- Blobs Mechanismus: Im Laufe der Iterationen inhibiert das anfangs am stärksten aktivierte Neuron seine Nachbarn am stärksten, vermindert damit deren inhibitorische Wirkung, kann so immer stärker aktiv werden, u.s.w... Winner-take-all (WTA)

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten 2.4 Näherung von Kohonen i Bestimme das anfangs am stärksten aktivierte Neuron aus den Afferenzen alleine i Führe den Relaxationsprozess in der Ausgabeschicht nicht explizit durch sondern verwende gleich einen lokalisierten Aktivitätsblob: f ( r) = h( r, r ), mit g w ( ) = ( ) l r vl max g wl r vl r l l Die Funktion der Aktivierung ist monoton fallend und lokalisiert, z.b. eine Gaußfunktion: h ( r, r ) ( r r ) = exp 2σ 2 2

2.5 Such nach dem Gewinner i Betrachte jetzt d-dimensionale Inputvektoren Synapsenvektoren v = ( v, Kv d ) ) = ( w ( r), Kw ( )) w( r r d i Dann gilt mit streng monoton steigender Transferfunktion g: g ( w( r ) v) = max( g( w( r) v) ) w( r ) v = max( w( r ) v) r r i Bei konstantgehaltener Norm aller Synapsenvektoren w 2 2 2 2 2 ( r) v = w( r) + v 2w( r) v = w + v 2w( r) v also: w ( v ) ( r ) v = max( w( r) v) w( r ) v = min w( r) r r w 2 ( r) w r gilt: Es feuert das Ausgabeneuron r, dessen normierter Synapsenvektor dem Inputvektor am nächsten ist.

2.6 Merkmalskarten Merkmal Merkmalsrepräsentation in der Ausgabeschicht: Vektor v im d-dimensionalen Inputraum (Beispiel: verschlüsselte Ortsposition eines Schallsignals). Position des Aktivitätsblobs bei Präsentation des Merkmals v, also s mit w(s) - v = min r w(r) - v. Merkmalskarte = Abbildung: φ w : v φ s w ( v) = w( s) v = min w( r) v r i Die Merkmalskarte wird durch die Gesamtheit aller Synapsenvektoren bestimmt. Formal kann eine Merkmalskarte auch mit nicht normierten Gewichten implementiert werden. i Rezeptives Feld: Bereich des Inputraumes, der ein geg. Neuron reizt. RF { ( v )} ( s) = v V w( s) v = min w( r) r

2.7 Rezeptives Feld Darstellung von Merkmalskarten für nicht normierte Synapsenvektoren: i Male den Synapsenvektor jedes Neurons in den Inputraum V. Seine unmittelbare Umgebung aktiviert das Neuron maximal. Grafische Darstellung einer Merkmalskarte sowie des rezeptiven Feldes eines Neurons für einen zweidimensionalen Inputraum. i Ziel: Führe eine Lernregel ein, die zur Selbstorganisation einer stetigen Merkmalskarte führt.

2.8 Die Kohonen-Lernregel i Präsentiere ein Signal v i Ermittle den Gewinner der Kompetition in der Ausgabeschicht, also s mit w(s) - v = min r w(r) - v und damit die Lokalisierung des kortikalen Aktivitätsblobs. i Lernschritt: Nähere den Synapsenvektor des Gewinners dem Signal an: neu alt w ( r) = w ( r) + w( r) mit w( r) = η f ( r) ( v w( r) ) = ηh( r, s) ( v w( r) ) i Normiere (eventuell) die neuen Synapsenvektoren i Nächstes Muster

2.9 Eigenschaften i Die Kohonen-Lernregel ist vom Hebb-Typ, denn: w ( r) =η f ( r) v η f ( r) w ( r) l l (Postsynaptische Aktivität) x (Präsynaptische Aktivität) Decayterm i Benachbarte Neuronen der Ausgabeschicht erfahren immer ähnliche Modifikationen ihrer Synapsenvektoren: Ordnung der Synapsenvektoren im Raum der Inputsignale Erzeugung einer stetigen Merkmalskarte l i Oft präsentierte Musterbereiche werden stärker repräsentiert

2. Konvergenz Zu Beginn des Trainings Nach dem Training i Üblicherweise werden die Breite s der Nachbarschaftsfunktion und die Lernschrittweite h im Lauf der Zeit verringert: s = s(t), h = h(t). i Konvergenzbeweise gegen einen statistisch beschreibbaren Gleichgewichtszustand existieren für: η ( ) = α t ηt, < α ( t) lim σ = t

3. Anwendungsmöglichkeiten 3. Vektorquantisierung i Vektorquantisierung = Verfahren zur Datenkompression i Folge von Datenvektoren v(t), t =,..., sollen durch eine feste Anzahl von Referenzvektoren w s approximiert werden i Kompression: Speicherung des Index s(v) mit minimalem w s(v) - v für jedes v(t) i Restauration: v(t) := w s(v(t)), t =,... (Es gibt einen Restaurationsfehler!) i Ziel: Finde optimale Verteilung der Referenzvektoren, die den 2 Restaurationsfehler minimiert: E P( v) ws ( v) v dv = also: η E w r r r w 2 ( t + ) = w ( t) = w ( t) + η ( v w ( t) ) P( v) dv r RF ( r) r

3. Vektorquantisierung i Präsentiert man einzelne Vektoren v gemäß der Verteilung P(v), so erhält man asymptoisch für kleine Lernschrittweiten dasselbe Ergebnis mit: w s t + = w t + η ( v w ) ( v)( ) s( v)( ) s( v) Kohonenregel ohne Nachbarschaftsterm i Mit Nachbarschaftsfunktion: Kleine Quantisierungsfehler werden zusätzlich unterdrückt Vektorquantisierung eines geclusterten und einer in einem L-förmigen Gebiet gleichverteilten Inputensembles. Dicke Punkte: Gewichtsvektoren

3.2 Optimierungsprobleme i Kombinatorische Optimierungsprobleme: Lösungsaufwand für ein System mit L Komponenten steigt wie exp(l) bzw. L! i Beispiel: Handlungsreisenden-Problem: i Finde die kürzeste Route, die L gegebene Städte berührt. i Ansatz: Wähle eindimensionalen Neuronenring mit N L Neuronen (N > L empfohlen) und zweidimensionalen Gewichtsvektoren. Die Inputsignale kodieren x- und y-positionen der Städte.

3.2 Optimierungsprobleme Netzwerkarchitektur für das Handlungsreisenden- Problem. Die Inputs kodieren die xy-position, die Ausgabeneuronen implementieren eine Ringnachbarschaft. i Präsentiere die Städtepositionen als Inputmuster und trainiere mit w( r, t) = η( t) h( s( v), r, t) ( v w( r, t) ) i Die Nachbarschaftsfunktion h(r,r ) versucht, die Repräsentation des Rings im Ortsraum möglichst kurz zu halten ( kurzer Weg -Forderung) i Unter dieser Bedingung werden die Städtepositionen sukzessive approximiert

2 3.2 Optimierungsprobleme imulationsablauf (nach Durbin nd Willshaw 987): = 3 = 8 =.8 (t) = 5.2 (t/tmax) max = erlauf einer Simulation mit 3 tädten es werden die ewichtsvektoren im weidimensionalen Inputraum ezeigt nach, 5, 7 und Lernschritten

2 3.3 Dichteschätzung i Aufgabe: Schätzen einer Wahrscheinlichkeitsdichte, die den Daten zugrunde liegt i Die Merkmalskarte wird mit Vektoren trainiert, die der zu schätzenden Wahrscheinlichkeitsdichtefunktion gehorchen Häufig auftretende Merkmale werden von der SOM durch mehr Neuronen repräsentiert i Beispiel: Merkmalskarte mit 5x5 Neuronen

Holger Arndt, Siemens AG 2 Selbstorganisierende Merkmalskarten 3.4 Clustering und Visualisierung i Problem: Hochdimensionaler Datenraum i Aufgabe: Finde Korrelationen in den Daten i Lösung mit dem Kohonenalgorithmus: Merkmale, die im Inputraum nahe beieinanderliegen, werden auf benachbarte Gebiete der SOM abgebildet Kuh Zebra Pferd Löwe Tiger Katze Wolf Hund Fuchs Adler Falke Eule Gans Ente Henne Taube schwimmt fliegt rennt jagt Federn Mähne Hufe Haare 4 Beine 2 Beine groß mittel klein

2 3.4 Clustering und Visualisierung i Die Merkmale werden ihrer Ähnlichkeit entsprechend auf der SOM angeordnet Topologieerhaltende Abbildung des Hochdimensionalen Inputraumes auf die zweidimensionale Kartenfläche Huftiere Raubtiere Vögel

2 3.5 Dimensionsreduktion i Geg: i Ges: Signale mit vielen Freiheitsgraden (hohe Dimensionalität). Bestmögliche Repräsentation in einer niedrigdimensionalen Neuronenstruktur (typisch: bis 2-dimensional). i Der Kohonenalgorithmus führt zu einer optimalen Abdeckung des höherdimensionalen Raumes gemäß der Wahrscheinlichkeitsverteilung der präsentierten Inputmuster i Beispiel: Eindimensionale Neuronenkette wird mit zweidimensionalen Vektoren aus dem Einheitsquadrat trainiert i Zeitabhängige Breite der Nachbarschaftsfunktion: σ 5 t ( t) = (.) i bewirkt sukzessive Ausbildung immer feinerer Strukturen

2 3.5 Dimensionsreduktion Zuordnung: zu Beginn, nach 2, nach 5, nach Schritten

2 4. Anwendungsbeispiele aus Informatik und Robotik Positionskodierung einer Schallquelle Experimenteller Aufbau Anfangsbelegung der Gewichte

2 4. Positionskodierung einer Schallquelle Ausgangspunkt: i Schallsignale einheitlicher Lautstärke ertönen in beliebigen Positionen innerhalb eines krummlinig begrenzten Gebietes i Die Signale werden von zwei Mikrofonen aufgenommen, deren Ausgangsintensität den Abstand der Schallquelle kodiert i Mit der Verstärkerkennlinie f(x) werden die Signale zu: v v = f [ 2 2 ( x a) + ] y = f [ 2 2 ( x + a) + ] 2 y Anmerkung: i Die beiden Pegel v und v 2 stellen eine hochgradig nichtlineare Kodierung des Merkmales Schallposition dar.

2 4. Positionskodierung einer Schallquelle Karte nach Lernschritten Karte nach 4 Lernschritten Es sind die Gewichtsvektoren und damit die Positionen höchster Sensitivität für ein Gitter von 4x4 Neuronen dargestellt. Nach dem Training kodiert jedes Neuron einen Teil bereich des betrachteten Gebietes. Das Netzwerk hat die der Positionskodierung innewohnende nichtlineare Transformation invertiert.

2 4. Positionskodierung einer Schallquelle i Die Repräsentation passt sich der Wahrscheinlichkeitsverteilung der Inputsignale an, d.h. häufig präsentierte Muster werden durch mehr Kohonen-Neuronen kodiert (siehe frühe Sehbahn, siehe Vektorquantisierung). Im zentralen Kreis wurde die Signalhäufigkeit gegenüber außen um einen Faktor 3 erhöht. Jedes Muster hat eine anziehende Wirkung auf die im Inputraum benachbarten Gewichtsvektoren: Kumulation bei Peaks der Wahrscheinlichkeitsverteilung. (s. a. Vektorquantisierung). Denselben Effekt kann man durch lokale Erhöhung der Netzwerkelastizität (Erhöhung von h) erreichen

3 5. Literatur i S. Haykin Neural Networks - A Comprehensive Foundation MacMillan College Publishing Company, Ontario (994) i H. Ritter, T. Martinetz, and K. Schulten Neural Computation and Self-Organizing Maps - An Introduction Addison-Wesley, New York (992) i T. Kohonen Self-Organizing Maps, 3rd edition Springer Series in Information Sciences, Springer Verlag (2)