Statistische und neuronale Lernverfahren: Selbstorganisierende Merkmalskarten. Holger Arndt WS 03/04, 2 SWS

Ähnliche Dokumente
Selbstorganisierende Merkmalskarten

Selbstorganisierende Merkmalskarten

Selbstorganisierende Karten

1 Einleitung. 2 Clustering

Selbstorganisierende Karten

Kapitel ML:XII. XII. Other Unsupervised Learning. Nearest Neighbor Strategies. Self Organizing Maps Neural Gas. Association Analysis Rule Mining

Selbstorganisierende Karten

Adaptive Systeme. Prof. Dr.-Ing. Heinz-Georg Fehn Prof. Dr. rer. nat. Nikolaus Wulff

Kohonennetze Selbstorganisierende Karten

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Outline. SOMs und verwandte Verfahren. Self-Organizing Map. Outline... Self-Organizing Map. Self-Organizing Map. Architektur:

Selbstorganisierende Karten

Selbstorganisierende Karten

Neuronale Netze. Seminar aus Algorithmik Stefan Craß,

Künstliche neuronale Netze

2.5.2 Selbstorganisierte Karten: das Modell von Kohonen. Weil es beim Perzeptron keine Wechselwirkung in der Verarbeitungsschicht

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134

Gliederung. Biologische Motivation Künstliche neuronale Netzwerke. Anwendungsbeispiele Zusammenfassung. Das Perzeptron

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

6.4 Neuronale Netze zur Verarbeitung von Zeitreihen

Wissensentdeckung in Datenbanken

Was sind Neuronale Netze?

Neuronale Netzwerke. Niels Pieper, Daniel Janßen-Müller, Daniel Ritterskamp. Betreuer: Michael Wilczek. 7. Februar 2011

Der Backpropagation-Algorithmus als Beispiel für Lernalgorithmen künstlicher neuronaler Netze Reinhard Eck 1

Anwenderdokumentation Beleg Neuronale Netze

Nichtlineare Gleichungssysteme

Andreas Scherer. Neuronale Netze. Grundlagen und Anwendungen. vieweg

Künstliche Neuronale Netze

Aufbau und Beschreibung Neuronaler Netzwerke

Hannah Wester Juan Jose Gonzalez

Einführung in die Computerlinguistik

Datenorientierte SA. Aufbau und Grundlagen. Aufbau und Grundlagen. Aufbau und Grundlagen. Was sind neuronale Netze?

Seminar Unterwasserbildverarbeitung

Statistische Methoden der Datenanalyse

Neuronale Netze, Fuzzy Control, Genetische Algorithmen. Prof. Jürgen Sauer. 12. Aufgabenblatt: Projektvorschläge für WS 2010/2011

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

Klassifizieren und Visualisieren von Daten mit Selbstorganisierenden Karten

Konzepte der AI Neuronale Netze

Radiale-Basisfunktionen-Netze. Rudolf Kruse Neuronale Netze 120

Neuronale Netze. Gehirn: ca Neuronen. stark vernetzt. Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor)

Einführung in neuronale Netze

Praktikum Computational Intelligence 2 Ulrich Lehmann, Johannes Brenig, Michael Schneider

Simulation neuronaler Netzwerke mit TIKAPP

Das visuelle System. Das Sehen von Kanten: Das Sehen von Kanten ist eine trivial klingende, aber äußerst wichtige Funktion des visuellen Systems!

Computational Neuroscience

Methoden zur Visualisierung von Ergebnissen aus Optimierungs- und DOE-Studien

Growing neural Gas Strukturen lernen. Torsten Siedel

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Multi-Layer Neural Networks and Learning Algorithms

Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14.

(hoffentlich kurze) Einführung: Neuronale Netze. Dipl.-Inform. Martin Lösch. (0721) Dipl.-Inform.

Neuronale Netze. Christian Böhm.

Hopfield Netze. Neuronale Netze WS 2016/17

Kapitel 6. Neuronale Netze. 6.1 Verwendeter Netztyp

k-nächste-nachbarn-schätzung

Klassifikation linear separierbarer Probleme

Thema 3: Radiale Basisfunktionen und RBF- Netze

1. Neuronale Netzwerke 2. Lernen in neuronalen Netzen 3. Überblick und Klassifizierung von Modellen 4. Eigenschaften von neuronalen Netzen 5.

Natürliche und künstliche neuronale Netze

Proseminar Neuronale Netze Frühjahr 2004

VL Wahrnehmung und Aufmerksamkeit: visuelle Wahrnehmung II

Praktische Optimierung

Statistik für Informatiker, SS Verteilungen mit Dichte

Wissensentdeckung in Datenbanken

Multivariate Verteilungen

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Aufmerksamkeit II Bewusstsein

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Cortikale Architektur

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Theoretische Informatik 1

Technische Universität. Fakultät für Informatik

Abbildung 10.1: Das Bild zu Beispiel 10.1

Schwellenwertelemente. Rudolf Kruse Neuronale Netze 8

Statistische Methoden der Datenanalyse

Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

1.3. DAS COULOMBSCHE GESETZ, ELEKTROSTATISCHES FELD 9

Entwurf und Implementierung einer Applikation zur Visualisierung von Lernvorgängen bei Selbstorganisierenden Karten

Numerische Methoden und Algorithmen in der Physik

Modellbildung und Simulation

auch: Konnektionismus; subsymbolische Wissensverarbeitung

Neuronale Netze in der Phonetik: Grundlagen. Pfitzinger, Reichel IPSK, LMU München {hpt 24.

Neuronale Netze. Anna Wallner. 15. Mai 2007

Fortgeschrittene Mathematik Raum und Funktionen

5. Lernregeln für neuronale Netze

Central pattern generators für die zwei- und vierbeinige Fortbewegung

Synaptische Verschaltung

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Neuronale Netze mit mehreren Schichten

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Was versteht man unter partiellen (fokalen) epileptischen Anfällen? Welche Unterformen gibt es?

Seminar zum Thema Künstliche Intelligenz:

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Seminar: Sehen - Vom Photon zum Bewusstsein - Von der Retina zum visuellen Kortex

Die n-dimensionale Normalverteilung

Wahrscheinlichkeitstheorie Kapitel X - Randverteilung, bedingte Verteilung und Unabhängigkeit von Zufallsvariablen

Fixpunkt-Iterationen

Transkript:

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten Statistische und neuronale Lernverfahren: Selbstorganisierende Merkmalskarten Holger Arndt arndt@in.tum.de WS 3/4, 2 SWS 8..23 8:3 - Uhr

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten. Motivation i Ziel: Schaffe leistungsfähigen neuronalen Algorithmus durch Nachahmung einiger Eigenschaften des Gehirns. Einige Eigenschaften des Lernens höherer Säugetiere i Entdeckendes Finden von Korrelationen (Koinzidenzen) in der Umwelt. Anm: Auch Lernen mit einem menschlichen Lehrer ist im Sinne der Neuronalen Netzwerke entdeckend (unsupervised); man findet Korrelationen zwischen verschiedenen Sachverhalten (z.b. durch Wiederholung), korreliert Schwätzen mit Strafe, usw. i Extraktion wichtiger Eigenschaften aus den Eingangssignalen i Erstellen interner Repräsentationen von Sachverhalten (z.b. Vorstellung)

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten. Topografische Merkmalskarten Struktur interner Repräsentationen: i Merkmale der Umwelt, z.b. eines sensorischen Signals, werden durch den Ort der stärksten Aktivierung in der Großhirnrinde kodiert. i Diese Kodierung ist stetig, d.h. benachbarte kortikale Orte kodieren für ähnliche Reizmerkmale. Retinotopie: Retinaler Ort wird durch den kortikalen Ort kodiert Orientierungspräferenz-Karte: Orientierung des Reizes wird durch den Ort kortikaler Erregung kodiert

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten.2 Beispiele i Auditorische Karten (Tonhöhe und -Richtung werden kodiert) i Somatosensorische Karten (Kodierung des Reizortes auf der Haut) i Motorische Karten (Bestimmte Bewegungen werden kodiert) Eigenschaften eines Modells für topographische Merkmalskarten: i Netzwerkarchitektur ähnlich wie kortikale Module (z.b. frühe Sehbahn) i Entdeckendes Lernen i Kontinuierliche Neuronenaktivitäten

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten 2. Das Kohonen-Modell Self-Organizing (Feature) Maps = SOM (SOFM) Architektur des Kohonenmodells: d Eingabeneuronen senden Fasern zu allen Neuronen im zweidimensionalen Gitter der Ausgabeschicht. Die Ausgabeneuronen sind durch eine laterale Wechselwirkung I miteinander verbunden Gemischte Netzwerkarchitektur: Feedforward-Teil und rekurrenter Teil

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten 2. Wechselwirkung Mexican-Hat-förmige, zeitunabhängige laterale Wechselwirkung Im Gegensatz zum Hopfieldnetz sind die lateralen Verbindungen I(r,r ) im Ortsraum festgelegt. Biologisch motiviert: Mexican-Hat- Struktur ( Umfeldhemmung ).

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten 2.2 Dynamik Qualitativ: i Die Inputneuronen initialisieren ein Aktivitätsmuster in der Ausgabeschicht i Dieses wird durch die rückgekoppelte Netzwerkdynamik verändert, läuft in einen Attraktor Dynamische Gleichung: f ( r) = g wl ( r) vl + dr I( r r ) f ( r ) θ l= Schwierig zu lösen: d i Iterative, rückgekoppelte Gleichung i Nichtlineare Gleichung

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten 2.3 Winner-take-all Satz : Laterale Wechselwirkungen vom Mexican-Hat-Typ mit genügend starker Inhibition führen immer zur Ausbildung lokalisierter Aktivitäts- Blobs Mechanismus: Im Laufe der Iterationen inhibiert das anfangs am stärksten aktivierte Neuron seine Nachbarn am stärksten, vermindert damit deren inhibitorische Wirkung, kann so immer stärker aktiv werden, u.s.w... Winner-take-all (WTA)

Holger Arndt, Siemens AG Selbstorganisierende Merkmalskarten 2.4 Näherung von Kohonen i Bestimme das anfangs am stärksten aktivierte Neuron aus den Afferenzen alleine i Führe den Relaxationsprozess in der Ausgabeschicht nicht explizit durch sondern verwende gleich einen lokalisierten Aktivitätsblob: f ( r) = h( r, r ), mit g w ( ) = ( ) l r vl max g wl r vl r l l Die Funktion der Aktivierung ist monoton fallend und lokalisiert, z.b. eine Gaußfunktion: h ( r, r ) ( r r ) = exp 2σ 2 2

2.5 Such nach dem Gewinner i Betrachte jetzt d-dimensionale Inputvektoren Synapsenvektoren v = ( v, Kv d ) ) = ( w ( r), Kw ( )) w( r r d i Dann gilt mit streng monoton steigender Transferfunktion g: g ( w( r ) v) = max( g( w( r) v) ) w( r ) v = max( w( r ) v) r r i Bei konstantgehaltener Norm aller Synapsenvektoren w 2 2 2 2 2 ( r) v = w( r) + v 2w( r) v = w + v 2w( r) v also: w ( v ) ( r ) v = max( w( r) v) w( r ) v = min w( r) r r w 2 ( r) w r gilt: Es feuert das Ausgabeneuron r, dessen normierter Synapsenvektor dem Inputvektor am nächsten ist.

2.6 Merkmalskarten Merkmal Merkmalsrepräsentation in der Ausgabeschicht: Vektor v im d-dimensionalen Inputraum (Beispiel: verschlüsselte Ortsposition eines Schallsignals). Position des Aktivitätsblobs bei Präsentation des Merkmals v, also s mit w(s) - v = min r w(r) - v. Merkmalskarte = Abbildung: φ w : v φ s w ( v) = w( s) v = min w( r) v r i Die Merkmalskarte wird durch die Gesamtheit aller Synapsenvektoren bestimmt. Formal kann eine Merkmalskarte auch mit nicht normierten Gewichten implementiert werden. i Rezeptives Feld: Bereich des Inputraumes, der ein geg. Neuron reizt. RF { ( v )} ( s) = v V w( s) v = min w( r) r

2.7 Rezeptives Feld Darstellung von Merkmalskarten für nicht normierte Synapsenvektoren: i Male den Synapsenvektor jedes Neurons in den Inputraum V. Seine unmittelbare Umgebung aktiviert das Neuron maximal. Grafische Darstellung einer Merkmalskarte sowie des rezeptiven Feldes eines Neurons für einen zweidimensionalen Inputraum. i Ziel: Führe eine Lernregel ein, die zur Selbstorganisation einer stetigen Merkmalskarte führt.

2.8 Die Kohonen-Lernregel i Präsentiere ein Signal v i Ermittle den Gewinner der Kompetition in der Ausgabeschicht, also s mit w(s) - v = min r w(r) - v und damit die Lokalisierung des kortikalen Aktivitätsblobs. i Lernschritt: Nähere den Synapsenvektor des Gewinners dem Signal an: neu alt w ( r) = w ( r) + w( r) mit w( r) = η f ( r) ( v w( r) ) = ηh( r, s) ( v w( r) ) i Normiere (eventuell) die neuen Synapsenvektoren i Nächstes Muster

2.9 Eigenschaften i Die Kohonen-Lernregel ist vom Hebb-Typ, denn: w ( r) =η f ( r) v η f ( r) w ( r) l l (Postsynaptische Aktivität) x (Präsynaptische Aktivität) Decayterm i Benachbarte Neuronen der Ausgabeschicht erfahren immer ähnliche Modifikationen ihrer Synapsenvektoren: Ordnung der Synapsenvektoren im Raum der Inputsignale Erzeugung einer stetigen Merkmalskarte l i Oft präsentierte Musterbereiche werden stärker repräsentiert

2. Konvergenz Zu Beginn des Trainings Nach dem Training i Üblicherweise werden die Breite s der Nachbarschaftsfunktion und die Lernschrittweite h im Lauf der Zeit verringert: s = s(t), h = h(t). i Konvergenzbeweise gegen einen statistisch beschreibbaren Gleichgewichtszustand existieren für: η ( ) = α t ηt, < α ( t) lim σ = t

3. Anwendungsmöglichkeiten 3. Vektorquantisierung i Vektorquantisierung = Verfahren zur Datenkompression i Folge von Datenvektoren v(t), t =,..., sollen durch eine feste Anzahl von Referenzvektoren w s approximiert werden i Kompression: Speicherung des Index s(v) mit minimalem w s(v) - v für jedes v(t) i Restauration: v(t) := w s(v(t)), t =,... (Es gibt einen Restaurationsfehler!) i Ziel: Finde optimale Verteilung der Referenzvektoren, die den 2 Restaurationsfehler minimiert: E P( v) ws ( v) v dv = also: η E w r r r w 2 ( t + ) = w ( t) = w ( t) + η ( v w ( t) ) P( v) dv r RF ( r) r

3. Vektorquantisierung i Präsentiert man einzelne Vektoren v gemäß der Verteilung P(v), so erhält man asymptoisch für kleine Lernschrittweiten dasselbe Ergebnis mit: w s t + = w t + η ( v w ) ( v)( ) s( v)( ) s( v) Kohonenregel ohne Nachbarschaftsterm i Mit Nachbarschaftsfunktion: Kleine Quantisierungsfehler werden zusätzlich unterdrückt Vektorquantisierung eines geclusterten und einer in einem L-förmigen Gebiet gleichverteilten Inputensembles. Dicke Punkte: Gewichtsvektoren

3.2 Optimierungsprobleme i Kombinatorische Optimierungsprobleme: Lösungsaufwand für ein System mit L Komponenten steigt wie exp(l) bzw. L! i Beispiel: Handlungsreisenden-Problem: i Finde die kürzeste Route, die L gegebene Städte berührt. i Ansatz: Wähle eindimensionalen Neuronenring mit N L Neuronen (N > L empfohlen) und zweidimensionalen Gewichtsvektoren. Die Inputsignale kodieren x- und y-positionen der Städte.

3.2 Optimierungsprobleme Netzwerkarchitektur für das Handlungsreisenden- Problem. Die Inputs kodieren die xy-position, die Ausgabeneuronen implementieren eine Ringnachbarschaft. i Präsentiere die Städtepositionen als Inputmuster und trainiere mit w( r, t) = η( t) h( s( v), r, t) ( v w( r, t) ) i Die Nachbarschaftsfunktion h(r,r ) versucht, die Repräsentation des Rings im Ortsraum möglichst kurz zu halten ( kurzer Weg -Forderung) i Unter dieser Bedingung werden die Städtepositionen sukzessive approximiert

2 3.2 Optimierungsprobleme imulationsablauf (nach Durbin nd Willshaw 987): = 3 = 8 =.8 (t) = 5.2 (t/tmax) max = erlauf einer Simulation mit 3 tädten es werden die ewichtsvektoren im weidimensionalen Inputraum ezeigt nach, 5, 7 und Lernschritten

2 3.3 Dichteschätzung i Aufgabe: Schätzen einer Wahrscheinlichkeitsdichte, die den Daten zugrunde liegt i Die Merkmalskarte wird mit Vektoren trainiert, die der zu schätzenden Wahrscheinlichkeitsdichtefunktion gehorchen Häufig auftretende Merkmale werden von der SOM durch mehr Neuronen repräsentiert i Beispiel: Merkmalskarte mit 5x5 Neuronen

Holger Arndt, Siemens AG 2 Selbstorganisierende Merkmalskarten 3.4 Clustering und Visualisierung i Problem: Hochdimensionaler Datenraum i Aufgabe: Finde Korrelationen in den Daten i Lösung mit dem Kohonenalgorithmus: Merkmale, die im Inputraum nahe beieinanderliegen, werden auf benachbarte Gebiete der SOM abgebildet Kuh Zebra Pferd Löwe Tiger Katze Wolf Hund Fuchs Adler Falke Eule Gans Ente Henne Taube schwimmt fliegt rennt jagt Federn Mähne Hufe Haare 4 Beine 2 Beine groß mittel klein

2 3.4 Clustering und Visualisierung i Die Merkmale werden ihrer Ähnlichkeit entsprechend auf der SOM angeordnet Topologieerhaltende Abbildung des Hochdimensionalen Inputraumes auf die zweidimensionale Kartenfläche Huftiere Raubtiere Vögel

2 3.5 Dimensionsreduktion i Geg: i Ges: Signale mit vielen Freiheitsgraden (hohe Dimensionalität). Bestmögliche Repräsentation in einer niedrigdimensionalen Neuronenstruktur (typisch: bis 2-dimensional). i Der Kohonenalgorithmus führt zu einer optimalen Abdeckung des höherdimensionalen Raumes gemäß der Wahrscheinlichkeitsverteilung der präsentierten Inputmuster i Beispiel: Eindimensionale Neuronenkette wird mit zweidimensionalen Vektoren aus dem Einheitsquadrat trainiert i Zeitabhängige Breite der Nachbarschaftsfunktion: σ 5 t ( t) = (.) i bewirkt sukzessive Ausbildung immer feinerer Strukturen

2 3.5 Dimensionsreduktion Zuordnung: zu Beginn, nach 2, nach 5, nach Schritten

2 4. Anwendungsbeispiele aus Informatik und Robotik Positionskodierung einer Schallquelle Experimenteller Aufbau Anfangsbelegung der Gewichte

2 4. Positionskodierung einer Schallquelle Ausgangspunkt: i Schallsignale einheitlicher Lautstärke ertönen in beliebigen Positionen innerhalb eines krummlinig begrenzten Gebietes i Die Signale werden von zwei Mikrofonen aufgenommen, deren Ausgangsintensität den Abstand der Schallquelle kodiert i Mit der Verstärkerkennlinie f(x) werden die Signale zu: v v = f [ 2 2 ( x a) + ] y = f [ 2 2 ( x + a) + ] 2 y Anmerkung: i Die beiden Pegel v und v 2 stellen eine hochgradig nichtlineare Kodierung des Merkmales Schallposition dar.

2 4. Positionskodierung einer Schallquelle Karte nach Lernschritten Karte nach 4 Lernschritten Es sind die Gewichtsvektoren und damit die Positionen höchster Sensitivität für ein Gitter von 4x4 Neuronen dargestellt. Nach dem Training kodiert jedes Neuron einen Teil bereich des betrachteten Gebietes. Das Netzwerk hat die der Positionskodierung innewohnende nichtlineare Transformation invertiert.

2 4. Positionskodierung einer Schallquelle i Die Repräsentation passt sich der Wahrscheinlichkeitsverteilung der Inputsignale an, d.h. häufig präsentierte Muster werden durch mehr Kohonen-Neuronen kodiert (siehe frühe Sehbahn, siehe Vektorquantisierung). Im zentralen Kreis wurde die Signalhäufigkeit gegenüber außen um einen Faktor 3 erhöht. Jedes Muster hat eine anziehende Wirkung auf die im Inputraum benachbarten Gewichtsvektoren: Kumulation bei Peaks der Wahrscheinlichkeitsverteilung. (s. a. Vektorquantisierung). Denselben Effekt kann man durch lokale Erhöhung der Netzwerkelastizität (Erhöhung von h) erreichen

3 5. Literatur i S. Haykin Neural Networks - A Comprehensive Foundation MacMillan College Publishing Company, Ontario (994) i H. Ritter, T. Martinetz, and K. Schulten Neural Computation and Self-Organizing Maps - An Introduction Addison-Wesley, New York (992) i T. Kohonen Self-Organizing Maps, 3rd edition Springer Series in Information Sciences, Springer Verlag (2)