INTELLIGENTE DATENANALYSE IN MATLAB

Transkript

1 INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen

2 Literatur Chris Bishop: Pattern Recognition i and Machine Learning. Jiaweii Han und Micheline Kamber: Data Mining i Concepts and Techniques. Ulrike von Luxburg: A Tutorial on Spectral Clustering. Matteo Matteucci: A Tutorial on Clustering Algorithms. 2

3 Überblick Shi Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion von Daten. Integration und Säuberung der Daten. Feature- Extraktion. Bestimmen von gegeb./gesuchten Größen. Wahl des Performanzmaß/ Zielkriteriums. Modellraum und Modellannahmen. Algorithmen für das Optimieren des Zielkriteriums finden. Implementieren der Algorithmen. Modell-Selektion & -Anpassung. Training & Evaluation des Modells auf gegebenen Daten. Vorhersage für neue Daten. 3

4 Unüberwachtes Lernen: Problemstellung Gegeben: Trainingsdaten i mit unbekannten Zielattributen (ungelabelte Daten). Eingabe: Instanzen. Ausgabe: Belegung der Zielattribute. Clustern: Nominaler Wertebereich des Zielattributs ib (z.b. Jahreszeiten, {Cluster1, Cluster2, }), d.h. jeder Datenpunkt wird zu genau einem Cluster zugeordnet. Dichteschätzung: Numerischer Wertebereich des Zielattributs, d.h. jedem Datenpunkt wird Wahrscheinlichkeitsverteilung über alle Cluster zugeordnet. 4

5 Unüberwachtes Lernen: Beispiel Beispiel i Clustern (Tabellendarstellung): Monat Bewölkung Temperatur Luftfeuchtigkeit Wind Jahreszeit Juli sonnig warm hochh wenig? September sonnig warm hoch stark? August bedeckt warm hoch wenig? April Regen mild hoch wenig? Oktober Regen kühl normal wenig? Dezember Regen kühl normal stark? Januar bedeckt kühl normal stark? Juli sonnig mild hoch wenig? Februar sonnig kühl normal wenig? März Regen mild normal wenig? November sonnig mild normal stark? August bedeckt mild hoch stark? Juni bedeckt warm normal wenig? April Regen mild hoch stark? Trainings sdaten Zielgröße 5

6 Unüberwachtes Lernen: Beispiel Beispiel i Clustern (Diagramm bzgl. der Attribute Luftfeuchtigkeit und Temperatur): Luftfeuchtigkeit hochh Herbst Sommer normal kühl Winter Frühling warm Temperatur 6

7 Motivation Besseres Verständnis/Beschreibung ädi/b ib der Daten: Kundensegmentierung: Zielgerichtetes Marketing, Produktentwicklung usw. für einzelne Zielgruppen. Landnutzung/Stadtplanung: Identifizieren von Regionen mit ähnlichen geographischen, klimatischen, städtebaulichen Eigenschaften. Risikoanalyse: Klassen von Kunden mit unterschiedlichen Versicherungsrisiken erkennen. Teil der Datenvorverarbeitung für weitere Analyse: Diskretisierung von numerischen Attributen. Outlier-Detection. 7

8 Motivation: Anwendung Überblick bli über eine Dokumentenkollektion. k k Suche nach Stichwort Kohl liefert viele Dokumente. Idee: Zeige dem Nutzer Cluster um genauere Auswahl des Themas zu ermöglichen. Helmut Kohl (Politiker) Kohl s (US Kaufhaus) Kohl (Gemüse) 8

9 Motivation: Anwendung Spam-Kampagnen identifizieren. ifi i Spam-Kampagne ist große Menge ähnlicher (aber nicht gleicher) s. Idee: -Attribute (z.b. enthaltene Wörter) clustern und Spam-Cluster durch nachgeschalteten Klassifikator erkennen. 9

10 Evaluierung Qualitätsmerkmale l eines Clusterings: Hohe Ähnlichkeit zweier Datenpunkte eines Clusters (intra-cluster similarity). Geringe Ähnlichkeit zwischen Datenpunkten verschiedener Cluster (inter-cluster similarity). Anzahl, Form und Größenvarianz der Cluster. Interpretierbarkeit, d.h. gefundene Cluster entsprechen echten (versteckten) Clustern. Stichprobenartig durch Experten prüfen. 10

11 Cluster-Verfahren Cluster-Verfahren Ähnlichkeitsbasierend Dichtebasierend Prototyp- t Misch- Verlinkung- Graphen- Spatial Mode Kernelbasierend Gid Gridbasierenbasierend Modelle basierend theoretisch Clustering Seeking K-Means, K-Medoid Mixture of Gaussians AGNES, CHAMELON Spectral Clustering DBSCAN, OPTICS Mean-Shift DENCLUE STING 11

12 Prototyp-Verfahren Gegeben: Ungelabelte Daten X { x, x,..., x }. 1 2 Anzahl vermuteter Cluster k mit 1<k k < n. Ähnlichkeitsmaß zwischen Datenpunkten. Gesucht: Partitionierung der Daten in k Cluster. Ziel: Kleiner Abstand zw. Punkten im selben Cluster und großer Abstand zw. Punkten verschiedener Cluster. Exponentiell viele Partitionierungen Suche NP-hart! Heuristische Suche (lokal optimal): K-Means und K-Medoids. n 12

13 Prototyp-Verfahren: K-Means Gesucht ist eine Zuweisung R { r1, r2,..., r n } der Daten X { x, x,..., x } zu den Clustern mit 1 2 n k 1 xi in Cluster j ri0,1 rij 0 sonst z.b.. r falls das 5. Beispiel e in Cluster 3 liegt T Seien {,,..., } Cluster-Mittelpunkte (Prototypen). μ1 μ2 μ k Ziel: Minimaler quadratischer Abstand zu den Cluster- Mittelpunkten: n k minr x μ i 1 j 1 ij i j 2 13

14 Prototyp-Verfahren: K-Means Gleichzeitiges Minimieren über { 1, 2,..., k } und sehr schwierig. Idee: Abwechselnde Minimierung. Algorithmus: K-Means(Instanzen t x i, Clusteranzahl k) 0 Setze l = 0 und wähle zufällig i μi DO n k l1 l1 l 2 {,..., } arg min r x j μ μ μ { r1, r2,..., r n } r1 rn ij xi μ j Expectation r1,..., rn i1 j1 n k l1 l1 l1 1 n rij i j μ1,..., μn i1 j1 { μ,..., μ } arg min x μ l l1 l l l1 l1 WHILE { r1,..., rn} { r1,..., rn } l l RETURN { r1,..., r n } 2 Maximization 14

15 Prototyp-Verfahren: K-Means Expectation-Schritt: n k l1 l1 l 1 n rij i j r1,..., rn i1 j1 { r,..., r } arg min x μ 2 Ordne jeden Punkt dem ihm nächsten Cluster-Mittelpunkt zu. 15

16 Prototyp-Verfahren: K-Means Maximization-Schritt: n k l 1 l 1 l 1 1 n r ij i j μ1,..., μn i1 j1 { μ,..., μ } arg min x μ 2 n n l 1 l 1 l 1 Bestimme neue Cluster-Mittelpunkte μ r ij i r j x ij. i1 i1 16

17 Prototyp-Verfahren: K-Means Vorteile: Einfach zu implementieren Relativ schnell. In O(nk) pro Iteration. Effizienten Berechnung neuer Cluster-Mittelpunkte möglich. Nachteile: Nur lokales Optimum garantiert (unterschiedliche Startwerte = unterschiedliche Lösungen). Harte Zuweisung zu Clustern (nicht-probabilistisch). Anzahl Cluster muss vorgeben werden. Nur für nummerische Attribute geeignet. 17

18 Mischmodelle Gegeben: Ungelabelte Daten X { x, x,..., x }. 1 2 Anzahl vermuteter Cluster k muss nicht ihbekannt sein. Verteilungsannahme der Datenpunkte. Gesucht: Probabilistische Partitionierung der Daten. n Cluster 1 oder 2 Cluster 3 18

19 Mischmodelle Idee: Generatives (Misch-)Modell welches Daten X erzeugt hat mit Modell-Paramter. Cluster-Zuordnungen des Modells. Ziel: R { r, r,..., r } 1 2 n sind versteckte Variablen Parameter mit maximaler A-Posteriori-Warscheinlichkeit (MAP): * p X p X p arg max ( ) arg max ( ) ( ) 19

20 Mischmodelle: Mixture of Gaussians Gesucht ist eine Zuweisung { π1, π2,..., π n } der Daten zu den Clustern mit Annahme: π i k 0,1 1 Daten-erzeugendes Modell ist Kombination von Gauß- Verteilungen mit unterschiedlichen Mittelwerten und Kovarianzen k j1 n n k p( X ) p( xi ) ijn( xi μ j, Σ j) i1 i1 j1 mit Parametern, μ, Σ. ij j j ij { x1, x2,..., x n } 20

21 Mischmodelle: Mixture of Gaussians Schätzen der Parameter durch abwechselnde Optimierung analog zu K-Means (EM-Algorithmus). 21

22 Mischmodelle: Mixture of Gaussians Vorteile: Probabilistische Zuweisung zu Clustern. Anzahl Cluster muss nicht vorgeben werden. Automatischer Trade-off zwischen Anzahl Clustern und Anpassung an Daten. Nachteile: Langsamer und komplexer als K-Means. Nur für nummerische Attribute geeignet. 22

23 Verlinkungsbasierte Verfahren Gegeben: Ungelabelte Daten X { x, x,..., x }. 1 2 Anzahl vermuteter Cluster k muss nicht ihbekannt sein. Abstandsmaß dist zwischen Datenpunkten. Gesucht: Darstellung der Daten in Form eines Dendrogramms. n 23

24 Verlinkungsbasierte Verfahren Idee: Agglomerative Hierarchical Clustering. Zu Beginn bildet jeder Datenpunkt einen eigenen Cluster. Benachbarte Cluster werden sukzessive verschmolzen (bottom-up). Divisive Hierarchical Clustering. Ziel: Zu Beginn bilden alle Daten einen gemeinsamen Cluster. Cluster werden sukzessive gesplittet (top-down). Iteratives Aufbauen des Clusterings bis vorgegebene Qualität erreicht ist Qualität erreicht ist. 24

25 Verlinkungsbasierte Verfahren: Agglomerative Nesting (AGNES) Algorithmus: AGNES(Instanzen x i ) Setze C { x } DO WHILE RETURN i i i D dist( C, C ) i, j ij i j * * (, ) argmin i, j i j D Verschmelze D * * i j C i { } ij C und * * i C j Jeder Datenpunkt ein eigener Cluster Distanz zwischen zwei Clustern? Mindest-Qualität (Abbruchbedingung) 25

26 Verlinkungsbasierte Verfahren: Agglomerative Nesting (AGNES) Distanz zwischen zwei Clustern: Single Linkage: dist ( C, C ) min dist ( xy, ) i j xc, yc i j Complete Linkage: dist( C, C ) i j xc, yc max dist( xy, ) i j Average Linkage: Average Group Linkage: Centroid: dist( C, C ) dist( C, C ) i i j j 1 Ci Cj x Ci, y C 1 Ci Cj xy, CiC j dist( xy, ) j dist( xy, ) 1 1 dist ( C, ) x, i C j dist y Ci xc C i j yc j 26

27 Verlinkungsbasierte Verfahren: Agglomerative Nesting (AGNES) Vorteile: Einfach zu implementieren Relativ schnell. Iteratives Verfahren, für Online-Clustering geeignet. Für nominale, ordinale und numerische Attribute geeignet. Anzahl Cluster muss nicht vorgeben werden. Nachteile: Nur lokales Optimum garantiert. Harte Zuweisung zu Clustern (nicht-probabilistisch). Maß für Cluster-Distanz & Abbruchbedingung muss vorgegeben werden. 27

28 Graphentheoretische Verfahren Gegeben: Ungelabelte Daten X { x, x,..., x }. 1 2 Anzahl vermuteter Cluster k mit 1<k k < n. Ähnlichkeitsmaß (Kernel) sim zwischen Datenpunkten. Gesucht: Partitionierung der Daten in k Cluster. Ziel: Hohe Ähnlichkeit zw. Punkten im selben Cluster und geringe Ähnlichkeit zw. Punkten verschiedener Cluster. Repräsentation der Daten als Graph und Partitionieren des Graphs. n 28

29 Graphentheoretische Verfahren Ähnlichkeit zwischen Datenpunkten (Knoten) bilden gewichtete Kanten: 29

30 Graphentheoretische Verfahren Konstruktion des Graphen: -Neighborhood-Graph: Verbinde Knoten x i mit x j falls sim(x i, x j ) >, und setze Kantengewicht auf 1. k-nearest-neighbor-graph: Verbinde Knoten x i mit x j falls x i einer der k-nächsten Nachbarn von x j ist oder/und x j einer der k-nächsten Nachbarn von x i ist, und setze Kantengewicht auf sim(x i, x j ). Vollständiger Graph: Verbinde alle Knoten x i mit x j, und setze Kantengewicht auf sim(x i, x j ). Partitionierung des Graphen: Kanten zwischen Clustern (Teilgraphen) haben geringe Gewichte (geringe inter-cluster similarity). Kanten innerhalb eines Clusters haben hohe Gewichte (hohe intra-cluster similarity). 30

31 Graphentheoretische Verfahren Repräsentation eines (ungericheten) Graphen: Adjazenzmatrix: 1 0,5 0 0,1 0, ,3 A ,7 0,1 0,3 0, 7 1 x 1 0,5 x 2 0,1 0,3 Enthält Kantengewichte A ij. x 4 0,7 x3 Knotengrad-Matrix: Laplace-Matrix: d1 0 D 0 d n d i n j1 A ij Unnormalisiert: Normalisiert (Random Walk): Symmetrisch normalisiert: L un DA 1 Lrw ID A L ID AD sym

32 Graphentheoretische Verfahren: Spectral Clustering Algorithmus: SpecClust(Instanzen x i, Clusteranzahl k) Konstruiere Graph aus Instanzen x i Berechne zugehörige Laplace-Matrix L Berechne die k Eigenvektoren v n mit den k kleinsten Eigenwerten Setze x x x v v v T 1 2 n 1 2 { r,..., r } K-Means(Instanzen t x i, Clusteranzahl k) 1 n RETURN { r1,..., r n } i k 32

33 Graphentheoretische Verfahren: Spectral Clustering Vorteile: Cluster können beliebige Form haben. Einfach zu implementieren. i Relativ schnell (falls Laplace-Matrix sparse). Meist hohe Qualität. Nachteile: Nur lokales Optimum garantiert. Harte Zuweisung zu Clustern (nicht-probabilistisch). Anzahl Cluster muss vorgeben werden. 33

34 Dichtebasierendes Clustern: Spatial Clustering Idee: Cluster-Grenzen sollen durch Regionen mit geringer Datendichte verlaufen. Zwei Punkte x und y gehören zum gleichen Cluster falls es einen Pfad zwischen beiden Punkten gibt. Direkte Erreichbarkeit des Punktes y von x: Nachbarschaftsbedingung: g y N ( x ) z dist ( x, z) Core-Point-Bedingung: # min N ( x) y x Mindestanzahl von benachbarten Punkten 34

35 Dichtebasierendes Clustern: Spatial Clustering Punkt y ist von x erreichbar: Es gibt einen Pfad p 1,p 2,,p m mit p 1 = x und p m = y y, so dass p i+1 direkt erreichbar von p i ist für i = 1 m. x p 1 y Punkt y ist mit x verbunden: Es gibt einen Punkt z, so dass x und y erreichbar von z sind. x z y 35

36 Dichtebasierendes Clustern: Spatial Clustering: DBSCAN Algorithmus: DBSCAN(Instanzen x i, Radius, Mindest-Clustergröße g) Setze l D x DO 0, i Wähle zufällig x D P = { y y ist von x erreichbar} IF P < g D = D \ x ELSE l=l+1 C l =P D = D \ P WHILE D RETURN { C 1,...,, C l } P enthält x x ist Outlier (nicht Teil eines Clusters) x ist Core-Point eines Clusters 36

37 Dichtebasierendes Clustern: Spatial Clustering: DBSCAN Vorteile: Cluster können beliebige Form haben. Für nominale, ordinale und numerische Attribute geeignet. Anzahl Cluster muss nicht vorgeben werden. Nachteile: Nur lokales Optimum garantiert. Harte Zuweisung zu Clustern (nicht-probabilistisch). Radius & Mindest-Clustergröße müssen vorgegeben werden. 37

38 Zusammenfassung Prototyp-Verfahren (z.b. K-Means): Schnell, numerische Attribute, bekannte Clusteranzahl. Mischmodelle (z.b. Mixture of Gaussians): Probabilistische Cluster-Zuweisung, numerische Attribute, unbekannte Clusteranzahl. Verlinkungsbasierte Verfahren (z.b. AGNES): Iterativ, beliebige Attribute, unbekannte Clusteranzahl. Graphbasierte Verfahren (z.b. Spectral Clustering): Beliebige Clusterform, hohe Qualität. Spatial Clustering (z.b. DBSCAN): Beliebige Clusterform, unbekannte Clusteranzahl. 38