Unsupervised Learning Algorithmen im Data Mining. Heuristische, semiparametrische und parametrische Clusterverfahren

Transkript

1 Unsupervised Learning Algorithmen im Data Mining Heuristische, semiparametrische und parametrische Clusterverfahren Patrick Mair WU-Wien, ec3

2 Inhalt Einführung Heuristische Clusterverfahren Hierarchische Clusterverfahren k-means Clusterung Semiparametrische Clusterung 2-Step Cluster Analysis Parametrische Clusterverfahren Mischverteilungsansätze (EM- Algorithmus) Latent Class Analyse (LCA) Ausblick

3 Einführung Der Segmentierungsprozess Aufteilung eines heterogenen Gesamtmarktes in homogene Teilmärkte Unterschiedliche Kunden unterschiedlich ansprechen Segmentierungskriterien Demografisch, psychografisch, verhaltensorientiert Datensatz

4 Hierarchische Clusteranalyse * Clusterbildung basiert auf Distanzmaß Gesamten Variablenvektor betrachten Variablenvektor standardisieren Distanzen zwischen allen möglichen Beobachtungspaaren berechnen Sukzessives aggregieren von Clustern Dendrogramm Distanzmaße Euklidische Distanz zwischen 2 Beobachtungen p ( ( S1) ( S2) ) 2 D = x x S1, S2 j j j= 1 * Sharma, 1996

5 ID Usability Personal Hierarchische Clusterung Erste Clusterbildung Jede Beobachtung 1 Cluster Distanzmatrix berechnen S1 7 7 S2 5 4 S S S5 4 5 S6 8 7 S1 - S1 S2 S3 S4 S5 S6 10,00 9,00 ID S1 S2 S3 S4 S5 S6 S S S S S Personalisierung 8,00 7,00 6,00 5,00 * Quadrierte Euklidische Distanzen 4, Usability

6 Hierarchische Clusteranalyse Weitere Clusterbildung Beobachtungen mit kleinster Distanz gruppieren Distanzen neu berechnen Methoden Zentroid-Methode Single-Linkage Complete-Linkage Average-Linkage Ward-Methode S2 - S2 S3 S4 S5 S1& S6 S S ID Usability Personal S1 & S S2 5 4 S S S5 4 5 S S1&S

7 Hierarchische Clusteranalyse Ende der Gruppierung Wiederholen dieser Schritte bis 1 Cluster übrig Dendrogramm Wieviele Cluster? Heuristische-Inhaltliche Vorgangsweise Root mean square standard deviation (RMSSTD) R-Quadrat (R²) Distanz zwischen den Clustern

8 Hierarchische Clusteranalyse Anwendung im Data Mining kritisch! Computational aufwendig, im ersten Schritt ist jede Beobachtung ein einzelner Cluster Datenverdichtung Einheitliches Skalenniveau Eindimensionale Clusterrichtung Multidimensionale Datenraum wird reduziert Vorteil Erlaubt Einblick in Clustergenerierung Clusteranzahl posterior bestimmbar Holistische Sichtweise

9 K-means Clusterung Nichthierarchischer Clusteransatz Anzahl der Cluster müssen a-priori festgelegt werden Kids Version es war einmal ein Land mit N Häusern K Könige kamen ins Land Jeder König zog ins erste Haus ein Die Leute wollten, dass er seinen Thron in die Mitte des Dorfes verlegt Dies machten die Könige, aber plötzlich waren zusätzliche Häuser näher, andere aber weiter weg. Sie übernahmen die neuen, gaben die entfernten ab und verlegten den Thron wieder ins Zentrum usw. Irgendwann mussten sie den Thron nicht mehr bewegen und sie ließen sich dort nieder

10 K-means Clusterung Vorbemerkungen zum Datenmaterial Verschiedene Skalenniveaus (kategorial, metrisch) Standardisierung Clementine [0;1] Schritt 1: Initialisieren der Clusterzentren maximin-algorithmus in Clementine Schritt 2: Zuordnung der Beobachtungen zu Cluster p Euklidische Distanz ( ) 2 D = x c XC j j j= 1 Schritt 3: Clusterzentroide neu berechnen Clusterupdate C ( k ) = X Schritt 4: zurück zu Schritt 2 oder Abbruch Abbruchkriterien Fehlertoleranz, maximale Iterationsanzahl ( k ) min *

11 K-means Clusterung Anwendungsbeispiel Clusterung in Bezug auf Items (Rating-Skalen) Clusterzentren der endgültigen Lösung Cluster Werbung Bestelleffizienz Usability Portal Personalisierung Portal Produktkosten Produktqualität Produktzuverlässigkeit After-Sales-Service Kreuzklassifikation mit Geschlecht Anzahl Cluster-Nr. des Falls Gesamt Cluster-Nr. des Falls * Geschlecht Kreuztabelle Geschlecht männlich weiblich Gesamt Chi-Quadrat nach Pearson Likelihood-Quotient Anzahl der gültigen Fälle Chi-Quadrat-Tests Wert df Asymptotisch e Signifikanz (2-seitig) 4,564 a 2,102 4,598 2, a. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 15,80.

12 K-means Clusterung K-means im Data Mining Computational nicht aufwendig Heuristische Erstlösung Clusterlösung nützlich als Startlösung für komplexere Methoden Nachteile Clusteranzahl fix und nicht statistisch prüfbar Deterministische Zuordnung Ausreißeranfällig

13 2-Step Clusteranalyse 2-Schritt semiparametrischer Ansatz Schritt 1 (Pre-Cluster): Cluster Feature Tree (CF) * * BIRCH- Algorithmus (Zhang, Ramakrishnon, & Livny, 1996)

14 2-Step Clusteranalyse Schritt 2: Hierarchische Clusterung Zu Beginn jeder Endknoten als Startcluster Hierarchische Vorgangsweise analog zu vorhin Likelihood-Kriterium zur Distanzberechnung (Normalverteilung bei metrischen, Multinomialverteilung bei kategorialen) Vorgang wird solange wiederholt bis die gewünschte Zahl an Clustern erreicht ist (Range vorgeben) Clusteranzahl BIC für verschiedene Clusterlösungen berechnen Δ = für optimale Clusterlösung BIC BIC BIC + ( K) ( K 1)

15 2-Step Clusteranalyse Anwendungsbeispiel 2-Step in Clementine Clusterung nach demografischen Variablen Range für Clusteranzahl [2;15] cluster Records * Alter * 2 (53,52%) * Ausbild * 6 (72,18%) * Bundesl * 1 (72,18%) * Dauerb * Mean = 2,683 * Einkomm * 1 (45,42%) * Gender * 0 (50,35%) * Pershaus * 1 (37,32%) * Stelhaus * 1 (52,46%) * Zyklus * 0 (73,59%) cluster Records * Alter * 3 (46,93%) * Ausbild * 6 (46,93%) * Bundesl * 1 (72,81%) * Dauerb * Mean = 5,899 * Einkomm * 1 (39,47%) * Gender * 1 (55,26%) * Pershaus * 2 (71,49%) * Stelhaus * 5 (76,75%) * Zyklus * 1 (76,32%)

16 2-step Clusteranalyse 2-step Clusteranalyse im Data Mining Computational effizient Ermittlung der optimalen Clusteranzahl durch statistisches Kriterium Instabilität des CF-tree Normalverteilungsannahme (?) Keine spezifische Hypothesenprüfung

17 Mischverteilungsansätze Parametrische Clusterung über Mischverteilungen Normalverteilung Ausgangspunkt: Dichte f(x) f ( x ) i 1 1 xi μ = exp 2 2πσ 2 σ 2 f(x) Komponenten Normal-Mixture x Likelihood L: L n 1 1, = exp 2 i= 1 2πσ 2 2 ( x μσ ) log L ML- Schätzung: Maximiere L = 0 μ x i μ σ 2 μ

18 Mischverteilungsansätze Mischverteilungen Mixed Density f(x) ( ) ( 2 ) ( 2 i = π1 i μ1, σ + π2 i μ2, σ ) f x f x f x K 2 ( i) π k ( i μk, σ ) f x = f x k = 1 Likelihood L n 2 ( x μπ) ( ) πk i μk σ μπ L, = f x,, =? L L = 0 μ π i= 1 K k = 1 nicht o.w. lösbar Mischungsgewichte: K k = 1 π = 1 k Clusteranzahl K muss festgelegt werden

19 EM-Algorithmus * Philisophie zum Lösen von ML-Gleichungen Iterativer Lösungsansatz für nichtlineare Gleichungen Expectation-Maximization (EM) Aufbereitung der L als incomplete-data Problem Daten: ( x; k ) äquivalent dazu ( x; z, z,, z, z ) i i i1 i2 ik ik Likelihood n z z ik ik ( xz, ψ) π ( θ ) z { 0,1} L f x c k i i k i= 1 k= 1 K = ik Gruppenzugehörigkeit Z ik als unbekannte Zufallsvariable * Dempster, Laird, & Rubin, 1977

20 EM-Algorithmus Startlösung für Parametervektor festlegen Zufällig oder mit Vorkenntnis (z.b. K-means) E-Step Erwartungswert über log L (bzgl. Z ik ) (, ( m) ( ) ) log ( m ψψ x ψ ) Q = E L (0) ψ Posterior-Wahrscheinlichkeit, dass i-te Beobachtung x i zur k-ten Komponente gehört ( m) ( x) p( Z 1 x) τ ( ψ ) E Z = = = = ik ik ik K π k = 1 f ( x θ m ) ( x θ m ) ( m) ( ) k k i k π f ( m) ( ) k k i k

21 EM-Algorithmus M-Step: Maximiere Update der Mischungsgewichte ( m+ 1) 1 n ( ) k = ik n i= 1 π τ ψ m ( ) Update der Verteilungsparameter θ K n ( m+ 1) ( ) τ ik k= 1 i= 1 ( m) ( x θ ) log L m : ( ψ ) = 0 θ Iterieren bis Konvergenz erreicht ( ( m + 1) ( m) ψ ) ( ψ ) L L < ε ( m) (, ) Q ψψ Likelihood Phi Konvergenzverhalten * erreiche zumindest lok. Maximum L * McLachlan & Krishnan, 1997

22 Latent Class Analyse * Parametrischer Clusteransatz auf kategoriale Daten Parameter Relative Clustergröße π j Clusterspezifischen Itemlösews. p( X = 1 k) = p si x ( ) ( ) 1 si p Xsi = xsi k = pki 1 pki Zentrale Annahme Lokale stochastische Unabhängigkeit I x ( ) ( 1 ) 1 si x = p k p p s ki ki i= 1 ki x x si si Person Dichotomisierte Items: 1) Usability? 2) Personalisierung? 3) Produktqualität? 4) After- Sales Services? Item 1 Item 2 Item 3 Item Datenmatrix X vi Alternativ: mit Antwortmuster s x1 = ( 0,0,0,0) n1 = 8 x = ( 0,0,0,1) n = 14 x x 2 2 s k ( ) = 0,1,0,0 n = 1 ( ) = 1,1,1,1 n = s k * Lazarsfeld & Henry, 1968; siehe auch Formann, 1984

23 Latent Class Analyse Unbedingte Wahrscheinlichkeit für Antwortmuster x ( ) ( 1 ) 1 si x = π s k ki ki k = 1 i= 1 Likelihood aufstellen K p p p I ( p π ) ( ) ( x ns ) π p L x, = p x = p, =? vi v= 1 s= 1 Likelihood prinzipiell lösbar, kann aber passieren, dass EM-Algorithmus (IPF als Spezialfall davon) x si Zuordnung der Personen zu Klassen (Posterior im E-Step) Ws., Klasse k anzugehören, falls Person i Muster s zeigt ( ) ( xs k) p( x ) p p k s = π max k s n 2 k s p ji [ 0,1]

24 Latent Class Analyse Anwendungsbeispiel 2-Klassen-Lösung Datapoints: 826 Classes: 2 Probability of classes [1] Itemprobabilities Klassen-Lösung Datapoints: 826 Classes: 3 Probability of classes [1] Itemprobabilities BIC, estimated model: BIC, saturated model: TestStatistics: Likelihood ratio: p-val: Pearson Chi^2: p-val: BIC, estimated model: BIC, saturated model: TestStatistics: Likelihood ratio: p-val: e-08 Pearson Chi^2: p-val: e-08

25 Mischverteilungsansätze Parametrische Clusterung im Data Mining Kann computational aufwendig werden Individuelle Programmroutine notwendig Keine Heuristiken, theoretisch fundiert Probabilistische Clusterzuordnung Ergebnisse statistisch überprüfbar Testen von speziellen Hypothesen möglich Verfahren vielfältig und denmach auf spezielle Probleme flexibel zuschneidbar

26 Ausblick Konfigurationsfrequenzanalyse Kohonen-Netzwerke Overlapping Clusters Fuzzy-Clusterung Principal Components Literatur Everitt (2001). Cluster Analysis, 4th edition. Wedel, Kamakura (2000). Market Segmentation: Conceptual and Methodological Foundations. Hand, Mannila, Symth (2001). Principles of Data Mining. Hastie, Tibshirani, & Friedman (2001). The Elements of Statistical Learning. McLachlan, Basford (1988). Mixture Models: Inference and Applications to Clustering. McLachlan, Peel (2000). Finite Mixture Models. Witten, Frank (2005). Data Mining Practical Machine Learning Tools and Techniques