Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003

Größe: px

Ab Seite anzeigen:

Download "Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003"

Wilfried Ritter
vor 5 Jahren
Abrufe

1 Clustering Herbert Stoyan Stefan Mandl 18. Dezember 2003

2 Einleitung Clustering ist eine wichtige nicht-überwachte Lernmethode Andwenungen Marketing: Finde Gruppen von Kunden mit gleichem Kaufverhalten, gegeben DB mit Eigenschaften und früheren Einkäufen Biologie: Einordnen von Pflanzen und Tieren, gegeben ihre Merkmale Bibliotheken: Sortieren von Büchern Versicherungen: Finde Gruppen von Versicherungsnehmern, die hohe Durchschnittskosten verursachen Identifikation von Risikogruppen Aufdecken von Betrugsversuchen Erdbebenforschung: Identifizieren gefährlicher Regionen WWW: Dokumentklassifikation Typische Zugriffsmuster aus Log-Dateien ermitteln

3 Clustering Daten zerfallen in Klassen weil sie Attribute/Eigenschaften (aus einem Bereich) gemeinsam haben weil sich ähnlich sind werden Daten Klassen zugeordnet, kann man Prototypen zum Datum finden werden etwa Bilder zufällig transformiert (verschoben, rotiert etc.) kann im Cluster vielleicht das Ursprungsbild gefunden werden in Bildern müssen Segmente gefunden werden (Gruppierung ähnlicher Pixel)

4 Cluster können disjunkt sein können sich überdecken können hierarchisch organisiert sein die Instanzen können exakt nur zu einem Cluster gehören mit einer gewissen Wahrscheinlichkeit zu einem Cluster gehören in einem Cluster hängen in gewisser Weise zusammen 3 Grundalgorithmen: k-means algorithmus für numerische Attribute liefert disjunkte Cluster hierarchischer Algorithmus für nominale Attribute (Cobweb) und numerische Attribute (Classit) statistischer Algorithmus mit Mischung aus verschiedenen Wkeitsverteilungen

5 Iteratives abstandsbasiertes Clustering (k-means) alle Instanzen werden betrachtet Vorgehen 1. Vorgabe der Cluster-Zahl k 2. Auswahl von k zufälligen Punkten als Clusterzentren 3. Zuweisung der Instanzen zu den Clusterzentren (mit Abstandsfunktion) 4. Neuberechnung des Zentrums durch Mittelung über die Instanzen 5. zurück zu 3, bis die Zentren stabil sind einfach, effizient (wirklich?) doch: Berechnung der Abstände der Instanzen von k Zentren aufwendig Resultat hängt von Anfangsverteilung ab

6 Gegenbeispiel C1 C2 Reparatur: Durchlaufwiederholung mit verschiedenen Startpunkten Variante: Arbeit mit k = 2 und dann hierarchisch in den Clustern

7 Inkrementelles Clustering Instanz für Instanz wird betrachtet 1. Start mit einem leeren Baum (nur Wurzel) 2. Betrachten einer Instanz 3. Einbau in einen Baum 4. Geeignete Stelle wird durch Betrachtung der kategorialen Nützlichkeit gefunden (globales Mass) 5. Optionen Auswahl eines Knotens oder separater Einbau in den Baum dabei: Vermerk des besten und zweitbesten Knotens Erwägung der Zusammenlegung der besten zwei Kandidatenknoten und Einbau der aktuellen Instanz Erwägung des Aufteilens eines Subbaumes Erwägen der Identifikation der neuen Instanz und der im Baum plazierten Instanz (Abschneiden) kategoriale Nützlichkeit basiert auf Schätzung des Mittelwertes und der Standardabweichung

8 Beispiel: Wetterdaten

9 Beispiel: Iris

10 kategoriale Nützlichkeit (für nominale Attribute) l CU(C 1,..., C k ) = P r(c l) i j (P r(a i = v ij C l ) 2 P r(a i = v ij ) 2 ) k l: Cluster i: Attribute j: Werte P r(a i = v ij C l ): Schätzung der Wkeit eines Attributes für Instanz aus Cluster P r(a i = v ij ): Schätzung der Wkeit eines Attributes für Instanz (allgemein)

11 kategoriale Nützlichkeit (für numerische Attribute) CU(C 1, C 2,..., C k ) = 1 1 (P r(c l ) k 2 ( 1 1 ) π σ il σ i σ i : Standardabweichung fürs Attribut a i l i Probleme: Division 1/k (wieso ist das ein Problem?) künstlicher Minimalwert eps ad hoc Abschneidewert Einfluß der Beispielsreihenfolge kann lokales Minimum der Nützlichkeit erreicht werden? niemals globales Optimum bekannt in der Hierarchie sind die besten Cluster nur schwer erkennbar

12 Clustering auf Basis von Wahrscheinlichkeiten Grundlage für gute Zuordnung nie richtig gegeben deshalb Wkeitsansatz sinnvoll: Zugehörigkeit zu Cluster nur mehr oder weniger wahrscheinlich endliche Mischung: k Wkeitsverteilungen, eine zu jedem Cluster, beschreiben die Attributwerte der Clusterelemente (falls bekannt ist, daß es im Cluster - und nur in 1 Cluster) eine Wkeitsverteilung, die die relative Größe (Wkeit) der Cluster beschreibt einfacher Fall: nur 1 numerisches Attribut Gaussverteilung für jeden Cluster mit verschiedenem Mittel und Abweichung

13 Beispiel 2 Cluster A und B Gaussverteilungen mit µ A und σ A bzw. µ B und σ B damit Beispielsmengen erzeugt mit Wkeiten p A und p B (pa + pb = 1)

14 Problem Gegeben die Beispiele, bestimmen der Zahl der Cluster und der Paramater µ und σ sowie der Wkeit p hat man die Cluster, kann man die 5 Parameter berechnen: µ = x 1+x x n n σ = (x 1 µ) (x n µ) 2 ) n 1 (oder 1 n ) p A = n A n A +n B für Mittel und Abweichung braucht man natürlich die zum Cluster gehörenden Daten und da ist man unsicher Wenn man diese hätte, könnte man die Wkeit, dass Instanz x im Cluster A so berechnen: P r(a x) = P r(x A) P r(a) P r(x) = NV (x; µ A, σ A ) p A P r(x) NV (x; µ A, σ A ) ist die Normalverteilung für Cluster A mit Dichte: natürlich: pa + pb = 1 NV (x, µ, σ) = 1 e (x µ)2 2σ 2 2πσ

15 EM-Algorithmus (Erwartungsmaximierung) 1. Anfang: Schätze Parameter µ A, µ B, σ A, σ B, p A, p B 2. Erwarte: Berechne Cluster-Wkeiten für jedes Datum (Approximation an ein Wkeiten- System-Modell) w i = P r(a x) = P r(x A) P r(a) P r(x) = NV (x; µ A, σ A ) p A P r(x) 3. Maximiere: Schätze damit Parameter µ A = P P i w ix i i w i σa 2 P = i w i(x i µ) P 2 p A = P i w i k i w i 4. Prüfe, ob aufgehört werden kann, sonst zu 2) tatsächlich werden die 5 Parameter geschätzt mit (weil die richtigen Cluster nicht bekannt)

16 Wann mit dem Zyklus aufhören? Wenn globale Likelihood nicht mehr wächst. globale Likelihood: p A P r(x i A) + p B P r(x i B) +... i ein Summand für jeden Cluster

17 Anmerkungen wenn man statt des Produktes eine Summe will, muß man zu den Logarithmen übergehen d.h. der Logarithmus wird betrachtet der numerisch aus den Werten der Gaußverteilungen berechnet wird oft ist das Ergebnis ein einfacher analytischer Ausdruck auch EM geht nur zu einem lokalen Maximum Zahl der Cluster k kann anders als 2 sein dann sind eben mehr Grundgrößen zu schätzen Die Attribute können mehr als 1 sein; wichtig aber: sie müssen unabhängig sein! dann werden die entsprechenden Wkeiten eben multipliziert sind sie korreliert, dann wird es kompliziert, weil anstelle der Abweichungen die Korrelationsmatrix benutzt werden muß, mit der weitere Parameter eingeführt werden im schlimmsten Falle hat man dann zu viele Parameter Schwierigkeiten auch für nominale Attribute auch Vorkehrungen für fehlende Werte AutoClass: Bayes-Clustering Algoritmus mit endlichem Verteilungs-System-Modell, numerischen und nominalen Attributen

Ähnliche Dokumente

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen