Data Mining. Klassifikation. Assoziationsregeln. Clustering

Transkript

1 Data Mining Klassifikation Assoziationsregeln Clustering

2 Klassifikationsregeln Vorhersageattribute V1, V2,..., Vn Vorhergesagtes Attribut A Klassifikationsregel P1(V1) P2(V2)... Pn(Vn) A = c Prädikate P1, P2,.., Pn Konstante c Beispielregel (wiealt>35) (Geschlecht =`m ) (Autotyp=`Coupé ) (Risiko= hoch )

3 Klassifikations/Entscheidungsbaum Geschlecht m w wiealt geringes Risiko <=35 >35 hohes Risiko Autotyp hohes Risiko Coupe Van geringes Risiko

4 Klassifikations/Entscheidungsbaum Geschlecht m w wiealt geringes Risiko <=35 >35 hohes Risiko Autotyp hohes Risiko Coupe Van geringes Risiko

5 Klassifikations/Entscheidungsbaum Geschlecht m w wiealt geringes Risiko <=35 >35 hohes Risiko Autotyp Coupe Van (wiealt>35) (Geschlecht =`m ) (Autotyp=`Coupé ) (Risiko= hoch ) hohes Risiko geringes Risiko

6 Konstruktion von Entscheidungsbäumen (Langley 1996, Quinlan 1993 ) Grundlagen - Entscheidungsbäume sind eine spezielle Form von Konzepthierarchien - Grundidee: aus gegebenen Trainingsbeispielen wird Entscheidungsbaum aufgebaut Entscheidungsbaum liefert intensionale Beschreibung der vorgegebenen Klassen Entscheidungsbaum ordnet neue Beispiele mit gewisser Fehlerrate einer der vorgegebenen Klassen zu

7 Konstruktion von Entscheidungsbäumen Generelle Voraussetzungen: Beispiele werden in Form von Attribut-Wert-Paaren beschrieben - Attribut hat Name und Wertebereich - Wertebereich ist nominal, diskret oder kontinuierlich - jedes Beispiel wird durch dieselben Attribute beschrieben (vgl. relationale Datenbanken ) Menge von Klassen (Konzepten) ist vordefiniert; i.a. ist die Anzahl der Klassen sehr viel kleiner als die Zahl der Trainingsbeispiele

8 Konstruktion von Entscheidungsbäumen Abbildung VI.1-1: Training instances from a cell domain involving four attributes and three distinct classes. ( Langley 1996 ) Attributes: number of nuclei (values: 1,2) number of tails (values: 1,2) color ( values: light, dark) wall (values: thin, thick)

9 Konstruktion von Entscheidungsbäumen Abbildung VI.1-2: A decision tree generated by the DDT algorithm for the training instances from Abbildung VI.1-1. Each terminal node specifies an associated class name and the number of training cases covered. Numbers next to the notes indicate the order in which the algorithm generated them. The notation (a), which associates attributes with nodes and values with links, is equivalent to (b), which shows the instances that each node covers. (Langley 1996)

10 Konstruktion von Entscheidungsbäumen Von jedem Trainingsbeispiel ist (idealerweise) die Klassenzugehörigkeit bekannt überwachtes Lernen (supervised learning) ein Attribut spezifiziert jeweils die Klassenzugehörigkeit (vgl. auch Holländer- Klassifizierung) Klassen müssen durch Entscheidungsbäume oder Produktionsregeln beschreibbar sein typischerweise Beschreibungen der Form [( atti = value ) (att value )] 1 i K 1 i = n i n Beispiel: Klasse Healthy: [( number_of_tails = 2) (number_of_nuclei = 1)] [( number_of_tails = 1) (color = dark) (number_of_nuclei = 2)]

11 Konstruktion von Entscheidungsbäumen Struktur eines univariaten Entscheidungsbaums: Blattknoten werden mit jeweils einer Klasse benannt, alle anderen Knoten mit jeweils einem Test auf ein einziges Attribut wenn das Attribut eines Knotens k verschiedene Werte hat (bzw. in k Wertebereiche aufgeteilt wird), dann hat der Knoten k Sohnknoten Beispielmenge wird an dem Knoten in k disjunkte Teilmengen partitioniert in Abhängigkeit vom jeweiligen Wert des Attributs Die Extension eines Knotens ist immer eine Obermenge der Extension aller Sohnknoten

12 Konstruktion von Entscheidungsbäumen verbinde jeden Knoten mit all seinen Sohnknoten und beschrifte die Kanten mit ihren zugehörigen Attributwerten neue Fälle durchlaufen für ihre Klassifikation den Entscheidungsbaum von der Wurzel ausgehend bis zu einem Blattknoten Graphisch: a i1 a i2 a i... a i k i - m Attribute a 1, a 2,... a m - Wertebereich von Attribut a i : von Attribut a l : { 1 i { 1 l a i,..., a ik } a l,..., a lk } a l1 al 2 a l... a lk l

13 Konstruktion von Entscheidungsbäumen Wie man in Holland Leute erkennt (ohne Gewähr)... Schuhe Normal Schuhe Lieblings- Käse Wohnwagen Holländisch 1 Unbek. Gouda Ja + 2 Unbek. Camembert Ja - 3 Klompen Gouda Ja + 4 Normal Gouda Nein - 5 Klompen Camembert Ja + 6 Unbek. Gouda Nein + 7 Normal Gouda Ja - 8 Klompen Gouda Nein + 9 Unbek. Camembert Nein - 10 Normal Camembert Ja - Nicht- Holländer Holländer 4, 7, 10 3, 5, 8 Klompen Gouda Holländer Unbekannt Käse Nicht- Holländer Ein Entscheidungsbaum zur Klassifikation 1, 6 2, 9

14 Konstruktion von Entscheidungsbäumen Grafische Veranschaulichung der Klassifikationsaufgabe: Schuhe Normal -/- -/- + : Holländer - : kein Holländer unbekannt Klompen +/+ -/- Wohnwagen ++ +/+ Gouda Camembert Käse

15 Konstruktion von Entscheidungsbäumen - Beispielalgorithmus für Aufbau eines univariaten Entscheidungsbaums: DDT - Algorithmus: Divisive Induction of Univariate Decision Trees - DDT ist nicht-inkrementell: - alle Trainingsbeispiele müssen verfügbar sein - DDT ist Greedy-Algorithmus (greedy=gierig): - lokal optimale Entscheidungen werden getroffen - getroffene Entscheidungen können nicht mehr zurückgenommen werden

16 Konstruktion von Entscheidungsbäumen DDT Algorithm: Divisive Induction of Univariate Decision Trees Inputs: The current node N of the decision tree. A set of classified training instances ISET. A set of symbolic attributes and their values ASET. Output: A univariate decision tree. Top-level call: DDT(root, ASET, ISET).

17 Konstruktion von Entscheidungsbäumen Procedure DDT(N, ASET, ISET) If the training set ISET is empty, Then label terminal node N as DEFAULT. Else IF all instances ISET are equal with respect to all attributes in ASET // neuer Blattknoten // this is especially the case if ASET is empty // gefunden Then label terminal node N with the class name. Else for each attribute A in ASET, Evaluate A according to its ability to // wähle bestes discriminate the classes in ISET. // Attribut B Select attribute B with the best evaluation score. For each value V of B, Create a new child C of node N. // expandiere Label the edge from N to C with V. // aktuellen Let JSET be the ISET instances having value V on B. // Knoten Let KSET be ASET \ {B}. DDT(C, KSET, JSET).

18 Konstruktion von Entscheidungsbäumen Beispiel "Spielen im Freien": 4 Attribute 2 Klassen: Play Don t Play Outlook Temp (F) Humidity (%) W indy? Class sunny true Play sunny true Dont t Play sunny false Dont t Play sunny false Dont t Play sunny false Play overcast true Play overcast false Play overcast true Play overcast false Play rain true Dont t Play rain true Dont t Play rain false Play rain false Play rain false Play Abbildung VI.1-3: A small training set (Quinlan 1993)

19 Konstruktion von Entscheidungsbäumen Abbildung VI.1-4: Final partition of cases and corresponding decision tree (Quinlan 1993)

20 Konstruktion von Entscheidungsbäumen Graphische Darstellung des Entscheidungsbaumes zum Beispiel: outlook sunny overcast rain humidity Play windy 75 > 75 true false Play Don t Play Don t Play Play

21 C4.5 - Algorithmus (Quinlan 1993) - weitverbreiteter Algorithmus zum Aufbau von Entscheidungsbäumen (oder entsprechenden Produktionsregeln) - Spezielle Variante des DDT-Algorithmus: Verwendung einer speziellen Bewertungsfunktion für Auswahl des besten Attributs: gain ratio beinhaltet zusätzlich Verfahren zur nachträglichen Vereinfachung des erzeugten Entscheidungsbaums: pruning aus Entscheidungsbaum können entsprechende Produktionsregeln erzeugt werden alternative lesbarere Darstellung Windowing - Technik für Handhabung einer großen Anzahl von Beispielen

22 Konstruktion von Entscheidungsbäumen a) Bewertungsfunktion für Attributauswahl für gegebene Menge von Trainingsbeispielen ist Anzahl der möglichen Entscheidungsbäume i.a. sehr groß Daher ist Generierung aller Entscheidungsbäume und dann Auswahl des Besten (exhaustive search) nicht möglich Daher wird in jedem Expansionsschritt das vielversprechendste Attribut ausgewählt (Greedy Algorithmus): verwende das Attribut, das am meisten Information liefert (im Sinne der Informationstheorie) C4.5 verwendet gain ratio als Kriterium. Es ist eine Abwandelung des im folgenden beschriebenen gain criterion.

23 Konstruktion von Entscheidungsbäumen gain criterion - Bezeichnungen: S: Gesamtbeispielmenge T: Menge der Trainingsbeispiele (T S) T 1, T 2,..., T n : Partition von T S T T 1 T 3 T 4 T 2

24 Konstruktion von Entscheidungsbäumen - Informationsgehalt einer Botschaft b i : hat b i die Wahrscheinlichkeit p i, so ist der Informationsgehalt von b i -log 2 (p i ) bits Beispiel: 8 gleichwahrscheinliche Botschaften b 1,...,b 8 : jedes b i hat den Informationsgehalt - log ( ) bits = bits

25 Konstruktion von Entscheidungsbäumen - Botschaft, die mitteilt, dass beliebig ausgewähltes Beispiel aus Menge T in Klasse c i liegt, hat den Informationsgehalt log 2 C i T T bits - Erwartungswert für den Informationsgehalt dieser Botschaften (bei k Klassen C 1,...,C k ): k info( T )= j= 1 C j T * log T 2 (Entropie von T) C j T T bits z.b.: k = 2 C 1 : play C 2 : don t play

26 Konstruktion von Entscheidungsbäumen - Sei X ein Test, der T in T 1,..., T n partitioniert. Dann ist der Erwartungswert für den Informationsgehalt einer Botschaft, die mitteilt, dass ein beliebig ausgewähltes Beispiel aus T i in der Klasse C j liegt (bei k Klassen C 1,..., C k ): info(t i k )= j= 1 n T info i x (T)= i= 1 T C j T i T i *info(t) i *log 2 C j T i T i bits Damit ist der Erwartungswert über alle T 1,..., T n : z.b.: X: outlook; n = 3 T 1 : sunny T 2 : overcast T 3 : rain z.b.: k = 2 C 1 : play C 2 : don t play

27 Konstruktion von Entscheidungsbäumen - gain criterion : gain(x) = info(t) - info x (T) Maß für den Informationsgewinn durch Partitionierung von T durch Test X: wähle Test X, so dass gain (X) maximiert wird, d.h. möglichst großer Informationsgewinn durch aussagekräftiges Attribut X mit info(t) fix wähle ein Attribut X mit möglichst kleinem info X (T), d.h. Erwartungswert für noch benötigte Informationen zur Klassifikation ist möglichst klein

28 Konstruktion von Entscheidungsbäumen info x (T) - info(t) gain(x) criterion gain = : - Bem.: Dies ist verwandt zum gemittelten Information Gain nur dass dort nur die Vorhersage einer Klasse C und nicht die Vorhersage in die Einteilung der Klassen C 1,..., C k betrachtet wurde. ) ( 1 ) ( )) ( ) ( ( 1 ), ( 1 ), ( i s i i s i s i i gain gain A c H s c H A c H c H s A c I s A c I = = = = = =

29 Konstruktion von Entscheidungsbäumen Fortführung des Beispiels "Spielen im Freien" : 2 Klassen : Play, Don t Play Klasse Play: 9 Fälle Klasse Don t Play : 5 Fälle damit: 2 C T j info(t) = j= 1 T = 14 9 * log 2 * log C T j T log bits bits k = 2 C 1 : play C 2 : don t play = bits (durchschnittlich benötigte Information zur Identifizierung der Klassenzugehörigkeit eines Beispiels aus T)

30 Konstruktion von Entscheidungsbäumen - Attribut outlook erzeugt 3 Teilmengen: T :outlook = sunny T = T 2 :outlook = overcast T :outlook = rain 3 Und liefert nach Definition damit: T 2 T 3 = 4 = 5 k = 2 C 1 : play C 2 : don t play X: outlook; n = 3 T 1 : sunny T 2 : overcast T 3 : rain info outlook 3 T (T) = i * info(t ) i i = 1 T * * log 5 3 *log = * 4 * log 4 0 *log * * log 5 2 log = bits

31 Konstruktion von Entscheidungsbäumen Daraus folgt: gain(outlook) = info(t) = ( ) info (T) outlook bits = bits k = 2 C 1 : play C 2 : don t play Vergleich mit dem Attribut windy : windy erzeugt 2 Teilmengen: o T 1 T 2 info : windy : windy windy = = false (T) o damit gain(windy true = 2 T i i = 1 T ) = (0.940 T = 6 1 T = 8 2 * info(t 0.892) ) i = K bits = = bits bits X: windy; n = 2 T 1 : true T 2 : false Also wird outlook als stärker diskriminierendes Merkmal weiter oben im Baum verwandt als windy.

32 Konstruktion von Entscheidungsbäumen Das gain criterion bevorzugt Tests mit vielen verschiedenen Testwerten (Attribut mit großem Wertebereich), wie das folgende Beispiel zeigt. Bildung von Teilmengen mit wenigen Fällen im Extremfall einelementige Teilmengen info X (T) = 0 Aber für Klassifizierungszwecke ist die Bildung derartiger Teilmengen unerwünscht (Overfitting)! Deswegen wird (nach dem Beispiel) die Variante gain ratio des gain criterion vorgestellt.

33 Konstruktion von Entscheidungsbäumen Fortführung des Beispiels "Spielen im Freien" : - füge neues Attribut Datum hinzu Attribut mit vielen verschiedenen Werten Attribut Datum liefert sehr hohen Informationsgewinn Datumsangabe bestimmt eindeutig Wert des Zielattributes, d.h. Klassenzugehörigkeit Attribut Datum würde als Wurzelattribut gewählt werden Das Attribut Datum ist sehr gut geeignet für die Beschreibung der Trainingsdaten, aber nicht geeignet für Klassifikation neuer, bisher unbekannter Beispiele.

34 Konstruktion von Entscheidungsbäumen - Idee: normalisiere 'gain criterion'durch 'split info' : Erwartungswert für Informationsgehalt einer Botschaft, die mitteilt, daß beliebig ausgewähltes Beispiel in Teilmenge T liegt i (T wird durch Test X in TeilmengenT, K,T n partitioniert) 1 n T split info(x)= i i= 1 T damit: gain ratio(x) = *log 2 T i T gain(x) split info(x) bits - da 'split info' für wenigegroße T sehr klein ist: i maximiere ' gain ratio' unter Nebenbedingung, dass gain wenigstens so groß ist wie der Durchschnittswert von gain über alle möglichen Tests X.

35 Konstruktion von Entscheidungsbäumen Anwendung auf das Beispiel: Attribut 'outlook' erzeugt 3 Teilmengen mit 5, 4 und 5 Beispielen; damit split info(outlook) = *log *log 2 14 = *log 2 bits 4 14 damit gain ratio(outlook) = gain(outlook) split info(outlook) = = 0.156

36 Pruning Original decision tree: physician fee freeze = n: adoption of the budget resolution = y: democrat (151) adoption of the budget resolution = u: democrat (1) adoption of the budget resolution = n: education spending = n: democrat (6) education spending = y: democrat (9) education spending = u: republican (1) physician fee freeze = y: synfuels corporation cutback = n: republican (97/3) synfuels corporation cutback = u: republican (4) synfuels corporation cutback = y: duty free exports = y: democrat (2) duty free exports = u: republican (1) duty free exports = n: education spending = n: democrat (5/2) education spending = y: republican (13/2) education spending = u: democrat (1) physician fee freeze = u: water project cost sharing = n: democrat (0) water project cost sharing = y: democrat (4) water project cost sharing = u: mx missile = n: republican (0) mx missile = y: democrat (3/1) mx missile = u: republican (2) After pruning: physician fee freeze = n: democrat (168/2.6) physician fee freeze = y: republican (123/13.9) physician fee freeze = u: mx missile = n: democrat (3/1.1) mx missile = y: democrat (4/2.2) mx missile = u: republican (2/1) Abbildung VI.1-5: Decision tree before and after pruning (Quinlan 1993 )

37 Kapitel VI.1: Konstruktion von Entscheidungsbäumen Erzeugung von Produktionsregeln - Komplexe Entscheidungsbäume sind schwer zu verstehen, da jeder Test im Kontext aller vorhergehenden Tests zu interpretieren ist. - Lösung: Betrachte alle Tests auf Pfad von Wurzel zu aktuellem Knoten und transformiere die Pfadtests in Bedingungen für Produktionsregeln der Form IF test 1 test 2.. test n THEN class = C1 Eine Klasse wird als Default-Klasse verwendet.

38 Kapitel VI.1: Konstruktion von Entscheidungsbäumen Abbildung VI.1-9: labor-neg decision tree in graph form (Quinlan 1993)

39 Kapitel VI.1: Konstruktion von Entscheidungsbäumen Abbildung VI.1-10: Result of postprocessing to rules (Quinlan 1993)

40 Kapitel VI.1: Konstruktion von Entscheidungsbäumen - Regeln können gegebenenfalls vereinfacht werden durch Entfernen von Tests aus dem Bedingungsteil: Beispiel: In Regel 4 in Abbildung VI.1-10 ist die Bedingung statutary holidays 10 entfernt worden. - Vorgehensweise für Klassifikation eines neuen Beispiels: gehe Regeln der Reihe nach durch ( Reihenfolge ist relevant ) erste Regel, deren Bedingungsteil erfüllt ist, wird ausgewählt rechte Seite der Regel bestimmt Klassenzugehörigkeit für betrachtetes Beispiel ist von keiner Regel der Bedingungsteil erfüllt, wird Default-Klasse gewählt

41 Kapitel VI.1: Konstruktion von Entscheidungsbäumen e) Fazit - C4.5 weitverbreitetes Verfahren zur Erzeugung von Entscheidungsbäumen und zugehörigen Produktionsregeln - Verfahren abhängig von Bewertungsfunktion für Attributauswahl Schätzung der Fehlerrate bei Pruning Schätzung der Fehlerrate bei Erzeugung und Vereinfachung von Produktionsregeln - vergleichbare Verfahren ID3 (Quinlan 1983) CN2 (Clark/Niblatt 1989)

42 Assoziationsregeln Beispielregel Wenn jemand einen PC kauft, dann kauft er/sie auch einen Drucker Confidence Dieser Wert legt fest, bei welchem Prozentsatz der Datenmenge, bei der die Voraussetzung (linke Seite) erfüllt ist, die Regel (rechte Seite) auch erfüllt ist. Eine Confidence von 80% für unsere Beispielregel sagt aus, dass vier Fünftel der Leute, die einen PC gekauft haben, auch einen Drucker dazu gekauft haben. Support Dieser Wert legt fest, wieviele Datensätze überhaupt gefunden wurden, um die Gültigkeit der Regel zu verifizieren. Bei einem Support von 1% wäre also jeder Hundertste Verkauf ein PC zusammen mit einem Drucker.

43 VerkaufsTransaktionen TransID Produkt 111 Drucker 111 Papier 111 PC 111 Toner 222 PC 222 Scanner 333 Drucker 333 Papier 333 Toner 444 Drucker 444 PC 555 Drucker 555 Papier 555 PC 555 Scanner 555 Toner Verkaufstransaktionen Warenkörbe Finde alle Assoziationsregeln L R mit einem Support größer als minsupp und einer Confidence von mindestens minconf Dazu sucht man zunächst die sogenannten frequent itemsets, also Produktmengen, die in mindestens minsupp der Einkaufswägen/ Transaktionen enthalten sind Der A Priori-Algorithmus basiert auf der Erkenntnis, dass alle Teilmengen eines FI auch FIs sein müssen

44 A Priori Algorithmus für alle Produkte überprüfe ob es ein frequent itemset ist, also in mindestens minsupp Einkaufswägen enthalten ist k:=1 iteriere solange für jeden frequent itemset I k mit k Produkten generiere alle itemsets I k+1 mit k+1 Produkten und I k I k+1 lies alle Einkäufe einmal (sequentieller Scan auf der Datenbank) und überprüfe, welche der (k+1)-elementigen itemset- Kandidaten mindestens minsupp mal vorkommen k:=k+1 bis keine neuen frequent itemsets gefunden werden

45 VerkaufsTransaktionen TransID Produkt 111 Drucker 111 Papier 111 PC 111 Toner 222 PC 222 Scanner 333 Drucker 333 Papier 333 Toner 444 Drucker 444 PC 555 Drucker 555 Papier 555 PC 555 Scanner 555 Toner Minsupp=3 Disqualifiziert A Priori-Algorithmus FI-Kandidat {Drucker} {Papier} {PC} {Scanner} {Toner} {Drucker, Papier} {Drucker, PC} {Drucker, Scanner} {Drucker, Toner} {Papier, PC} {Papier, Scanner} {Papier, Toner} {PC, Scanner} {PC,Toner} {Scanner, Toner} Zwischenergebnisse Anzahl

46 VerkaufsTransaktionen TransID Produkt 111 Drucker 111 Papier 111 PC 111 Toner 222 PC 222 Scanner 333 Drucker 333 Papier 333 Toner 444 Drucker 444 PC 555 Drucker 555 Papier 555 PC 555 Scanner 555 Toner A Priori-Algorithmus Zwischenergebnisse FI-Kandidat Anzahl {Drucker, Papier} 3 {Drucker, PC} 3 {Drucker, Scanner} {Drucker, Toner} 3 {Papier, PC} 2 {Papier, Scanner} {Papier, Toner} 3 {PC, Scanner} {PC,Toner} 2 {Scanner, Toner} {Drucker, Papier, PC} 2 {Drucker, Papier, Toner} 3 {Drucker, PC, Toner} 2 {Papier, PC, Toner} 2

47 Ableitung von Assoziationsregeln aus den frequent itemsets Betrachte jeden FI mit hinreichen viel support Bilde alle nicht-leeren Teilmengen L FI und untersuche die Regel L FI L Die Confidence dieser Regel berechnet sich als Condicence(L FI L) = support(fi) / support(l) Wenn die Confidence ausreicht, also > minconf ist, behalte diese Regel Betrachte FI = {Drucker, Papier, Toner} Support = 3 Regel: {Drucker} {Papier, Toner} Confidence = S({Drucker, Papier, Toner}) / S({Drucker}) = (3/5) / (4/5) = ¾ = 75 %

48 Erhöhung der Confidence Vergrößern der linken Seite (dadurch Verkleinern der rechten Seite) führt zur Erhöhung der Confidence Formal: L L +, R R - Confidence(L R) <= C(L + R - ) Beispiel-Regel: {Drucker} {Papier, Toner} Confidence = S({Drucker, Papier, Toner}) / S({Drucker}) = (3/5) / (4/5) = ¾ = 75% Beispiel-Regel: {Drucker,Papier} {Toner} Conf. = S({Drucker, Papier, Toner}) / S({Drucker,Papier}) = (3/5) / (3/5) = 1 = 100%

49 Clustering Schadenshöhe Outlier Alter der Fahrer

50 Clusteranalyse (Bacher 1994) Zusammenfassung von Objekten in homogene Gruppen (Cluster, Klassen) Ziel dabei ist eine möglichst große Homogenität innerhalb der Cluster Heterogenität zwischen den Clustern

51 Clusteranalyse geg. Menge von Objekten kann sich für Clusterbildung eignen, muss aber nicht:

55 Clusteranalyse Clusteranalyseverfahren unterscheiden sich u.a. in den Zuordnungsprinzipien exakte Zuordnung probabilistische Zuordnung possibilistische Zuordnung in den benutzten Informationen partielle Verfahren paarweiser Vergleich globale Verfahren Distanz aller Objekte wird für Clusterbildung genutzt. in der Vorgehensweise hierarchisch partitionierend heuristisch objective function based begrifflich

56 Clusteranalyse Zuordnungsprinzipien exakte Zuordnung Objekte werden mit Wahrscheinlichkeit 1 einem Cluster (nicht-überlappende Zuordnung) oder mehreren Clustern (überlappende Zuordnung) zugeordnet. probabilistische Zuordnung Objekte werden mit einer zwischen 0 und 1 liegenden Wahrscheinlichkeit einem oder mehrern Clustern zugeordnet Verallgemeinerung der deterministischen Verfahren possibilistische Zuordnung Objekte werden über eine Zugehörigkeitsfunktion, die Werte zwischen 0 und 1 annehmen kann, jedem Cluster zu einem bestimmten Zugehörigkeitsgrad zugeordnet.

57 Clusteranalyse Vorgehensweise legt fest, nach welcher Vorgehensweise ein Cluster erzeugt wird. Partitionierende Verfahren zufällig gewählte Anfangspartition (Menge nicht-überlappender Cluster) der zu clusternden Objekte wird schrittweise verbessert durch Neuzuordnung der Objekte in den Clustern im folgenden betrachtet: K-Means Verfahren heuristische Vorgehensweise Dimensionalität der zu clusternden Objekte wird reduziert, um eine auf zwei bis drei Dimensionen reduzierte graphische Darstellung zu erreichen objective function based kein prozedurales Vorgehen wie bei hierarchischen Verfahren Basis bildet die Objektfunktion, die jedem Cluster einen Qualitätswert zuordnet

58 Clusteranalyse hierarchische Verfahren hierarchische Verfahren werden unterschieden in agglomerative Verfahren Cluster werden bottom-up erzeugt, ausgehend von einelementigen Clustern, den zu clusternden Objekten divisive Verfahren Cluster werden top-down erzeugt, ausgehend von einem Cluster, das alle zu clusternden Objekte enthält divisive Verfahren waren in der Vergangenheit eher weniger bedeutend, gewinnen aber gerade für das Clustering von Dokumenten an Bedeutung

59 Clusteranalyse Hierarchisch agglomerativer Algorithmus bei n geg. Objekten werden (n-1) überlappungsfreie Clusterlösungen berechnet Algorithmus kann mit verschiedenen Ähnlichkeitsmaßen bzw. Unähnlichkeitsmaßen arbeiten, u.a. Complete Linkage Single Linkage

60 Clusteranalyse Complete Linkage Unähnlichkeit zwischen zwei Clustern wird durch das Maximum der paarweisen Unähnlichkeiten der Clusterelemente bestimmt: für c 1, c 2 Cluster, d Abstandsmaß: D( c, c ) = max d( x, ) 1 2 y x c y c 1, 2 hohe Anforderungen an die Homogenität der zu bildenen Cluster

61 Feature Based Similarity

62 Simple Similarity Queries Specify query object and Find similar objects range query Find the k most similar objects nearest neighbor q.

63 Join Applications: Catalogue Matching Catalogue matching E.g. Astronomic catalogues R S

64 Join Applications: Clustering Clustering (e.g. DBSCAN) Similarity self-join

65 R-tree Spatial Join (RSJ) procedure r_tree_sim_join (R, S, ε) if IsDirpg (R) IsDirpg (S) then foreach r R.children do foreach s S.children do if mindist (r,s) εthen CacheLoad(r); CacheLoad(s); r_tree_sim_join (r,s,ε) ; else (* assume R,S both DataPg *) foreach p R.points do foreach q S.points do if p q εthen report (p,q); ε R S

66 Clusteranalyse Single Linkage Unähnlichkeit zwischen zwei Clustern wird durch das Minimum der paarweisen Unähnlichkeiten der Clusterelemente bestimmt: für c 1, c 2 Cluster, d Abstandsmaß: D( c1, c2) = min d( x, y) x c 1, y c 2 geringe Anforderungen an die Homogenität der zu bildenen Cluster

67 Clusteranalyse Algorithmus (hierarchisch agglomerativ) Schritt 1: Schritt 2: Schritt 3: Schritt 4: Jedes Klassifikationsobjekt bildet zu Beginn ein selbständiges Cluster. Setze daher die Clusterzahl K gleich der Klassifikationsobjektzahl n. Suche das Clusterpaar ({p},{q}) mit der größten Ähnlichkeit bzw. der geringsten Unähnlichkeit, verschmelze das Clusterpaar zu einem neuen Cluster {p,q} und reduziere die Clusterzahl K um 1 (K=K-1). Prüfe, ob K gleich 1 ist. Ist das der Fall, beende den Algorithmus, da alle Klassifikationsobjekte einem einzigen Cluster angehören. Bei nein fahre mit Schritt 4 fort. Berechne die Ähnlichkeiten bzw. Unähnlichkeiten des neu gebildeten Clusters {p,q} zu den verbleibenden Clustern k. Schritt 5: Gehe zu Schritt 2.

68 Clusteranalyse Beispiel (Bacher 1994): geg. Datenmatrix mit 9 Objekten und 2 Variablen Datenmatrix X1 X2 A -2 1 B -1 2 C -1-2 D 0-1 E 1-1 F 2 2 G 3 2 H 4 2 I 4 3 Matrix der quadrierten euklidischen Distanzen A B C D E F G H I x 2 A B F G I H C D E x 1

69 Clusteranalyse K-Means Verfahren K-Means ist ein partitionierendes, globales Verfahren mit exakter Zuordnung, das Clusterzentren zur Clusterbildung verwendet Grundidee: Annahme: Objekte g durch numerische Variablen j charakterisiert, d.h. jedes Objekt ist ein Punkt im R m berechne die Clusterzentren für K Cluster derart, dass Streuungsquadratsumme in den Clustern ein Minimum ist. sei K = Anzahl der zu bildenden Cluster (k = 1,..., K) m = Anzahl der Variablen (j = 1,..., m) x gj x kj = Wert der Variablen j für Objekt g = Clusterzentrum für Variable j im Cluster k damit: in ( K ) = 2 SQ ( x x ) min (*) k g k j gj kj

70 Clusteranalyse da für die quadrierte euklidische Distanz zwischen Objekt g und Clusterzentrum k gilt, dass 2 2 d = ( x x ), g, k j gj kann Minimierungsaufgabe (*) spezifiziert werden als SQ 2 in ( K) d g, k k g k = da die Gesamtstreuungsquadratsumme geg. Objektmenge konstant ist, ergibt sich mit für eine : Streuungsquadratsumme in den Clustern : Streuungsquadratsumme zwischen den Clustern Minimierung von ist gleichbedeutend zur Maximierung von kj min SQ in (K) SQ zw (K) SQ ( K) = SQ SQ ( K) zw ges SQ in (K) SQ zw (K) in SQ ges

71 Kapitel VII.1 Clusteranalyse SQ zw ( K) = SQ SQ ( K) ges SQges = SQzw ( K ) + SQin( K ) in Ohne Einschränkung der Allgemeinheit: Annahme, dass Daten um (0,...0) zentriert sind 2 SQ ges = x gj g j SQ ( K ) = ( x in gj kj k g k j 2 SQ zw ( K ) = x = kj k k g k j k x 2 ) x 2 k

72 Clusteranalyse K-Means Alogrithmus: (1) Lege Clusteranzahl K fest (2) Wahl von Startwerten für die Clusterzentren, z.b. zufällig gewählte Werte (3) Zuordnung der Objekte zu den Clusterzentren: jedes Objekt g wird jenem Clusterzentrum k zugeordnet, zu dem die quadrierte euklidische Distanz minimal ist. g k k = min k = 1,...,K (d 2 g, k ) SQ ( K) = 2 in d g, k k g k damit: wird minimiert, in dem in jedem Schritt SQ in ( K) berechnet wird. 2 = min d g k = 1,..., K g, k

73 Clusteranalyse (4) Neuberechnung der Clusterzentren: nach der Zuordnung aller Objekte zu den K Clustern werden die Clusterzentren neu berechnet: sei n kj = Zahl der Objekte des Clusters k mit gültigem Angaben in der Variablen j damit: x kj x kj = g k x n gj kj ist Mittelwert für Variable j über alle Objekte g in Cluster k (5) Iteration: sofern sich im Schritt (3) die Zuordnung der Objekte geändert hat, wird bei Schritt (3) fortgefahren; andernfalls endet der Algorithmus

74 Clusteranalyse Bemerkung: in jedem Iterationsschritt wird die Streuungsquadratsumme in den Clustern kleiner oder bleibt gleich SQ in (K) SQ in (K) Algorithmus findet für ein lokales Minimum. D.h. das Ergebnis ist von den gewählten Startwerten abhängig!! D. h. diese sind geeignet auszuwählen und das Ergebnis ist ggf.hinterher kritisch zu hinterfragen. diese Variante des K-Means Algorithmus wurde 1965 von Forgy entwickelt und wird deshalb auch als Forgy Methode bezeichnet zu dieser Basis-Variante des Algorithmus existieren verschiedene Modifikationen in K-Means können auch andere Distanzmaße verwendet werden (damit ist auch Behandlung nicht-numerischer Variablen möglich, wenn für diese die Durchschnittsbildung Bedeutung trägt.) Algorithmus hat geringe Komplexität, da nicht alle G ² Distanzen berücksichtigt werden müssen. O(Kn) mit n Anzahl der Datenpunkte

75 Clusteranalyse Beispiel (Bacher 1994) geg. Datamatrix mit 9 Objekten und 2 Variablen: Datenmatrix Matrix der quadrierten euklidischen Distanzen X1 X2 A B C D E F G H I A B C D E F G H I Bildung von 3 Clustern (K = 3)

76 Clusteranalyse Anwendung des K-Means Algorithmus auf geg. Objekte 1. Iteration Clusterzentren 2. Iteration Clusterzentren 3. Iteration Clusterzentren (Startwerte) (Startwerte) (Startwerte) C1 C2 C3 C1 C2 C3 C1 C2 C3 X1-2,00-1,00-1,00-2,00 2,40 0,00-1,50 3,25 0,00 X2 1,00 2,00-2,00 1,00 2,20-1,33 1,50 2,25-1,33 X1 X2 Zuord. Zuord. Zuord. A ,00 2,00 10,00 C1* 0,00 20,80 9,43 C1 0,50 29,13 9,43 C1 B ,00 0,00 16,00 C2* 2,00 11,60 12,09 C1* 0,50 18,13 12,09 C1 C ,00 16,00 0,00 C3* 10,00 29,20 1,45 C3 12,50 36,13 1,45 C3 D 0-1 8,00 10,00 2,00 C3* 8,00 16,00 0,11 C3 8,50 21,13 0,11 C3 E ,00 13,00 5,00 C3* 13,00 12,20 1,11 C3 12,50 15,63 1,11 C3 F ,00 9,00 25,00 C2* 17,00 0,20 15,09 C2 12,50 1,63 15,09 C2 G ,00 16,00 32,00 C2* 26,00 0,40 20,09 C2 20,50 0,13 20,09 C2 H ,00 25,00 41,00 C2* 37,00 2,60 27,09 C2 30,50 0,63 27,09 C2 I ,00 26,00 50,00 C2* 40,00 3,20 34,75 C2 32,50 1,13 34,75 C2 neue Clusterzentren neue Clusterzentren neue Clusterzentren C1 C2 C3 C1 C2 C3 C1 C2 C3-2,00 2,40 0,00-1,50 3,25 0,00-1,50 3,25 0,00 1,00 2,20-1,33 1,50 2,25-1,33 1,50 2,25-1,33 Zahl der Vertauschungen = 9 Zahl der Vertauschungen = 1 Zahl der Vertauschungen = 0 (Bacher 1994)

77 Clusteranalyse Erläuterungen: die Objekte A, B, C werden als Startwerte für Clusterzentren der Cluster C1, C2, C3 gewählt die restlichen Objekte werden jenem Cluster zugeordnet, zu dem es die kleinste quadrierte euklidische Distanz besitzt (fettgedruckte Werte) das neue Clusterzentrum für C2 ergibt sich in der 1. Iteration (C2 besteht aus den Objekten B, F, G, H, I): x21 = ( ) / 5 = 2.40 x = ( ) / = in der 2. Iteration wird das Objekt B einem neuen Cluster zugeordnet: C1 in der 3. Iteration tritt keine Veränderung der Zuordnung mehr auf, Algorithmus stoppt