Data Mining (ehem. Entscheidungsunterstützungssysteme)

Transkript

1 Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15

2 AGENDA TEIL 1 Aufgabe 2 (Wiederholung OPAL / Vorlesungsinhalte)

3 ENTSCHEIDUNGSBAUMVERFAHREN 1. Aufgabe a) Was sind die wesentlichen Unterschiede zwischen einem überwachten und einem unüberwachten Verfahren? Überwachte Verfahren: Die Klassen, in die Daten eingeteilt werden sollen, sind vorgegeben (beim unüberwachten hingegen nicht). Das überwachte Verfahren lernt dementsprechend anhand einer bestimmten Anzahl von positiven oder negativen Beispielen. Beispiel: Klassifikation (BETRUG oder NICHT BETRUG) Unüberwachte Verfahren: Beispiel: Segmentierung von Kunden (Telekom), Entdeckung von Assoziationsregeln (Kaufverhalten) b) Welche Anforderungen an die Daten bestehen hinsichtlich der Verwendung eines überwachten bzw. unüberwachten Verfahrens? Bei überwachen Verfahren: Trainingssatz (bei dem die Objekte der korrekten Klasse zugeordnet sind) erforderlich Testdatensatz zur Verifikation des

4 ENTSCHEIDUNGSBAUMVERFAHREN 1. Aufgabe c) Informationsgewinn, Entropie, Informationsgehalt, Informationsbedarf + Rolle für EB Informationsgehalt I (A): Tritt ein Ereignis A mit Wahrscheinlichkeit P(A)>0 ein, dann ist der Informationsgehalt I(A) dieses Eintretens definiert als: Entropie (mittlerer Informationsgehalt): (Hinweis: Entropie ursprünglich ein Begriff aus der Physik, eigentlich Shannon-Entropie Nachrichtenübertragung) Hat ein Versuch A die möglichen Ausgänge A1,..., Ak, so heißt der mittlere Informationsgehalt H(A) die Entropie des Versuchs A: Es gilt: Die Entropie beschreibt die Unordnung / Verunreinigung / Homogenität innerhalb eines Knotens: Entropie=0 -> homogener Knoten, keine Unreinheit hinsichtlich des Zielattributes (d. kein Informationsbedarf); Entropie =1 (2 Klassen, Gleichverteilt) -> inhomogen (Unordnung) Die Entropie (mittlerer Informationsgehalt) gewichtet den Informationsgehalt für die möglichen Werte der Klassifikation mit den jeweiligen Wahrscheinlichkeiten. Informationsgewinn: Gibt die erwartete Reduktion der Entropie an.

5 ENTSCHEIDUNGSBAUMVERFAHREN 1. Aufgabe i. zwei grundsätzlich möglichen Entscheidungsbäume Variante 1: Variante 2: Attribut x Attribut y Attribut y Attribut x Alle Objekte F, G B, C, E A, D, I H 1 3,2 1,3 3 C B, E A, I D Alle Objekte A, C, G E, I B, D, F, H ,3,4 E I F B, D, H

6 ENTSCHEIDUNGSBAUMVERFAHREN 1. Aufgabe iii. Welcher der beiden Bäume wird durch das ID3-Verfahren gewählt? Berechnung der Entropieabnahme für den ersten Schritt: E T = 5 9 log log = 0,991 E T x = log log log log = 0,612 E T y = log log = 0,583 Informationsgewinn x = 0,991 0,612 = 0,379 Informationsgewinn y = 0,991 0,583 = 0,408

7 CLUSTERVERFAHREN 2. Aufgabe a) Beschreiben Sie an einem Beispiel den betriebswirtschaftlichen Nutzen von Clusterverfahren! b) Erklären Sie den Unterschied zwischen hierarchisierenden und partitionierenden Verfahren! Partitionierendes Clustern: Unterteilung des Merkmalsraumes in eine vorgegeben Anzahl von Bereichen Schrittweise Verbesserung der initialen Zuordnung Grundvoraussetzung für die Verfahren ist, dass alle Attribute numerische Werte besitzen Bekanntestes Verfahren: K-Means Hierarchisches Clustern: Ordnet Objekte innerhalb einer Hierarchie von Clustern an Beginnend mit n Gruppen (agglomerierende Vorgehensweise, Gruppierung) oder mit einer Gruppe mit n Elementen (diversive Vorgehensweise, Aufspaltung) Bekannteste hierarchisch agglomerierende Verfahren: u.a. Single-Linkage, Complete-Linkage, Average-Linkage

8 Clusterverfahren Clusterformen: Cluster haben unterschiedliche Form, Größe und Dichte. Nicht jedes Verfahren kann die gleichen Formen und die gleichen Varianten an Clustern entdecken. So kann z.b. K-Means nur konvexe Cluster entdecken. Dichtebasierte Verfahren sind in der Lage, Cluster unterschiedlichster Formen zu entdecken. Cluster können hierarchisch angeordnet sein.

9 CLUSTERVERFAHREN 2. Aufgabe c) Welche Distanzmaße kennen Sie? Beschreiben und vergleichen Sie diese. Generell weisen niedrige Werte auf hohe Gemeinsamkeiten (=geringe Distanz) hin. Beim Vergleich der Werte sind die Maßeinheiten zu beachten. Eine Obergrenze für die Werte gibt es nicht und die Daten sollten mindestens intervallskaliert (metrisch: =/ ; </>; +/ ) sein. Beispiele für Distanzmaße sind die Manhattan Distanz (zweidimensionalen Raum ist die Distanz definiert als die Summe der rechtwinkligen Abstände) oder die euklidische Distanz (zweidimensionalen Darstellung der direkte Weg zwischen zwei Punkten): Info Namensgebung: Manhattan Metrik (Gittermetrik, City- Block-Metrik): Entfernung, die ein Taxifahrer in Manhattan, New York, zurücklegen müsste, um vom Punkt x nach y zu gelangen. Die Wahl der Distanzmaße beeinflusst die Reihenfolge der Ähnlichkeit der Klassifikationsobjekte, da Distanzen unterschiedlich gewichtet werden. -> Distanzmaße sollten daher nach inhaltlichen Überlegungen ausgewählt werden: bei City-Block-Metrik gehen Unterschiede gleichgewichtig, d.h. linear in die Formel ein bei der (quadrierten) Euklidischen Distanz werden größere Abweichungen stärker gewichtet

10 CLUSTERVERFAHREN 2. Aufgabe c) Welche Rolle spielt in diesem Zusammenhang der Gower-Koeffizient? In der Praxis arbeitet man i.a. mit Datensätzen, in denen sowohl nominale als auch numerische Merkmale auftreten. Ein populäres Maß, welches beide Sorten von Attributen berücksichtigt und gleichzeitig eine Normierung vornimmt, ist der Gower-Koeffizient. n bezeichne die Anzahl der Attribute und Ri die Spannweite (größter Wert kleinster Wert) des i-ten Attributs. Man durchläuft alle n Attribute und bildet den Mittelwert der Werte d(i) für die einzelnen Attribute. Dabei ist d(i) für nominale Attribute 0, wenn das Attribut übereinstimmt und 1, wenn die Ausprägungen verschieden sind. Im Falle numerischer Merkmale bildet man den Betrag der Differenz der beiden Merkmalswerte und teilt durch die Spannweite Ri des jeweiligen Attributs. Damit erhält man einen Wert zwischen 0 und 1. Die Distanz zwischen zwei Datensätzen x und y liegt dann als Mittelwert von Zahlen zwischen 0 und 1 wiederum selbst zwischen 0 und 1. 1 d( x, y) n n i 1 d ( i) ( x, y) mit d ( i) und 1, falls xi yi ( x, y) 0,falls xi yi ( i) xi yi d ( x, y) R i für nominale Merkmale für metrische Merkmale (Ri = Spannweite (größter Wert kleinster Wert) des i-ten Attributs)

11 CLUSTERVERFAHREN 2. Aufgabe d) Übungsaufgabe Versandhandelsunternehmen Verwenden Sie zur Lösung das K-Means-Verfahren und als Ausgangscentroide: C1 = (4,1) und C2 = (3,1). Nutzen Sie die quadrierte Euklidische Distanz als Distanzmaß. Ergebnis: Cluster 1: F1 Cluster 2: F2, F3, F4, F5

12 CLUSTERVERFAHREN 2. Aufgabe e) Übungsaufgabe OPAL (Aufgabenkomplex 4) K-Means-Verfahren, K=5 1) Normalisieren 2) Normieren 3) Initiale Cluster-Centroide und Distanz (euklidische Distanz) zum ersten zuzuordnenden Element bestimmen D C1,6 = D C2,6 = (1 0)² = 1, = 1,5 D C3,6 = 1,90 D C4,6 = 1,52 D C5,6 = 2,24 4) Neuen Cluster mit Element mit kleinsten Abstand, neuer Cendroid (arithmetisches Mittel) 5) bis Abbruchbedingung (hier K=5 Cluster erreicht)

13 CLUSTERVERFAHREN 2. Aufgabe e) Übungsaufgabe OPAL (Aufgabenkomplex 4) Single-Linkage 1) Normalisieren 2) Distanzmatrix bestimmen (Gower Koeffizient) 3) Element mit geringster Distanz bestimmen d 1,2 = d 1,3 = = 0, 06 = 0,60 4) Elemente Clustern und Distanzmatrix neu bestimmen (neuer Wert: Minimum der beiden geclusterten Elemente (Single Link)) 5) bis Abbruchbedingung (hier 5 Cluster erreicht)

14 Fragen?

15 AGENDA TEIL 2 Fallstudie 1 Teil 2 (Entscheidungsbaum) Fallstudie 2 (Clusterverfahren)

16 DM-Software RapidMiner Fallstudie I Teil 2

17 DM-Software RapidMiner erste Schritte Hauptprozess: Data Mining Bsp. Entscheidungsbaum

18 DM-Software RapidMiner erste Schritte Hauptprozess im RapidMiner: Einlesen der Daten, Einteilung in Trainings- und Testdaten, Einbinden des Validierungsblocks Doppelklick auf Validierungs-Knoten um zum nächsten Schritt zu gelangen.

19 DM-Software RapidMiner erste Schritte Modell-Lernen und Testen: Zurück zum Hauptprozess. Lernen des Modells (Trainingsdaten) Anwenden des Modells (Testdaten)

20 DM-Software RapidMiner erste Schritte Hauptprozess im RapidMiner: Einlesen der Daten, Einteilung in Trainings- und Testdaten, Einbinden des Validierungsblocks Ausgaben durch den Validierungsblock: Modell Datensatz Klassifikationsfehler Zum Abschluss: Prozess starten!

21 DM-Software RapidMiner erste Schritte Entscheidungsbaum mit maximaler Tiefe = 20:

22 DM-Software RapidMiner erste Schritte Evaluierung des Modells:

23 DM-Software RapidMiner erste Schritte Entscheidungsbaum mit maximaler Tiefe = 4:

24 DM-Software RapidMiner erste Schritte Evaluierung des Modells:

25 DM-Software RapidMiner Fallstudie 2

26 DM-Software RapidMiner Fallstudie 2 Rita hat einen Datensatz zu Kunden bezüglich Geschlecht, Gewicht und Cholesterin zur Verfügung. Sie weiß, dass es einen Zusammenhang zu Herzerkrankung gibt welchen kann sie nicht einschätzen. Da sie in ihrem Datensatz keine Daten zu tatsächlichen Herzerkrankungen zur Verfügung stehen hat, kommen nur Methoden des unüberwachten Lernens in Frage. Nur aus ihrem Allgemeinwissen schließt sie, dass Kunden mit geringem Gewicht und Cholesterinwert kaum Risiko zu Herzerkrankung besitzen. Wenn sich die restlichen Kunden in Gruppen einteilen ließen, könnte man den Fokusgruppen im weiteren spezifischen Risikoschwellen unterstellen so hofft sie. Die Einteilung nach niedrige und hohe Werte von Gewicht und Cholesterin legt vier Kombinationsmöglichkeiten nahe, d.h. vier Ziel-Cluster. konsistent, vollständig, analysierbar (siehe Meta Data View bzw. Statistics )

27 DM-Software RapidMiner Fallstudie 2 Die Einteilung nach niedrige und hohe Werte von Gewicht und Cholesterin legt vier Kombinationsmöglichkeiten nahe, d.h. vier Ziel-Cluster. (siehe Aufgabe 2) -> K=4 Einteilung in vier Cluster erscheint schlüssig, relativ gleichmäßige Verteilung der Objekte.

28 DM-Software RapidMiner Fallstudie 2 Höchste(s) Durchschnitts-gewicht/- Cholesterinwerte in Cluster 0 -> Mit der Heuristik je höher die Cholesterinwerte bzw. Gewichtswerte, desto höher das Herzerkrankungsrisiko stellt sich Cluster 0 als das gefährdetste Segment heraus.

29 DM-Software RapidMiner Fallstudie 2 Cluster 0, siehe 4.c Oder, damit der Add Filters -Button erscheint: Umstellen auf Custom-Filters