Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den 15.01.2009
Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 3. Data-Mining- 4. Zusammenfassung Folie 2 von 29
Gliederung 1. Einordnung der Data-Mining-Verfahren 1.1 Verschiedene Einordnungen in der Literatur 1.2 Meine Klassifikation 1.2.1 Statistische Verfahren 1.2.2 Maschinelles Lernen 2. Data-Mining-Verfahren 3. Data-Mining- 4. Zusammenfassung Folie 3 von 29
1. Einordnung der Data-Mining-Verfahren 1.1 Verschiedene Einordnungen in der Literatur a. Nach Otte, Otte und Kaiser DataMining für die industrielle Praxis : Folie 4 von 29
1. Einordnung der Data-Mining-Verfahren b. Nach Krahl, Windheuser und Zick Data Mining Einsatz in der Praxis : Folie 5 von 29
1. Einordnung der Data-Mining-Verfahren 1.2 Meine Klassifikation: Data- Mining Statistische Verfahren maschinelles Lernen Prüfende Verfahren Entdeckende Verfahren Unüberwachtes Lernen Überwachtes Lernen Regression Korrelationsanal. Entscheidungsbäume Assoziation Diskriminanzanal. Faktoranalyse k-means Clustering k-nächste-nachbarn Varianzanalyse Clusteranalyse usw. usw. Kontingenzanalyse Folie 6 von 29
1. Einordnung der Data-Mining-Verfahren 1.2.1 Statistische Verfahren: a. Prüfende Analyseverfahren: -Um die genaue Regel herauszufinden -Verfahren für verschiedene Wertebereiche der unabhängigen Variablen: Regressionsanalyse und Diskriminanzanalyse: metrisch (Zahlen, Vergleiche) Varianzanalyse und Kontingenzanalyse : nominal (Aufzählungen) - hier betrachtet: lineare Regressionsanalyse b. Entdeckende Analyseverfahren: -Abhängigkeit testen (Korrelationsanalyse) -Reduzierung von Variablen (Faktoranalyse) -Gruppierung (Clusteranalyse) -hier betrachtet: lineare Korrelationsanalyse Folie 7 von 29
1. Einordnung der Data-Mining-Verfahren 1.2.2 Maschinelles Lernen a. Überwachtes Lernen z.b.: Klassifikation -basiert auf einem Klassifikator Ein Klassifikator ist ein System, welches Objekte in vorgegebene Kategorie eingeordnet. (Quelle: Krahl, Windheuser und Zick Data Mining Einsatz in der Praxis ) -Verfahren: neuronale Netze, Entscheidungsbäume, Regelinduktion, k nächste Nachbarn usw. -hier betrachtet: k nächste Nachbarn b. Unüberwachtes Lernen -Entdeckung interessanter Strukturen in einem noch unstrukturierten Datenbestand -Verfahren: Assoziationen, neuronale Netze, demographisches Clustern, k-means-clustering usw. -hier betrachtet: k-means-clustering Folie 8 von 29
Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 2.1 Korrelationsanalyse 2.2 Regressionsanalyse 2.3 k nächste Nachbarn 2.4 k-means-clustering 2.5 Vergleich 3. Data-Mining- 4. Zusammenfassung Folie 9 von 29
2. Data-Mining-Verfahren 2.1 Lineare Korrelationsanalyse: a. Ziel: Untersuchung der Zusammenhänge zwischen Zufallsvariablen anhand einer Stichprobe. b. Korrelationskoeffizient r und Bestimmtheitsmaß r 2 - r und r 2 sind Parameter zum Test der linearen Abhängigkeit. - Für den Korrelationskoeffizient r der Merkmale (Zufallsvariablen) x und y gilt: Wertebreich: Ein Beispiel werde ich nach der Vorstellung der linearen Regressionsanalyse angeben. Folie 10 von 29
2. Data-Mining-Verfahren 2.2 Lineare Regressionsanalyse: a. Ziel: Bestimmung eines Modells für die Abhängigkeit zwischen Zufallsvariablen x und y. b. Parameter: y = a + b * x a, b : zu berechnende Parameter x, y : Zufallsvariablen c. Berechnung der Parameter a und b: 1.Testen mit der lin. Korrelationsanalyse, ob x und y linear abhängig sind. 2.Berechnung der Parameter a und b : Folie 11 von 29
2. Data-Mining-Verfahren Beispiel für lin. Korrelationsanalyse und lin. Regressionsanalyse: Aufgabe: x y 1 2 2 3.5 3 6.5 4 8.5 5 10 Folie 12 von 29
2. Data-Mining-Verfahren Folie 13 von 29
2. Data-Mining-Verfahren 2.3 k nächste Nachbarn: a.ziel : Klassifizieren von Daten mit Hilfe eines Modells b. Idee : Zuordnung analog der k nächsten Nachbarn. Quelle: Krahl, Windheuser und Zick Data Mining: Einsatz in der Praxis c.schritte: 1. Bestimmung des Parameters k (Anzahl der zu betrachtenden Nachbarn) 2. Berechnung der Distanz zwi. zu klassifizierendem Objekt und allen Daten. 3. Sortieren dieser Distanzen. 4. Auswahl der ersten k Daten Finden der Gruppe,zu der die meisten Daten gehören. 5. Das zu klassifizierende Objekt gehört zu dieser Gruppe. Folie 14 von 29
2. Data-Mining-Verfahren d. Beispiel: (Quelle: Kardi Teknomo KNN Numerical Example ) -Aufgabe: Eine Fabrik produziert Papier. Mittels einer Umfrage hat sie eine Gruppierung der derzeitigen Produkte gemacht. Jetzt produziert sie ein neues Papier und möchte dieses Produkt klassifizieren. -Input: Daten (Gruppierung der alten Produkten): Zu klassifizierendes Objekt (neues Produkt) : X1 = 3, X2 = 7 (3,7) Folie 15 von 29
2. Data-Mining-Verfahren -Klassifizierung mit KNN: 1.wähle k = 3 2.Berechnung der Distanz zwi. zu klassifizierendes Objekt und die Daten 3. Sortieren dieser Distanzen und finden 3 nähesten Daten Folie 16 von 29
2. Data-Mining-Verfahren 4. Finden der Gruppe, zu der die meisten 3 nähesten Daten gehören. Das zu klassifizierendes Objekt hat 2 Nachbarn, die zu Good Gruppe gehören, und 1 Nachbar, der zu Bad Gruppe gehört. Deswegen gehört das zu klassifizierende Objekt zu der Gruppe Good. - Output: X1=3, X2=7, Y=Good (3,7,Good) Folie 17 von 29
2. Data-Mining-Verfahren 2.4 k-means-clustering: a. Ziel : Klassifizierung der Daten ohne vorhandenes Modell b. Idee : Vergleich des Datenbestandes mit ausgewählten Repräsentanten c. Schritte: 1.Auswahl von k Repräsentanten. Diese Repräsentanten sollten möglichst repräsentativ sein. Iter. 2.Zuordnung der Objekten. Ordnen Objekte mit großer Ähnlichkeit den Repräsentanten zu. 3.Anpassung der Repräsentanten Vergleich der Repräsentanten und Objekte, dann ggf. Auswahl besserer Repräsentanten. Folie 18 von 29
2. Data-Mining-Verfahren d.beispiel: Quelle: Krahl, Windheuser und Zick Data Mining: Einsatz in der Praxis Folie 19 von 29
2. Data-Mining-Verfahren 2.5 Vergleich: a. lin. Regression und lin. Korrelation: -Häufig benutzt in vielen Bereichen (z.b.: Signalverarbeitung) -Beschränkungen ist auch deutlich (z.b.: die Kurve) -Es gibt noch Multiple Regression. b. k nächste Nachbarn: -Einfach zu implementieren -Aber man muss ein schon klassifiziertes Modell haben. -Bestimmung von k nach Erfahrungen. c. k-means-clustering: -Das am längsten eingesetzte Verfahren zur Segmentierung. (Quelle: Krahl, Windheuser und Zick Data Mining: Einsatz in der Praxis ) -Viele Abwandlungen und Variationen -Problem: die Bestimmung von k ist schwer. -Um optimale k zu bekommen mehrere Durchläufe Folie 20 von 29
Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 3. Data-Mining- 3.1 Allgemein 3.2 RapidMiner 3.3 Knime 3.4 Gait-CAD 3.5 Vergleich 4. Zusammenfassung Folie 21 von 29
3.Data-Mining- 3.1 Allgemein: -Auswahl kommerzieller Data-Mining- (teilweise nicht weiterentwickelt): Data Cockpit (DeltaMaster) Knowledge Studio NeuroModel Enterprise 6 D-Miner IBM Intelligent Miner Polyanalyst von Metaputer DataEngine von MIT SAS Enterprise Miner SPSS Clementine -Auswahl hier betrachteter freier Data-Mining-: Rapidminer (1. Platz bei KDNuggets) Knime (4. Platz bei KDNuggets) Gait-CAD Folie 22 von 29
3.Data-Mining- 3.2 RapidMiner: -Ein Data-Mining-Tool von RAPID-I in Dortmund (vorher YALE genannt, Uni Dortmund) -Java-Applikation (plattformunabhängig), weka-kompatibel weka : Waikato Environment for Knowledge Analysis -Community-Version ist kostenlos -ca. 150 unterstützte Verfahren: Entscheidungsbäume und Regellerner Lazy Learners Bayes'sche Lerner Logistische Lerner Gauss'sche Prozesse Meta Learning Association Rule Mining Clustering und mehr Folie 23 von 29
3.Data-Mining- 3.3 KNIME: -Ein Data-Mining-Tool von der Universität Konstanz -Eine Eclipse-RCP-Anwendung, weka-kompatibel weka : Waikato Environment for Knowledge Analysis -Base Version ist kostenlos -ca. 100 bis 150 unterstützte Verfahren für data I/O, preprocessing, cleansing, modelling, analysis und data mining, various interactive views usw. - API, d.h.: Man kann eigene Programm darauf schreiben. Folie 24 von 29
3.Data-Mining- 3.4 Gait-CAD: -Ein Data-Mining-Tool vom Forschungszentrum Karlsruhe -Eine MATLAB-TOOLBOX -Kostenlos, open source -ca. 50 Algorithmen zur Lösung von Data-Mining-Problemen: Datentupelselektion, Merkmalsextraktion, Merkmalsbewertung und selektion, Merkmalstransformation, überwachte bzw. unüberwachte Klassifikation, Validierung -Update sehr langsam (letztes Update im Januar 2008) Folie 25 von 29
3.Data-Mining- 3.5 Vergleich: -RapidMiner: Die beste Graphendarstellungsfähigkeit. Vorgehensweise ist nicht bequem. Dokumentation für DM-Algorithmen ist nicht gut. Erweiterbarkeit ist gut. (API) -KNIME: Graphendarstellung ist nicht so gut, aber geht. Vorgehensweise ist sehr bequem. Gut dokumentiert. Erweiterbarkeit ist gut. (API) -Gait-CAD: Graphendarstellung ist schlecht. Vorgehensweise ist nicht bequem. weil auf MATLAB basiert, z.b.: für Elektrotechniker sehr gut. Folie 26 von 29
Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 3. Data-Mining- 4. Zusammenfassung Folie 27 von 29
4.Zusammenfassung - Data-Mining-Klassifikation vorgestellt, um eine Übersicht über alle Data- Mining-Verfahren zu geben. - 4 Verfahren aus verschiedenen Data-Mining-Verfahren beispielhaft erklärt. lin. Regression und Korrelation, k nächste Nachbarn und k-means- Clustering. - 3 kurz gezeigt, um praktische Übersicht zu geben. - 3 verglichen. Folie 28 von 29
Literaturverzeichnis [1] Otte, Otte, Kaiser, Data Mining für die industrielle Praxis, ISBN 3-446-22465-3 [2] Krahl, Windheuser, Zick, Data Mining Einsatz in der Praxis, ISBN 3-8273-1349-X [3] Teknomo, KNN Numerical Example (hand computation), http://people.revoledu.com/kardi/tutorial/knn/knn_numerical-example.html Stand: 13.01.2009 [4] Wikipedia, Regressionsanalyse, http://de.wikipedia.org/wiki/regressionsanalyse Stand: 13.01.2009 Folie 29 von 29
FRAGEN? Folie 30 von 29
DANKESCHÖN! Folie 31 von 29
Berechnung eines Korrelationskoeffizienten r = 0 : kein Zusammenhang -1<- r ->1 : stärkere lineare Abhängigkeit - Häufig wird Bestimmtheitsmaß r 2 statt r benutzt. r 2 = r * r r 2 = 0 : kein Zusammenhang r 2 -> 1 : stark linear abhängig - Berechnung von r x,y : Zufallsvariable n : Anzahl der Stichproben r : Korrelationskoeffizient Folie 32 von 29
Berechnung der lin. Regressionsparameter y = a + bx a,b : zu berechnende Parameter x,y : Zufallsvariablen Folie 33 von 29
Beispiel für Lin. Korrelation und Regression c. Beispiel für lin. Korrelationsanalyse und lin. Regressionsanalyse: 1. Korrelationsanalyse: 2. Regressionsanalyse: r 2 = 0,9866 3. Ergebnis: y = -0,2 + 2,1x mit r = 0,99327 oder r 2 = 0,9866 Folie 34 von 29
Kurze Erklärung zu Entscheidungsbäumen - Ist eine spezielle Darstellungsform von Entscheidungsregeln - Knoten : Abfrage der Attribute, Treffen der Entscheidung Blatt : Ein Knoten, an dem es keine weitere Verzweigung gibt. - Schritt : 1. An jedem Knoten wird ein Attribut abgefragt 2. Entscheidung 3. Wiederholung dieses Prozess bis dem Erreichen eines Blatt Alter - Beispiel: <35 >35 Gehalt Gehalt <40000 >40000 <50000 >50000 Bezahlung schlecht Bezahlung gut Bezahlung schlecht Bezahlung gut Folie 35 von 29