Data-Mining: Ausgewählte Verfahren und Werkzeuge



Ähnliche Dokumente
Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Was meinen die Leute eigentlich mit: Grexit?

Leichte-Sprache-Bilder

Data Mining und maschinelles Lernen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Catherina Lange, Heimbeiräte und Werkstatträte-Tagung, November

Fortgeschrittene Statistik Logistische Regression

Korrelation (II) Korrelation und Kausalität

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Was ich als Bürgermeister für Lübbecke tun möchte

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

ecaros2 Installer procar informatik AG 1 Stand: FS 09/2012 Eschenweg Weiterstadt

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Künstliche Intelligenz Maschinelles Lernen

Die Post hat eine Umfrage gemacht

Statuten in leichter Sprache

How to do? Projekte - Zeiterfassung

Tutorial: Homogenitätstest

Qualität und Verlässlichkeit Das verstehen die Deutschen unter Geschäftsmoral!

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Das Persönliche Budget in verständlicher Sprache

Was ist Sozial-Raum-Orientierung?

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Wichtig ist die Originalsatzung. Nur was in der Originalsatzung steht, gilt. Denn nur die Originalsatzung wurde vom Gericht geprüft.

Anleitung über den Umgang mit Schildern

WinWerk. Prozess 6a Rabatt gemäss Vorjahresverbrauch. KMU Ratgeber AG. Inhaltsverzeichnis. Im Ifang Effretikon

1. Weniger Steuern zahlen

Nicht über uns ohne uns

Was ist PZB? Personen-zentrierte Begleitung in einfacher Sprache erklärt

Erstellen von x-y-diagrammen in OpenOffice.calc

Professionelle Seminare im Bereich MS-Office

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Darstellungsformen einer Funktion

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

Mining High-Speed Data Streams

Anlegen eines DLRG Accounts

Varianzanalyse (ANOVA: analysis of variance)

Informatik-Sommercamp Mastermind mit dem Android SDK

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Zeichen bei Zahlen entschlüsseln

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

teamsync Kurzanleitung

Geld Verdienen im Internet leicht gemacht

Informatik 2 Labor 2 Programmieren in MATLAB Georg Richter

5 Zusammenhangsmaße, Korrelation und Regression

Papierverbrauch im Jahr 2000

Grundbegriffe der Informatik

Das Leitbild vom Verein WIR

Formelsammlung zur Kreisgleichung

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Simulation LIF5000. Abbildung 1

Elternzeit Was ist das?

Quantitative Methoden der Bildungsforschung

1 Darstellen von Daten

Künstliches binäres Neuron

Erfahrungen mit Hartz IV- Empfängern

Data Mining für die industrielle Praxis

1 Einleitung. Lernziele. Symbolleiste für den Schnellzugriff anpassen. Notizenseiten drucken. eine Präsentation abwärtskompatibel speichern

Platinen mit dem HP CLJ 1600 direkt bedrucken ohne Tonertransferverfahren

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

Dow Jones am im 1-min Chat

Wie man Registrationen und Styles von Style/Registration Floppy Disketten auf die TYROS-Festplatte kopieren kann.

Vorgestellt von Hans-Dieter Stubben

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Verwendung von LS-OPT zur Generierung von Materialkarten am Beispiel von Schaumwerkstoffen

UNIVERSITÄT LEIPZIG WIRTSCHAFTSWISSENSCHAFTLICHE FAKULTÄT DIPLOM-PRÜFUNG

Tipps für die praktische Durchführung von Referaten Prof. Dr. Ellen Aschermann

14. Minimale Schichtdicken von PEEK und PPS im Schlauchreckprozeß und im Rheotensversuch

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Korrelation - Regression. Berghold, IMI

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

macs Support Ticket System

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

Pädagogik. Melanie Schewtschenko. Eingewöhnung und Übergang in die Kinderkrippe. Warum ist die Beteiligung der Eltern so wichtig?

Prozentrechnung. Wir können nun eine Formel für die Berechnung des Prozentwertes aufstellen:

Predictive Modeling Markup Language. Thomas Morandell

Binär Codierte Dezimalzahlen (BCD-Code)

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

1. Motivation / Grundlagen 2. Sortierverfahren 3. Elementare Datenstrukturen / Anwendungen 4. Bäume / Graphen 5. Hashing 6. Algorithmische Geometrie

Vertrauen in Medien und politische Kommunikation die Meinung der Bürger

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

1.3 Die Beurteilung von Testleistungen

Übungsaufgaben Tilgungsrechnung

Welche Gedanken wir uns für die Erstellung einer Präsentation machen, sollen Ihnen die folgende Folien zeigen.

Versetzungsgefahr als ultimative Chance. ein vortrag für versetzungsgefährdete

Willkommen zur Vorlesung Statistik

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

P = U eff I eff. I eff = = 1 kw 120 V = 1000 W

Dokumentation. estat Version 2.0

Informationen zum Ambulant Betreuten Wohnen in leichter Sprache

Meet the Germans. Lerntipp zur Schulung der Fertigkeit des Sprechens. Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten

Transkript:

Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den 15.01.2009

Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 3. Data-Mining- 4. Zusammenfassung Folie 2 von 29

Gliederung 1. Einordnung der Data-Mining-Verfahren 1.1 Verschiedene Einordnungen in der Literatur 1.2 Meine Klassifikation 1.2.1 Statistische Verfahren 1.2.2 Maschinelles Lernen 2. Data-Mining-Verfahren 3. Data-Mining- 4. Zusammenfassung Folie 3 von 29

1. Einordnung der Data-Mining-Verfahren 1.1 Verschiedene Einordnungen in der Literatur a. Nach Otte, Otte und Kaiser DataMining für die industrielle Praxis : Folie 4 von 29

1. Einordnung der Data-Mining-Verfahren b. Nach Krahl, Windheuser und Zick Data Mining Einsatz in der Praxis : Folie 5 von 29

1. Einordnung der Data-Mining-Verfahren 1.2 Meine Klassifikation: Data- Mining Statistische Verfahren maschinelles Lernen Prüfende Verfahren Entdeckende Verfahren Unüberwachtes Lernen Überwachtes Lernen Regression Korrelationsanal. Entscheidungsbäume Assoziation Diskriminanzanal. Faktoranalyse k-means Clustering k-nächste-nachbarn Varianzanalyse Clusteranalyse usw. usw. Kontingenzanalyse Folie 6 von 29

1. Einordnung der Data-Mining-Verfahren 1.2.1 Statistische Verfahren: a. Prüfende Analyseverfahren: -Um die genaue Regel herauszufinden -Verfahren für verschiedene Wertebereiche der unabhängigen Variablen: Regressionsanalyse und Diskriminanzanalyse: metrisch (Zahlen, Vergleiche) Varianzanalyse und Kontingenzanalyse : nominal (Aufzählungen) - hier betrachtet: lineare Regressionsanalyse b. Entdeckende Analyseverfahren: -Abhängigkeit testen (Korrelationsanalyse) -Reduzierung von Variablen (Faktoranalyse) -Gruppierung (Clusteranalyse) -hier betrachtet: lineare Korrelationsanalyse Folie 7 von 29

1. Einordnung der Data-Mining-Verfahren 1.2.2 Maschinelles Lernen a. Überwachtes Lernen z.b.: Klassifikation -basiert auf einem Klassifikator Ein Klassifikator ist ein System, welches Objekte in vorgegebene Kategorie eingeordnet. (Quelle: Krahl, Windheuser und Zick Data Mining Einsatz in der Praxis ) -Verfahren: neuronale Netze, Entscheidungsbäume, Regelinduktion, k nächste Nachbarn usw. -hier betrachtet: k nächste Nachbarn b. Unüberwachtes Lernen -Entdeckung interessanter Strukturen in einem noch unstrukturierten Datenbestand -Verfahren: Assoziationen, neuronale Netze, demographisches Clustern, k-means-clustering usw. -hier betrachtet: k-means-clustering Folie 8 von 29

Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 2.1 Korrelationsanalyse 2.2 Regressionsanalyse 2.3 k nächste Nachbarn 2.4 k-means-clustering 2.5 Vergleich 3. Data-Mining- 4. Zusammenfassung Folie 9 von 29

2. Data-Mining-Verfahren 2.1 Lineare Korrelationsanalyse: a. Ziel: Untersuchung der Zusammenhänge zwischen Zufallsvariablen anhand einer Stichprobe. b. Korrelationskoeffizient r und Bestimmtheitsmaß r 2 - r und r 2 sind Parameter zum Test der linearen Abhängigkeit. - Für den Korrelationskoeffizient r der Merkmale (Zufallsvariablen) x und y gilt: Wertebreich: Ein Beispiel werde ich nach der Vorstellung der linearen Regressionsanalyse angeben. Folie 10 von 29

2. Data-Mining-Verfahren 2.2 Lineare Regressionsanalyse: a. Ziel: Bestimmung eines Modells für die Abhängigkeit zwischen Zufallsvariablen x und y. b. Parameter: y = a + b * x a, b : zu berechnende Parameter x, y : Zufallsvariablen c. Berechnung der Parameter a und b: 1.Testen mit der lin. Korrelationsanalyse, ob x und y linear abhängig sind. 2.Berechnung der Parameter a und b : Folie 11 von 29

2. Data-Mining-Verfahren Beispiel für lin. Korrelationsanalyse und lin. Regressionsanalyse: Aufgabe: x y 1 2 2 3.5 3 6.5 4 8.5 5 10 Folie 12 von 29

2. Data-Mining-Verfahren Folie 13 von 29

2. Data-Mining-Verfahren 2.3 k nächste Nachbarn: a.ziel : Klassifizieren von Daten mit Hilfe eines Modells b. Idee : Zuordnung analog der k nächsten Nachbarn. Quelle: Krahl, Windheuser und Zick Data Mining: Einsatz in der Praxis c.schritte: 1. Bestimmung des Parameters k (Anzahl der zu betrachtenden Nachbarn) 2. Berechnung der Distanz zwi. zu klassifizierendem Objekt und allen Daten. 3. Sortieren dieser Distanzen. 4. Auswahl der ersten k Daten Finden der Gruppe,zu der die meisten Daten gehören. 5. Das zu klassifizierende Objekt gehört zu dieser Gruppe. Folie 14 von 29

2. Data-Mining-Verfahren d. Beispiel: (Quelle: Kardi Teknomo KNN Numerical Example ) -Aufgabe: Eine Fabrik produziert Papier. Mittels einer Umfrage hat sie eine Gruppierung der derzeitigen Produkte gemacht. Jetzt produziert sie ein neues Papier und möchte dieses Produkt klassifizieren. -Input: Daten (Gruppierung der alten Produkten): Zu klassifizierendes Objekt (neues Produkt) : X1 = 3, X2 = 7 (3,7) Folie 15 von 29

2. Data-Mining-Verfahren -Klassifizierung mit KNN: 1.wähle k = 3 2.Berechnung der Distanz zwi. zu klassifizierendes Objekt und die Daten 3. Sortieren dieser Distanzen und finden 3 nähesten Daten Folie 16 von 29

2. Data-Mining-Verfahren 4. Finden der Gruppe, zu der die meisten 3 nähesten Daten gehören. Das zu klassifizierendes Objekt hat 2 Nachbarn, die zu Good Gruppe gehören, und 1 Nachbar, der zu Bad Gruppe gehört. Deswegen gehört das zu klassifizierende Objekt zu der Gruppe Good. - Output: X1=3, X2=7, Y=Good (3,7,Good) Folie 17 von 29

2. Data-Mining-Verfahren 2.4 k-means-clustering: a. Ziel : Klassifizierung der Daten ohne vorhandenes Modell b. Idee : Vergleich des Datenbestandes mit ausgewählten Repräsentanten c. Schritte: 1.Auswahl von k Repräsentanten. Diese Repräsentanten sollten möglichst repräsentativ sein. Iter. 2.Zuordnung der Objekten. Ordnen Objekte mit großer Ähnlichkeit den Repräsentanten zu. 3.Anpassung der Repräsentanten Vergleich der Repräsentanten und Objekte, dann ggf. Auswahl besserer Repräsentanten. Folie 18 von 29

2. Data-Mining-Verfahren d.beispiel: Quelle: Krahl, Windheuser und Zick Data Mining: Einsatz in der Praxis Folie 19 von 29

2. Data-Mining-Verfahren 2.5 Vergleich: a. lin. Regression und lin. Korrelation: -Häufig benutzt in vielen Bereichen (z.b.: Signalverarbeitung) -Beschränkungen ist auch deutlich (z.b.: die Kurve) -Es gibt noch Multiple Regression. b. k nächste Nachbarn: -Einfach zu implementieren -Aber man muss ein schon klassifiziertes Modell haben. -Bestimmung von k nach Erfahrungen. c. k-means-clustering: -Das am längsten eingesetzte Verfahren zur Segmentierung. (Quelle: Krahl, Windheuser und Zick Data Mining: Einsatz in der Praxis ) -Viele Abwandlungen und Variationen -Problem: die Bestimmung von k ist schwer. -Um optimale k zu bekommen mehrere Durchläufe Folie 20 von 29

Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 3. Data-Mining- 3.1 Allgemein 3.2 RapidMiner 3.3 Knime 3.4 Gait-CAD 3.5 Vergleich 4. Zusammenfassung Folie 21 von 29

3.Data-Mining- 3.1 Allgemein: -Auswahl kommerzieller Data-Mining- (teilweise nicht weiterentwickelt): Data Cockpit (DeltaMaster) Knowledge Studio NeuroModel Enterprise 6 D-Miner IBM Intelligent Miner Polyanalyst von Metaputer DataEngine von MIT SAS Enterprise Miner SPSS Clementine -Auswahl hier betrachteter freier Data-Mining-: Rapidminer (1. Platz bei KDNuggets) Knime (4. Platz bei KDNuggets) Gait-CAD Folie 22 von 29

3.Data-Mining- 3.2 RapidMiner: -Ein Data-Mining-Tool von RAPID-I in Dortmund (vorher YALE genannt, Uni Dortmund) -Java-Applikation (plattformunabhängig), weka-kompatibel weka : Waikato Environment for Knowledge Analysis -Community-Version ist kostenlos -ca. 150 unterstützte Verfahren: Entscheidungsbäume und Regellerner Lazy Learners Bayes'sche Lerner Logistische Lerner Gauss'sche Prozesse Meta Learning Association Rule Mining Clustering und mehr Folie 23 von 29

3.Data-Mining- 3.3 KNIME: -Ein Data-Mining-Tool von der Universität Konstanz -Eine Eclipse-RCP-Anwendung, weka-kompatibel weka : Waikato Environment for Knowledge Analysis -Base Version ist kostenlos -ca. 100 bis 150 unterstützte Verfahren für data I/O, preprocessing, cleansing, modelling, analysis und data mining, various interactive views usw. - API, d.h.: Man kann eigene Programm darauf schreiben. Folie 24 von 29

3.Data-Mining- 3.4 Gait-CAD: -Ein Data-Mining-Tool vom Forschungszentrum Karlsruhe -Eine MATLAB-TOOLBOX -Kostenlos, open source -ca. 50 Algorithmen zur Lösung von Data-Mining-Problemen: Datentupelselektion, Merkmalsextraktion, Merkmalsbewertung und selektion, Merkmalstransformation, überwachte bzw. unüberwachte Klassifikation, Validierung -Update sehr langsam (letztes Update im Januar 2008) Folie 25 von 29

3.Data-Mining- 3.5 Vergleich: -RapidMiner: Die beste Graphendarstellungsfähigkeit. Vorgehensweise ist nicht bequem. Dokumentation für DM-Algorithmen ist nicht gut. Erweiterbarkeit ist gut. (API) -KNIME: Graphendarstellung ist nicht so gut, aber geht. Vorgehensweise ist sehr bequem. Gut dokumentiert. Erweiterbarkeit ist gut. (API) -Gait-CAD: Graphendarstellung ist schlecht. Vorgehensweise ist nicht bequem. weil auf MATLAB basiert, z.b.: für Elektrotechniker sehr gut. Folie 26 von 29

Gliederung 1. Einordnung der Data-Mining-Verfahren 2. Data-Mining-Verfahren 3. Data-Mining- 4. Zusammenfassung Folie 27 von 29

4.Zusammenfassung - Data-Mining-Klassifikation vorgestellt, um eine Übersicht über alle Data- Mining-Verfahren zu geben. - 4 Verfahren aus verschiedenen Data-Mining-Verfahren beispielhaft erklärt. lin. Regression und Korrelation, k nächste Nachbarn und k-means- Clustering. - 3 kurz gezeigt, um praktische Übersicht zu geben. - 3 verglichen. Folie 28 von 29

Literaturverzeichnis [1] Otte, Otte, Kaiser, Data Mining für die industrielle Praxis, ISBN 3-446-22465-3 [2] Krahl, Windheuser, Zick, Data Mining Einsatz in der Praxis, ISBN 3-8273-1349-X [3] Teknomo, KNN Numerical Example (hand computation), http://people.revoledu.com/kardi/tutorial/knn/knn_numerical-example.html Stand: 13.01.2009 [4] Wikipedia, Regressionsanalyse, http://de.wikipedia.org/wiki/regressionsanalyse Stand: 13.01.2009 Folie 29 von 29

FRAGEN? Folie 30 von 29

DANKESCHÖN! Folie 31 von 29

Berechnung eines Korrelationskoeffizienten r = 0 : kein Zusammenhang -1<- r ->1 : stärkere lineare Abhängigkeit - Häufig wird Bestimmtheitsmaß r 2 statt r benutzt. r 2 = r * r r 2 = 0 : kein Zusammenhang r 2 -> 1 : stark linear abhängig - Berechnung von r x,y : Zufallsvariable n : Anzahl der Stichproben r : Korrelationskoeffizient Folie 32 von 29

Berechnung der lin. Regressionsparameter y = a + bx a,b : zu berechnende Parameter x,y : Zufallsvariablen Folie 33 von 29

Beispiel für Lin. Korrelation und Regression c. Beispiel für lin. Korrelationsanalyse und lin. Regressionsanalyse: 1. Korrelationsanalyse: 2. Regressionsanalyse: r 2 = 0,9866 3. Ergebnis: y = -0,2 + 2,1x mit r = 0,99327 oder r 2 = 0,9866 Folie 34 von 29

Kurze Erklärung zu Entscheidungsbäumen - Ist eine spezielle Darstellungsform von Entscheidungsregeln - Knoten : Abfrage der Attribute, Treffen der Entscheidung Blatt : Ein Knoten, an dem es keine weitere Verzweigung gibt. - Schritt : 1. An jedem Knoten wird ein Attribut abgefragt 2. Entscheidung 3. Wiederholung dieses Prozess bis dem Erreichen eines Blatt Alter - Beispiel: <35 >35 Gehalt Gehalt <40000 >40000 <50000 >50000 Bezahlung schlecht Bezahlung gut Bezahlung schlecht Bezahlung gut Folie 35 von 29