Einführung in Data Mining mit Weka. Philippe Thomas Ulf Leser

Größe: px

Ab Seite anzeigen:

Download "Einführung in Data Mining mit Weka. Philippe Thomas Ulf Leser"

Gitta Beck
vor 8 Jahren
Abrufe

1 Einführung in Data Mining mit Weka Philippe Thomas Ulf Leser

2 Data Mining Drowning in Data yet Starving for Knowledge Computers have promised us a fountain of wisdom but delivered a flood of data The non trivial extraction of implicit, previously unknown, and potentially useful information from data Practical Machine Learning 2

data The non trivial extraction of implicit, previously unknown,

3 Beispiele Banken Kreditwürdigkeit / Schufa Wertbapierhandel Bildklassifikation Synthetic Aperture Radar Ölausbreitung im Golf von Mexiko Porträtfinder Intrusion detection Kaufgewohnheiten (Payback) 3

Aperture Radar Ölausbreitung im Golf von Mexiko

4 Beispiele Männlich / Weibliche Authoren: Männlich: Bestimmte/Unbestimmte Artikel Eigennamen Weiblich: Pronomen S. Argamon, M. Koppel, J. Fine, A. R. Shimoni, Gender, Genre, and Writing Style in Formal Written Texts, Text, volume 23, number 3, pp

Argamon, M. Koppel, J. Fine, A. R. Shimoni, 2003.

5 Erfolge Netflix Start: Oktober 2006 Daten: 100 Millionen (personenbezogene) ratings Ziel: 10% Verbesserung über das Netflix eigene Empfehlungssystem 21 September 2009: Filme Postleitzahlen Datum BellKor s Pragmatic Chaos How to Break Anonymity of the Netflix Prize Dataset? (Arvind Narayanan, Vitaly Shmatikov) 5

September 2009: Filme Postleitzahlen Datum BellKor s Pragmatic Chaos How to

6 Erfolge Erkrankungen von Soya Bohnen Raynaud-Syndrom (Swanson 1986) Regeln waren besser als die der Experten Fish-Öl Blut Viskosität, Gefäßaktivität verbessert Blutzirkulation Wikipedia Raynaud-Syndrom Verkauf von Bier und Windeln 6

Fish-Öl Blut Viskosität, Gefäßaktivität verbessert

7 Konkretes Beispiel 7

8 Aufgabe Vorhersage von play anhand der vier Attribute Outlook Temperature Humidity Windy 8

9 Erster Versuch 9

10 K-Nearest Neighbors Instanz basierter Algorithmus Kein Training Langsame Vorhersage (Clevere Datenstruktur) Benötigt eine Distanzfunktion Hintergrundwissen (Sunny Overcast Rainy) Attribute gleich wichtig Welcher k-wert ist am besten? Empfindlich für Rauschen Ungeeignet für Hochdimensionale Daten 10

Hintergrundwissen (Sunny Overcast Rainy) Attribute gleich wichtig Welcher

11 Data Representation Feature vector / Merkmalsvektor Reduktion des Problems auf Eigenschaften Bildverarbeitung Fourierkoeffizienten Spamklassifikation Rich, Viagra, million $ Häufig sparse features Nur bedingt großer Überlap zwischen Training/Test Example Weather Temperature Play 1 Sunny Cold Yes 2 Rain Worm No 11

Viagra, million $ Häufig sparse features Nur bedingt großer Überlap zwischen

12 Statistical Modeling Play = 2/9 * 3/9 * 3/9 * 3/9 *9/14 = = 20.5% Play = 3/5 * 1/5 * 4/5 * 3/5 *5/14 = = 79.5% 12

13 Naïve Bayes P [ E H ] P [ H ] P [ H E ]= P[E] P [ yes E ]= P [ E1 yes ] P [ E2 yes ] P [ E3 yes ]... P [ yes ] P[E] P [ yes X ]= P[E] Konstant 13

14 Naïve Bayes Benutzt alle verfügbaren Attribute Attribute sind gleich wichtig und unabhängig Annahme oft verletzt (Temperatur) Feature Selektion kann hilfreich sein Kann mit fehlenden Attributen umgehen Wahrscheinlichkeiten können 0 werden Pseudocounts Kann in der Grundvariante nur mit Nominalen Daten umgehen There is nothing naïve in using Naïve Bayes 14

mit fehlenden Attributen umgehen Wahrscheinlichkeiten können 0 werden Pseudocounts Kann

15 Evaluation Kreuzvalidierung Daten sind nur begrenzt verfügbar Training und Test müssen getrennt sein Quelle: 15

16 Evaluation Kreuzvalidierung 10 fold CV ist üblich Verteilung der Klassen sollte gleich sein Straitifiziertes Sampling Leave one out CV ist ein Spezialfall LOOCV liefert immer das selbe Ergebnis Per se nicht stratifiziert Rechenintensiv Intrinsische Evaluation Quelle:

Spezialfall LOOCV liefert immer das selbe Ergebnis Per se nicht

17 Evaluation Vierfeldertrafel Quelle: Wikipedia Binäre Klassifikation hat vier mögliche Ergebnisse Rp, Fp, Fn, Rn Accuracy/Vertrauenswahrscheinlichkeit RMS für numerische Variablen 17

18 Weka Sourceforge Projekt (GPL v2) Java GUI und API Sammlung an Algorithmen für pre-processing, maschinelles lernen und Visualisierung Gefördert seit

19 Weka 19

20 Explorer 20

21 Attribute-Relation File Format Andrew's Ridiculous File Format 21

22 Explorer 22

23 Klassifizierung 10 x CV 23

24 Naïve Bayes 24

25 Entscheidungsbaum 25

26 Feature Selection Attribute können irrelevant (Haarfarbe) oder redundant (Kelvin, Celcius, Fahrenheit) sein Entscheidungsbaum hat Probleme mit irrelevanten features Naive Bayes vor allem mit redundanten Deshalb Feature Selection Aber, das Ergebnis muss nicht zwingend besser sein! 26

27 Feature Selection 27

28 Clustering Unsupervised Suche nach natürlichen Gruppen Beispiel: Outlier detection Unbekannte Subtypen von Krebs Social Networks (Personencluster) 28

29 Clustering 29

30 Clustering 30

31 Clustering Clustering liefert 50% Fehler! 31

32 Visualisierung 32

33 Probleme Weka Speicherverbrauch und Rechenzeit Lernverfahren Hochdimensionale Daten Kein Inkrementelles Lernen im Experimenter möglich Java Doc nur oberflächlich vorhanden Große Auswahl an verschiedenen Algorithmen, aber weniger Möglichkeiten 33

34 Probleme Data Mining Wenig Beispiele, viele Features Overfitting Semantischer Drift Wahl des passenden Algorithmus Attribute Selection? Meta-Classifier? Evaluierung allgemein schwer 34

35 Probleme Concept drift Daten ändern sich über Zeit (sehr häufig) Regelmäßige Erneuerung der Daten Spam detection Maschine bekommt neue Parameter Erderwärmung Amazonkunden ändern verhalten mit Alter Teuer (Rechenzeit, Kosten, Arbeitszeit) So gut wie nie als Problem behandelt 35

36 Welche Methode? Scaling to Very Very Large Corpora for Natural Language Disambiguation (Banko and Brill 2001) 36

37 Weitere Informationen Weka Wiki Weka Manual (325 Seiten) Mailing Liste Youtube 37

38 Alternativen RapidMiner (Weka mit hübscherer GUI) SPSS R Oracle Darwin MS-SQL 38

39 Java 39

40 Java (cont) 40

41 Machine Learning 41

42 The End 42 Quele: flickr CMU G20 protests

43 Assoziationsregeln Beschreiben Korrelationen zwischen auftretenden Ereignissen Warenkorbanalyse Zahnbürste Zahpasta 43

44 Assoziationsregeln 44

Ähnliche Dokumente

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,