Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Transkript

1 6. Data Mining

2 Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2

3 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable insights) aus verfügbaren Daten zu gewinnen Überlappung mit dem Gebiet des maschinellen Lernens (machine learning), wo jedoch die Vorhersagekraft, anstelle von Einsichten, im Vordergrund steht Begriff Data Mining kam in den frühen 1990er Jahren auf, verwendete Verfahren sind teilweise älter 3

4 Aufgaben (tasks) Drei gängige Aufgaben (tasks) im Data Mining sind: Klassifikation, d.h. Datenpunkte (z.b. Dokumente) und ihre Klassen (z.b. Themen) sind bekannt; finde heraus, was Datenpunkte einer bestimmten Klasse auszeichnet, um so neue Datenpunkte klassifizieren zu können Clusteranalyse, d.h. Datenpunkte (z.b. Dokumente) sind bekannt; teile die Datenpunkte in (eine bestimmte Anzahl) von homogenen Gruppen (cluster) ein Mustererkennung, d.h. Daten (z.b. Einkäufe) sind bekannt; finde darin Muster (z.b. häufig zusammen gekaufte Artikel) 4

5 6.2 Klassifikation Datenpunkte (z.b. Dokumente) mit ihren Klassen (z.b. Themen) sind gegeben; finde für neue Datenpunkte die passende Klasse heraus Drei Arten von Verfahren zur Klassifikation distanzbasierte (z.b. k-nächste-nachbarn) probabilistische (z.b. Naïve Bayes) diskriminative (z.b. Entscheidungsbäume) Verfahren unterscheiden sich u.a. darin, ob sie erklären können, was eine bestimmte Klasse auszeichnet 5

6 Anwendungsbeispiele Klassifikation von Zeitungsartikeln oder Blogposts in Politik, Sport, Kultur, Reise und Auto Klassifikation von s in Spam und Nicht-Spam Segmentierung von Kunden in Schnäppchenjäger, Normalos und Luxusliebhaber Produktempfehlungen für bestimmten Kunden durch Klassifikation in Interessant und Nicht-Interessant Handschrifterkennung auf Überweisungsträgern durch Klassifikation der gescannten Zeichen in Klassen 0-9 6

7 6.2.1 k-nächste Nachbarn Klassifikation anhand der k nächsten Nachbarn ist ein distanzbasiertes Verfahren, welches mehr als zwei Klassen unterstützt Idee: Neuer Datenpunkt wird klassifiziert, indem die k nächsten Datenpunkte mit bekannter Klasse gemäß geeignetem Distanzmaß bestimmt werden die häufigste aus deren Klassen ausgewählt wird Typische Werte für k sind {5, 10, 15, 25}; im Fall binärer Klassifikation ist Wahl eines ungeraden Werts sinnvoll 7

8 Euklidische Distanz Datenpunkte als Vektoren in m-dimensionalen Vektorraum Euklidische Distanz (L2-Distanz) als Distanzmaß zwischen zwei Vektoren x i und x j ˆ ıÿ d(x i, x j )= Ù m! " 2 x(i,k) x (j,k) k=1 x i d(x i, x j ) x j 8

9 Euklidische Distanz Euklidische Distanz ist eine Metrik, d.h. es gelten positive Definitheit d(x i, x j ) Ø 0 Symmetrie d(x i, x j )=d(x j, x i ) Dreiecksungleichung d(x i, x k ) Æ d(x i, x j )+d(x j, x k ) 9

10 k-nächste Nachbarn Beispiel: Autos mit Merkmalen Gewicht und Hubraum sowie Merkmal Herkunft Auto mit Gewicht 1000 kg und Hubraum 3L ist zu klassifizieren Hubraum U.S.A. Europa Japan Gewicht 10

11 k-nächste Nachbarn k =3 Auto wird als Herkunft U.S.A. klassifiziert Hubraum U.S.A. Europa Japan Gewicht 11

12 k-nächste Nachbarn Die drei nächsten Nachbarn sind x 1 = (1080, 3.2) x 2 = (1190, 2.8) x 3 = (900, 1.8) Distanzen zu x = (1000, 3) d(x, x 1 ) 180 d(x, x 2 ) 190 d(x, x 3 ) 100 Hubraum U.S.A. Europa Japan x x 3 x 1 x Gewicht 12

13 k-nächste Nachbarn k-nächste Nachbarn ist ein einfaches, aber robustes Klassifikationsverfahren, das immer anwendbar ist, wenn zwischen Datenpunkten ein sinnvolles Distanzmaß definiert werden kann Nachteile: naïve Implementierung, d.h. Distanzberechnung zu allen Datenpunkten aus den Trainingsdaten, ist rechenintensiv (bessere Implementierungen verwenden Indexstrukturen) geringe Interpretierbarkeit, d.h. keine Erkenntnisse darüber, welche Eigenschaften die Datenpunkte einer Klasse auszeichnen (z.b. viel Hubraum für U.S.A.) 13

14 6.2.2 Naïve Bayes Naïve Bayes ist eine Familie von Klassifikationsverfahren, die insbesondere zur Klassifikation von Textdokumenten (z.b. s in Spam/Nicht-Spam) eingesetzt wird Der Name Naïve Bayes rührt daher, dass die Verfahren den Satz von Bayes für bedingte Wahrscheinlichkeiten verwenden und eine (naïve) Unabhängigkeitsannahme über die Verteilung der verwendeten Merkmale machen 14

15 Bedingte Wahrscheinlichkeit Betrachte zwei Ereignisse A und B, z.b. A ist das Ereignis, dass Objekt ein Kreis ist B ist das Ereignis, dass Objekt grün ist P[A ]=5/9 P[B ]=4/9 A B ist das Ereignis, dass ein grünes Kreis gezogen wird P[A B ]=3/9 15

16 Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit P[ B A ] (lies: B gegeben A) ist die Wahrscheinlichkeit, dass Ereignis B eingetreten ist, wenn wir wissen, dass Ereignis A eingetreten ist P[B A ]= P[A B ] P[A ] hier: P[B A ]=3/5 P[A B ]=3/4 16

17 Stochastische Unabhängigkeit Zwei Ereignisse A und B heißen (stochastisch) unabhängig, wenn gilt P[A B ]=P[A] P[B ] Bemerkung: Die beiden Ereignisse A und B im vorigen Beispiel sind nicht (stochastisch) unabhängig 17

18 Satz von Bayes Thomas Bayes ( ) formulierte folgenden Satz zur Berechnung bedingter Wahrscheinlichkeiten von Ereignissen A und B P[A B ]= P[B A ] P[A ] P[B ] Quelle: en.wikipedia.org Satz von Bayes erlaubt das Umkehren der Schlussrichtung und ist z.b. dann nützlich, wenn eines der Ereignisse schwierig alleine zu beobachten 18

19 Satz von Bayes Beispiel: Untersuchung von Wildtieren Ereignis A soll sein, dass Wildtier ein Fuchs ist Ereignis B soll sein, dass Wildtier an Tollwut erkrankt ist Annahme: Beobachtete Wahrscheinlichkeiten seien P[A ]=0.1 P[B ]=0.05 P[A B ]=0.25 Wahrscheinlichkeit, dass Fuchs an Tollwut erkrankt ist P[B A ]= =

20 Naïve Bayes zur Klassifikation von Dokumenten Dokumente (z.b. s oder Zeitungsartikel) werden vorverarbeitet, z.b. indem Groß- und Kleinschreibung entfernt wird und die Dokumente an Leerzeichen in Wörter aufgeteilt werden Jedes Dokument wird so in eine Multimenge von Wörtern (bag of words) überführt, d.h. Reihenfolge der Wörter geht verloren, ihre Häufigkeit bleibt jedoch erhalten The green politician Peter Green { green, green, peter, politician, the } 20

21 Naïve Bayes zur Klassifikation von Dokumenten Trainingsdaten stehen uns in Form von Dokumenten d zur Verfügung, wobei wir für jedes die zugehörige Klasse c (z.b. Spam / Nicht-Spam) kennen Zur Klassifikation eines vorher unbekannten Dokuments d bestimmt man die bedingten Wahrscheinlichkeiten P[c d ] und ordnet das Dokument in die Klasse mit der höchsten bedingten Wahrscheinlichkeit ein 21

22 Naïve Bayes zur Klassifikation von Dokumenten Wahrscheinlichkeiten der einzelnen Klassen lassen sich auf Grundlage der Trainingsdaten schätzen als P[c ]= # Dokumente in Klasse c # Dokumente Wahrscheinlichkeit, dass ein Wort w in einem Dokument aus einer bestimmten Klasse c vorkommt, geschätzt als P[w c ]= # Vorkommen des Worts w in Dokumenten der Klasse c # Wortvorkommen in Dokumenten in Klasse c 22

23 Naïve Bayes zur Klassifikation von Dokumenten Wahrscheinlichkeit, dass vorher unbekanntes Dokument d zur Klasse c gehört, geschätzt als P[c d ]= P[d c ] P[c ] P[d ] dies kann vereinfacht werden, da nur die Klasse mit maximaler bedingter Wahrscheinlichkeit bestimmt werden muss, der Faktor P[d] jedoch für alle Klassen gleich ist P[c d ] Ã P[d c ] P[c ] 23

24 Naïve Bayes zur Klassifikation von Dokumenten Wahrscheinlichkeit, dass Dokument d aus der Klasse c stammt, schätzt man anhand der Wortvorkommen als P[d c ] Ã Ÿ P[w c ] f(w,d) wœd hierbei sei f(w, d) die Zahl der Vorkommen des Worts w im Dokument d Intuition: Dies entspricht der Wahrscheinlichkeit, dass das Dokument d durch zufälliges Ziehen von Wörtern gemäß der Wahrscheinlichkeiten P[w c] zustande kommt 24

25 Beispiel Naïve Bayes Folgende Dokumente mit Klassen N/S als Trainingsdaten a b x y d N d S d N d S d N Wahrscheinlichkeiten der Klassen N und S P[N ]=3/5 P[S ]=2/5 25

26 Beispiel Naïve Bayes Folgende Dokumente mit Klassen N/S als Trainingsdaten a b x y d N d S d N d S d N Wahrscheinlichkeiten der Wörter a, b, x und y je Klasse P[a N ]=5/10 P[a S ]=1/10 P[b N ]=3/10 P[x N ]=1/10 P[y N ]=1/10 P[b S ]=1/10 P[x S ]=4/10 P[y S ]=4/10 26

27 Beispiel Naïve Bayes Klassifikation des vorher unbekannten Dokuments d 6 a b x y d ? P[N d 6 ]= P[d 6 N ] P[N ] 3 5 = P[S d 6 ]= P[d 6 S ] P[S ] 3 1 = =6.4/106 Das Dokument wird in die Klasse N eingeordnet 3 5 = 135/106 27

28 Rechnen mit kleinen Wahrscheinlichkeiten Wie am Beispiel zu erkennen, werden die betrachteten Wahrscheinlichkeiten sehr klein, was zu numerischen Problemen (z.b. Abrunden zu Null) führen kann Für eine Implementierung ist es daher ratsam, eine Log-Transformation vorzunehmen log P [ c d ] Ã log P [ d c ] + log P [ c ] log P [ d c ] Ã ÿ wœd f(w, d) log P [ w c ] 28

29 Rechnen mit kleinen Wahrscheinlichkeiten Die Logarithmus-Funktion ist monoton; da es nur gilt, die maximale bedingte Wahrscheinlichkeit P[c d] zu ermitteln, ihr genauer Wert jedoch irrelevant ist, ist eine solche Transformation zulässig 29

30 Zusammenfassung Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse aus Daten zu gewinnen Klassifikation ordnet neue Datenpunkte in Klassen ein, deren Charakteristika vorab anhand von Trainingsdaten bestimmt wurden k-nächste Nachbarn als Klassifikationsverfahren basierend auf der Distanz zwischen Datenpunkten Naïve Bayes als probabilistisches Klassifikationsverfahren, welches häufig zur Klassifikation von Texten eingesetzt wird 30

31 Literatur [1] C. D. Manning, P. Raghavan, H. Schütze: Information Retrieval, Cambridge University Press, 2008 (Kapitel 14 & 16) [2] M. J. Zaki und W. Meira Jr.: Data Mining and Analysis, Cambridge University Press, 2014 (Kapitel 18) 31