Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Transkript

1 3. Klassifikation

2 Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos anhand seiner Leistung und Gewicht 2

3 Motivation 3

4 Anwendungsbeispiele Klassifikation Klassifikation von eingehenden s anhand ihres Inhalts in die beiden Klassen Spam und Nicht-Spam Bestimmen des Sentiments (positiv, neutral, negativ) eines Satzes anhand der darin enthaltenen Wörter Produktempfehlungen durch Vorhersage, ob ein Artikel interessant oder uninteressant für einen Kunden ist Handschrifterkennung durch Klassifikation von gescannten Ziffern in die Klassen 0,,9 4

5 Binäre Klassifikation vs. Mehrklassenklassifikation Klassifikationsverfahren lassen sich danach unterscheiden, ob sie nur zwei Klassen (binär) oder beliebig viele Klassen unterscheiden können Binäres Klassifikationsverfahren lässt sich mittels folgender Strategien zur Mehrklassenklassifikation verwenden One-vs-All: Trainiere für jede der n Klassen ein Modell, das die Klasse von den anderen Klassen unterscheidet; ordne einen Datenpunkt der Klasse mit höchster Konfidenz zu One-vs-One: Trainiere für jedes Paar von Klassen ein Modell, das die beiden unterscheidet; ordnet Datenpunkt der am häufigsten vorhergesagten Klasse zu 5

6 Überwachtes Lernen vs. unüberwachtes Lernen Klassifikationsverfahren sind wie Regressionverfahren typische Beispiele für überwachtes Lernen (supervised learning) anhand von Trainingsdaten (d.h. Datenpunkte mit bekanntem Wert des abhängigen Merkmals) Unüberwachtes Lernen (unsupervised learning) mit Clusteringverfahren als typischen Beispielen benötigt hingegen keine Trainingsdaten Teilüberwachtes Lernen (semi-supervised learning) lernt anhand von Trainingsdaten und anderen Daten 6

7 Inhalt 3.1 Evaluation 3.2 Logistische Regression 3.3 k-nächste Nachbarn 3.4 Naïve Bayes 3.5 Entscheidungsbäume 3.6 Ensemble Learning 3.7 Support Vector Machines 3.8 Label Propagation 7

8 3.1 Evaluation Wie können wir die Güte, d.h. Vorhersagekraft, eines Klassifikationsverfahren systematisch evaluieren? Aufteilung in Trainings-, Validierungs- und Testdaten (z.b. mittels k-facher Kreuzvalidierung) ist wie bei Regressionsverfahren gute Praxis Zunächst betrachten wir den Fall binärer Klassifikation und erweitern die Gütemaße dann für den Fall der Mehrklassenklassifikation 8

9 Konfusionsmatrix Die Vorhersagen eines binären Klassifikators lassen sich in einer Konfusionsmatrix darstellen Die beiden Klassen werden hierbei allgemein als 0 (Negative) und 1 (Positive) bezeichnet Einteilung klassifizierter Datenpunkte in vier Kategorien Richtig Negative (true negatives) Falsch Positive (false positives) Falsch Negative (false negatives) Richtig Positive (true positives) 9

10 Konfusionsmatrix Vorhersage 0 (Nein) 1 (Ja) Daten 0 (Nein) Richtig Negative (RN) Falsch Positive (FP) 1 (Ja) Falsch Negative (FN) Richtig Positive (RP) Basierend auf solch einer Konfusionsmatrix lassen sich nun Gütemaße definieren, welche verschiedene Eigenschaften des Klassifikators bewerten 10

11 Korrektklassifizierungsrate und Fehlerquote Korrektklassifizierungsrate (accuracy) misst die Fähigkeit des Klassifikators, Datenpunkte der richtigen Klasse zuzuordnen KKR = RP+RN FP+FN +RP+RN Fehlerquote (error rate) misst die Tendenz des Klassifikators, Datenpunkte der falschen Klasse zuzuordnen FQ = FP+FN FP+FN +RP+RN =1 KKR 11

12 Richtig-Positiv-Rate und Falsch-Positiv-Rate Richtig-Positiv-Rate (true positive rate) misst die Fähigkeit des Klassifikators, Datenpunkte der positiven Klasse richtig zu klassifizieren RPR = RP FN +RP Falsch-Positiv-Rate (false positive rate) misst die Tendenz des Klassifikators, Datenpunkte der negativen Klasse falsch zu klassifizieren FPR = FP FP+RN 12

13 Präzision und Ausbeute Präzision (auch: Genauigkeit) (precision) misst die Fähigkeit des Klassifikators, Datenpunkte richtig der positiven Klasse zuzuordnen P = RP RP+FP Ausbeute (auch: Trefferquote) (recall) misst die Fähigkeit des Klassifikators, Datenpunkte der positiven Klasse richtig zu klassifizieren R = RP FN +RP 13

14 F1-Maß F1-Maß (f1 measure) als harmonisches Mittel von Präzision und Ausbeute wird in der Praxis viel verwendet F1 =2 P R P+R 14

15 Beispiel Gütemaße Betrachte folgende Konfusionsmatrix eines Klassifikators Daten Vorhersage 0 (Nein) 1 (Ja) 0 (Nein) (Ja) 6 44 Korrektklassifizierungsrate Fehlerquote KKR = = FQ = =

16 Beispiel Gütemaße Betrachte folgende Konfusionsmatrix eines Klassifikators Daten Vorhersage 0 (Nein) 1 (Ja) 0 (Nein) (Ja) 6 44 Richtig-Positiv-Rate RPR = = Falsch-Positiv-Rate FPR = =

17 Beispiel Gütemaße Betrachte folgende Konfusionsmatrix eines Klassifikators Daten Vorhersage 0 (Nein) 1 (Ja) 0 (Nein) (Ja) 6 44 Präzision P = = Ausbeute R = =

18 Beispiel Gütemaße Betrachte folgende Konfusionsmatrix eines Klassifikators Daten Vorhersage 0 (Nein) 1 (Ja) 0 (Nein) (Ja) 6 44 F1-Maß F1 =

19 Gütemaße für Mehrklassenklassifikation Konfusionsmatrix enthält bei Mehrklassenklassifikation eine Zeile und eine Spalte pro Klasse, z.b. bei drei Klassen: Vorhersage A B C Daten A B C Grundlegende Idee ist nun, dass wir jede Klasse einmal als positive und die anderen als negative Klasse betrachten und die resultierenden Gütemaße aggregieren 19

20 Beispiel Mehrklassenklassifikation Daten Vorhersage A B C A B C A B C V V V D D D

21 Mikro- und Makro-Mittelwertbildung Es gibt zwei Möglichkeiten zur Mittelwertbildung über das gewünschte Gütemaß je Klasse Mikro-Mittelwertbildung (micro average) summiert jede der vier Kategorien (RN, FN, RP, FP) über die Klassen und setzt diese Summen in die Definition ein P = R = RP A + RP B + RP C RP A + RP B + RP C + FP A + FP B + FP C RP A + RP B + RP C FN A + FN B + FN C + RP A + RP B + RP C 21

22 Beispiel Mikro-Mittelwertbildung A B C V V V D D D P = R = = =

23 Mikro- und Makro-Mittelwertbildung Makro-Mittelwertbildung (macro average) berechnet das Gütemaß pro Klasse und bildet den Mittelwert P = 1 3 (P A + P B + P C ) R = 1 3 (R A + R B + R C ) 23

24 Beispiel Makro-Mittelwertbildung A B C V V V D D D P A = = R A = = P B = = R B = = P C = = 5 16 R C = = 5 30 P = R =

25 3.2 Logistische Regression Logistische Regression ist ein einfaches aber weit verbreitetes binäres Klassifikationsverfahren, welches auf linearer Regression aufbaut Logistische Regression betrachtet Datenpunkte, (x (i,1),x (i,2),...,x (i,m),y i ) wobei das abhängige nominale Merkmal die Werte 0 und 1 annehmen kann, d.h,. y i {0, 1} 25

26 Logistische Regression Logistische Regression sagt die Wahrscheinlichkeit ŷ i = P [x i gehört zu Klasse 1] 1 ŷ i = P [x i gehört zu Klasse 0] voraus, und wir können die Klasse durch Runden ( 0 : ŷ i < 0.5 c(ŷ i )= 1 : ŷ i 0.5 bestimmen 26

27 Logistische Regression Logistische Regression nimmt als Model an, dass sich das logarithmische Chancenverhältnis (log odds ratio) als Linearkombination der unabhängigen metrischen Merkmale erklären lässt log ŷ i (1 ŷ i ) = w 0 + w 1 x i, w m x i,m Löst man dies nach der Vorhersage auf, erhält man 1 ŷ i = 1+e (w 0+w 1 x i, w m x i,m ) 27

28 Logistische Funktion Die logistische Funktion (auch: Sigmoidfunktion) (z) = 1 1+e z bildet Werte aus (-,+ ) nach [0, 1] ab 28

29 Logistische Regression? Logistische Regression bestimmt eine Gerade (allgemein: Hyperebene), welche die Datenpunkte der Klassen möglichst gut separiert, d.h. voneinander trennt 29

30 Logistische Regression Logistische Regression maximiert Wahrscheinlichkeit (likelihood), dass das Modell die beobachteten Werte y i korrekt klassifiziert nÿ (ŷ i ) y i (1 ŷ i ) 1 y i i=1 Intuition: niedrige Wahrscheinlichkeit für Werte in Klasse 0 (d.h. y i = 0) hohe Wahrscheinlichkeit für Werte in Klasse 1 (d.h. y i = 1) 30

31 Logistische Regression Straffunktion betrachtet negative logarithmisch transformierte Wahrscheinlichkeit (log likelihood) A n B Ÿ L(w) = log (ŷ i ) y i (1 ŷ i ) 1 y i i=1 nÿ = y i log(ŷ i )+(1 y i ) log(1 ŷ i ) i=1 Die optimalen Parameter w lassen sich mit Hilfe des Gradientenabstiegsverfahrens bestimmen 31

32 Logistische Regression in Python import pandas as pd import numpy as np from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split # Modell schätzen ## Autodaten einlesen cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') ## Leistung und Gewicht als Datenmatrix X extrahieren X = cars.iloc[:, [3,4]].values ## Herkunft (U.S. vs. Non-U.S.) als binäres Merkmal extrahieren y = [1 if o == 1 else 0 for o in cars.iloc[:, 7].values] ## Zufällige Aufteilung in 80% Trainingsdaten und 20% Testdaten X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0) ## Logistische Regression lr = LogisticRegression() lr.fit(x_train, y_train) Vollständiges Jupyter-Notebook unter:

33 Logistische Regression in Python 33

34 Zusammenfassung Klassifikation sagt abhängiges nominales Merkmal anhand unabhängiger metrischer Merkmale voraus Konfusionsmatrix als Basis verschiedener Gütemaße Mikro- und Makro-Mittelwertbildung zur Berechnung der Gütemaße im Fall von mehr als zwei Klassen Logistische Regression als Klassifikationsverfahren, welches auf der multiplen lineare Regression aufbaut 34

35 Literatur [1] S. Raschka: Machine Learning in Python, mitp, 2017 (Kapitel 3 und 6) [2] M. J. Zaki und W. Meira: Data Mining and Analysis, Cambridge University Press, 2014 (Kapitel 18 und 22) 35

36 3.3 k-nächste Nachbarn Klassifikation anhand der k nächsten Nachbarn ist ein distanzbasiertes Verfahren, das mehr als zwei Klassen unterstützt Idee: Neuer Datenpunkt wird klassifiziert, indem die k nächsten Datenpunkte mit bekannter Klasse gemäß geeignetem Distanzmaß bestimmt werden die häufigste aus deren Klassen ausgewählt wird Typische Werte für k sind {5, 10, 15, 25}; im Fall binärer Klassifikation ist Wahl eines ungeraden Werts sinnvoll 36

37 k-nächste Nachbarn k-nächste Nachbarn (k nearest neighbors, knn) ist ein faules Lernverfahren (lazy learner), da kein Modell bestimmt wird 37

38 k-nächste Nachbarn? k =3 Vorhersage: 38

39 Minkowski-Distanz Minkowski-Distanz als Familie geeigneter Distanzmaße A m B 1/p ÿ d(x, x Õ )= x i x Õ i p mit Parameter p i=1 39

40 Minkowski-Distanz als Metrik Minkowski-Distanz ist eine Metrik, d.h. es gelten positive Definitheit x, x Õ : d(x, x Õ ) Ø 0 Symmetrie x, x Õ : d(x, x Õ )=d(x Õ,x) Dreiecksungleichung x, x Õ,x ÕÕ : d(x, x ÕÕ ) Æ d(x, x Õ )+d(x Õ,x ÕÕ ) 40

41 Manhattan-Distanz Manhattan-Distanz als Minkowski-Distanz für p = 1 mÿ d(x, x Õ )= x i x Õ i i=1 (2,7) Distanz: 5 Blöcke (z.b. für ein Taxi) (1,3) 41

42 Euklidische Distanz Euklidische Distanz als Minkowski-Distanz für p = 2 ˆ ıÿ d(x, x Õ )= Ù m (x i x Õ i )2 i=1 (2,7) (1,3) Distanz: 4.12 Blocks (z.b. für einen Vogel) 42

43 Probleme bei der Berechnung von Distanzen Betrachten wir Leistung und Gewicht konkreter Autos Leistung [hp] Gewicht [lbs] Die Merkmale haben unterschiedliche Wertebereiche Unterschiede im Gewicht sind tendenziell größer und dominieren die berechneten Distanzen Wir müssen die Wertebereiche der Merkmale anpassen 43

44 Min-Max-Normalisierung Min-Max-Normalisierung bildet Merkmale auf den Wertebereich [0,1] ab es seien z 1,, z n die beobachteten Werte des Merkmals der normalisierte Wert einer Beobachtung ist dann z Õ i = z i min j (z j ) max j (z j ) min j (z j ) Minimum wird auf 0 und Maximum wird auf 1 abgebildet Normalisierung reagiert sensibel auf Ausreißer (outliers) in den Daten (z.b. Messfehler, fehlerhafte Eingaben) 44

45 Standardisierung Standardisierung bildet Merkmale auf den Wertebereich (-,+ ) ab und die standardisierten Werte geben an, um wie viele Standardabweichungen der ursprüngliche Wert vom Mittelwert abweicht es seien z 1,, z n die beobachteten Werte des Merkmals der standardisierte Wert einer Beobachtung ist dann z Õ i = z i µ mit Mittelwert und Standardabweichung als ˆ µ = 1 nÿ ı z i = Ù 1 nÿ (z n i µ) 2 n i=1 i=1 45

46 k-nächste Nachbarn k-nächste Nachbarn ist ein einfaches, aber robustes Klassifikationsverfahren, das immer anwendbar ist, wenn zwischen Datenpunkten ein sinnvolles Distanzmaß definiert werden kann Nachteile: naïve Implementierung, d.h. Distanzberechnung zu allen Datenpunkten aus den Trainingsdaten, ist rechenintensiv (bessere Implementierungen verwenden Indexstrukturen) geringe Interpretierbarkeit, d.h. keine Erkenntnisse darüber, welche Eigenschaften die Datenpunkte einer Klasse auszeichnen (z.b. viel Hubraum für U.S.) 46

47 k-nächste Nachbarn in Python import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score ## Autodaten laden cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') ## Leistung und Gewicht als Datenmatrix X extrahieren X = cars.iloc[:, [3,4]].values ## Herkunft als binäres Merkmal extrahieren y = [1 if o==1 else 0 for o in cars.iloc[:, 7].values] ## Aufteilung in Trainings- und Testdaten X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0) ## knn mit k = 7 anwenden knn = KNeighborsClassifier(n_neighbors=7) knn.fit(x_train, y_train) y_predicted = knn.predict(x_test) ## Gütemaße ausgeben print("korrektklassifizierungsrate:\n", accuracy_score(y_true=y_test, y_pred=y_predicted)) print("präzision:\n", precision_score(y_true=y_test, y_pred=y_predicted)) print("ausbeute:\n", recall_score(y_true=y_test, y_pred=y_predicted)) print("f1:\n", f1_score(y_true=y_test, y_pred=y_predicted)) 47

48 Normalisierung und Standardisierung in Python from sklearn.preprocessing import MinMaxScaler ## Normalisierung der Daten min_max_scaler = MinMaxScaler() min_max_scaler.fit(x_train) # determine min and max X_train_normalized = min_max_scaler.transform(x_train) X_test_normalized = min_max_scaler.transform(x_test) from sklearn.preprocessing import StandardScaler ## Standardisierung der Daten scaler = StandardScaler() scaler.fit(x_train) # determine mean and standard deviation X_train_standardized = scaler.transform(x_train) X_test_standardized = scaler.transform(x_test) Vollständiges Jupyter-Notebook unter:

49 3.4 Naïve Bayes Naïve Bayes ist eine Familie von Klassifikationsverfahren, die insbesondere zur Klassifikation von Textdokumenten (z.b. s in Spam/Nicht-Spam) eingesetzt wird Der Name Naïve Bayes rührt daher, dass die Verfahren den Satz von Bayes für bedingte Wahrscheinlichkeiten verwenden und eine (naïve) Unabhängigkeitsannahme über die Verteilung der verwendeten Merkmale machen 49

50 Bedingte Wahrscheinlichkeit Betrachte zwei Ereignisse A und B, z.b. A ist das Ereignis, dass Objekt ein Kreis ist B ist das Ereignis, dass Objekt grün ist P[A ]=5/9 P[B ]=4/9 A B ist das Ereignis, dass ein grünes Kreis gezogen wird P[A B ]=3/9 50

51 Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit P[ B A ] (lies: B gegeben A) ist die Wahrscheinlichkeit, dass Ereignis B eingetreten ist, wenn wir wissen, dass Ereignis A eingetreten ist P[B A ]= P[A B ] P[A ] hier: P[B A ]=3/5 P[A B ]=3/4 51

52 Stochastische Unabhängigkeit Zwei Ereignisse A und B heißen (stochastisch) unabhängig, wenn gilt P[A B ]=P[A] P[B ] Bemerkung: Die beiden Ereignisse A und B im vorigen Beispiel sind nicht (stochastisch) unabhängig 52

53 Satz von Bayes Thomas Bayes ( ) formulierte folgenden Satz zur Berechnung bedingter Wahrscheinlichkeiten von Ereignissen A und B P[A B ]= P[B A ] P[A ] P[B ] Quelle: en.wikipedia.org Satz von Bayes erlaubt das Umkehren der Schlussrichtung und ist z.b. dann nützlich, wenn eines der Ereignisse schwierig alleine zu beobachten 53

54 Satz von Bayes Beispiel: Untersuchung von Wildtieren Ereignis A soll sein, dass Wildtier ein Fuchs ist Ereignis B soll sein, dass Wildtier an Tollwut erkrankt ist Annahme: Beobachtete Wahrscheinlichkeiten seien P[A ]=0.1 P[B ]=0.05 P[A B ]=0.25 Wahrscheinlichkeit, dass Fuchs an Tollwut erkrankt ist P[B A ]= =

55 Naïve Bayes zur Klassifikation von Dokumenten Dokumente (z.b. s oder Zeitungsartikel) werden vorverarbeitet, z.b. indem Groß- und Kleinschreibung entfernt wird und die Dokumente an Leerzeichen in Wörter aufgeteilt werden Jedes Dokument wird so in eine Multimenge von Wörtern (bag of words) überführt, d.h. Reihenfolge der Wörter geht verloren, ihre Häufigkeit bleibt jedoch erhalten The green politician Peter Green { green, green, peter, politician, the } 55

56 Naïve Bayes zur Klassifikation von Dokumenten Trainingsdaten stehen uns in Form von Dokumenten d zur Verfügung, wobei wir für jedes die zugehörige Klasse c (z.b. Spam / Nicht-Spam) kennen Zur Klassifikation eines vorher unbekannten Dokuments d bestimmt man die bedingten Wahrscheinlichkeiten P[c d ] und ordnet das Dokument in die Klasse mit der höchsten bedingten Wahrscheinlichkeit ein 56

57 Naïve Bayes zur Klassifikation von Dokumenten Wahrscheinlichkeiten der einzelnen Klassen lassen sich auf Grundlage der Trainingsdaten schätzen als P[c ]= # Dokumente in Klasse c # Dokumente Wahrscheinlichkeit, dass ein Wort w in einem Dokument aus einer bestimmten Klasse c vorkommt, geschätzt als P[w c ]= # Vorkommen des Worts w in Dokumenten der Klasse c # Wortvorkommen in Dokumenten in Klasse c 57

58 Naïve Bayes zur Klassifikation von Dokumenten Wahrscheinlichkeit, dass vorher unbekanntes Dokument d zur Klasse c gehört, geschätzt als P[c d ]= P[d c ] P[c ] P[d ] dies kann vereinfacht werden, da nur die Klasse mit maximaler bedingter Wahrscheinlichkeit bestimmt werden muss, der Faktor P[d] jedoch für alle Klassen gleich ist P[c d ] Ã P[d c ] P[c ] 58

59 Naïve Bayes zur Klassifikation von Dokumenten Wahrscheinlichkeit, dass Dokument d aus der Klasse c stammt, schätzt man anhand der Wortvorkommen als P[d c ] Ã Ÿ P[w c ] f(w,d) wœd hierbei sei f(w, d) die Zahl der Vorkommen des Worts w im Dokument d Intuition: Dies entspricht der Wahrscheinlichkeit, dass das Dokument d durch zufälliges Ziehen von Wörtern gemäß der Wahrscheinlichkeiten P[w c] zustande kommt 59

60 Beispiel Naïve Bayes Folgende Dokumente mit Klassen N/S als Trainingsdaten a b x y d N d S d N d S d N Wahrscheinlichkeiten der Klassen N und S P[N ]=3/5 P[S ]=2/5 60

61 Beispiel Naïve Bayes Folgende Dokumente mit Klassen N/S als Trainingsdaten a b x y d N d S d N d S d N Wahrscheinlichkeiten der Wörter a, b, x und y je Klasse P[a N ]=5/10 P[a S ]=1/10 P[b N ]=3/10 P[x N ]=1/10 P[y N ]=1/10 P[b S ]=1/10 P[x S ]=4/10 P[y S ]=4/10 61

62 Beispiel Naïve Bayes Klassifikation des vorher unbekannten Dokuments d 6 a b x y d ? P[N d 6 ]= P[d 6 N ] P[N ] 3 5 = P[S d 6 ]= P[d 6 S ] P[S ] 3 1 = =6.4/106 Das Dokument wird in die Klasse N eingeordnet 3 5 = 135/106 62

63 Umgang mit Nullwahrscheinlichkeiten Kommt ein Wort w in keinem Dokument einer Klasse c vor, so schätzen wir P[w c ]=0 Für ein Dokument, welches w enthält, schätzen wir dann P[c d ]=0 Solche Nullwahrscheinlichkeiten können durch Verfahren zur statistischen Glättung (smoothing) vermieden werden 63

64 Umgang mit Nullwahrscheinlichkeiten Additive Glättung (add-one smoothing) ist ein einfaches Glättungsverfahren, bei dem jede Worthäufigkeit je Klasse um eins erhöht wird, dies entspricht P[w c ]= # Vorkommen des Worts w in Dokumenten der Klasse c +1 # Wortvorkommen in Dokumenten in Klasse c + # Wörter 64

65 Rechnen mit kleinen Wahrscheinlichkeiten Wie am Beispiel zu erkennen, werden die betrachteten Wahrscheinlichkeiten sehr klein, was zu numerischen Problemen (z.b. Abrunden zu Null) führen kann Für eine Implementierung ist es daher ratsam, eine Log-Transformation vorzunehmen log P [ c d ] Ã log P [ d c ] + log P [ c ] log P [ d c ] Ã ÿ wœd f(w, d) log P [ w c ] 65

66 Rechnen mit kleinen Wahrscheinlichkeiten Die Logarithmus-Funktion ist monoton; da es nur gilt, die maximale bedingte Wahrscheinlichkeit P[c d] zu ermitteln, ihr genauer Wert jedoch irrelevant ist, ist eine solche Transformation zulässig 66

67 Naïve Bayes mit metrischen Merkmalen Naïve Bayes kann zur Klassifikation von Datenpunkten x i anhand von metrischen Merkmalen eingesetzt werden P[c x i ] Ã P[x i c ] P[c ] Wahrscheinlichkeiten der einzelnen Klassen c werden anhand ihrer Anzahl in den Trainingsdaten geschätzt P[c ]= # Datenpunkte in Trainingsdaten in Klasse c # Datenpunkte in Trainingsdaten 67

68 Naïve Bayes mit metrischen Merkmalen Wahrscheinlichkeit, dass Datenpunkt x aus der Klasse c stammt, schätzt man anhand seiner Merkmale als P[x i c ]= mÿ P[x i,j c ] j=1 mit Unabhängigkeitsannahme bezüglich Verteilung der unabhängigen Merkmale Zudem wird angenommen, dass das j-te unabhängige Merkmal in der Klasse c normalverteilt ist und Parameter µ c,j und σ c,j anhand der Trainingsdaten geschätzt (analog zur Standardisierung) 68

69 Naïve Bayes mit metrischen Merkmalen Wahrscheinlichkeit, dass beobachteter Wert x i,j des j-ten Merkmals in Klasse c auftritt, wird geschätzt als P[x i,j c ]= 1 c,j Ô 2fi exp (x i,j µ c,j ) c,j 69

70 Naïve Bayes in Python Um Naïve Bayes auf Textdokumenten zu demonstrieren, verwenden wir eine Sammlung von 400,000 Bewertungen von amazon.com zu Mobiltelefonen """CLEAR CLEAN ESN"" Sprint EPIC 4G Galaxy SPH- D700*FRONT CAMERA*ANDROID*SLIDER*QWERTY KEYBOARD*TOUCH SCREEN",Samsung,199.99,4,"nice phone, nice up grade from my pantach revue. Very clean set up and easy set up. never had an android phone but they are fantastic to say the least. perfect size for surfing and social media. great phone samsung",0 Ziel ist die Vorhersage der Anzahl von Sternen (1-5) (hier: 4) anhand des Inhalts der Bewertung 70

71 Naïve Bayes in Python import pandas as pd from sklearn.model_selection import train_test_split from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score, accuracy_score # Bewertungen einlesen reviews = pd.read_csv("../data/amazon-unlocked-mobile/amazon-unlocked-mobile.csv", encoding='utf-8') # Daten bereinigen (Bewertungen mit NULL-Werten werden entfernt) X = reviews.iloc[:,4].values X_clean = X[pd.notnull(X)] y = reviews.iloc[:,3].values y_clean = y[pd.notnull(x)] ## Dokumente in Multimengen von Wörtern (bag of words) umwandeln vectorizer = CountVectorizer() X_cnt = vectorizer.fit_transform(x_clean) ## Zufällige Aufteilung in Trainingsdaten (80%) und Testdaten (20%) X_train, X_test, y_train, y_test = train_test_split(x_cnt, y_clean, test_size=0.2, random_state=0) ## Naive Bayes mit additiver Glättung trainieren nb = MultinomialNB(alpha=1.0) nb.fit(x_train, y_train) 71

72 Naïve Bayes in Python ## Konfusionsmatrix ausgeben print("kofusionsmatrix:\n", confusion_matrix(y_true=y_test, y_pred=y_predicted)) ## Gütemaße ausgeben print("korrektklassifizierungsrate:\n", accuracy_score(y_true=y_test, y_pred=y_predicted)) print("präzision (mikro):\n", precision_score(y_true=y_test, y_pred=y_predicted, average='micro')) print("ausbeute (mikro):\n", recall_score(y_true=y_test, y_pred=y_predicted, average='micro')) print("f1 (mikro):\n", f1_score(y_true=y_test, y_pred=y_predicted, average='micro')) Vollständiges Jupyter-Notebook unter:

73 Zusammenfassung k-nächste Nachbarn als distanzbasiertes Verfahren, welches kein Modell berechnet Normalisierung und Standardisierung zur Angleichung der Wertebereiche verschiedener Merkmale Naïve Bayes als probabilistisches Verfahren wendet den Satz von Bayes an, um bedingte Wahrscheinlichkeiten zu schätzen, und macht eine Unabhängigkeitsannahme bezüglich der Verteilung der Merkmale innerhalb einer Klasse 73

74 Literatur [1] S. Raschka: Machine Learning in Python, mitp, 2017 (Kapitel 3 und 6) [2] M. J. Zaki und W. Meira: Data Mining and Analysis, Cambridge University Press, 2014 (Kapitel 2, 18 und 22) 74