Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Transkript

1 3. Klassifikation

2 Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos anhand seiner Leistung und Gewicht 2

3 Motivation 3

4 Anwendungsbeispiele Klassifikation Klassifikation von eingehenden s anhand ihres Inhalts in die beiden Klassen Spam und Nicht-Spam Bestimmen des Sentiments (positiv, neutral, negativ) eines Satzes anhand der darin enthaltenen Wörter Produktempfehlungen durch Vorhersage, ob ein Artikel interessant oder uninteressant für einen Kunden ist Handschrifterkennung durch Klassifikation von gescannten Ziffern in die Klassen 0,,9 4

5 Binäre Klassifikation vs. Mehrklassenklassifikation Klassifikationsverfahren lassen sich danach unterscheiden, ob sie nur zwei Klassen (binär) oder beliebig viele Klassen unterscheiden können Binäres Klassifikationsverfahren lässt sich mittels folgender Strategien zur Mehrklassenklassifikation verwenden One-vs-All: Trainiere für jede der n Klassen ein Modell, das die Klasse von den anderen Klassen unterscheidet; ordne einen Datenpunkt der Klasse mit höchster Konfidenz zu One-vs-One: Trainiere für jedes Paar von Klassen ein Modell, das die beiden unterscheidet; ordne Datenpunkt der am häufigsten vorhergesagten Klasse zu 5

6 Überwachtes Lernen vs. unüberwachtes Lernen Klassifikationsverfahren sind wie Regressionverfahren typische Beispiele für überwachtes Lernen (supervised learning) anhand von Trainingsdaten (d.h. Datenpunkte mit bekanntem Wert des abhängigen Merkmals) Unüberwachtes Lernen (unsupervised learning) mit Clusteringverfahren als typischen Beispielen benötigt hingegen keine Trainingsdaten Teilüberwachtes Lernen (semi-supervised learning) lernt anhand von Trainingsdaten und anderen Daten 6

7 Inhalt 3.1 Evaluation 3.2 Logistische Regression 3.3 k-nächste Nachbarn 3.4 Naïve Bayes 3.5 Entscheidungsbäume 3.6 Ensemble Learning 3.7 Support Vector Machines 3.8 Label Propagation 7

8 3.1 Evaluation Wie können wir die Güte, d.h. Vorhersagekraft, eines Klassifikationsverfahren systematisch evaluieren? Aufteilung in Trainings-, Validierungs- und Testdaten (z.b. mittels k-facher Kreuzvalidierung) ist wie bei Regressionsverfahren gute Praxis Zunächst betrachten wir den Fall binärer Klassifikation und erweitern die Gütemaße dann für den Fall der Mehrklassenklassifikation 8

9 Konfusionsmatrix Die Vorhersagen eines binären Klassifikators lassen sich in einer Konfusionsmatrix darstellen Die beiden Klassen werden hierbei allgemein als 0 (Negative) und 1 (Positive) bezeichnet Einteilung klassifizierter Datenpunkte in vier Kategorien Richtig Negative (true negatives) Falsch Positive (false positives) Falsch Negative (false negatives) Richtig Positive (true positives) 9

10 Konfusionsmatrix Vorhersage 0 (Nein) 1 (Ja) Daten 0 (Nein) Richtig Negative (RN) Falsch Positive (FP) 1 (Ja) Falsch Negative (FN) Richtig Positive (RP) Basierend auf solch einer Konfusionsmatrix lassen sich nun Gütemaße definieren, welche verschiedene Eigenschaften des Klassifikators bewerten 10

11 Korrektklassifizierungsrate und Fehlerquote Korrektklassifizierungsrate (accuracy) misst die Fähigkeit des Klassifikators, Datenpunkte der richtigen Klasse zuzuordnen KKR = RP+RN FP+FN +RP+RN Fehlerquote (error rate) misst die Tendenz des Klassifikators, Datenpunkte der falschen Klasse zuzuordnen FQ = FP+FN FP+FN +RP+RN =1 KKR 11

12 Richtig-Positiv-Rate und Falsch-Positiv-Rate Richtig-Positiv-Rate (true positive rate) misst die Fähigkeit des Klassifikators, Datenpunkte der positiven Klasse richtig zu klassifizieren RPR = RP FN +RP Falsch-Positiv-Rate (false positive rate) misst die Tendenz des Klassifikators, Datenpunkte der negativen Klasse falsch zu klassifizieren FPR = FP FP+RN 12

13 Präzision und Ausbeute Präzision (auch: Genauigkeit) (precision) misst die Fähigkeit des Klassifikators, Datenpunkte richtig der positiven Klasse zuzuordnen P = RP RP+FP Ausbeute (auch: Trefferquote) (recall) misst die Fähigkeit des Klassifikators, Datenpunkte der positiven Klasse richtig zu klassifizieren R = RP FN +RP 13

14 F1-Maß F1-Maß (f1 measure) als harmonisches Mittel von Präzision und Ausbeute wird in der Praxis häufig verwendet F1 =2 P R P+R 14

15 Beispiel Gütemaße Betrachte folgende Konfusionsmatrix eines Klassifikators Daten Vorhersage 0 (Nein) 1 (Ja) 0 (Nein) (Ja) 6 44 Korrektklassifizierungsrate Fehlerquote KKR = = FQ = =

16 Beispiel Gütemaße Betrachte folgende Konfusionsmatrix eines Klassifikators Daten Vorhersage 0 (Nein) 1 (Ja) 0 (Nein) (Ja) 6 44 Richtig-Positiv-Rate RPR = = Falsch-Positiv-Rate FPR = =

17 Beispiel Gütemaße Betrachte folgende Konfusionsmatrix eines Klassifikators Daten Vorhersage 0 (Nein) 1 (Ja) 0 (Nein) (Ja) 6 44 Präzision P = = Ausbeute R = =

18 Beispiel Gütemaße Betrachte folgende Konfusionsmatrix eines Klassifikators Daten Vorhersage 0 (Nein) 1 (Ja) 0 (Nein) (Ja) 6 44 F1-Maß F1 =

19 Gütemaße für Mehrklassenklassifikation Konfusionsmatrix enthält bei Mehrklassenklassifikation eine Zeile und eine Spalte pro Klasse, z.b. bei drei Klassen: Vorhersage A B C Daten A B C Grundlegende Idee ist nun, dass wir jede Klasse einmal als positive und die anderen als negative Klasse betrachten und die resultierenden Gütemaße aggregieren 19

20 Beispiel Mehrklassenklassifikation Daten Vorhersage A B C A B C A B C V V V D D D

21 Mikro- und Makro-Mittelwertbildung Es gibt zwei Möglichkeiten zur Mittelwertbildung über das gewünschte Gütemaß je Klasse Mikro-Mittelwertbildung (micro average) summiert jede der vier Kategorien (RN, FN, RP, FP) über die Klassen und setzt diese Summen in die Definition ein P = R = RP A + RP B + RP C RP A + RP B + RP C + FP A + FP B + FP C RP A + RP B + RP C FN A + FN B + FN C + RP A + RP B + RP C 21

22 Beispiel Mikro-Mittelwertbildung A B C V V V D D D P = R = = =

23 Mikro- und Makro-Mittelwertbildung Makro-Mittelwertbildung (macro average) berechnet das Gütemaß pro Klasse und bildet den Mittelwert P = 1 3 (P A + P B + P C ) R = 1 3 (R A + R B + R C ) 23

24 Beispiel Makro-Mittelwertbildung A B C V V V D D D P A = = R A = = P B = = R B = = P C = = 5 16 R C = = 5 30 P = R =

25 3.2 Logistische Regression Logistische Regression ist ein einfaches aber weit verbreitetes binäres Klassifikationsverfahren, welches auf linearer Regression aufbaut Logistische Regression betrachtet Datenpunkte, (x (i,1),x (i,2),...,x (i,m),y i ) wobei das abhängige nominale Merkmal die Werte 0 und 1 annehmen kann, d.h. y i {0, 1} 25

26 Logistische Regression Logistische Regression sagt die Wahrscheinlichkeit ŷ i = P [x i gehört zu Klasse 1] 1 ŷ i = P [x i gehört zu Klasse 0] voraus, und wir können die Klasse durch Runden ( 0 : ŷ i < 0.5 c(ŷ i )= 1 : ŷ i 0.5 bestimmen 26

27 Logistische Regression Logistische Regression nimmt als Model an, dass sich das logarithmische Chancenverhältnis (log odds ratio) als Linearkombination der unabhängigen metrischen Merkmale erklären lässt log ŷ i (1 ŷ i ) = w 0 + w 1 x i, w m x i,m Löst man dies nach der Vorhersage auf, erhält man 1 ŷ i = 1+e (w 0+w 1 x i, w m x i,m ) 27

28 Logistische Funktion Die logistische Funktion (auch: Sigmoidfunktion) (z) = 1 1+e z bildet Werte aus (-,+ ) nach [0, 1] ab 28

29 Logistische Regression? Logistische Regression bestimmt eine Gerade (allgemein: Hyperebene), welche die Datenpunkte der Klassen möglichst gut separiert, d.h. voneinander trennt 29

30 Logistische Regression Logistische Regression maximiert Wahrscheinlichkeit (likelihood), dass das Modell die beobachteten Werte y i korrekt klassifiziert nÿ (ŷ i ) y i (1 ŷ i ) 1 y i i=1 Intuition: niedrige Wahrscheinlichkeit für Werte in Klasse 0 (d.h. y i = 0) hohe Wahrscheinlichkeit für Werte in Klasse 1 (d.h. y i = 1) 30

31 Logistische Regression Straffunktion betrachtet negative logarithmisch transformierte Wahrscheinlichkeit (log likelihood) A n B Ÿ L(w) = log (ŷ i ) y i (1 ŷ i ) 1 y i i=1 nÿ = y i log(ŷ i )+(1 y i ) log(1 ŷ i ) i=1 Die optimalen Parameter w lassen sich mit Hilfe des Gradientenabstiegsverfahrens bestimmen 31

32 Logistische Regression in Python import pandas as pd import numpy as np from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split # Modell schätzen ## Autodaten einlesen cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') ## Leistung und Gewicht als Datenmatrix X extrahieren X = cars.iloc[:, [3,4]].values ## Herkunft (U.S. vs. Non-U.S.) als binäres Merkmal extrahieren y = [1 if o == 1 else 0 for o in cars.iloc[:, 7].values] ## Zufällige Aufteilung in 80% Trainingsdaten und 20% Testdaten X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0) ## Logistische Regression lr = LogisticRegression() lr.fit(x_train, y_train) Vollständiges Jupyter-Notebook unter: [HTML] [IPYNB] 32

33 Logistische Regression in Python 33

34 Zusammenfassung Klassifikation sagt abhängiges nominales Merkmal anhand unabhängiger metrischer Merkmale voraus Konfusionsmatrix als Basis verschiedener Gütemaße Mikro- und Makro-Mittelwertbildung zur Berechnung der Gütemaße im Fall von mehr als zwei Klassen Logistische Regression als Klassifikationsverfahren, welches auf der multiplen lineare Regression aufbaut 34

35 Literatur [1] S. Raschka: Machine Learning in Python, mitp, 2017 (Kapitel 3 und 6) [2] M. J. Zaki und W. Meira: Data Mining and Analysis, Cambridge University Press, 2014 (Kapitel 18 und 22) 35