Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Transkript

1 4. Klassifikation

2 Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden 2

3 4.1 Motivation Regressionsverfahren erklären metrisches Merkmal anhand unabhängiger metrischer Merkmale Beispiel: Sage Verbrauch (in l/100km) anhand Gewicht, PS, Hubraum, Zylinder, Beschleunigung und Jahr voraus Klassifikationsverfahren erklären nominales Merkmal anhand unabhängiger metrischer Merkmale Beispiel: Sage Herkunft (Europa, Japan, U.S.A.) anhand Verbrauch, Gewicht, Hubraum, Zylinder und Jahr voraus 3

4 Anwendungen von Klassifikationsverfahren Klassifikation von Zeitungsartikeln oder Blogposts in Politik, Sport, Kultur, Reise und Auto Klassifikation von s in Spam und Nicht-Spam Segmentierung von Kunden in Schnäppchenjäger, Normalos und Luxusliebhaber Produktempfehlungen für bestimmten Kunden durch Klassifikation in Interessant und Nicht-Interessant Handschrifterkennung auf Überweisungsträgern durch Klassifikation der gescannten Zeichen in Klassen 0-9 4

5 Überwachtes vs. unüberwachtes Lernen Verfahren des maschinellen Lernens lassen sich in verschiedene Kategorien einteilen; zwei wichtige sind überwachtes Lernen (supervised learning) mit Klassifikationsverfahren als typischem Beispiel nutzt Trainingsdaten (z.b. klassifizierte Datenpunkte) aus unüberwachtes Lernen (unsupervised learning) mit Clusteringverfahren als typischem Beispiel erkennt Zusammenhänge in den gegebenen Daten 5

6 Überwachtes vs. unüberwachtes Lernen Beispiel: Betrachten wir Zeitungsartikel als Anwendung Klassifikationsverfahren, als überwachtes Lernen, lernt anhand von bereits manuell klassifizierten Zeitungsartikeln, vorher unbekannte Zeitungsartikel in Politik, Sport, Kultur, Reise und Auto einzuteilen Clusteringverfahren, als unüberwachtes Lernen, teilt eine gegebene Menge von Zeitungsartikeln anhand ihres Inhalts in möglichst homogene Gruppen (cluster) auf; diese Gruppen sind vorab nicht festgelegt und müssen nicht den manuell bestimmten Klassen Politik etc. entsprechen 6

7 Binäre vs. Mehrklassen Klassifikation Klassifikationsverfahren lassen sich nach der Ausprägung des zu erklärenden nominalen Merkmals unterscheiden binäre Klassifikationsverfahren (z.b. Spam vs. Nicht-Spam) wenn es zwei Werte des zu erklärenden Merkmals gibt Mehrklassen Klassifikationsverfahren (z.b. Sport vs. Politik vs. Kultur) wenn es mehr als zwei Werte des zu erklärenden Merkmals gibt 7

8 Binäre vs. Mehrklassen Klassifikation Binäre Klassifikationsverfahren z.b. logistische Regression Support Vector Machines Mehrklassen Klassifikationsverfahren z.b. Entscheidungsbäume k-nächste Nachbarn Naïve Bayes 8

9 Binäre vs. Mehrklassen Klassifikation Binäre Klassifikationsverfahren lassen sich durch Trick zur Klassifikation in mehr als zwei Klassen einsetzen bestimme für jede Klasse einen Klassifikator, der die Klassen von allen anderen Klassen unterscheidet (z.b. Sport vs. Nicht-Sport als Vereinigung anderer Klassen) klassifiziere vorher unbekannten Datenpunkt mit jedem der zuvor bestimmten Klassifikatoren (z.b. Sport vs. Nicht- Sport, Politik vs. Nicht-Politik, Kultur vs. Nicht-Kultur) und weise dem Datenpunkt die Klasse des Klassifikators mit dem höchsten Konfidenz-Wert zu 9

10 4.2 Evaluation Systematische Vorgehensweise, um die Güte eines Klassifikationsverfahrens zu messen bzw. verschiedene Verfahren miteinander zu vergleichen Analog zur Evaluation von Regressionsverfahren, ist eine Aufteilung der manuell klassifizierten Daten in Trainings- und Testdaten ggf. mit Kreuzvalidierung sinnvoll 10

11 Konfusionsmatrix Wenden wir einen Klassifikator auf unsere Testdaten an, so erhalten wir als Ergebnis eine Konfusionsmatrix Spalten entsprechen wirklichen Klassen der Testdaten; Zeilen geben Vorhersage des Klassifikators wieder Beispiel: Klassifikation in Sport, Kultur und Politik je Klasse wurden 10 von 20 Datenpunkten korrekt klassifiziert 3 der Datenpunkte aus Politik wurden fälschlicherweise als Sport klassifiziert S K P S K P

12 Gütemaße Konfusionsmatrix bildet Grundlage zur Berechnung verschiedener Gütemaße eines Klassifikators Präzision (precision) als Maß der Fähigkeit, eine bestimmte Klasse genau zu erkennen Ausbeute (recall) als Maß der Fähigkeit, alle Datenpunkte einer Klasse zu erkennen F-Maß (f-measure) als harmonisches Mittel von Precision und Recall 12

13 Präzision (precision) Präzision (precision) eines Klassifikators für eine bestimmte Klasse ist definiert als Precision = #TP #TP + #FP #TP (true positives) als Zahl der Datenpunkte aus der betrachteten Klasse, die korrekt in die betrachtete Klasse eingeordnet wurden #FP (false positives) als Zahl der Datenpunkte aus anderen Klassen, die fälschlicherweise in die betrachtete Klasse eingeordnet wurden 13

14 Präzision (precision) Beispiel: Klassifikation in Sport, Kultur und Politik Betrachte jede Zeile der Konfusionsmatrix Sport: #TP ist 10 #FP ist 7 und Präzision damit 10 / 17 Kultur: #TP ist 10 #FP ist 12 und Präzision damit 10 / 22 Politik: #TP ist 10 #FP ist 11 und Präzision damit 10 / 21 S K P S K P

15 Ausbeute (recall) Ausbeute (recall) eines Klassifikators für eine bestimmte Klasse ist definiert als Recall = #TP #TP + #FN #TP (true positives) als Zahl der Datenpunkte aus der betrachteten Klasse, die korrekt in die betrachtete Klasse eingeordnet wurden #FN (false negatives) als Zahl der Datenpunkte aus der betrachteten Klasse, die fälschlicherweise in eine andere Klasse eingeordnet wurden 15

16 Ausbeute (recall) Beispiel: Klassifikation in Sport, Kultur und Politik Betrachte jede Spalte der Konfusionsmatrix Sport: #TP ist 10 #FN ist 10 und Ausbeute damit 10 / 20 Kultur: #TP ist 10 #FN ist 10 und Ausbeute damit 10 / 20 Politik: #TP ist 10 #FN ist 10 und Ausbeute damit 10 / 20 S K P S K P

17 Micro- vs. Macro-Average Bisher haben wir Präzision und Ausbeute nur für eine bestimmte Klasse definiert; man möchte diese jedoch auch über alle Klassen hinweg angeben können Macro-averaged Precision und Recall als Mittelwert über Präzision und Ausbeute je Klasse Precision = Recall = S K P S K P

18 Micro- vs. Macro-Average Micro-averaged Precision aggregiert zuerst #TP, #FP über alle Klassen hinweg Precision = = #TP S +#TP K +#TP P #TP S +#TP K +#TP P +#FP S +#FP K +#FP P S K P S K P

19 Micro- vs. Macro-Average Micro-averaged Recall aggregiert zuerst #TP und #FN über alle Klassen hinweg Recall = = #TP S +#TP K +#TP P #TP S +#TP K +#TP P +#FN S +#FN K +#FN P S K P S K P

20 F-Maß (f-measure) F-Maß (f-measure) als harmonisches Mittel zwischen Precision und Recall kombiniert die beiden Maße F 1 =2 Precision Recall Precision + Recall und nimmt einen Wert in [0,1] an 20

21 4.3 Logistische Regression Logistische Regression ist ein Klassifikationsverfahren, welches auf linearer Regression aufbaut, jedoch ein binäres nominales Merkmal erklärt Rückblick: Multiple lineare Regression erklärt abhängiges metrisches Merkmal y als lineare Kombination unabhängiger metrischer Merkmale x (,j) ŷ i = x (i,1) + 2 x (i,2) m x (i,m) mit Vorhersage ŷ i œ R 21

22 Logistische Regression Daten stehen in Form von n Beobachtungen zur Verfügung (x (1,1),...,x (1,m),y 1 ),...,(x (n,1),...,x (n,m),y n ) Jeder Datenpunkt (x (i,1),, x (i,m), y i ) besteht aus x (i,j) œ R als Werte der unabhängigen Merkmale x (,j) y i œ {0, 1} als Wert des abhängigen Merkmals y Logistische Regression verwendet eine lineare Kombination der unabhängigen Merkmale, transformiert den Wert der Vorhersage jedoch derart, dass er in [0,1] liegt 22

23 Logistische Funktion Logistische Funktion (auch: Sigmoidfunktion) bildet einen Wert z œ R auf einen Wert f(z) œ [0, 1] ab f(z) = 1 1+e z f(z) z 23

24 Logistische Regression Logistische Regression erklärt das abhängige nominale Merkmal anhand der unabhängigen metrischen Merkmale als ŷ i = 1 1+e ( 0+ 1 x (i,1) + 2 x (i,2) m x (i,m) ) ŷ i Vorhersage kann als Wahrscheinlichkeit P[y i =1 x i ] interpretiert werden dass der Datenpunkt x i zur Klasse y i = 1 gehört und lässt sich durch Runden in einen binären Wert in {0,1} transformieren 24

25 Logistische Regression Logistische Regression als Optimierungsproblem arg min nÿ (y i log(ŷ i )+(1 y i ) log(1 ŷ i )) i=1 Optimaler Parametervektor β ist mittels stochastischem Gradientenverfahren bestimmbar 25

26 Logistische Regression in R Beispiel: Binäre Klassifikation von Autos nach Herkunft U.S.A vs. Japan/Europa anhand aller anderen Merkmale 1 # Modell ausgeben 2 autos$hk <- 0 3 autos$hk[autos$ Herkunft == "U.S.A."] < # Trainings- (70%) und Testdaten (30%) erzeugen 6 train <- sample( nrow(autos), 0.7* nrow(autos)) 7 autos.train <- autos[train,] 8 autos.test <- autos[-train,] 9 10 # Logistische Regression 11 fit <- glm(hk Gewicht+PS+Verbrauch+Beschleunigung+Jahr+Zylinder+Hubraum, 12 data=autos.train, family= binomial()) # Vorhersagen auf Testdaten berechnen 15 prob <- predict(fit, autos.test, type=" response") 16 pred <- factor(prob > 0.5, levels=c(false,true), labels=c("0","1")) # Konfusionsmatrix berechnen 19 perf <- table(pred, autos.test$hk, dnn=c(" Vorhersage"," Daten")) 26

27 Logistische Regression in R 1 # Konfusionsmatrix ausgeben 2 perf 3 4 Daten 5 Vorhersage # Modell ausgeben fit Call: glm( formula = HK Gewicht + PS + Verbrauch + Beschleunigung + 14 Jahr + Zylinder + Hubraum, family = binomial(), data = autos.train) Coefficients: 17 (Intercept) Gewicht PS Verbrauch Beschleunigung Jahr Zylinder Hubraum

28 Logistische Regression Parameter β j können bezüglich der Chancen (odds) P [y i = 1] P [y i = 0] = P [y i = 1] (1 P [y i = 1]) interpretiert werden Erhöhung des Merkmals x (,j) um eine Einheit verändert die Chance, dass der Datenpunkt zur Klasse y i = 1 gehört um einen Faktor exp(β j ) Beispiel: Auto mit einem Liter höheren Hubraum stammt mit um Faktor 1438 = exp(7.2714) höheren Wahrscheinlichkeit aus U.S.A. 28

29 Zusammenfassung Klassifikationsverfahren haben viele Anwendungen Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar Konfusionsmatrix stellt Vorhersagen und Daten gegenüber und erlauft Berechnung von Präzision, Ausbeute und F-Maß als Gütemaße Logistische Regression zur binären Klassifikation basierend auf linearer Regression 29

30 Literatur [1] L. Fahrmeir, R. Künstler, I. Pigeot und G. Tutz: Statistik Der Weg zur Datenanalyse, Springer 2012 [2] R. Kabacoff: R In Action, Manning 2015 [Kapitel 17] [3] N. Zumel und J. Mount: Practical Data Science with R, Manning 2014 [Kapitel 7] 30