Überwachtes Lernen I: Klassifikation und Regression

Transkript

1 Überwachtes Lernen I: Klassifikation und Regression Praktikum: Data Warehousing und Data Mining

2 Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung) Unter Benutzung beliebiger bekannter Attributwerte Institut für Programmstrukturen und Datenorganisation (IPD) Beispiele: Klassifikation von Spam Vorhersage von Kundenverhalten wie Kündigungen (Churn) Vorhersage von Kreditwürdigkeit Beurteilung von industriellen Gütern 2

3 Regressionsprobleme Idee Bestimmung eines unbekannten numerischen Attributwertes (ordinale und kategorische Vorhersagen durch Schwellwertsetzung) Unter Benutzung beliebiger bekannter Attributwerte Institut für Programmstrukturen und Datenorganisation (IPD) Beispiele: Vorhersage von Kundenverhalten wie Zeit bis Kündigung Vorhersage von Kosten, Aufwand o.ä. Voraussage von Verkaufszahlen, z.b. von Büchern 3

4 Prozess 1: Klassifikationsmodell lernen Trainings- Daten Klassifikator Lernen NAME RANK YEARS TENURED Mike Assistant Prof 3 no Mary Assistant Prof 7 yes Bill Professor 2 yes Jim Associate Prof 7 yes Dave Assistant Prof 6 no Anne Associate Prof 3 no Klassifikator IF rank = Professor OR years > 6 THEN tenured = yes 4

5 Prozess 2: Vorhersagen mit dem Modell Klassifikator Test- Daten NAME RANK YEARS TENURED Tom Assistant Prof 2 no Merlisa Associate Prof 7 no George Professor 5 yes Joseph Assistant Prof 7 yes Neue Daten (Jeff, Professor, 4) Tenured? 5

6 Überwachtes vs. Unüberwachtes Lernen Überwachtes Lernen (Klassifikation, Regression) Bei den Trainingsdaten ist das Vorhersageattribut bekannt Die Zielgrößen neuer Datensätze werden auf Basis des gelernten Modells vorhergesagt Unüberwachtes Lernen (Clusteranalyse) Die Vorhersageattribute (Klassen bzw. hier Cluster) des Lerndatensatzes sind unbekannt Ziel ist es, aus Werten und Beobachtungen des Datensatzes eine Clustereinteilung zu finden 6

7 Techniken zum überwachten Lernen Technik Klassifikation Regression k-nearest Neighbour X X Statistische Techniken (Lineare Regression etc.) Entscheidungsbäume Regressionsbäume (X) X Neuronale Netze X X Support Vektor Maschinen (SVMs) X X Regelbasierte Techniken X X Naive Bayes Assoziationsregeln zur Klassifikation (X) X X X X 7

8 Zum Einstieg: k-nearest Neighbour Gegeben: Lerndatensatz L Vorgehen zur Klassifikation eines Tupels t: Menge S: die k nächsten Nachbarn von t in L Klassifikation von t durch Klasse mit meisten Elementen in S Als Regressionsverfahren: Vorhersage ist Mittelwert der Tupel in S Anmerkungen: Nähe über Distanzmaß (z.b. euklidische Distanz) Kein Lernen im engeren Sinn Vorhersage rechenaufwändig für große L Einsatz nur sinnvoll bei wenigen, numerischen Attributen 8

9 Statistische Techniken zur Regression

10 Einfache Lineare Regression Vorhersage der Zielvariable y durch eine Prediktorvariable x Gegeben: Lerndatensatz D = {(x 1, y 1 ), (x 2, y 2 ),, (x n, y n )}, n = D Vermutung eines linearen Zusammenhangs Gesucht: Gerade y = w 0 + w 1 x Bestimmung von w 0, w 1 (Regressionskoeffizienten) w 0 = 23,6 w 1 = 03,5 y = 23,6 + 3,5 x Lerndatensatz D: 10

11 Berechnung der Regressionskoeffizienten Zunächst: Bestimmung des Fehlers als Summe der quadratischen Abweichungen E= Σ i (y i (w 0 + w 1 x i )) 2 Aus der notwendigen Bedingung für ein Minimum der Fehlfunktion lassen sich unter Verwendung von partiellen Ableitungen w 0 und w 1 berechnen: w D ( x i i= 1 = D 1 i= 1 x)( y ( x i i x) 2 y) w 0 = y w x 1 x, y: y Durchschnitt aller x 1, x 2,, x n bzw. aller y 1, y 2,, y n (Rechenbeispiel: S. Data-Mining-Buch von J. Han, M. Kamber) 11

12 Lineare Regression Fehlermaße Üblich ist: Mittlerer quadratischer Abstand in y-richtung Andere sinnvolle Fehlermaße: Mittlerer absoluter Abstand in y-richtung Mittlerer euklidischer Abstand Maximaler absoluter/quadratischer Abstand in y-richtung Maximaler euklidischer Abstand Diese Maße können jedoch nicht verwendet werden: Betragsfunktion (absoluter Abstand) und Maximum sind nicht überall differenzierbar. Die Ableitung beim euklidischen Abstand führt zu einem nichtlinearen Gleichungssystem; ist nicht analytisch lösbar. 12

13 Multivariate Lineare Regression Typischerweise steht nicht nur eine Prediktorvariable x zur Verfügung, sondern mehrere (p) : Vektor X i := x i,1, x i,2,, x i,p Lerndatensatz: D = {(X 1, y 1 ), (X 2, y 2 ),, (X n, y n )} Hyper-Ebene: y = w 0 + w 1 x 1 + w 2 x w p x p Die Methode zur Minimierung der Fehler-Quadrate kann übertragen werden: Es entsteht ein lineares Gleichungssystem. Lösbar mit linearer Algebra (Matrizen). Lösung mit numerischen Methoden oft effizienter. 13

14 Lineare Regression Bewertung Eigenschaften Aufwand zum Lösen der Gleichungen: O(p³) Koeffizienten sind eventuell interpretierbar. Vorteile Relativ simples Modell: p-dimensionale Hyperebene bei p Prediktorvariablen Dient als Baseline zum Vergleich von Regressionstechniken. Nachteile Gleichungen sind eventuell nicht lösbar, wenn Prediktorvariablen (nahezu) linear abhängig voneinander sind. Alle Prediktorvariablen werden betrachtet, auch irrelevante. Anfällig für Outlier. (Ignorieren von Datenpunkten gefährlich!) Nicht alle Probleme sind linear 14

15 Nichtlineare Regression Einige nichtlineare Probleme können als polynomielle Funktion modelliert werden. Polynomielle (u.a.) Funktionen können in lineare Regressionsmodelle transformiert werden, z.b.: y = w 0 + w 1 x + w 2 x 2 + w 3 x 3 wird gemappt auf: y = w 0 + w 1 x + w 2 x 2 + w 3 x 3 Die Methode zur Minimierung der Fehler-Quadrate mit Ableitungstechniken kann prinzipiell auf beliebige Funktionen übertragen werden. Eventuell sehr hoher Rechenaufwand, aber oft nicht lösbar. Hintergrundwissen kann helfen, einen Term zu finden. 15

16 Lokale Lineare Regression Idee: Mehrere einfache Regressionsfunktionen (hier Geraden) für verschiedene Wertebereiche von x Problem: Brüche an Wertebereichsgrenzen Eine Lösung: Splines glätten die Übergänge Gut geeignet bei wenigen Prädiktorvariablen. Bestimmte Regressionsbäuzme greiften die Idee lokale Regression auf y y x x 16

17 Weitere nichtlineare Verfahren Oft ist eine numerische Parameter-Bestimmung aus partiellen Ableitungen nicht möglich: Parameter gehen nichtlinear in die Regressionsfunktion ein. Ein alternatives Fehlermaß wird verwendet. Lösungsansatz: Systematisches Trial and Error 1. Aufstellen einer (beliebigen) Regressionsfunktion. 2. Suche nach geeigneten Parametern: Random Search Hillclimbing Varianten um lokale Minima zu verhindern Genetische Algorithmen 17

18 Generalisierung vs. Overfitting y Training data y Too simple? x x Too complex? About right? y y x x 18

19 Entscheidungsbäume

20 Klassifikation - Entscheidungsbäume Vorgehen Aufbau eines Baums Knoten entspricht Entscheidungskriterium Blatt entspricht Entscheidung Vorteile Ergebnis leicht interpretierbar Übersetzbar in Regelsystem nein nicht kaufen Zulassung hoch Alter ja Verbrauch niedrig kaufen Diverse Verfahren ID3 / C4.5 / C5.0 / J48 C&RT Quest Chaid alt nicht kaufen modern kaufen Eine Regel (von mehreren): Wenn Zulassung vorhanden und Verbrauch niedrig, dann kaufen. 20

21 Vorgehen bei der Konstruktion 01 Alle Datentupel im Wurzelknoten 02 IF Stoppkriterium erreicht THEN 03 Aktueller Knoten wird Blattknoten mit Majoritätsklasse 04 ELSE 05 Suche geeignetes Entscheidungssattribut (Splitattribut) 06 Wende Algorithmus rekursiv auf Teilmengen an Anschließend: Beschneide Baum (Pruning) Existierende Algorithmen unterscheiden sich in der Wahl des Stoppkriteriums der Art des Splits dem Vorgehen zur Wahl des Splitattributs dem Vorgehen zum Splitten eines Attributs der Wahl des Pruningverfahrens 21

22 Wahl des Stoppkriteriums Natürliche Stoppkriterien Institut für Programmstrukturen und Datenorganisation (IPD) Knoten enthält (fast) nur Tupel einer Klasse Alle Tupel sind identisch bis auf die Klasse Alle Klassifikationsattribute ausgeschöpft Weitere Kriterien Minimale Tupelzahl je Knoten Minimaler Anteil falsch klassifizierter Tupel Maximale Baumtiefe Maximale Knotenanzahl 22

23 Art des Splits Diskrete vs. kontinuierliche Attribute Diskret Ein Knoten pro Attributwert Kontinuierlich: Ein Knoten pro Attributintervall blau < 5 Augenfarbe Alter Binäre vs. n-äre Bäume Zwei oder mehrere Ausgangskanten rot 5 10 grün > 10 Frage: Wie erreicht man binäre Bäume mit kategorischen Attributen? Frage: Wie gelangt man an Attributintervalle? 23

24 Wahl des Splitattributs Beispiel (binäres Attribut) Objektmenge: Verschiedene Splits möglich: Split A: Linke Seite : 17% Fehler Rechte Seite : 50% Fehler Split B: Linke Seite : 22% Fehler Rechte Seite : 33% Fehler Split C Institut für Programmstrukturen und Datenorganisation (IPD) Welcher Split ist vorzuziehen? Festlegung eines Bewertungsmaßes 24

25 Prinzip Informationsgewinn Maximierung des Informationsgewinns Vorgehen Basiert auf Shannon-Entropie H = - n i=1 p i log 2 p i Informationsgewinn I gain (C,A) = H(C) H(C A) I gain (C,A) = - C i=1 p i log 2 p i A j=1 p j (- C i=1 p i j log 2 p i j ) H(C) Entropie der Klassenverteilung (mit C Klassenattribut) H(C A) Erwartete Entropie der Klassenverteilung, wenn Attribut A bekannt 25

26 Informationsgewinn - Beispiel Berechnung des Informationsgewinns Allgemein: I gain (C,A) = - C i=1 p i log 2 p i A j=1 p j (- C i=1 p i j log 2 p i j ) H(C) = - (4/12 * log 2 (4/12) + 8/12 * log 2 (8/12)) = 0,918 Split A: I gain (C,A) = 0,918 (6/12 * (-1) * (1/6 * log 2 (1/6) + 5/6 * log 2 (5/6)) I gain (C,A) = + 6/12 * (-1) * (3/6 * log 2 (3/6) + 3/6 * log 2 (3/6))) I gain (C,A) = 0,918 0,325 0,500 I gain (C,A) = 0,918 0,825 = 0,093 Split B: I gain (C,B) = 0,918 (9/12 * (-1) * (2/9 * log 2 (2/9) + 7/9 * log 2 (7/9)) I gain (C,A) = + 3/12 * (-1) * (1/3 * log 2 (1/3) + 2/3 * log 2 (2/3))) I gain (C,A) = 0,918 0,573 0,230 I gain (C,A) = 0,918 0,803 = 0,115 Hier würde B bevorzugt 26

27 Gini Index Prinzip Minimierung der Heterogenität Institut für Programmstrukturen und Datenorganisation (IPD) Vorgehen Wahrscheinlichkeitsmaß, bei Stichprobe Datentupel aus 2 unterschiedlichen Klassen zu erhalten: Gini = 1 p(0)² p(1)² Minimum = 0,0 alle Objekte aus einer Klasse Maximale Homogenität Maximum = 0,5 Objekte zweier Klassen gleich häufig Maximale Heterogenität 27

28 Gini Index - Beispiel Berechnung der Heterogenität Split A: Linke Seite = 1 - (1/6) 2 - (5/6) 2 = 0,278 Rechte Seite = 1 - (3/6) 2 - (3/6) 2 = 0,500 Split B: Linke Seite = 1 - (2/9) 2 - (7/9) 2 = 0,346 Rechte Seite = 1 - (1/3) 2 - (2/3) 2 = 0,444 Einfacher Durchschnitt A: (0, ,500) / 2 = 0,389 B: (0, ,444) / 2 = 0,395 Hier würde A bevorzugt Institut für Programmstrukturen und Datenorganisation (IPD) 28

29 Weitere Bewertungsmaße Chi-Quadrat-Test Institut für Programmstrukturen und Datenorganisation (IPD) Maß für die Abhängigkeit zwischen Merkmal und Zielgröße Auswahl des Merkmals mit dem höchsten Chi- Quadrat-Wert (= stärkste Abhängigkeit) Minimale Beschreibungslänge (MDL) Ähnlich Informationsgewinn Zusätzlich Strafe für zunehmende Komplexität des Baums 29

30 Splitten eines Attributs Nicht alle Attribute sind binär (Binärbäume) bzw. haben genau n Attribute (n-äre Bäume). Vorgehen kategorische Attribute: Es werden Bewertungsmaße für alle Aufteilungen der Klassen in 2 bzw. n Mengen berechnet. Z.B. {blau, rot, grün} bei Binärbäumen: {{blau, rot}, grün}, {blau, {rot, grün}} und {{blau, grün}, rot} Vorgehen numerische Attribute: 1. Auf- oder absteigendes Sortieren der Attribute 2. Setzen von allen Kombinationen von 1 bzw. (n-1) Splits Alternativ: Diskretisieren des Attributs vor dem eigentlichen Lernprozess (z.b. CHAID) 30

31 Pruning - Motivation Institut für Programmstrukturen und Datenorganisation (IPD) zu klein gut (generalisierend) Overfitting Achtung: Die optimale Baumgröße ist bei jedem Datensatz unterschiedlich! 31

32 Pruningverfahren Institut für Programmstrukturen und Datenorganisation (IPD) Gründe für Pruning komplexer Bäume Einfachheit / Verständlichkeit Verhinderung von Overfitting / Generalisierungsfähigkeit Pre-Pruning: Stopkriterien bei Baumerstellung Post-Pruning: Nachträgliches Stutzen Subtree Replacement Ersetzen von Entscheidungsknoten durch Blattknoten, wenn Klassifikationsbeitrag gering Optimal: Entscheidung zum Ersetzen mit frischen Daten evaluieren Subtree Raising Verschiebung von Teilbäumen nach oben Insbesondere dann, wenn es Attribute gibt, die einzeln wenig, aber in Kombination sehr stark zur Klassifikation beitragen. Solche Attribute rutschen sonst sehr leicht weit nach unten. 32

33 Regressionsbäume

34 Regressionsbäume und Model Trees Regressionsbäume: Entscheidungsbäume, dessen Blätter anstatt kategorischen Labels numerische Zielgrößen enthalten (z.b. das Mittel aller Lerntupel im Knoten) Model Trees: Variante von Regressionsbäumen, deren Blattknoten je eine (multivariate lineare) Regressionsfunktion für alle Tupel eines Knotens enthalten x 1 <= 7 ja nein 2,7 x 2 >= 2 ja 3,6 x 1 <= 7 ja nein x 2 >= 2 ja nein 3,2 nein 34

35 Regressionsbäume Wie kann man einen Regressionsbaum lernen? Wie Entscheidungsbäume, aber andere Wahl des Splitattributs und angepasstes Pruning. Wahl des Splitattributs welches die Varianz minimiert. welches die Standardabweichung minimiert (M5). welches die stärkste Korrelation mit der Zielvariablen hat, basierend auf dem p-wert des statistischen F-Test (CHAID). welches die Fehlerquadrate minimiert (C&RT). 35

36 Splitattribut-Wahl mit Fehlerquadraten Die Methode der Fehlerquadrate lässt sich auch hier als Fehlermaß R in einem Knoten nutzen: R ist die Summe der quadratischen Fehler von allen Tupeln i im aktuellen Knoten t, geteilt durch die Anzahl der Tupel in t. Die Fehler sind die Differenz des Zielwertes des jeweiligen Tupels y i und dem Mittel der Zielwerte aller dieser Tupel in t. 1 = t i t R ( t) ( y y( t))² Es wird der Split gewählt, der R der beiden Kinder eines Knotens minimiert (bei Binärbäumen wie C&RT). So erhält man Tupel mit ähnlichen Werten in einem Knoten. Entsprechend bei Varianz/Standardabweichung i 36

37 Model Trees Lernen eines Model Trees (hier M5) Lernen des Baums zunächst wie bei Regressionsbäumen. In jedem Knoten wird ein multivariates lineares Regressionsmodell gelernt, auf Basis aller Attribute, die in den darunter liegenden Knoten getestet werden. Die Regressionsmodelle bilden auch die Basis für das anschließende Prunen Vorhersagen mit dem Model Tree (auch M5) Zunächst wie beim Entscheidungsbaum. Das Regressionsmodell des Blattknotens liefert Vorhersage. Vorhersagen sind unstetig, da lokale lineare Regression. Abhilfe: Glätten der Funktion durch Einbeziehung der Vorhersagen aller darüber liegenden Knoten bis zur Wurzel. 37

38 Regressionsbäume Bewertung Eigenschaften Bäume helfen eventuell beim Verständnis des Problems. Model Trees im allgemeinen genauer. Vorteile Oft besser als lineare Regression. Hilfreich bei hochdimensionalen Problemen. Behandlung von kategorischen Variablen möglich. Im allgemeinen recht schnell; bei einzelnen Regressionsfunktionen findet Attributauswahl statt (Model Trees). Nachteile Große Gefahr des Overfittings gegeben. Der ganze Baum mit Regressionsgeraden stellt eine sehr komplexe Funktion dar (Model Trees). 38

39 Evaluationstechniken

40 Sampling bzw. Holdout Institut für Programmstrukturen und Datenorganisation (IPD) Die Leistung eines Klassifikators kann nicht mit dem Lerndatensatz beurteilt werden! Overfitting! Vgl. Motivation Pruning. Deshalb: Unterteilung der Ausgangsdaten in Training Set zum Lernen des Klassifikators (oft zwei Drittel) Test Set zur Evaluation des Klassifikators (oft ein Drittel) Beide Mengen sollten möglichst repräsentativ sein: Stratifikation: Aus jeder Klasse wird ein proportionaler Anteil in das Training- und Test Set übernommen. Eine Unterteilung in Training- und Test Set ist oft nicht möglich, wenn nicht genug Daten zur Verfügung stehen: Ein kleines Test Set ist ggf. nicht mehr repräsentativ. Ein kleines Training Set bietet ggf. zu wenig zum Lernen. 40

41 Klassifikation - Vorgehen Institut für Programmstrukturen und Datenorganisation (IPD) Trainingsdaten Klassifikator lernen Testdaten Klassifikator testen Klassifikationsregeln modell optimiertes Klassifikationsregeln modell Produktivdaten Klassifikator anwenden 41

42 Cross-Validation Unterteilung der Ausgangsdaten in k Partitionen Typischerweise wird k=10 gewählt Eine Partition bildet Test Set k 1 Partitionen bilden Training Set Berechnung und Evaluation von k Klassifikatoren: In k Runden wird jedes Datentupel k-1 mal zum Lernen verwendet und genau ein mal klassifiziert. Stratifizierte Cross-Validation ist in vielen Fällen die zu empfehlende Evaluationstechnik, besonders aber bei kleinen Datensätzen. Achtung: Cross-Validation ist sehr Rechenaufwändig Leave-One-Out ist Spezialfall für k=n 42

43 Evaluationsmasse für Klassifikatoren Konfusions-Matrix Vorhersage Ja Nein Tatsächliche Klasse Ja Nein True Positives (TP) False Positives (FP) False Negatives (FN) True Negatives (TN) accuracy = (TP + TN) / (TP + FN + FP + TN) sensitivity = TP / (TP + FN) specificity = TN / (FP + TN) precision = TP / (TP + FP) lift = precision / P(ja); P(ja) = (TP + FN) / (TP + FN + FP + TN) 43

44 Evaluation von Regressionstechniken Es existieren viele Techniken Data Mining Cup: Die Summe aller Abweichungen (aller 8 Bücher bei allen vorauszusagenden Händlern) von der bekannten Anzahl an Buchverkäufen. 44

45 Quellen Institut für Programmstrukturen und Datenorganisation (IPD) J. Han und M. Kamber: Data Mining: Concepts and Techniques, Morgan Kaufmann, Hand, H. Mannila und P. Smyth: "Principles of Data Mining", MIT Press, T. M. Mitchell: Machine Learning, Mc Graw Hill, 1997 I.H. Witten und E. Frank: "Data Mining - Practical Machine Learning Tools and Techniques", Morgan Kaufmann, D. F. Klawonn: Folien zur Vorlesung Data Mining, Pierre Geurts: Folien zur Vorlesung Stochastic methods. SPSS: Clementine 12.0 Algorithms Guide C. Borgelt: Folien zur Vorlesung Intelligent Data Analysis, Vorlesungsskript verfügbar (120 Seiten): 45