1 Predictive Analytics mit Random Forest

Transkript

1 Predictive Analytics Demokratie im Wald 1

2 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4. Bagging die Idee hinter dem Erfolg von Random Forest 5. Random Forest die Klassifikationsmethode im Detail 6. Random Forest Anwendungsbeispiele 7. Zusammenfassung 8. Quellen 9. Geplante nächste Termine 10.Themensammlung und -bewertung 3

3 Predictive Analytics??? Was ist Predictive Analytics? 4

4 Predictive Analytics Zwei Kinder Paradoxon Problem Eine Familie hat zwei Kinder, eins davon ist ein Junge. Wie hoch ist die Wahrscheinlichkeit, dass das zweite Kind auch ein Junge ist? Die meisten antworten: P = 1 2 Richtige Antwort: P = 1 3 Erläuterung Älteres Kind Junge Mädchen Junge Mädchen Jüngeres Kind Mädchen Junge Junge Mädchen 1 3 5

5 Predictive Analytics Geburtstagparadoxon Problem Wie hoch ist die Wahrscheinlichkeit, dass in einem Raum von n=50 Personen mindestens zwei am selben Tag im Jahr Geburtstag feiern? Richtiger Antwort P = 97% Erläuterung Es ist einfacher die Gegenwahrscheinlichkeit zu berechnen, also die Wahrscheinlichkeit, dass 50 Personen alle an unterschiedlichen Tagen Geburtstag haben. 1 - P = Ergebnis für verschiedene Anzahlen von Personen = 0.03 = 3% n P 2.7% 11.7% 41.1% 50.7% 70.6% 89.1% 97% 99.4% 99.9% 6

6 Predictive Analytics Verschiedene Definitionen i Was verstehen wir unter Data Mining ist der Prozess des Entdeckens bedeutsamer neuer Zusammenhänge, Muster und Trends durch die Analyse (großer) Datensätze mittels Mustererkennung sowie statistischer und mathematischer Verfahren (Erick Brethenoux, Gartner Group). An intrinsic feature of time series is that, typically, adjacent observations are dependent. The nature of this dependence among observations of a time series is of considerable practical interest. Time Series Analysis ist concerned with techniques for the analysis of this dependence. (George E.P. Box, PHD, Professor Emeritus of Statistics at the University of Wisconsin-Madison) Predictive Analytics generiert aus Daten operative Aktionen, indem verlässliche Schlüsse zur aktuellen Situation und zukünftigen Ereignissen erkannt bzw. prognostiziert werden. (Gartner Group) 7

7 Predictive Analytics Blickt in die Zukunft! i Predictive Analytics richtet den Blick in die Zukunft! Reporting und OLAP Predictive Analytics Vergangenheit Gegenwart Zukunft Aufgabe Kundenwert Betrugserkennung Kündigeranalysen Cross-Selling Kundenakquisition Umsatzplanung Reporting und OLAP (Vergangenheit und Gegenwart) TOP 10-Kunden des letzten Jahres Erkannte Betrugsfälle des letzten Jahres Kündigungen des letzten Jahres Produkt-Verkaufszahlen des letzten Jahres Wie war die Antwortquote der Mailing- Aktion? Tägliche Verkaufsmenge im Schnitt Predictive Analytics (Zukunft) Zukünftige TOP-Kunden Liste auffälliger Kunden / Vorgänge mit erhöhter Betrugswahrscheinlichkeit Kunden mit erhöhter Kündigungsbereitschaft Kunden mit hoher Kaufwahrscheinlichkeit für ein Produkt Kunden (-profile), bei denen eine erhöhte Response-Rate zu erwarten ist Welche Verkaufsmengen sind zukünftig zu erwarten? 8

8 Predictive Analytics Verfahren i Zahlreiche statistische Verfahren Lineare Regression Logistische Regression Neuronale Netze Diskriminanzanalyse Entscheidungswald Support Vector Machine ARIMA oder GARCH Assoziationsanalyse State Space Modell Smoothing Splines Ungerichteter Markov-Graph 9

10 Random Forest Grundkonzepte Wird der Kunde seinen Vertrag kündigen? Baum 1 Baum 2 Baum 3 Baum 4 Baum 5 Baum 6 Was ist Random Forest? Ja Nein Ja Ja Nein Ja Random Forest Bagging Ja Entscheidungsbaum 11

11 Random Forest Anwendungsfelder Random Forest kann alle Arten von Inputmerkmalen (stetige und kategoriale) verarbeiten, z.b die Anzahl der Kinder eines Kunden, der jährliche Verdienst des Kunden, usw ist sowohl für Klassifikation (kategoriale Zielvariable z.b. eine 0-1 Variable) als auch für Regression (stetige Zielvariable z.b. die Einkaufsmenge eines Kunden) geeignet Keine Annahme über die Verteilung der Daten Keine Transformation notwendig Random Forest kann in folgenden Feldern angewandt werden Gesichtserkennung Betrugserkennung Krebsfrüherkennung Vorhersage vom Verursacher der Umweltverschmutzung Kreditrisiko und Scoring Churn Analyse Assoziationsanalyse usw 12

13 Entscheidungsbaum - Terminologie Wurzelknoten oder Wurzel Splitvariable Region Knoten Endknoten oder Blatt 14

14 Entscheidungsbaum für Regression Gegeben N Beobachtungen (x i, y i ) für i = 1,2,, N p Merkmale, sodass x i = (x i1, x i2,, x ip ) eine Zielvariable Y in jede entstandene Region, wir modellieren die Zielvariable mit einer Konstante für jedes Merkmal j und Aufteilungspunkt s definiere und Finde Splitvariable j und Aufteilungspunkt (Splitpunkt) s, sodass folgender Ausdruck gelöst wird Aufteilung der Knote in zwei Tochterknoten und Fortsetzung des Algorithmus 15

15 Entscheidungsbaum für Klassifikation Zwei Unterschiede zur Regression 1. Ordne in jedem Blatt zu der am meisten vertretenden Klasse 2. Quadratische Fehler für einen Split ist nicht mehr geeignet. Stattdessen benutze Fehlklassifikationsrate (Gini-Index, Cross-Entropy, usw. ) Allgemeine Best Practices 1. Setze den Split-Prozess solange fort, bis eine minimale Anzahl von Beobachtungen in Blättern erreicht wird. 2. Benutze ein Kosten-Komplexitätskriterium, um einen Kompromiss zwischen Anpassungsgüte und Tiefe zu finden Dies heißt Pruning 16

17 Bagging Begriffserklärung Gegeben einen Datensatz mit N Beobachtungen Eine Bootstrap-Stichprobe des Datensatzes bekommt man, indem man eine Stichprobe der gleichen Länge mit Zurücklegen aus dem originalen Datensatz zieht Bagging verwendet das gleiche Modell für B Bootstrap-Versionen des originalen Datensatzes und berechnet den Mittelwert aus den Vorhersagen der B Modelle verringert hierdurch die Variabilität der Vorhersage (siehe nächste Folie) funktioniert besser mit Vorhersagen, die keine Bias (Verzerrung = in der Statistik die Differenz zwischen dem Erwartungswert einer Statistik und dem zu schätzenden Wert) vorweisen aber eine große Varianz besitzen. Z.B. Entscheidungsbäume 18

18 Bagging Warum funktioniert das? Seien θ 1, θ 2,, θ B unabhängigen Vorhersagen von einem Wert θ, jeweils mit Varianz σ 2 Var 1 B B θ i i=1 B = 1 B 2 Var(θ i i=1 ) = σ2 B B 0 Also die Variabilität in der Vorhersage hat sich verbessert und verschwindet mit der Anzahl von Bootstrap-Stichproben Im Falle vom Random Forest müssen die Entscheidungsbäume unkorrelliert sein. Dies geschieht durch Randomisierung, daher das Wort Random in dem Namen 19

20 Random Forest Definitionen i Random Forest ist... ein statistisches Verfahren in der Kategorie der Ensemble-Techniken, das eine große Menge von unkorrelierten Entscheidungsbäumen durch Randomisierung erzeugt, die auf Bootstrap-Stichproben des originalen Datensatzes trainiert werden und dadurch effizient die Varianz der Vorhersage reduziert. 21

21 Random Forest Randomisierung und Anzahl von Bäumen Die Randomisierung wird dadurch erzielt, dass für jeden Split eine zufällige Menge m aus den p Input-Merkmalen als mögliche Split-Variable gezogen wird Die Zahl m soll vom Anwender gewählt werden. Übliche Werte sind m = p für Klassifikation und m = p 3 für Regression aus den Daten mit Kreuzvalidierung ermittelt werden Die Wahl der Anzahl B von Entscheidungsbäumen soll ebenso durch Kreuzvalidierung erfolgen 22

22 Random Forest K-fache Kreuzvalidierung Kreuzvalidierung ist die häufigste benutzte Methode, um die Anpassungsgüte eines Modells zu beurteilen Algorithmus einer K-fache Kreuzvalidierung 1. Teile den Train-Datensatz in K fast gleich große, nicht überlappende Teilemengen auf 2. Nimm eine Teilmenge zur Seite (Validierungsteilmenge), trainiert das Modell auf die übrigen Daten und benutze die Validierungsteilmenge, um das Modell zu testen 3. Jede Teilmenge muss einmal als Validierungsteilmenge benutzt werden, sodass das Modell insgesamt K-Mal trainiert wird Wenn man N Beobachtungen hat, heißt eine N-fache Kreuzvalidierung auch Leave-oneout Kreuzvalidierung Best Practice empfiehlt eine 10-fache Kreuzvalidierung 5-fache Kreuzvalidierung Train Train Validierung Train Train 23

23 Random Forest Out-of-bag und Einfluss von Merkmalen Die Beobachtungen, die nicht in einer Bootstrap-Stichprobe auftauchen sind out-of-bag Eine Out-of-bag-Fehlerrate kann für jede Beobachtung über den gesamten Wald berechnet werden und kann deshalb als leave-one-out-fehlerrate gesehen werden Fazit : Im Gegensatz zu den meisten Modellen kann eine Kreuzvalidierung schon während der Anpassung von Random Forest durchgeführt werden Für jeden Split kann man für den Split-Merkmal die Verbesserung in dem Split- Kriterium berechnen. Der Einfluss von einem Merkmal wird als die Summe der Verbesserungen in dem Split-Kriterium über den gesamten Wald hinweg berechnet Liste der wichtigsten Merkmale 24

25 Fall 1: Erkennung echter und gefälschter Schweizer Franken Die 1000-Schweizer Franken Banknoten der zweiten Banknotenserie 1911 wurden erstmals am ausgeben. Diese Banknoten waren ungewöhnlich lange im Umlauf und daher ein begehrtes Objekt für Fälscher Zwei Datensätze: Lern- und Testdatensatz Lerndatensatz : 60 falsche und 60 echte Banknoten zur Entwicklung des Modells Testdatensatz : 40 falsche und 40 echte Banknoten zum Testen unseres entwickelten Modells Zwei Klassen : Echten und falschen Banknoten 26

26 Fall 1: Falsche Banknoten von den echten unterscheiden Merkmale 1. length : Länge der Banknote 2. lheight : Höhe der Banknote, auf der linken Seite gemessen 3. rheight : Höhe der Banknote, auf der rechten Seite gemessen 4. lmargin : Abstand vom inneren Rahmen zur unteren Grenze 5. umargin : Abstand vom inneren Rahmen zur oberen Grenze 6. diagonal : Länge der Diagonale 27

27 Fall 1: Verteilung der Variablen in den zwei Klassen echt falsch Train Test Die Trennfähigkeit der Variablen ist unterschiedlich. lmargin trennt z.b. besser als length Die Verteilung in beiden Klassen in fast gleich 28

28 Fehlerrate (in %) Fall 1: Kreuzvalidierung 1. Eine 10-fache Kreuzvalidierung empfiehlt die Anwendung von 1100 Bäumen für den Wald 2. Eine Kreuzvalidierung mit 1100 Bäumen und m = 2, 3 und 4 suggeriert den Wert m = 2 5-fache und 10-fache Kreuzvalidierung Anzahl der Bäume im Wald 29

29 Fall 1: Banknoten - Ergebnisse der Klassifikation Lerndatensatz Testdatensatz Wahre Klasse Wahre Klasse Echt Falsch Echt Falsch Prognose Echt 58 2 Falsch 2 58 Prognose Echt 39 2 Falsch 1 38 Im Testdatensatz 39 der 40 echten Banknoten wurden als echt erkannt (True Positiv) 1 der 40 echten wurde als falsch erkannt (False Negativ) 2 der 40 falschen Banknoten wurden als echt zugeordnet (False Positiv) 38 der 40 falschen Banknoten wurden als falsch erkannt (True Negativ) 30

30 Fall 2: Big Data Regression mit simulierten Daten 1 Million Beobachtungen von 11 simulierten Variablen 9 ersten Variablen V 1 - V 9 sind uniformverteilt, wobei vari zufällige Werte zwischen 0 und 10i nimmt. Z.B. V 7 liegt zufällig zwischen 0 und 70 V 10 ist auch uniformverteilt zwischen 1 und 100 V 11 ist binomialverteilt mit Wahrscheinlichkeit 0.7, d.h. eine binäre ( Ja-Nein ) Variable mit der Wahrscheinlichkeit von Ja gleich 0.7 Die Zielvariable y ist mit folgender Gleichung simuliert worden y = V V 2V 3 10 V V V ln V V 8 + V 9 6e V I(V 11 = Ja) 8ln (V 10 ) 31

31 Fall 2: Big Data Verteilung der Daten Simulierte Daten werden in zwei Datenmengen geteilt: Beobachtungen zum Lernen und Beobachtungen zum Testen Auszug von Beobachtungen aus dem Traindatensatz y y y y y y y y y y Es scheint keine Struktur in den Daten zu geben 32

32 Häufigkeit Fall 2: Big Data Verteilung der Zielvariable Zielvariable Minimum 1. Quartile Median Mittelwert Standardabweichung Varianz 3. Quartile Maximum

33 Fall 2: Big Data Modellierung Achtung Traindatensatz ist zu groß, um eine hohe Anzahl von Bäumen im Wald zu trainieren Mögliche Lösungen 1. Kleine Bootstrap-Stichproben ziehen 2. Den Algorithmus von Random Forest parallelisieren 3. Beide erste Lösungen implementieren ( ) Unser Ansatz 1. Wir fahren mit Lösung 1. fort 2. Keine Kreuzvalidierung zum Vergleich der Modelle wird durchgeführt 3. Modelle werden mit dem out-of-bag-fehler verglichen 34

34 Fall 2: Big Data Ergebnisse Nr Anzahl Bäume Umfang B- Stichprobe Lernzeit in Sekunden OOB- Fehler Erklärte Varianz PMAE % % % % % % % 2.40 OOB = Out-of-bag PMAE = Predicted Mean Absolute Error = mittlere absolute Fehler der Prognose Die Güte des Modells steigt mit dem Umfang der Bootstrap-Stichprobe Das Modell verbessert sich auch mit wachsender Anzahl der Bäume im Wald Das beste Modell ist Modell 6 35

36 Zusammenfassung Random Forest ist ein Ensemble-Verfahren, das die Mächtigkeit von Bagging benutzt und mehrere Entscheidungsbäume mittelt Random Forest ist ein sehr populäres statistisches Mittel, weil es sich zu jedem Datentyp und sowohl zu Regression als auch zu Klassifikation eignet Entscheidungsbäume schnell zu trainieren sind es komplexe nicht-lineare Strukturen modellieren kann es sich aufgrund der Unabhängigkeit der Bäume einfach parallelisieren lässt es automatisch Kreuzvalidierung beim Lernen durchführt es auch für unüberwachtes Lernen benutzt werden kann Jeder Parameter von Random Forest lässt sich optimal durch Kreuzvalidierung wählen Es gibt zahlreiche Implementierungen von Random Forest z.b. In R die Funktion randomforest im gleichnamigen Paket In SAS Enterprise Miner proc Forest oder proc HPForest In Weka und Fortran 77 37

37 Quellen 1. Hastie, Trevor et al (2009). The elements of statistical learning. Springer, second edition 2. Berk, Richard A. (2008). Statistical Learning from a Regression Perspective. Springer Series in Statistics. New York: Springer-Verlag 3. URL: 4. URL: 38

38 Vielen Dank für Ihre Aufmerksamkeit Dr. Arsene Ntiwa Foudjo XBI-APS Telefon: