Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29
LEO BREIMAN geb: 27.Januar 1928, gest: 5.Juli 2005 Sohn europäischer Einwanderer Studium der Physik und Mathematik Professor für Wahrscheinlichkeitstheorie (zu seiner Zeit einer der wenigen) Verließ die Universität zeitweise und arbeitet als statistischer Berater 2 / 29
y nature x Data Modeling Culture Algorithmic Modeling Culture y Lineare Regression Logistische Regression Cox Regression x y unbekannt x Entscheidungsbäume Neuronale Netze Modelüberprüfung Anpassungsgüte Überprüfung der Residuen -> 98% der Statistiker Modelüberprüfung Messung der Vorhersagegenauigkeit -> 2% der Statistiker 3 / 29 Abbildungen aus: Statistical Science2001, Vol. 16, No. 3, 199 231
Data Modeling führt zu schnell zu: fragwürdigen Schlussfolgerungen hält Benutzer von anwenderfreundlichen algorithmischen Modellen ab versperrt Statistikern neue Bereiche die Fragestellung orientiert sich zu stark an den Modellen und zu wenig an der Fragestellung an sich Beispiel am Ozonprojekt Ende der 69er Ozonwerte Drei Warnstufen Mitte 70 EPA sucht nach Vorhersage für die nächsten 12 Stunden Täglich/Stündlich mehr als 450 Variablen über 7 Jahre und den dazugehörenden Ozonwerten. 4 / 29
Breimans Anforderungen an die Statistik Assume that the data are generated by the following model: (a) Lösungsorientiertes arbeiten. (b) Datenbetrachtung vor der Modellwahl (c) Suche nach dem besten Modell (Beide Kulturen ) (d) Gütekriterium des Modells ist die Vorhersagegenauigkeit (e) Computer sind unverzichtbare Hilfsmittel 5 / 29
Data Modeling + Einfache Interpretierbarkeit Unterschiedliche Modelle führen zu unterschiedlichen Schlussfolgerunge über die Natur - Faced with an applied problem, think of a data model Schlussfolgerung anhand der Modellannahmen und nicht der Vorgaben der Natur Modell bildet Natur schlecht ab, führt zu fehlerhafter Schlussfolgerung 6 / 29 McCullah and Nelder (1989): Data will often point with almost equal emphasis on several possible models, and it is important that the statistician recognize and accept this.
Algorithmische Modelle Mitte der 80er Jahre wurden Algorithmen populär bei den Modellen waren waren Informatiker, Physiker und Ingenieure führend Ziel war eine hohe Vorhersagegenauigkeit Hauptaugenmerk: komplexe Modelle für die bisherige Verfahren nicht passten Spracherkennung Bilderkennung Handschrifterkennung Vorhersagen im Finanzbereich 7 / 29
Grundgedanken Data Modeling war in diesen Bereichen kaum verwendet worden Die Natur verarbeitet die Daten in einer Black Bock, deren Inhalt, mysteriös und oft unbekannt ist. Rashomon Occam Bellman 8 / 29
Rashomon Die besten 5 Variablen aus 30 140.000 Kombinationen Problem auch bei Entscheidungsbäumen 9 / 29 Abbildungen aus: Statistical Science2001, Vol. 16, No. 3, 199 231
Occam Je einfacher desto besser Einfachheit vs. Genauigkeit Darstellung und Qualität Bäume einfach zu interpretieren Genauigkeit erst durch den Wald random forests 10 / 29 Abbildungen aus: Statistical Science2001, Vol. 16, No. 3, 199 231
Bellman Der Fluch der vielen Variablen Verringerung der Variablen ist Verringerung der Informationen Ziel: Viele (noch so kleine) Informationen mit einzubauen Der Segen der vielen Variablen 11 / 29
Konfrontation mit der Black Box y Natur x y Neuronale Netze Bäume x Inhalt oft unbekannt, komplex undurchschaubar Einfacher zu interpretieren Inhalt komplex Durchschaubarer schwieriger zu interpretieren Führt zu der Frage nach der Hautaufgabe des Modells? 12 / 29 Abbildungen aus: Statistical Science2001, Vol. 16, No. 3, 199 231
Beispiel Hepatitis 13 / 29 Abbildungen aus: Statistical Science2001, Vol. 16, No. 3, 199 231
Beispiel Hepatitis 14 / 29 Abbildungen aus: Statistical Science2001, Vol. 16, No. 3, 199 231
Klassifikations- und Regressions-Bäume 15 / 29
Klassifikations- und Regressions-Bäume Technik der Segmentierung sind Entscheidungsbäume Baumstruktur von Klassifikations- und Regressionsbäumen identisch y kategorial Klassifikation Die Werte sollten am Ende: innerhalb der Knoten möglichst homogen zwischen den Gruppen möglichst heterogen y stetig Regression Mittelwerte der Zielvariablen sollen sich stark unterscheiden Die Daten werden nach geeigneten Kriterien aufgeteilt 16 / 29
Gütekriterium Anforderungen an ein Maß zur Messung der Güte Heterogener Knoten = niedriges Maß Weitere Verzweigungen sollten damit auf ihre Güte messbar gemacht werden. 17 / 29
Splitkriterien Klassifikation Binäre Zielgröße Kategoriale Zielgröße Regression Stetige Zielgröße wobei p den Anteil der Klasse 1 im Knoten t beschreibt Gini Koeffizient Entropy Missklassifikationsfehler 18 / 29
Splitkriterien Klassifikation Binäre Zielgröße Kategoriale Zielgröße Regression Stetige Zielgröße wobei p den Anteil der Klasse 1 im Knoten t beschreibt Gini Koeffizient Entropy Missklassifikationsfehler 19 / 29 -> Erweiterung des binären Falls auf k Variablen mit 2 k-1-1 Splitmöglichkeiten.
Übersicht der Gütekriterien für die Heterogenität innerhalb der Knoten 20 / 29
Beispiel 400,400 400,400 Split anhand Variable A oder Split anhand Variable B 21 / 29
Beispiel 400,400 400,400 300,100 100,300 200,300 200,100 Missqualifikationsfehler: ¼ ¼ 2/5 1/3 gewichtet (300/800) ¼ +(100/800)* ¼ =1/8 = 0,125 (200/800)* 2/5 + (200/800)*1/3 = 11/60 = 0,1833 -> Die linke Aufteilung sollte hier gewählt werden. 22 / 29
Beispiel 400,400 400,400 300,100 100,300 200,400 200,0 Missqualifikationsfehler: ¼ ¼ ½ 0 gewichtet (300/800) ¼ +(100/800)* ¼ =1/8 (200/800)* ½ + 0 = 1/8 -> Nach dem Missqualifikationsfehler sind beide Aufteilungen hier äquivalent 23 / 29
Beispiel 400,400 400,400 300,100 100,300 200,400 200,0 Gini Index: 3/8 3/8 4/9 0 gewichtet (300/800) 3/8 +(100/800)* 3/8 =3/16 = 0,1875 (200/800)* 4/9 + 0 = 1/9 = 0,11 -> Nach dem Gini-Index ist die zweite Variante zu bevorzugen 24 / 29
Beispiel 400,400 400,400 300,100 100,300 200,400 200,0 Missqualifikationsfehler: =1/8 = 1/8 Gini-Index =3/16 = 0,1875 = 1/9 = 0,11 25 / 29 -> Missqualifikationsfehler führt in diesem Fall zum gleichen Ergebnis -> Gini-Index bevorzugt die 2. Auswahl, da ein reiner Knoten vorhanden ist.
Splitkriterien Klassifikation Binäre Zielgröße Kategoriale Zielgröße Regression Stetige Zielgröße Für y wird aus den Kovariablen ein Paar, bestehend aus einer Variablen und einem Splitpunkt gesucht, das folgendes Kriterium erfüllt: Die Minimierung wird berechnet durch: und somit das optimale Paar bestimmt. 26 / 29
Beispiel eines Regressionsbaumes 27 / 29
Vorgehensweise in der Praxis Aufteilung in Trainingsset und Testset Entscheidung ob binärer Split vs. multipler Split Bestimmung des Splitkriteriums pro Knoten Split sollte so gewählt werden, dass jeder Unterknoten homogener ist als der aktuelle Knoten Festlegung über Ende der Aufsplittung (Stoppkriterium) Überprüfung der Qualität des Baumes 28 / 29
Fazit Vorteile Einfache Interpretation Leicht anzuwenden (Black Box) Nonparametrisches Verfahren Große Anzahl an Variablen können einbezogen werden Nachteile Instabil bei Änderung des Trainingssets Gefahr von Overfitting Orientiert sich am Testdatensatz 29 / 29