Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at



Ähnliche Dokumente
Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Institut für Computational Engineering ICE. N ä h e r d ra n a m S ys t e m d e r Te c h n i k d e r Z u ku n f t. w w w. n t b.

Korrelation (II) Korrelation und Kausalität

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Die Quantitative und Qualitative Sozialforschung unterscheiden sich bei signifikanten Punkten wie das Forschungsverständnis, der Ausgangspunkt oder

1 Part-of-Speech Tagging

Die Methode des Robusten Trends und der CAC40 (Frankreich)

Professionelle Seminare im Bereich MS-Office

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

10 Erweiterung und Portierung

Auswertung qualitativer Interviews

Was meinen die Leute eigentlich mit: Grexit?

Grundlagen der Künstlichen Intelligenz

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Abi-Retter-Strategien: Texterörterung. Das komplette Material finden Sie hier:

Data Mining: Einige Grundlagen aus der Stochastik

Fortgeschrittene Statistik Logistische Regression

Kapitel 5: Dynamisches Programmieren Gliederung

Statistische Auswertung:

GI-Technologien zur Umsetzung der EU-Wasserrahmenrichtlinie (WRRL): Wissensbasen. Teil 1: Einführung: Wissensbasis und Ontologie.

Lernmaterial für die Fernuni Hagen effizient und prüfungsnah

PPC und Data Mining. Seminar aus Informatik LV Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

Reporting Services und SharePoint 2010 Teil 1

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Predictive Modeling Markup Language. Thomas Morandell

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Diana Lange. GENERATIVE GESTALTUNG Arten des Zufalls

Grundbegriffe der Informatik

Festigkeit von FDM-3D-Druckteilen

Tutorial: Homogenitätstest

Informatik-Sommercamp Mastermind mit dem Android SDK

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

1 Mathematische Grundlagen

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

Grundlagen der Theoretischen Informatik, SoSe 2008

Kapitel 7 und Kapitel 8: Gleichgewichte in gemischten Strategien. Einleitung. Übersicht Teil 2 2. Übersicht 3

Die drei Kernpunkte der modernen Portfoliotheorie

Sowohl die Malstreifen als auch die Neperschen Streifen können auch in anderen Stellenwertsystemen verwendet werden.

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Constraint-Algorithmen in Kürze - Mit der Lösung zur Path-Consistency-Aufgabe 9

Einführung in die Fuzzy Logic

How-to: Webserver NAT. Securepoint Security System Version 2007nx

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Bewertung des Blattes

SEO Erfolg mit themenrelevanten Links

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Entscheidungsbaumverfahren

Binäre abhängige Variablen

Virtual Roundtable: Business Intelligence - Trends

Lineare Gleichungssysteme

SANDBOXIE konfigurieren

TESTEN SIE IHR KÖNNEN UND GEWINNEN SIE!

Presseinformation. Ihre Maschine spricht! Mai GLAESS Software & Automation Wir machen industrielle Optimierung möglich.

Wie funktioniert automatisierte Übersetzung? Prof. Josef van Genabith (Deutsches Forschungszentrum für Künstliche Intelligenz)

-Inhalte an cobra übergeben

Das Dilemma des Einbrechers Wer die Wahl hat, hat die Qual!

Chancen 2014: Erfolgsfaktor Bibliotheksstrategie

Das Leitbild vom Verein WIR

Das Persönliche Budget in verständlicher Sprache

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

DER SELBST-CHECK FÜR IHR PROJEKT

Zeichen bei Zahlen entschlüsseln

PRAKTIKUM Experimentelle Prozeßanalyse 2. VERSUCH AS-PA-2 "Methoden der Modellbildung statischer Systeme" Teil 2 (für ausgewählte Masterstudiengänge)

Unsere vier hilfreichsten Tipps für szenarienbasierte Nachfrageplanung

Kapitalerhöhung - Verbuchung

Optimieren Sie Ihre n2n Webseite

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Künstliches binäres Neuron

Kapitalerhöhung - Verbuchung

Dieses Tutorial gibt eine Übersicht der Form Klassen von Struts, welche Besonderheiten und Unterschiede diese aufweisen.

Anleitung zur Bearbeitung von Prüferkommentaren in der Nachreichung

Kurzeinführung Moodle

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Warum sich das Management nicht für agile Softwareentwicklung interessieren sollte - aber für Agilität

Zentrum. Zentrum Ideenmanagement. Zentrum Ideenmanagement. Umfrage zur Nutzung von mobilen Endgeräten im Ideenmanagement

lohmeyer White Paper Use Cases II UX+Prozessanalyse

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

SWE12 Übungen Software-Engineering

Programm 4: Arbeiten mit thematischen Karten

PIERAU PLANUNG GESELLSCHAFT FÜR UNTERNEHMENSBERATUNG

Projektsteuerung Projekte effizient steuern. Welche Steuerungsinstrumente werden eingesetzt?

2. Negative Dualzahlen darstellen

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Rententafelgarantie. Langlebigkeit: Fluch oder Segen?

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

Benchmark zur Kompetenzbestimmung in der österreichischen SW Industrie. Mag. Robert Kromer NCP / AWS Konferenz Wien,

Was ist Sozial-Raum-Orientierung?

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Gründe für fehlende Vorsorgemaßnahmen gegen Krankheit

Neuer Releasestand Finanzbuchhaltung DAM-EDV E Inhaltsverzeichnis. 1. Neuerungen Schnittstelle Telebanking mit IBAN und BIC...

Cad-OasEs Int. GmbH. 20 Jahre UG/NX Erfahrung prägen Methodik und Leistungen. Nutzen Sie dieses Wissen!

Transkript:

Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at Österreichische Statistiktage 2011 Graz, 7.- 9. September 2011

Vorbemerkungen Ensemble Methoden für Klassifikationsaufgaben Ensemble Methoden sind sicherlich eine der interessantesten Entwicklungen im Bereich der Angewandten Statistik der letzten 10 Jahre 2 9.9.2011

3 9.9.2011

Vorbemerkungen Ensemble Methoden sind eine der interessantesten Entwicklungen im Bereich der Angewandten Statistik der letzten 10 Jahre Ensemble Methoden sind von hoher Relevanz in der industriellen Anwendung im Kontext des Predictive Analytics (Data Mining) 4 9.9.2011

Burez, J., & Van den Poel, D. (2009). Handling class imbalance in customer churn prediction. Expert Systems with Applications, 36(3, Part 1), 4626-4636. Weiyun, Y., Xiu, L., Yaya, X., & Johnson, E. (2008, 13-15 July 2008). Preventing customer churn by using random forests modeling. Paper presented at the IEEE International Conference on Information Reuse and Integration, 2008. 5 9.9.2011

Vorbemerkungen Ensemble Methoden sind eine der interessantesten Entwicklungen im Bereich der Angewandten Statistik der letzten 10 Jahre Ensemble Methoden sind von hoher Relevanz in der industriellen Anwendung im Kontext des Predictive Analytics (Data Mining) Ensemble Methoden kombinieren multiple Modelle zu einem komplexen Gesamtmodell, das eine höhere Prognosegüte (Trennschärfe) aufweist als die einzelnen Komponenten Ensemble Methoden sind für solche Fragestellungen vielversprechend, wo Prognosegüte (Trennschärfe) wichtiger ist als eine einfache Modellinterpretation 6 9.9.2011

Ein neuer Modellierungsansatz Ensemble Methoden für Klassifikationsaufgaben Ensemble Methoden erweitern den Werkzeugkoffer der Angewandten Statistik um eine zusätzliche Facette Ensemble Methoden repräsentieren eine neue innovative Herangehensweise an Fragestellungen der Angewandten Statistik In diesem Sinne stellen sie ein neues Paradigma dar 7 9.9.2011

Strategien der Angewandten Statistik Wahl der Modellierungs-Methodik Teste, ob die zu Grunde liegenden Annahmen der gewählten Methode eine gute Koinzidenz mit den Eigenschaften des konkreten Datensatzes aufweisen (Diagnostische Tools; Transformationen; Wechsel der Schätzmethodik (Robuste Methoden; Regularization; Shrinkage)) Modell Selektion Man passt mehrere Modelle an die Daten an und wählt jenes aus, das sich in Bezug auf eine Zielfunktion optimal verhält (Wahl der Prädiktoren; Interaktionseffekte; Modellsegmentierung) 8 9.9.2011

Strategie bei Ensemble Methoden Für Aufgaben des Predictive Modellings existiert heute ein reichhaltiges Methodenspektrum Die Qualität dieser Methoden hängt in hohem Maße von den spezifischen Details einer Problemstellung ab. Eine allgemeine qualitative Reihung in Bezug auf Trennschärfe oder Prognosegenauigkeit ist praktisch nicht möglich. Für den Praktiker stellt sich die Frage: welche Methode soll ich zur Lösung meines konkreten Businessproblems anwenden? Idee: Verwende mehrere Methoden/Modelle und kombiniere die Vorhersagen zu einer Gesamtschätzung 9 9.9.2011

Klassifikationsaufgaben Ensemble Methoden für Klassifikationsaufgaben Wir betrachten Stichpoben aus g verschiedenen Teilpopulationen Ausgangspunkt bildet ein klassifizierter Trainings- Datensatz Ziel von Klassifikationsaufgaben (supervised learning) ist es Entscheidungsregeln zu finden, die es ermöglichen die Gruppenzugehörigekit noch nicht klassifizierte Objekte möglichst exakt vorherzusagen 10 9.9.2011

Ausgangsdaten Ensemble Methoden für Klassifikationsaufgaben Trainings-Datensatz mit bekannter Gruppenzugehörigkeit 9.9.2011

Anwendungsbeispiel Ensemble Methoden für Klassifikationsaufgaben Bilanzrating im Kontext der Kreditrisikoanalyse g=2 binäre Zielvariable 0/1 Non-Default/Default Realer Datensatz: Teil des Portfolios eines österreichischen Kreditunternehmens N=3.927 Beobachtungen davon 358 Defaults 12 Bilanzindikatoren (X1,, X12) z.b.: Umsatzrentabilität Vorgabe seitens Finanzaufsicht: Logistische Regression als state of the art -Methode 12 9.9.2011

Diskriminationsgüte Logistische Regression (Out of Sample) Ensemble Methoden für Klassifikationsaufgaben ROC Curve Hit Rate 0.0 0.2 0.4 0.6 0.8 1.0 lr 0.621 0.0 0.2 0.4 0.6 0.8 1.0 False Alarm Rate 13 9.9.2011

Alternative Methoden Ensemble Methoden für Klassifikationsaufgaben Out of sample test AUC Rang Logistische Regression 62,1% 4 Lineare Diskriminanzanalyse 62,2% 3 Quadratische Diskriminanzanalyse 57,0% 7 Regularisierte Diskriminanzanalyse 63,4% 2 Support Vector Machine (linear) 47,0% 10 Support Vector Machine (gaussian) 58,9% 6 Naive Bayes (parametric) 60,6% 5 Naive Bayes (non parametric) 63,6% 1 Nearest Neighbor 56,3% 9 Recursive Partitioning 56,9% 8 14 9.9.2011

Naive Ensemble Methode (Methoden-Mix) Kombination der verschiedenen alternativen Schätzer aus den verschiedenen Methoden Übernehmen der mehrheitlichen Zuordnung (Majority Voting) Gewichtete Schätzung der posteriore Wahrscheinlichkeiten aus den verschiedenen Methoden 15 9.9.2011

Methoden-Mix Out of sample test AUC Rang Logistische Regression 62,1% 5 Lineare Diskriminanzanalyse 62,2% 4 Quadratische Diskriminanzanalyse 57,0% 8 Regularisierte Diskriminanzanalyse 63,4% 3 Support Vector Machine (linear) 47,0% 11 Support Vector Machine (gaussian) 58,9% 7 Naive Bayes (parametric) 60,6% 6 Naive Bayes (non parametric) 63,6% 2 Nearest Neighbor 56,3% 10 Recursive Partitioning 56,9% 9 Methoden Mix 65,9% 1 16 9.9.2011

Verbesserung durch den Methoden-Mix ROC Curve Hit Rate 0.0 0.2 0.4 0.6 0.8 1.0 LR 0.621 MM 0.659 0.0 0.2 0.4 0.6 0.8 1.0 False Alarm Rate 17 9.9.2011

Methoden-Mix Idee: durch die Kombination unterschiedlicher Methoden können die Defizite einzelner Methoden kompensiert werden Nachteil: es existiert keine Theorie hinter der Vorgangsweise Schätzung der Gewichte oft unter Multikollinearität Welche Methoden sollen berücksichtigt werden Summary: datenanalytische Vorgehensweise, die sich in der Praxis häufig bewährt aber theoretisch nicht fundiert werden kann 18 9.9.2011

Theoriegeleitete Ansätze Ensemble Methoden für Klassifikationsaufgaben 19 9.9.2011

Bagging Anwendung des Bootstrap-Prinzips zur Verbesserung der Präzision der Schätzer Bootstrap Aggregation mittelt Vorhersagen, die aus einer Kollektion von Bootstrap-Samples gewonnen wird Durch die Mittelung kommt es zu einer Reduktion der Varianz der Schätzer, falls diese nichtlinear sind 20 9.9.2011

Bagging von Trees Ensemble Methoden für Klassifikationsaufgaben Bagging can dramatically reduce the variance of unstable procedures like trees, leading to improved prediction. (Hastie, Tibsharani & Friedman) 21 9.9.2011

Random Forests Analog wie beim Bagging basiert die RF-Methode auf Bootstrap-Samples Für jede Bootstrap-Stichprobe wird ein eigener Klassifikationsbaum generiert, wobei bei der Bildung jedes Knoten immer nur eine Teilmenge vom Umfang m aus den M zur Verfügung stehenden Inputvariablen verwendet wird (m<<m) Random Input Selection Random Linear Combination 22 9.9.2011

m Tuning-Parameter für Random Forests Die Präzision der resultierenden Schätzer hängt von zwei Aspekten ab: Korrelation zwischen den Bäumen des RF Mit wachsender Korrelation steigt die Fehlklassifikationsrate Klassifikationsstärke der Bäume des RF Je höher die Diskriminationsgüte der einzelnen Bäume desto geringer die Fehlklassifikationsrate Jede Veränderung von m hat einen direkten Einfluss auf die Korrelation Optimale Wahl mittels OOB-error Rate 23 9.9.2011

Eigenschaften von Random Forests Breiman: Best of the shelf-procedure for data mining Random Forests laufen effizient auch über große Datensätze Random Forests können mit einer großen Zahl von Prädiktoren umgehen, ohne vorher einen Variablenselektionsprozess durchführen zu müssen Man erhält automatisch quantitative Indikatoren über die relative Bedeutung der einzelnen Variablen Random Forests liefern aus den OOB-Daten einen unverzerrten Schätzer für die Fehlerrate 24 9.9.2011

Verbesserung mit Random Forest ROC Curve Hit Rate 0.0 0.2 0.4 0.6 0.8 1.0 Logistic Regression 0.621 Random Forest 0.652 0.0 0.2 0.4 0.6 0.8 1.0 False Alarm Rate 25 9.9.2011

Anwendungsbeispiel Ensemble Methoden für Klassifikationsaufgaben Out of sample test AUC Rang Logistische Regression 62,1% 6 Lineare Diskriminanzanalyse 62,2% 5 Quadratische Diskriminanzanalyse 57,0% 9 Regularisierte Diskriminanzanalyse 63,4% 4 Support Vector Machine (linear) 47,0% 12 Support Vector Machine (gaussian) 58,9% 8 Naive Bayes (parametric) 60,6% 7 Naive Bayes (non parametric) 63,6% 3 Nearest Neighbor 56,3% 11 Recursive Partitioning 56,9% 10 Methoden Mix 65,9% 1 Random Forest 65,2% 2 26 9.9.2011

Boosting Boosting extrem mächtiges Konzept Ausgangspunkt: AdaBoost (Freund und Shapire1997) Boosting verwendet keine Bootstrap-Samples sondern basiert auf iterativen Modifikationen des Trainingsdatensatzes (perturbation sampling) Motivation: Boosting ist ein Algorithmus der die Ergebnisse von vielen weak classifier zu einem starken committee classifier kombiniert 27 9.9.2011

Boosting Algorithmus Ensemble Methoden für Klassifikationsaufgaben Ein weak classification algorithm wird immer wieder auf den iterativ modifizierten Traininsgdatensatz angewandt, wodurch eine Sequenz von weak classifiers generiert wird. Sei die Gesamtlänge dieser Sequenz M und bezeichnen wir die weak classifier G m so ergibt sich der finale Classifier nach dem Prinzip des Mehrheitsvotums: 28 9.9.2011

Boosting Algorithmus Ensemble Methoden für Klassifikationsaufgaben Die Modifikation des Trainingsdatensatzes wird durch eine Neugewichtung der Datensätze realisiert Diese Neugewichtung erfolgt dabei derart, dass fehlerhaft klassifizierte Daten ein höheres Gewicht in der Trainingsstichprobe erhalten 29 9.9.2011

Verallgemeinerung Bei AdaBoost basiert die Bestimmung der modifizierten Fallgewichte auf einer exponentiellen Verlustfunktion, was sowohl die algorithmische Komplexität reduziert als auch eine theoretische Fundierung hat Eine Verallgemeinerung auf beliebige (differenzierbare) Verlustfunktionen geht auf Friedman (2001, 2002) zurück und basiert auf Methoden der numerischen Optimierung: Gradient Boosting 30 9.9.2011

Anwendungsbeispiel Ensemble Methoden für Klassifikationsaufgaben Out of sample test AUC Rang Logistische Regression 62,1% 8 Lineare Diskriminanzanalyse 62,2% 7 Quadratische Diskriminanzanalyse 57,0% 11 Regularisierte Diskriminanzanalyse 63,4% 6 Support Vector Machine (linear) 47,0% 14 Support Vector Machine (gaussian) 58,9% 10 Naive Bayes (parametric) 60,6% 9 Naive Bayes (non parametric) 63,6% 5 Nearest Neighbor 56,3% 13 Recursive Partitioning 56,9% 12 Methoden Mix 65,9% 1 Random Forest 65,2% 2 ADA Boost 64,1% 4 Gradienten Boosting 64,2% 3 31 9.9.2011

Theoriebasierte Ensemble-Modellierung Bagging (bootstrap aggregating) Random Forests (Bagging with subsets of variables) Boosting (put higher weights to wrong classified data points) Anwendung dieser Ensemble-Methoden folgt einem gemeinsamen Schema, das zwei Schritte umfasst: (1) Konstruktion einer Vielzahl von Modellen (base-learners) Bootstrap Samples, Restriktion auf Teilmengen der Variablen, Variation der Fallgewichte (2) Kombination der Schätzer Majority Voting, Weighted averaging 32 9.9.2011

Generelle Theorie Ensemble Methoden für Klassifikationsaufgaben Theoretical Foundation: Friedman & Popescu 2003 Die vorgestellten Ansätze können als additives Modell gesehen werden Gx ( ) T( x) 0 M m 1 T m (x) Base-Learners (Basisfunktionen) Ensemble Learner sind also ein lineares Modell in einem hochdimensionalen Raum von abgeleiteten Variablen (vgl.: Neuronale Netze, Wavelets, Multivariate Adaptive Regression Splines) m m 33 9.9.2011

Generelle Theorie Ensemble Methoden für Klassifikationsaufgaben Jeder Base-Learner T m kann durch einen Parametervektor p m charakterisiert werden (z.b. falls T m ein Klassifikationsbaum ist, spezifiziert p m die Splits, die den Baum konstituieren) Allgemeine Ensemble Learning Problem: N M min L yi, 0 mt( x; pm) m m i 1 m 1 {, p } 34 9.9.2011

Ensemble Learning Ensemble Methoden für Klassifikationsaufgaben Konkretisierung der beiden Modellierungsschritte 35 9.9.2011

Generelle Theorie Friedman & Popescu zeigen, dass die Aufgabenstellung des Ensemble-Learnings im wesentlichen der Lösung eines hochdimensionalen Integrals entspricht Solche Integrationsprobleme werden häufig mit Techniken der Monte Carlo Integration gelöst. Eine wichtige Basistechnik bildet dabei das Prinzip des Importance Sampling, welches vorsieht, dass wichtige Punkte des Definitionsbereichs mit einer höheren Wahrscheinlichkeit gesampelt werden. Dazu ist es notwendig über p eine Verteilung zu definieren: Wahrscheinlichkeit invers zum Erwarteten Verlust 36 9.9.2011

ISLE-Algorithmus Genereller Algorithmus Importance sampled learning ensemble (ISLE) Bagging, Random Forest, Boosting können durch unterschiedliche Sampling-Schemata als Spezialfälle des allgemeinen ISLE-Algorithmus aufgefasst werden Verallgemeinerungen bzw. Varianten sind möglich 37 9.9.2011

Ensemble Methods Ensemble Methods perform extremely well in a variety of problem domains, have desirable statistical properties, and are computationally scalable (parallelization) However ensembles are not so easy interpretable While this is negligible for predictive modelling tasks, this is a severe drawback in case of descriptive modelling tasks In the last years new types of summary statistics have been developed to interpret ensemble models 38 9.9.2011

Interpretation of Ensemble Methods Importance Scores quantify the relative influence or contribution of each variable in predicting the response Interaction Statistic to answer the question which variables are involved in interactions with other variables Partial dependence plots to understand the nature of the dependence of response on influential inputs Measuring Model Complexity Generalized degrees of freedom (Ye 1998): the better a model can match an arbitrary change of response the more complex is it 39 9.9.2011

Ausblick Noch in Arbeit: Simulationsstudie um das Verhalten dieser innovativen Methodenkonzepte in praxisrelevanten Situationen zu analysieren Thematik: Eignung als Off-the-Shelf Procedure für Predictive Analytics Fragestellung: Wie reagiert die Diskriminationsgüte im Vergleich zu anderen Methoden Verhalten in Sparsity-Situationen Auswirkung von fehlenden Werten Robustheit gegenüber Outlier bei den Prädiktoren bzw. falsch klassifizierten Datensätzen im Trainingsdatensatz 40 9.9.2011