Logistische Regression

Ähnliche Dokumente
Kategorielle Daten. Seminar für Statistik Markus Kalisch

ANalysis Of VAriance (ANOVA) 1/2

2.Tutorium Generalisierte Regression

Kapitel 4: Binäre Regression

Fortgeschrittene Statistik Logistische Regression

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

BIOL, HST HS 2014 Dr. M. Kalisch. MC-Quiz 1. Einsendeschluss: Dienstag, der :59 Uhr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Algorithmische Modelle als neues Paradigma

Statistische Modellierung Merkblatt

Clustering Seminar für Statistik

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Unsupervised Kernel Regression

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Berechnung des LOG-RANK-Tests bei Überlebenskurven

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Mehrebenenanalyse. Seminar: Multivariate Analysemethoden Referentinnen: Barbara Wulfken, Iris Koch & Laura Früh

Binäre abhängige Variablen

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Parametrische Statistik

Regression mit Faktoren, Interaktionen und transformierten Variablen

1 Gemischte Lineare Modelle

Datenanalyse mit Excel und Gretl

Tutorial: Regression Output von R

Weiterbildungskurs Stochastik

Lineare Klassifikationsmethoden

Regression I. Statistik I. Sommersemester Lineare Regression Zusammenhang und Modell Ein Beispiel: Armut und Gewaltverbrechen Zusammenfassung

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Prüfungstutorat: Angewandte Methoden der Politikwissenschaft. Polito Seminar Carl Schweinitz

Multiplizitätskorrektur bei Variablenselektion

Vorlesung Wissensentdeckung

1.4 Der Binomialtest. Die Hypothesen: H 0 : p p 0 gegen. gegen H 1 : p p 0. gegen H 1 : p > p 0

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.

Kategoriale abhängige Variablen:

Kap. 9: Regression mit einer binären abhängigen Variablen

Kommentierter SPSS-Ausdruck zur logistischen Regression

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns

VS PLUS

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Auswertung der Studiengebühren-Umfrage oder:

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

0 Einführung: Was ist Statistik

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

Konzepte der AI: Maschinelles Lernen

K2 MATHEMATIK KLAUSUR 2. Aufgabe PT WTA WTGS Darst. Gesamtpunktzahl Punkte (max) Punkte Notenpunkte

Kapitel VI - Lage- und Streuungsparameter

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Kapitel 2 Wahrscheinlichkeitsrechnung

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Eine zweidimensionale Stichprobe

Hypergeometrische Verteilung

Infotage BVS Workshop B Änderung der Anlagestrategie Ja oder Nein? Dr. Dominique Ammann, Partner. PPCmetrics AG

Kategoriale Daten. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/17

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Multivariate Statistik

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Statistik II. Statistische Tests. Statistik II

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression

Anhang 4. Bias durch Überdiagnose von papillären Mikrokarzinomen

Biostatistik Erne Einfuhrung fur Biowissenschaftler

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

4 Binäre Regressionsmodelle, Folien 2

Rating. { 0 = kein Ausfall des Kreditnehmers i

Mehr-Ebenen-Analyse I. Regressionsmodelle für Politikwissenschaftler

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Bayessches Lernen Aufgaben

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Online-Aufgaben Statistik (BIOL, CHAB) Auswertung und Lösung

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Computer Vision: Optische Flüsse

Rabea Haas, Kai Born DACH September 2010

Musterlösung zu Serie 14

Erfolgstypen & Typenerfolg

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Pfadanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Wahrscheinlichkeitsrechnung

Kapitel 3: Interpretationen

Simulationsmethoden in der Bayes-Statistik

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

9 Die Normalverteilung

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

7. Zusammenfassung. Zusammenfassung

Bestimmen von Quantilen

Bereich Schwierigkeit Thema Matrizen XXX Übergangsprozesse. Rinderzucht II (aus Abi 2010) Mögliche Lösung

Kapitel ML:IV (Fortsetzung)

Fallbeispiel: Kreditscoring

Korrelation und Regression

Beispiel: Evolution infizierter Individuen

Bielefeld Graphics & Geometry Group. Brain Machine Interfaces Reaching and Grasping by Primates

Transkript:

Logistische Regression Markus Kalisch 30.09.2014 1

Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2, 4, 5, 6 Klassifikation Y kategoriell VL 3 Bsp. Klassifikation: Schuldenausfall ( Default ) bei Kreditkartenfirma ((Vorname Nachname)) 30.09.2014 2

Bsp: Kreditausfall ( Default ) Simulierter Datensatz von 10000 Kunden default : Kam es zu Kreditausfall? (Yes / No) student : Ist Kunde Student? (Yes / No) balance : Monatliche Schulden? (in USD) income : Jährl. Einkommen des Kunden (in USD) Wie hängt Kreditausfall mit erklärenden Variablen zusammen? Kann man Kreditausfall gut vorhersagen? Markus Kalisch 30.09.2014 3

Kreditausfall: Überblick Orange: Student, blau: Kein Student Markus Kalisch 30.09.2014 4

Erster Versuch: Einfache Lineare Regression Dummy coding: 0 kein Kreditausfall, 1 Kreditausfall lm: DefaultNumeric ~ balance Default$defaultNum 0.0 0.2 0.4 0.6 0.8 1.0 0 500 1000 1500 2000 2500 Default$balance Markus Kalisch 30.09.2014 5

Problem mit einfacher linearer Regression Was bedeutet kontinuierliche Zielgrösse? Evtl. eine Art Wahrscheinlichkeit? Was bedeuten Werte grösser als 1 und kleiner als 0? Schwierig zu interpretieren Besseres Werkzeug: Logistische Regression - Modelliere Wa. für Kreditausfall gegeben erklärende Var. - Vorhersage Kreditausfall, z.b. falls Wa. grösser 50% Markus Kalisch 30.09.2014 6

Big picture: Generalized Linear Models (GLMs) Bisher: Population wird mit einer Verteilung beschrieben Bsp: Medikament wirkt mit 30% Wa. Wie wa. ist es, dass bei 10 Patienten mindestens 5 gesund werden? X ~ Bin(10, π = 0.3) Neu: Parameter dieser Verteilung hängt von erklärenden Variablen ab. Bsp: Wirkwa. hängt von Dosis D ab. Bei welcher Dosis werden im Mittel 90% der Patienten gesund? X~Bin(10, π) und π = f(d) Generalized Linear Models: Zshg zw. erklärenden Variablen (z.b. Dosis) und Parametern einer Verteilung (z.b. Erfolgswa. in Binomialverteilung) 7

Wdh: Odds Alternative zu Wahrscheinlichkeit odds A = Log-odds: log P(A) 1 P(A) P A 1 P A P A = odds(a) 1+odds(A) Log-odds und odds wachsen monoton mit der Wahrscheinlichkeit: P(A) grösser ~ odds A grösser ~ log odds A grösser 8

Spezielles GLM: Logistische Regression X: Dosis des Wirkstoffs; n: Patienten, p: Genesungswa. Y: Anz. gesunder Patienten nach Behandlung Y~Bin(n, p(x)) Zshg. zwischen p und x z.b.: p x = Kann man umformen zu: log exp(β 0 + β 1 x) 1 + exp(β 0 + β 1 x) p x 1 p x = β 0 + β 1 x Logistische Funktion Linear in β s Logistische Regression, Binomialregression 9

Parameterschätzung: Maximum Likelihood Gegeben: x i kontinuierlich, y i binär (z.b. 0/1) Gesucht: β 0, β 1 Prinzip: Suche β 0, β 1, sodass likelihood function l maximal ist: l β 0, β 1 = i:y i =1 p(x i ) j:y j =0 1 p x j In R: Funktion glm() mit der Option family = binomial 10

Default ~ balance: Interpretation Wenn man balance um eine Einheit erhöht, erhöhen sich die log-odds um 0.0055 (95%-VI: 0.0055 ± 2 0.00022) Wenn man balance um eine Einheit erhöht, erhöhen sich die odds um den Faktor exp(0.0055) (95%-VI: exp(0.0055 ± 2 0.00022)) d.h., 1.0055 (95%-VI: (1.00507, 1.00596)) Eine einfache Aussage über die Änderung der Wahrscheinlichkeit ist nicht möglich! Markus Kalisch 30.09.2014 11

Vorhergesagte Wahrscheinlichkeit Richtig oder falsch? Angenommen die balance ist 1000. Die Wahrscheinlichkeit für Default ist dann gemäss unserem Modell etwa 0.5. Nehmen Sie folgenden R-Output an: Parameter Koeffizient (Intercept) -10 balance 0.01 Markus Kalisch 30.09.2014 12

Vorhersage Vorhersage für gegebenes x möglich für: - log-odds - odds - Wahrscheinlichkeit Nur Vertrauensintervall (kein Vorhersageintervall) möglich: Warum? Markus Kalisch 30.09.2014 13

Default ~ student: Interpretation Wenn man student vom Status No zum Status Yes ändert, erhöhen sich die log-odds um 0.405 (95%-VI: 0.405 ± 2 0.115) Wenn man student vom Status No zum Status Yes ändert, erhöhen sich die odds um den Faktor exp(0.405) (95%-VI: exp(0.405 ± 2 0.115)) d.h., 1.50 (95%-VI: (1.19, 1.89)) Eine einfache Aussage über die Änderung der Wahrscheinlichkeit ist nicht möglich! Markus Kalisch 30.09.2014 14

Multiple Logistische Regression p x = exp(β 0+β 1 x 1 +β 2 x 2 +etc.) 1+exp(β 0 +β 1 x+β 2 x 2 +etc.) Erklärende Variablen können kontinuierlich oder diskret (Faktoren) sein Interaktion ist möglich genau wie bei Linearer Regression Bsp: default ~ balance + income + student Markus Kalisch 30.09.2014 15

Default ~ balance + income + student Interpretation 1 Wenn man balance um eine Einheit erhöht und income und student gleich lässt, erhöhen sich die log-odds um 0.0057 (95%-VI: 0.0055 ± 2 0.00023) Widerspruch zu Bsp Default ~ student? Wenn man student vom Status No zum Status Yes ändert, und income und balance gleich lässt, erhöhen sich die log-odds um 0.647 (95%-VI: 0.647 ± 2 0.236) Markus Kalisch 30.09.2014 16

Einfache vs. multiple Regression: Paradox? Einfache Regression: Totaler Effekt default ~ student: Studenten haben grössere Default-Wa. Multiple Regression: Bereinigter Effekt default ~ student + income + balance: Studenten haben bei gleichem income und balance kleinere Default-Wa. Markus Kalisch 30.09.2014 17

Erklärung (vgl. Simpson-Paradox) Wer viele Schulden hat, fällt eher aus Studenten haben viele Schulden Ein Student hat eine grössere Ausfalls-Wa. als ein Nicht-Student (Einfache Regression) Ein Student hat eine kleinere Ausfalls-Wa. als ein Nicht-Student mit gleichem Schuldenbetrag (Multiple Regression) Markus Kalisch 30.09.2014 18

Klassifikation Vorhersage von Logistischer Regression liefert Wa., dass Beobachtung zu Klasse Default gehört Falls Wa. > 50%: Klassifiziere zu Klasse Default, sonst Klasse Kein Default Einfache aber weit verbreitete Methode Bsp: Google Ads Markus Kalisch 30.09.2014 19

Qualität der Klassifikation Beurteilung mit CV um Overfitting zu vermeiden Beobachtung Confusion matrix : Vorhersage Fehlerrate: (41 + 227) / 10000 = 0.00268 Personen ohne Kreditausfall werden gut vorhergesagt Fehlerrate alleine evtl. zu optimistisch; Confusion matrix hat mehr Aussagekraft Personen mit Kreditausfall werden schlecht vorhergesagt Markus Kalisch 30.09.2014 20

Feintuning Die Krankheit xyz tritt in der Bevölkerung bei etwa jeder tausendsten Person auf. Es wurde ein Screening für die breite Bevölkerung entwickelt. Die Fehlerrate in der breiten Bevölkerung ist 0.2%. Finden Sie ein Verfahren mit einer besseren Fehlerrate. Welche Fehlerrate kann sicher erreicht werden? 1. 0% 2. 0.001% 3. 0.1% 4. Ohne weitere Infos ist keine Antwort möglich Markus Kalisch 30.09.2014 21

Klassifikation bei mehr als 2 Klassen Logistische Regression: Zielgrösse binär (z.b. Mann / Frau) Falls Zielgrösse mehr als zwei Stufen hat (z.b. Augenfarbe blau / braun / grün): - Erweiterung von Logistischer Regression möglich ( one vs. all) - einfacher: Verwende andere, massgeschneiderte Methode (nicht Teil von diesem Kurs) Z.B.: Lineare Diskriminanz Analyse (ISLR Kap. 4.4), Nearest-Neighbor Methoden (ISLR Kap. 4.6.5), Random Forest (ISLR Kap. 8) Markus Kalisch 30.09.2014 22