Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13

Ähnliche Dokumente
Vorlesung: Statistik II für Wirtschaftswissenschaft

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios

Statistik II. IV. Hypothesentests. Martin Huber

Statistisches Testen

Statistik II. Statistische Tests. Statistik II

Musterlösung zu Serie 8

Vorlesung Wirtschaftsstatistik 2 (FK ) Wiederholungen deskriptive Statistik und Einleitung Normalverteilungsverfahren. Dipl.-Ing.

Prüfung aus Statistik 2 für SoziologInnen

Fragestellungen. Ist das Gewicht von Männern und Frauen signifikant unterschiedlich? (2-sample test)

Seminar zur Energiewirtschaft:

Proportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen

Logistische Regression

Tutorial: Anpassungstest

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Verallgemeinerte lineare Modelle. Promotion. Promotion. Methoden empirischer Sozialforschung. 1 binäre und mehrere metrische und kategoriale Variablen

Vorlesung: Statistik II für Wirtschaftswissenschaft

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Lean Body Mass [kg] Estimate Std. Error t value Pr(> t ) (Intercept) ??? lbm <2e-16 ***

Auswertung und Lösung

Tutorial:Unabhängigkeitstest

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

D-CHAB Frühlingssemester 2017 T =

Statistik II. Statistische Tests. Statistik II

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

Tutorial: χ 2 -Test auf vorgegebene Verteilung

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Bachelorprüfung: Statistik (1 Stunde)

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie SS ( = 57 Punkte)

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Wichtige Definitionen und Aussagen

8. Konfidenzintervalle und Hypothesentests

5. Seminar Statistik

Tutorial: Vergleich von Anteilen

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Analyse von Querschnittsdaten. Signifikanztests I Basics

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Multivariate Verfahren

Prognoseintervalle für y 0 gegeben x 0

Klassifikation von Signifikanztests

Statistisches Testen

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

1. Grundbegri e der Stochastik

Musterlösung. Kind Blume (beredet) Blume (nicht beredet)

Schriftliche Prüfung (1 Stunde)

Einführung in die Statistik

VO Biostatistik im WS 2006/2007

Biostatistik 101 Korrelation - Regressionsanalysen

Statistischer Rückschluss und Testen von Hypothesen

Willkommen zur Vorlesung Statistik (Master)

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

Beispiel: Multiples Modell/Omitted Variable Bias I

DWT 314/460 csusanne Albers

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Statistik II für Betriebswirte Vorlesung 11

Übung V Lineares Regressionsmodell

Chi-Quadrat Verfahren

Prüfung im Fach Mikroökonometrie im Sommersemester 2014 Aufgaben

Beipiele zum Üben und Wiederholen Wirtschaftsstatistik 2 (Kurs 3) Lösungen

Biostatistik, WS 2017/18 Der zwei-stichproben-t-test

Fortgeschrittene Ökonometrie: Maximum Likelihood

Statistik II. Weitere Statistische Tests. Statistik II

Musterlösung. Modulklausur Multivariate Verfahren

Logistische Regression

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

Schriftliche Prüfung (90 Minuten)

Tests einzelner linearer Hypothesen I

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Jost Reinecke. 7. Juni 2005

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

Bereiche der Statistik

Statistik I für Betriebswirte Vorlesung 14

Statistik für Ingenieure Vorlesung 13

Empirische Wirtschaftsforschung

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min

2.5 Lineare Regressionsmodelle

Kategorielle Daten. Seminar für Statistik Markus Kalisch

Statistische Tests (Signifikanztests)

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Statistische Überlegungen: Eine kleine Einführung in das 1 x 1

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

Dr. M. Kalisch. Statistik (für Biol./Pharm. Wiss.) Winter Musterlösung

Inferenz im multiplen Regressionsmodell

Teil X. Hypothesentests für eine Stichprobe. Woche 8: Hypothesentests für eine Stichprobe. Lernziele. Statistische Hypothesentests

T-Test für unabhängige Stichproben

Übung zur Vorlesung Statistik I WS Übungsblatt 9

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Masterprüfung. Die Klausur besteht aus 3 Aufgaben, die alle bearbeitet werden müssen.

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2014/15. ( = 57 Punkte)

Biostatistik, WS 2013/2014 Wilcoxons Rangsummen-Test

Transkript:

Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression Robin Ristl Wintersemester 2012/13 1

Exakter Test nach Fisher Alternative zum Chi-Quadrat Unabhängigkeitstest für 2x2 Tafeln. Benötigt nicht die Voraussetzung einer gewissen erwarteten Häufigkeit pro Zelle. Grundprinzip: Betrachte Vierfeldertafel, z.b. Behandlung A Behandlung B Summe Wirkung 8 3 11 keine Wirkung 5 3 8 Summe 13 6 19 Als Teststatistik dient der Eintrag in der ersten Zelle. (Konvention, natürlich kann jede beliebige Zelle gewählt werden.) Wenn wir die Randsummen als gegeben annehmen, folgt die beobachtete Häufigkeit in der gewählten Zelle einer Hypergeometrischen Verteilung. 2

Hypergeometrische Verteilung m...zahl der Erfolge in der Gesamtpopulation, hier m=11 n...zahl der Versuche, hier n=13 (wir beziehen uns auf Behandlung A) k...zahl der Erfolge, hier k=8 N...Größe der Gesamtpopulation, hier N=19 Die Wahrscheinlichkeit genau unsere Zahl an Erfolgen in Behandlung A zu erhalten ist also 3

Kritische Grenzen und p-wert Wir sehen uns für jede Anzahl k von 0 bis n=13 die dazugehörende Wahrscheinlichkeit an, dass die Teststatistik unter der Nullhypothese genau diesen Wert annimmt, also P(T=k). Die Nullhypothese lautet kein Zusammenhang oder gleiche Anteile an Erfolgen in beiden Gruppen. Einen p-wert bei einer zweiseitigen Alternativhypothese kann man als Summe aller Wahrscheinlichkeiten erhalten, die kleiner oder gleich der Wahrscheinlichkeit sind, die zur Teststatistik gehört. Hier ist demnach der p-wert = 1. Kritische Grenzen, die den Annahmebereich der Nullhypothese abgrenzen lassen, sich so bestimmen, dass unter der Nullhypothese gilt: und Um H0 Kein Zusammenhang abzulehnen, müsste t>c o oder t<c u sein. Hier liegt t innerhalb der Grenzen (α=0,05). k P(T=k) 0 0 1 0 2 0 0.0170 α/2 3 0 4 0 5 0.01702786 6 0.13622291 c u 7 0.34055728 8 0.34055728 t 9 0.14189886 c o 10 0.02270382 0.0237 α/2 13 0 11 0.00103199 12 0 4

Maximum Likelihood Schätzung eines Anteilswertes Bsp: Wir fragen 10 zufällig ausgewählte Personen, ob sie Vegetarier sind. 2 antworten mit ja (x=1), 8 mit nein (x=0). Unsere Stichprobe ist also Wie hoch ist der wahre Anteil p an Vegetariern in der Grundgesamtheit, der dieses Ergebnis am wahrscheinlichsten macht? Das ist der Maximum-Likelihood Schätzer für den Anteilswert. Die Wahrscheinlichkeit, dass eine Person mit ja antwortet ist p. Die Wahrscheinlichkeit genau unsere Stichprobe zu erhalten ist daher die Likelihood oder etwas formaler, mit a= Anzahl der x=1 und b= Anzahl der x=0 Gesucht ist also der Wert für p, für den diese Likelihoodfunktion maximal wird! 5

Log-Likelihood Wir wollen für p maximieren. Leichter ist es oft, die Likelihoodfunktion zuerst zu logarithmieren. Das Maximum ändert sich dadurch nicht! (Weil logarithmieren eine monotone Transformation ist.) also Jetzt leiten wir die Log-Likelihood nach p ab und setzen die Ableitung gleich 0: Wenn wir diese Gleichung umformen erhalten wir und daraus Der Maximum-Likelihood Schätzer ist also ganz einfach der Anteil an x=1 in der Stichprobe 6

Odds Wir betrachten ein binäres Zufallsereignis Die Wahrscheinlichkeit, dass das Ereignis eintritt ist wieder die Gegenwahrscheinlichkeit ist Das Verhältnis aus Wahrscheinlichkeit und Gegenwahrscheinlichkeit nennen wir Odds: Beachte: p liegt immer im Intervall, die Odds liegen im Intervall, und natürlich je größer p, desto größer die Odds. 7

Odds Ratio Das Odds Ratio ist das Verhältnis der Odds aus zwei unterschiedlichen Gruppen. In der einen Gruppe tritt das Ereignis mit Wahrscheinlichkeit p 1 ein, in der anderen mit Wahrscheinlichkeit p 2. Sind p 1 und p 2 identisch ist OR=1 für p 1 > p 2 wird OR größer als 1, für p 1 < p 2 wird OR kleiner als 1. 8

Bsp: Betrachte folgende Vier-Felder Tafel in der beobachtete Häufigkeiten eingetragen sind: Diabetes Bluthochdruck ja nein ja 10 5 nein 15 20 In der Gruppe mit Bluthochdruck schätzen wir den Anteil der Diabetiker aufgrund dieser Daten mit. Und in der anderen Gruppe Odds in der Gruppe mit Bluthochdruck: Oder einfacher direkt aus den Häufigkeiten: Also 9

Bsp. Fortsetzung Diabetes Bluthochdruck ja nein ja 10 5 nein 15 20 Gruppe mit Bluthochdruck: Und für die Gruppe ohne Bluthochdruck: Das Odds-Ratio: Wir können daher vermuten, dass in der Gruppe mit Bluthochdruck ist das Risiko für Diabetes erhöht ist. 10

Bsp. Fortsetzung Also, und, Stichprobengröße:, Können wir testen, ob das Unterschiedlich Anteil an Diabetikern in den Gruppen Bluthochdruck ja und nein signifikant verschieden ist? Ja: Wir kennen bereits drei passende Methoden! 1) z-test für Differenz von zwei Anteilswerten (benutzt Normalverteilungsapproximation): Testet die Nullhypothese Die wahren Anteile sind in beiden Gruppen gleich., mit ( ist einfach der Gesamtanteil der Diabetiker, also eine Schätzung für den wahren Anteil, wenn beide Gruppen gleich sind.) Daher 11

Unter der Nullhypothese gilt. Daher p-wert (Anmerkung: Das Umkehren von in ist formal nicht ganz korrekt, bei einer stetigen Verteilung wie hier ändert sich das Ergebnis aber nicht.) ist die Verteilugnsfunktion der Standardnormalverteilung. Hier können wir den p-wert aus der Normalverteilungstabelle ablesen! Verteilungsfunktion der Standardnormalverteilung. Ф(z) = P(Z<=z) z Ф(z) z Ф(z) z Ф(z) z Ф(z) z Ф(z) z Ф(z) 0.01 0.504 0.51 0.695 1.01 0.8438 1.51 0.9345 2.01 0.9778 2.51 0.994 0.02 0.508 0.52 0.6985 1.02 0.8461 1.52 0.9357 2.02 0.9783 2.52 0.9941 0.03 0.512 0.53 0.7019 1.03 0.8485 1.53 0.937 2.03 0.9788 2.53 0.9943 0.04 0.516 0.54 0.7054 1.04 0.8508 1.54 0.9382 2.04 0.9793 2.54 0.9945 0.05 0.5199 0.55 0.7088 1.05 0.8531 1.55 0.9394 2.05 0.9798 2.55 0.9946 0.06 0.5239 0.56 0.7123 1.06 0.8554 1.56 0.9406 2.06 0.9803 2.56 0.9948 0.07 0.5279 0.57 0.7157 1.07 0.8577 1.57 0.9418 2.07 0.9808 2.57 0.9949.................................... Also p-wert (ohne Rundungen 0.1228) Wir sehen p-wert = 0,1236 > =0,05 daher können wir die Nullhypothese nicht verwerfen! Wir können also nicht sagen, dass die Unterschiede im Diabetikeranteil zwischen den Gruppen Bluthochdruck ja/nein signifikant sind! 12

2) Wir können auch einen Chi-Quadrat Unabhängigkeitstest ausführen (siehe Folien der vorigen Stunde). Die Nullhypothse ist hier Die Verteilung der Diabetiker ist in beiden Bluthochdruck Gruppen gleich. Die Teststatistik für diesen Test ist (Berechnung wie in den Folien der vorigen Stunde.) Diese Teststatistik folgt unter der Nullhypothese annähernd einer Chi-Quadrat Verteilung. Hier mit Freiheitsgrad. Dieser Test ist immer einseitig! Die Teststatistik gegen die Nullhpothese ist immer positiv und große Werte sprechen Der p-wert ist hier oder wobei eine mit 1 Freiheitsgrad Chi-Quadradat verteilte Zufallszahl ist und die entsprechende Verteilungsfunktion ist. Für die Chi-Quadrat Verteilung haben wir keine so umfassende Tabelle zur Verfügung, die Berechnung ist aber mit Hilfe eines Computerprogramms (hier R) kein Problem: p-wert = 0,1228 Also identisch mit dem Ergebnis des z-tests. Und diese Tests sind auch tatsächlich äquivalent! 13

3) Auch der exakte Test nach Fisher wäre hier anwendbar. Die Nullhypothese wird hier oft als Wahre Odds Ratio = 1 formulier, was natürlich gleichbedeutend mit den oben formulierten Hypothesen ist. Wir benutzen wieder R und erhalten den Output: Fisher's Exact Test for Count Data data: m p-value = 0.2165 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.6467501 11.9516097 sample estimates: odds ratio 2.613913 Hier erhalten wir also p-wert= 0,2165. Also kein identisches Ergebnis wie oben, aber mit der selben Entscheidung. Der Unterschied im Anteil der Diabetiker ist nicht signifikant. 14

Logistische Regression Vielleicht wollen wir aber eine binäre Zielgröße nicht mit der Zugehörigkeit zu einer Gruppe erklären, sondern durch mehrere unabhängige Einflussgrößen! Dann können wir die logistische Regression benutzen. Ziel der logistischen Regression ist es, die Eintrittswahrscheinlichkeit für ein binäres Ereignis durch eine oder mehrere unabhängige Größen zu erklären. Die Modellgleichung lautet Der Ausdruck ist der Logarithmus der Odds, er wird oft mit log-odds oder logit bezeichnet. ist der Vektor der erklärenden Größen für Beobachtung i, ist der Vektor der Regressionskoeffizienten, also wie im linearen Regressionsmodell. 15

Link-Funktion Wir haben schon bemerkt: p liegt immer im Intervall. Die Linearkombination von erklärenden Variablen kann aber grundsätzlich beliebig große positive und negative Werte annehmen. Es wäre daher ungünstig, zu versuchen, p direkt durch eine Linearkombination von unabhängigen Größen zu erklären. Wir brauchen eine Funktion von p, die Werte im Intervall annehmen kann. Die Odds liegen im Intervall, das ist ein erster Schritt Die log-odds liegen im Intervall. Dies ist daher eine geeignete Link-Funktion! erhalten wir durch Umformen der Modellgelichung zu 16

Grafische Darstellung der Modellfunktion in einem Beispiel mit einer unabhängen Größe x. Die Punkte stellen die Beobachtungen dar, die Linie das Modell. Die Koeffizienten haben hier die Werte und 17

Beispiel: Wir wollen das Auftreten von Laktoseintoleranz durch Alter und Land erklären. Die Zielgröße wird am besten mit 0/1 kodiert: 0=nein, 1=ja Land ist eine kategorial Größe mit drei Stufen, Alter ist eine metrische Größe. Die Daten: i Laktoseintoleranz Land Alter 1 0 EU 26 2 1 EU 56 3 0 EU 48 4 0 EU 59 5 0 EU 67 6 0 USA 34 7 0 USA 34 8 1 USA 29 9 1 USA 48 10 0 USA 44 11 1 Jap 66 12 1 Jap 46 13 1 Jap 51 14 1 Jap 51 15 0 Jap 49 18

Wir wählen EU als Referenzgruppe für den Faktor Land und benutzen die Dummyvariablen USA und Japan: i Laktoseintoleranz (y) USA Japan Alter 1 0 0 0 26 2 1 0 0 56 3 0 0 0 48 4 0 0 0 59 5 0 0 0 67 6 0 1 0 34 7 0 1 0 34 8 1 1 0 29 9 1 1 0 48 10 0 1 0 44 11 1 0 1 66 12 1 0 1 46 13 1 0 1 51 14 1 0 1 51 15 0 0 1 49 Unser Modell lautet also ist die Wahrscheinlichkeit für Individuum i, Laktoseintoleranz zu zeigen. 19

Maximum Likelihood Schätzung für Die Likelihood für Beobachtung i ist die Wahrscheinlichkeit, dass laut Modell das Ereigniss eintritt, das wir beobachtet haben. Also: Wenn Laktoseintoleranz gleich 1 ist ( Wenn Laktoseintoleranz gleich 0 ist ( ) und ist die Likelihood gleich ) und ist die Likelihood gleich Die Likelihood für die gesamte Stichprobe ist das Produkt der individuellen Likelihoods: bzw. log-likelihood: (Beachte: die Hochzahlen und sind entweder 0 oder 1, sie bestimmen also einfach, ob mit oder multipliziert wird.) 20

In die Log-Likelihood Gleichung setzen wir bzw. ein und erhalten Der Parametervektor soll jetzt so gewählt werden, dass die log-likelihood maximal wird! Dazu wird ein iterativer Algorithmus, das Newton-Raphson Verfahren, verwendet um den Vektor als Nullstelle der ersten Ableitung der log-likelihood zu finden Die Berechnung überlassen wir dem Computer und erhalten die Koeffizienten: (Intercept) LandUSA LandJap Alter β 0 =-3.788 β 1 =1.682 β 2 =2.849 β 3 =0.045 21

Interpretation der Regressionskoeffizienten Am einfachsten ist es, die Ergebnisse über Odds-Ratios zu interpretieren, denn für eine Änderung entsprechende Einflussgröße um 1. Unser Modell stellt ja den Zusammenhang dar daher Wie groß ist das Verhältnis der Odds für einen Japaner zu einem gleichaltrigen Euopäer? Alle Koeffizienten außer fallen weg! 22

Wir berechnen also: Das heißt wir schätzen aus dem Modell, dass die Odds für Laktoseintolerant in Japan 17,3 mal so hoch sind wie in Europa. Ebenso können das Odds-Ratio für einen Altersanstieg um 1 Jahr berechnen: Oder für einen Altersunterschied von 10 Jahren: Wie sieht es mit dem Odds Ratio für Japan gegen USA aus? Man muss also bei kategorialen Einflussgrößen die gewählte Kodierung beachten. 23

Verteilung der Maximum Likelihood Schätzer und Tests für die Koeffizienten Maximum Likelihood Schätzern folgen (zumindest asymptotisch) einer Normalverteilung mit dem wahren Parameter als Erwartungswert! Die Varianz-Kovarianzmatrix für die Maximum Likelihood Schätzer lässt sich als -1*Inverse der Matrix der zweiten Ableitungen der Log-Likelihood Funktion an der Stelle Jetzt haben wir alles, was wir brauchen um wie gewohnt Hypothesen der Form schätzen. zu testen. Hier ist es sogar einfacher als im linearen Regressionsmodell, weil wir direkt die Normalverteilung und nicht die t-verteilung benutzen. Also Teststatistik: H0 ablehnen wenn oder p-wert berechnen wie oben beim Test für Anteilswerte erklärt p-wert =, und H0 ablehnen, wenn. 24

Vollständiger Computer-Output für unser Modell Softwareprogramme führen alle diese Berechnungen standardmäßig aus: Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -3.78802 4.31937-0.877 0.380 LandUSA 1.68203 1.97467 0.852 0.394 LandJap 2.84920 1.63845 1.739 0.082. Alter 0.04474 0.07450 0.601 0.548 Wir sehen: Alter hat keinen Einfluss auf das Auftreten von Laktoseintoleranz (p-wert=0,548). Der Koeffizient für USA ist nicht signifikant verschieden von 0, das heißt ein Unterschied zwischen USA und Europa ist nicht zu erkennen. Der Test für den Koeffizient von Japan ergibt einen p- Wert=0,082. Nicht klein genug, um bei einem Signifikanzniveau 0,05 einen Unterschied als signifikant anzugeben, aber unter Umständen ein Hinweis auf einen Zusammenhang. 25

Konfidenzintervalle für die Odds Ratios Durch die Normalverteilugnsapproximation ist es sehr leicht, Konfidenzintervalle für die Parameter und durch exponieren für die Odds Ratios zu erhalten. Konfidenzintervall für : Konfidenzintervall für OR: Zum Beispiel 95% Konfidenzintervall für 26

Likelihood-Ratio Test Wie testen wir, ob das Modell insgesamt oder eines bestimmer Faktor, wie hier Land, signifikante Erklärungskraft hat? Im linearen Regressionsmodell haben wir F-Tests benutzt. Bei der logistischen Regression steht uns der Likelihood-Ratio Test zur Verfügung. Dazu wird zuerst die log-likelihood des vollen Modells (Modell mit allen Einflussfaktoren) berechnet. Für unser Modell ist diese Dann wird ein Modell berechnet, in dem die Faktoren fehlen, deren Einfluss getestet werden soll, zum Beispiel Land, und man berechnet wieder die Log-Likelihood Hier wäre das Ergebnis Die Likelihood-Ratio Teststatistik lautet nun 27

Die Likelihood-Ratio Teststatistk folgt (asymptotisch) einer Chi-Quadrat Verteilung Die Zahl der Freiheitsgrade dieser Verteilung ist die Differenz der Zahl der Parameter im vollen und im reduzierten Modell. Hier sind das die Parameter die zum Faktor Land gehören, also und. Die verteilung hat also df=2 Freiheitsgrade. Die kritische Grenze ist das 95% Quantil dieser Verteilung bzw. p-wert = 0,144 bzw. Wir können also keinen signifikanten Einfluss des Faktors Land auf das Auftreten von Laktoseintoleranz finden. 28

Für eine Globalen Test berechnen wir ein Modell das nur den Intercept enthält. Die loglikelihood für diese Nullmodell ist Die Likelihood-Ratio Teststatisitk ist dann Die Nullhypothese ist Alle parameter außer dem Intercept sind 0. Die Verteilung unter der Nullhypothese ist die Chi-Quadratverteilung mit df=3 Freiheitsgraden. Das 95% Quantil dieser verteilung ist c=7.815, Wir können also keinen signifikanten Zusammenhang zwischen einem der Faktoren und der Zielgröße Laktoseintoleranz finden. 29

Achtung bei vollständiger Separation! i Laktoseintoleranz Land Alter 1 0 EU 26 2 1 EU 56 3 0 EU 48 4 0 EU 59 5 0 EU 67 6 0 USA 34 7 0 USA 34 8 1 USA 29 9 1 USA 48 10 0 USA 44 11 1 Jap 66 12 1 Jap 46 13 1 Jap 51 14 1 Jap 51 15 1 Jap 49 In diesem Datensatz haben zeigen alle Japaner Laktoseintoleranz. Wenn in einer Klasse nur identische Beobachtungen vorkommen sprechen wir von vollständiger Separation. (Auch wenn für eine metrische Größe im Datensatz in Bezug auf die abhängige Größe eindeutig unterteilt ist, z.b.: x= 1,2,3,4 und y = 0,0,1,1) 30

Vollständige Separation ist für die Berechnung des zu dieser Klasse gehörenden Regressionskoeffizienten ein Problem: Estimate Std. Error z value Pr(> z ) (Intercept) -3.07086 4.33094-0.709 0.478 LandJap 20.97884 4788.57230 0.004 0.997 LandUSA 1.45934 1.93317 0.755 0.450 Alter 0.03178 0.07640 0.416 0.677 Aus den Daten würde hier der Anteil an Japanern mit Laktoseintoleranz auf p=1 geschätzt werden. Die Odds müssten dann gegen unendlich gehen. Der Algorithmus findet einen hohen Wert für den entsprechenden Parameter, aber mit einem extrem hohen Standardfehler! Merke: Extrem hoher Standardfehler weist auf Separation hin. Das Problem kann man durch zusammenlegen von Klassen umgangen werden. Wenn das nicht sinnvoll ist (wie hier) gibt es Berechnungsmethoden mit penalized maximum likelihood (Firth logistic Regression). 31

Zum Schluss... Was kommt heraus, wenn wir die logistische Regression auf unser Beispiel über den Zusammenhang von Diabetes und Bluthochdruck anwenden?: Estimate Std. Error z value Pr(> z ) (Intercept) -1.3863 0.5000-2.773 0.00556 ** Bluthochdr. 0.9808 0.6455 1.519 0.12864 Wir erhalten einen p-wert der fast identisch ist mit dem p-wert aus dem Chi-Quadrat Test bzw. z- Test. Das Odds Ratio ist gleich wie oben: 32