Odds: Verhältnis der Wahrscheinlichkeit, dass ein Ereignis eintritt zur Wahrscheinlichkeit,

Ähnliche Dokumente
Logistische Regression

Verallgemeinerte lineare Modelle. Promotion. Promotion. Methoden empirischer Sozialforschung. 1 binäre und mehrere metrische und kategoriale Variablen

Poisson Regression & Verallgemeinerte lineare Modelle

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios

Biometrie. Regressionsmodelle

Nicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood

Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte

Kategorielle Daten. Seminar für Statistik Markus Kalisch

Seminar zur Energiewirtschaft:

Thilo Moseler Bern,

Kategorielle Zielgrössen

Logistische Regression

Maximum-Likelihood Schätzung

Poisson Regression. Verallgemeinerte Lineare Modelle (GLMs)

Logistische Regression

Dr. Matthias Rudolf: M3 Multivariate Statistik Vorlesung LogRA. Folie Nr. 1

Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur

Maximum-Likelihood Schätzung. VL Forschungsmethoden

5.Tutorium Generalisierte Regression

Raschmodelle und generalisierte Regression. Sven Hilbert

# Proportionen berechnen: die Proportion vom Erfolg (0 <= p <= 1) p = with(ovokal.m, P/(P+Q)) ovokal.m = cbind(ovokal.m, p)

Logistische Regression

Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13

2.Tutorium Generalisierte Regression

Ordinale abhängige Variablen. Einführung Regressionsmodelle für ordinale Variablen Empirisches Beispiel Ausblick

Anwendung logistischer und linearer Regressionsmodelle zur Berechnung von adjustierten NNEs und Risikodifferenzen

Statistik II für Betriebswirte Vorlesung 11

VO Biostatistik im WS 2006/2007

Verallgemeinerte lineare Modelle in R

f(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212

Statistik für Ingenieure und Naturwissenschaftler

Alternative Darstellung des 2-Stichprobentests für Anteile

Lineare Modelle in R: Klassische lineare Regression

5. Spezielle stetige Verteilungen

6.6 Poisson-Verteilung

Multivariate Verfahren

Klausur Statistik Lösungshinweise

After Work Statistics

Lineare Regression. Kapitel Regressionsgerade

Vet. Med. Uni. Budapest 5. Übung Biomathematik 2017

Statistische Modellierung Merkblatt

Erwin Grüner

Alternative Darstellung des 2-Stcihprobentests für Anteile

Pareto optimale lineare Klassifikation

Statistische Methoden

Biomathematik für Mediziner, Klausur SS 2001 Seite 1

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Logistische Regression: Reaktivierungsscore

7.5 Erwartungswert, Varianz

Epidemiologie / Biometrie

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Logit-Analyse mit ordinalen und nominalen abhängigen Variablen

Statistische Inferenz bei ROC Kurven. Notation. Man unterscheidet:

Kommentierter SPSS-Output für hierarchische log-lineare Modelle (Modul Modellauswahl) 3 Dimensionen

Einfache lineare Regression. Statistik (Biol./Pharm./HST) FS 2015

Teil: lineare Regression

Wahrscheinlichkeit und Statistik: Zusammenfassung

Ein Vergleich von 2-Stichproben-Verfahren mit Berücksichtigung von Baselinewerten bei ordinalen Zielvariablen

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Punkte 2 und 3 genau gleich für stetige Verteilungen. zl uniform verteilte Zz. in (0,1)

Wichtige Definitionen und Aussagen

Spezielle Verteilungen

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.

Querschnittsbereich Nr. 1: Epidemiologie, Med. Biometrie und Med. Informatik

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Schweizer Statistiktage, Aarau, 18. Nov. 2004

Sprechstunde zur Klausurvorbereitung

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Empirische Analysen mit dem SOEP

STATISTIK Teil 2 Wahrscheinlichkeitsrechnung und schließende Statistik

Inhaltsverzeichnis. Vorwort

(G)LM. 24. November 2009

Musterlösung. Modulklausur Multivariate Verfahren

f Z (z) = 0 sonst = 1

9.1 Einleitung. Statistik. Qualitative 2-Weg Daten. Bsp: UCB Admissions. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

DIPLOMARBEIT HOCHSCHULE MITTWEIDA (FH) UNIVERSITY OF APPLIED SCIENCES

Wahrscheinlichkeitstheorie und Statistik

Kovarianzanalyse. Truthahngewicht. Truthahngewicht. Methoden empirischer Sozialforschung. 1 metrische und mehrere metrische und kategoriale Variablen

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Multiple Lineare Regression (Forts.) Residualanalyse (1)

Teil IX. Verteilungen an Daten anpassen ( Maximum-Likelihood-Schätzung. fitten ) Woche 7: Maximum-Likelihood-Schätzung. Lernziele

Lineare Modelle in R: Zweiweg-Varianzanalyse und Kovarianzanalyse

1 Analyse von Kontigenztafeln: Das loglineare Modell

Vorlesung: Multivariate Statistik für Psychologen

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

1 Binäre Regression (I)

Biostatistik 101 Korrelation - Regressionsanalysen

Fall-Kontroll Studien und Selection Bias. 1.4 Fall-Kontroll Studien: Vorbemerkungen

Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.

1.5.4 Quantile und Modi. Bem [Quantil, Modus]

Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik. 7. Februar 2008

5 Binomial- und Poissonverteilung

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

The ROC curve in screening with multiple markers: An application to the triple test in prenatal diagnostics

Stochastik Praktikum Lineare Modelle

Alternative Darstellung des 2-Stichprobentests für Anteile

Transkript:

1 Odds and odds-ratio 1.1 Odds Odds: Verhältnis der Wahrscheinlichkeit, dass ein Ereignis eintritt zur Wahrscheinlichkeit, dass es nicht eintritt. Odds-Ratio: Verhältnis zweier Odds zueinander. OddsRatio > 1: Odds in erster Gruppe (Zähler) sind größer. Bei Erkrankungen: Die Wahrscheinlichkeit zu erkranken ist in erster Gruppe größer als in zweiter Gruppe. p 1 p Zahlen Everitt: 278 Vpn, 68 Fälle, 210 gesund, 174 Frauen, 104 Männer p(case) = 68 278 = 0.2446043 odds(case) = p 1 p = 0.2446043 1 0.2446043 = 0.3238095 Sensitivität: positiv erkannt tatsächlich positiv Spezifität: negativ erkannt tatsächlich negativ 2 Logistische Funktion Allgemeine Form f(x) = ex 1 + e x = 1 1 + e x Umformung erfolgt durch Multiplikation mit e x. e x e x = 1 Verdeutlichung der Parameter: f(x) = 1 1 + e (x+h) s Lage des Wendepunktes (und damit Verschiebung der Kurve in der Waagerechten) läßt sich über Parameter h beeinflussen, Steilheit der Kurve über Paramter s. Beide sind Konstanten so dass x die einzige Variable bleibt. 3 Generalisierte Lineare Modelle 3.1 Nomenklatur Leider verwechselbare Bezeichungen. ALM (allgemeine lineare Modelle = GLM (general linear models) GLM (generalisierte lineare Modelle) = VLM (verallgemeinerte lineare Modelle) = GLZ (generalized linear models) = GzLM (in SPSS) = GLiM (bei Zuccini) [manchmal leider auch im Englischen als GLM bezeichnet] 1

3.2 Grundidee Verallgemeinerung klassischer linearer Modelle. Erwartungswert der Response-Variable (Mittelwert) gegeben die Erklärungsvariablen (response variables) E(y x 1, x 2,..., x q ) = β 0 + β 1 x 1 + β 2 x 2 +... + β q x q Bedingung: y ist stetige Variable und normalverteilt. Wenn Bedingung nicht erfüllt: Obiges Modell passt nicht. Lösung: Generalisiertes Lineares Modell (GLiM). Ansatz: Eine Link-Funktion vermittelt zwischen Erklärungsvariablen und der Responsevariable. Allgemein g(e(y x 1, x 2,..., x q )) = β 0 + β 1 x 1 + β 2 x 2 +... + β q x q = β 0 + q β k x k GLZ sind verwendbar, wenn Responsevariable eine andere als Normalverteilung vorliegt (Verteilungen aus der Exponentialfamilie wie Poisson, Gamma,...) Die sog. Linkfunktion verknüpft die Responsevariable mit der Linearkombination der Erklärungsvariablen. Die Parameter stehen ausschließlich in linearer Form in den Modellgleichungen. exp(β 2 ) oder αβ sind nicht möglich. Die Linkfunktion und die Verteilung der Responsevariablen stehen in engem Zusammenhang. k=1 2

4 Logistische Funktion als Beispiel Bei binärer response-variable gibt es nur die Ausgänge 0 und 1 und sie sind bernoulli-verteilt (hier binomialverteilt). Problem: Klassisches Lineares Modell passt nicht. Lösung: Generalisiertes Lineares Modell (GLZ). Ansatz: Eine Link- Funktion vermittelt zwischen Erklärungsvariablen und der Responsevariable. Allgemein Am Beispiel der binären Responsevariablen ist die Link-Funktion die Logit- Funktion. Logit-Wert L ist der Logarithmus naturalis eines Odds, also Wahrscheinlichkeit p durch Gegenwahrscheinlichkeit p-1: Umkehrung: p L = logit(p) = log(odds) = log( 1 p ) p = el 1 + e L = 1 1 + e L q logit() = log( 1 ) = β 0 + β 1 x 1 + β 2 x 2 +... + β q x q = β 0 + β k x k 4.1 Beispiel GHQ Data Everitt 4.1.1 Modell anpassen in R k=1 ## GHQ Anpassung des Modells dd <- read.delim("http://www.psych.uni-goettingen.de/mat/mv/everitt-ghq-vp.txt") # einen Anriss der Tabelle dd[c(1:5,167:176,273:278),] # Anzahl der Casese und Codes: print(c( Anzahl non-cases (case=0), length(dd$case[dd$case == 0]))) print(c( Anzahl Cases (case=1), length(dd$case[dd$case == 1]))) # Kreuztabellierung der Kombinationen table(dd$sex, dd$case) # Eine erste Visualisierung, die die Unsinnigkeit einer üblichen MR veranschaulicht plot(dd[,1:4]) # logistische Regression wird in R mit dem GLM gerechnet # da GLM verschiedene Auswertungsfamilien beherrscht, muss das spezifiziert werden # die Angabe data= verweist auf einen DataFrame, aus dem die Daten gelesen werden (kein attach notwendig) # das angepasste Modell kann wie üblich gespeichert werden # Fitten der ghq-werte m.dd.ghq <- glm(case ~ ghq, data=dd, family=binomial) # mit Summary summary(m.dd.ghq) # nur Geschlecht als Prädiktor hat wenig Erklärungswert m.dd.sex <- glm(case ~ factor(sex), data=dd, family=binomial) 3

summary(m.dd.sex) # GHQ und Geschlecht als Prädiktor aber ohne Interaktion m.dd.g.s <- glm(case ~ factor(sex) + ghq, data=dd, family=binomial) summary(m.dd.g.s) # wie sind die Koeffizienten coefficients(m.dd.g.s) # dieselben Werte in verständlicherer Regressionsparameter-Form b0 <- coefficients(m.dd.g.s)[1] b.sex <- coefficients(m.dd.g.s)[2] b.ghq <- coefficients(m.dd.g.s)[3] # mit diesen Koeffizienten kann der logit, also der ln(odds) vorhergesagt werden logit.cases <- b0 + b.sex * dd$sex + b.ghq * dd$ghq # aus den Logits können die individuellen Erkrankungswahrscheinlichkeiten berechnet werden p.cases <- exp(logit.cases) / (1 + exp(logit.cases)) #... und zu Dataframe dd hinzufügen als Spalte dd$p <- p.cases # ein Plot: pro Geschlecht: GHQ-Wert gegen Erkrankungswahrscheinlichkeit plot(dd$ghq[dd$sex == 1], dd$p[dd$sex == 1], pch= f, cex=1) points(dd$ghq[dd$sex == 2], dd$p[dd$sex == 2], pch= m, cex=1) # hier sollten die genealogischen Zeichen kommen, aber der Font macht nicht mit # plot(dd$ghq[dd$sex == 1], dd$p[dd$sex == 1], pch=-0x2540l, cex=2) #points(dd$ghq[dd$sex == 2], dd$p[dd$sex == 2], pch=-0x2542l, cex=2) # beispielhaft ein paar individuelle Vorhersagen: # Frau (sex=1) mit GHQ 1 logit.p <- b0 + b.sex * 1 + b.ghq * 1 logit.p exp(logit.p)/(1 + exp(logit.p)) # Frau (sex=1) mit GHQ 9 logit.p <- b0 + b.sex * 1 + b.ghq * 9 logit.p exp(logit.p)/(1 + exp(logit.p)) # Mann (sex=2) mit GHQ 1 logit.p <- b0 + b.sex * 2 + b.ghq * 1 logit.p exp(logit.p)/(1 + exp(logit.p)) # Mann (sex=2) mit GHQ 9 logit.p <- b0 + b.sex * 2 + b.ghq * 9 logit.p exp(logit.p)/(1 + exp(logit.p)) Resultate eines GLZ in R nach Everitt GHQ-Data Geschlecht (1=Frau, 2=Männer) GHQ-Werte schwanken von 0(gesund) - 10 (krank) volles Modell ohne Interaktion (wie bei Everitt) β 0 = 2.49351, β 1 = 0.93609, β 2 = 0.77910 exploratory variables: x 1 Geschlecht x 2 GHQ 4

4.1.2 Frau (1), GHQ niedrig (1) i logit( i ) = log( ) 1 i = β 0 + β 1 x 1,i + β 2 x 2,i = 2.49351 + 0.93609 1 + 0.77910 1 = 2.6505 Wahrscheinlichkeit für diese Person psychatrisch zu erkranken ist dann: = exp(β 0 + β 1 x 1 + β 2 x 2 ) 1 + exp(β 0 + β 1 x 1 + β 2 x 2 ) = e 2.49351+( 0.93609 1)+0.77910 1 1 + e 2.49351+( 0.93609 1)+0.77910 1 2.6505 = 1 + ( 2.6505) = 0.0659582 Die zugehörigen Odds (für diese Person) odds = 1 = 0.0659582 1 0.0659582 = 0.0706159 Diese Frau mit niedrigem GHQ hätte eine 0.07-fach höhere Chance psychiatrisch zu erkranken, als gesund zu bleiben (odds). 4.1.3 Frau (1), GHQ hoch (9) logit() = log( 1 ) = β 0 + β 1 x 1 + β 2 x 2 = 2.49351 + 0.93609 1 + 0.77910 9 = 3.5823 odds = = e 2.49351+ 0.93609 1+0.77910 9 1 + e 2.49351+ 0.93609 1+0.77910 9 = 0.9729415 1 = 0.9729415 1 0.9729415 = 35.95695 Diese Frau mit hohem GHQ hätte eine 35.9-fach höhere Chance psychiatrisch zu erkranken, als gesund zu bleiben (odds). 5

4.1.4 Mann (2), GHQ niedrig (1) logit() = log( 1 ) = β 0 + β 1 x 1 + β 2 x 2 = 2.49351 + 0.93609 2 + 0.77910 1 = 3.586595 odds = = e 2.49351+ 0.93609 2+0.77910 1 1 + e 2.49351+ 0.93609 2+0.77910 1 = 0.02694639 1 = 0.02694639 1 0.02694639 = 0.0276926 4.1.5 Mann (2), GHQ hoch (9) logit() = log( 1 ) = β 0 + β 1 x 1 + β 2 x 2 = 2.49351 + 0.93609 2 + 0.77910 9 = 2.646228 odds = = e 2.49351+ 0.93609 2+0.77910 9 1 + e 2.49351+ 0.93609 2+0.77910 9 = 0.9337781 1 = 0.9337781 1 0.9337781 = 14.10076 Dieser Mann mit hohem GHQ hätte eine 14.1-fach höhere Chance, psychiatrisch zu erkranken, als gesund zu bleiben. Bei gleich hohem GHQ-Wert halbiert also ein Mann zu sein die Erkrankungschance im Vergleich zu Frauen. Als Odds-Ratio ausgedrückt: OddsRatio GHQ=1 = odds F rau odds Mann = 0.0706159 0.0276926 = 2.549992 6

Bei GHQ von 1 haben Frauen also ein 2.54-fach höheres Erkrankungsrisiko als Männer Odds Ratio GHQ=9 = odds F rau odds Mann = 35.95695 14.10076 = 2.550001 Bei GHQ von 9 haben Frauen ein 2.55-fach höheres Erkrankungsrisiko als Männer Odds-Ratio bleibt über die Stufen der GHQ-Werte gleich. Odds-Ratio lässt keine Rückschlüsse mehr zu auf die Grundwahrscheinlichkeiten bzw. die zugrunde liegenden Odds. 4.2 Beispiel Risiko Herzerkrankung Ein Beispiel aus dem englischen Wikipedia: logistische Regression The application of a logistic regression may be illustrated using a fictitious example of death from heart disease. This simplified model uses only three risk factors (age [years over 50], sex [0=female, 1=male], and blood cholesterol level [over 5]) to predict the 10-year risk of death from heart disease. These are the parameters that the data fit: β 0 = 5, β 1 = 2, β 2 = 1, β 3 = 1.2 exploratory variables: x 1 = 0 (50 - Alter[50]) x 2 = 0 (weiblich) x 3 = 2 (Wert 7 liegt 2 über 5) logit() = log( 1 ) = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 = 5 + 2 0 + 1 0 + 1.2 2 = 2.6 log(odds) = -2.6 Wahrscheinlichkeit für diese Person in den nächsten 10 Jahren an Herztod zu sterben ist dann: = exp(β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 ) 1 + exp(β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 ) = e 5+2 0+ 1 0+1.2 2 1 + e 5+2 0+ 1 0+1.2 2 2.6 = 1 + ( 2.6) = 0.06913842 7

4.3 andere Parameter 4.3.1 Wald zum Prüfen von Einzelparametern (Prädiktoren) W = ( ) 2 βj s βj β j = Regressionskoeffizient der Variable j j = unabhängige Variable j s βj = Standardfehler von β Die Wald-Statistik ist χ 2 verteilt 8