Ein semi-bayes'scher Anpassungstest für das logistische Regressionsmodell mit schwach besetzten Zellen

Ähnliche Dokumente
1.1 Beispiele zur linearen Regression

Ökonomische und ökonometrische Evaluation. 1.3 Ökonometrische Grundkonzepte

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Definition des linearen Korrelationskoeffizienten

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen

EINFÜHRUNG IN DIE POISSON REGRESSION

Lineare Regression Teil des Weiterbildungskurses in angewandter Statistik

Logistische Regression

Kurs Mikroökonometrie Rudolf Winter-Ebmer Thema 3: Binary Choice Models Probit & Logit. Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit

Übung zur Vorlesung - Theorien Psychometrischer Tests II

14 Schätzmethoden. Eigenschaften von Schätzungen ˆθ. Sei ˆθ n eine Schätzung eines Parameters θ, die auf n Beobachtungen beruht.

Prof. Dr. Roland Füss Statistik II SS 2008

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

3 Multiple lineare Regression

Teil E: Qualitative abhängige Variable in Regressionsmodellen

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF

U Test (Rangsummentest) Parameterfreie Tests. U -Test. U -Test. χ ²- Unabhängigkeitstest Test auf Unabhängigkeit von zwei Zufallsgrößen

Klausur zur Vorlesung Lineare Modelle SS 2006 Diplom, Klausur A

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

Mathematische und statistische Methoden II

Übung zur Vorlesung - Theorien Psychometrischer Tests II

Statistische Methoden für Bauingenieure WS 13/14

Der Parameter Migrationsmatrix Teil I

Streuungs-, Schiefe und Wölbungsmaße

ANOVA (Analysis of Variance) Varianzanalyse. Statistik Methoden. Ausgangssituation ANOVA. Ao.Prof.DI.Dr Josef Haas

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz

5 Gemischte Verallgemeinerte Lineare Modelle

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren

Multivariate Analysemethoden

Übungsblatt 8: Spezifikations- und andere Fragen rund um das lineare Regressionsmodell

Statistik Exponentialfunktion

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt:

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung

9 Verallgemeinerte Lineare Modelle

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen

Statistik der Extremwertverteilungen

Nichtparametrische Statistik. Verteilungsfreie Tests. Nichtparametrische Statistik. Verteilungsfreie Tests. Parametrische und Nichtparametrische Tests

Statistik und Wahrscheinlichkeitsrechnung

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

Analyse von Querschnittsdaten. Bivariate Regression

Resultate / "states of nature" / mögliche Zustände / möglicheentwicklungen

Schriftliche Prüfung aus Systemtechnik am

P[bk t c se(b k) k bk t c se(b k)] 1 (5.1.3)

-2 Das einfache Regressionsmodell 2.1 Ein ökonomisches Modell

Bayessches Lernen (3)

1 Einführung in die statistische Regression Beispiele zur linearen Regression Fragestellungen Ausblick...

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)).

Standardnormalverteilung / z-transformation

Kapitel 4: Unsicherheit in der Modellierung Modellierung von Unsicherheit. Machine Learning in der Medizin 104

Dr. Dirk Hasenclever IMISE, Leipzig

6. Modelle mit binären abhängigen Variablen

Statistischen Praktikum

Modul 1: Einführung und Wahrscheinlichkeitsrechnung

Regressionsmodelle für Zähldaten in SAS

Strategien zur Effizienzsteigerung Robustheitsbasierter Optimierungen

WS 2016/17 Prof. Dr. Horst Peters , Seite 1 von 9

b Example: Shrinked blood vessels Y : shrinked: yes (1) / no (0) erkl.: Breath Volume (Vol) and Frequency (Rate) Ziel: P Y = 1 Vol,Rate modellieren!

Empirische Wirtschaftsforschung

Vorlesung 3 Differentialgeometrie in der Physik 13

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

7 Eine und zwei kategorielle Variable

Lehrstuhl für Statistik und emp. Wirtschaftsforschung, Prof. R. T. Riphahn, Ph.D. Bachelorprüfung, Praxis der empirischen Wirtschaftsforschung

12 UMPU Tests ( UMP unbiased )

Verteilungen eindimensionaler diskreter Zufallsvariablen

Numerische Methoden II

Kurs 9.3: Forschungsmethoden II

Verallgemeinerte Lineare Modelle

VERGLEICH VON TESTVERFAHREN FÜR DIE DEFORMATIONSANALYSE

Anhang 9. Bias in ökologischen Studien bei nichtlinearen Risikomodellen

Universität Karlsruhe (TH)

Vertrauensintervalle für multiple Vergleiche bei ungleichen Standardfehlern der Differenzen

Qualitätsparameter in der. Ausgleichungsrechnung

Kapitel 4: Lernen als Optimierung. Maschinelles Lernen und Neural Computation

Grundgedanke der Regressionsanalyse

Zeitreihenmodellierung der ARMA-Klasse

Der Erweiterungsfaktor k

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY)

Gauss sche Fehlerrrechnung

Hydrologie und Flussgebietsmanagement

Kaplan- Meier- Schätzer

Kapitel 2: Klassifikation. Maschinelles Lernen und Neural Computation

Sind die nachfolgenden Aussagen richtig oder falsch? (1 Punkt pro korrekter Beantwortung)

Rückblick Regression II: Anpassung an Polynome

8. Verallgemeinerte Lineare Modelle GLM s

Kapitel V. Parameter der Verteilungen

Lineare Regression (1) - Einführung I -

Vorlesung: Multivariate Statistik für Psychologen

Beschreibende Statistik Mittelwert

Automotive Auswertung der Betriebserfahrung zum Zuverlässigkeitsnachweis sicherheitskritischer Softwaresysteme. S. Söhnlein, F.

Einführung in Origin 8 Pro

Näherungsverfahren. Wiederhole den Algorithmusbegriff. Erläutere die Begriffe: Klasse der NP-Probleme. Probleme. Probleme. Approximative Algorithmen

MOD-01 LAGRANGE FORMALISMUS -- TEIL 1

Masterprüfung SS 2016

8 Logistische Regressionsanalyse

Transkript:

En sem-bayes'scher Anpassungstest für das logstsche Regressonsmodell mt schwach besetzten Zellen Olver Kuß Insttut für Medznsche Epdemologe, Bometre und Informatk, Unverstät Halle-Wttenberg, Magdeburger Str. 27, 06097 Halle/Saale Olver.Kuss@medzn.un-halle.de Programm: 1. Das logstsche Regressonsmodell 2. Überprüfung des Modellanpassung 3. Das Problem der schwach besetzten Zellen 4. Lösungsvorschläge 5. En sem-bayes'scher Lösungsvorschlag 6. Fazt 7. Lteratur

1. Das logstsche Regressonsmodell Standardmethode zur Regressonsanalyse bnärer Zelgrößen Gründe: - Lechte Interpreterbarket der Parameter als Odds- Ratos - Prognosen für das Entreten des Zeleregnsses snd möglch - Verfügbarket von geegneter Software - Analyse von prospektven und retrospektven Beobachtungsstuden möglch - Ausgerefte Methodk (Loglneares Modell, GLIM, nchtlneares Regressonsmodell) Notaton: N unabhängge nach Kovarablenmustern grupperte Beobachtungen (y, x ), =1,..., N x : Vektor von p+1 Kovarablen, y : Anzahl der Erfolge, Realsaton von Y ~ B(m, π ), m : Anzahl der Versuche, N m = 1 M= : Anzahl der ndvduellen Beobachtungen

Daten: Zelgröße 1 0 1 Y 1 m 1 -Y 1 m 1 Kovarablen 2 Y 2 m 2 -Y 2 m 2 Muster : : : : N Y N m N -Y N m N Bespel: Stetge Kovarable(n): N=M (m 1) Zelgröße 1 0 1 1 0 1 Kovarablen 2 0 1 1 Muster : : : : N 1 0 1 Modellglechung π log = 1 π p j= 0 mt β j = (β 0,..., β p ) als dem Vektor der Regressonsparameter. Schätzung der Parameter β j durch ML x j β j

2. Überprüfung der Modellanpassung Statstsche Modellbldung läuft n zwe Schrtten ab Modellwahl und Modellüberprüfung Modellwahl: We beschrebe ch den mttleren Wert der Zelgröße?? Modellüberprüfung: Inwefern wecht deser von den beobachteten Werten ab? Modellüberprüfung gescheht auf zwe Ebenen 1) Betrachte ndvduelle Beträge der enzelnen Beobachtungen zu desen Statstken (auch graphsch): Resduenanalyse 2) Berechne Anpassungsmaße und beurtele Anpassung anhand ener enzelnen Zahl: Anpassungstests En Klassker unter den globalen Anpassungstests: Pearson-Statstk: N 2 y m X = m πˆ 1 2 ( πˆ ) ( πˆ ) = 1 Große Werte von X 2 zegen schlechte Anpassung an Statstscher Test: Vergleche X 2 mt Quantl der χ 2 - Vertelung mt N-p-1 Frehetsgraden

3. Das Problem der schwach besetzten Zellen Gültgket der Prüfvertelung von X 2 hängt wesentlch von der Annahme von hnrechend besetzten Zellen ab (N fest, m für alle ) Unrealstsch be großer Anzahl von Kovarablen oder stetgen Kovarablen Katastrophal: Im Extremfall m 1 glt für X 2 : X 2 N

4. Lösungsvorschläge (Auswahl) 4.1 Modfzerte Prüfvertelung - Unter n, m st X 2 asymptotsch normalvertelt (Osus/Rojek, 1992; McCullagh, 1986) 4.2 Grupperung von Beobachtungen - Hosmer-Lemeshow-Test (Hosmer/Lemeshow, 1980) Inzwschen Quas-Standard, Anwendung aber ncht ohne Probleme (Hosmer et al, 1997, Bertoln et al., 2000) 4.3 Verwendung anderer Teststatstken - X 2 F (Farrngton, 1996) X 2 F = X 2 + N = 1 m π ( 1 2πˆ ) ( ) ( y ) m ˆ π ˆ 1 πˆ - IM-Test (Whte, 1982; Orme, 1988) - R C (Copas, 1986, Hosmer et al., 1997) R C = M ( y mπˆ ) = 1 Summaton von rohen Pearson-Resduen 2

5. En sem-bayes'scher Lösungsvorschlag Problem 1: Lösungen von McCullagh und Osus/Rojek berechnen asymptotsche Momente von X 2 und verlassen sch auf de Normalvertelung Idee 1: Bayes'sche Schätzung des Modells lefert Posteror- Vertelung für alle Parameter und auch für alle Funktonen der Parameter. Also: Schätze Model durch MCMC und erhalte dadurch komplette "exakte" Posteror- Vertelung von X 2. Schön: MH-Algorthmus von Gamerman, 1997, verknüpft geschckt den IRLS-Algorthmus mt dem bayes'schen log. Modell, hat dadurch sehr effzente Proposal-Dchte Problem 2: Was st der "Nulleffekt" enes gut angepassten Modells?? Idee 2: Nutze asymptotsche Mttelwerte aus der frequentstschen Theore ("sem-bayes'sch")

Bespel: Berufsbedngte Handekzeme be Auszubldenden m Frseurhandwerk M=574 (340 Erfolge ), Mehrere Kovarablen (p=6): genetsche Dsposton, Arbetsbelastungen, Confounder, N=334, Vertelung der m : m Häufgket 1 205 (61%) 2 68 (20%) 3 35 (11%) >3 26 (8%)

Überprüfung der Modellanpassung: Werte der Teststatstken: X 2 = 369.25 X 2 MH (mean) = 384.37 X 2 MH (medan) = 378.56 p-werte: Test p-wert X 2 0,053 X 2 O 0,044 X 2 M 0,031 X 2 MHO 0,036 X 2 MHM 0,012

6. Fazt - Resultate des sem-bayes'schen Tests legen n ähnlchem Berech, evtl. sogar n besserer Rchtung - Es gbt noch vel zu tun: - Egenschaften des MCMC-Algorthmus (Konvergenz, Autokorrelaton) - ML-Pearson = Posteror Mode? - Egenschaften des Tests Smulatonsuntersuchungen Grundsätzlches Dlemma: En Anpassungstest kann nur de Alternatve prüfen, en ncht-sgnfkanter Test sagt uns ncht, dass en gutes Modell vorlegt.

7. Lteratur - Bertoln G et al. One model, several results: the paradox of the Hosmer-Lemeshow goodness-of-ft test for the logstc regresson model. J Epdem Bostat, 5:251-253, 2000. - Copas JB. Unweghted Sum of Squares Test for Proportons. Appl Statst, 38:71-80, 1989. - Farrngton CP. On Assessng Goodness of Ft of Generalzed Lnear Models to Sparse Data. J R Statst Soc B, 58:349-360, 1996. - Gamerman D. Effcent samplng from the posteror dstrbuton n generalzed lnear mxed models. Statstcs and Computng, 7: 57-68, 1997. - Hosmer DW, Lemeshow S. Goodness of ft tests for the multple logstc regresson model. Commun Statst - Theor Meth, 9:1043-1069, 1980. - Hosmer DW et al. A comparson of goodness-of-ft tests for the logstc regresson model. SM, 16:965-980, 1997. - McCullagh P. On the Asymptotc Dstrbuton of Pearson s Statstc n Lnear Exponental-Famly Models. Internatonal Statstcal Revew, 53:61-67, 1985. - Osus G, Rojek D. Normal Goodness-of-Ft Tests for Multnomal Models Wth Large Degrees of Freedom. JASA, 87:1145-1152, 1992. - Orme C. The calculaton of the nformaton matrx test for bnary data models. The Manchester School, 54:370-376, 1988. - Whte H. Maxmum Lkelhood Estmaton of Msspecfed Models. Econometrca, 50:1-25, 1982.