Ein semi-bayes'scher Anpassungstest für das logistische Regressionsmodell mit schwach besetzten Zellen

En sem-bayes'scher Anpassungstest für das logstsche Regressonsmodell mt schwach besetzten Zellen Olver Kuß Insttut für Medznsche Epdemologe, Bometre und Informatk, Unverstät Halle-Wttenberg, Magdeburger Str. 27, 06097 Halle/Saale Olver.Kuss@medzn.un-halle.de Programm: 1. Das logstsche Regressonsmodell 2. Überprüfung des Modellanpassung 3. Das Problem der schwach besetzten Zellen 4. Lösungsvorschläge 5. En sem-bayes'scher Lösungsvorschlag 6. Fazt 7. Lteratur

1. Das logstsche Regressonsmodell Standardmethode zur Regressonsanalyse bnärer Zelgrößen Gründe: - Lechte Interpreterbarket der Parameter als Odds- Ratos - Prognosen für das Entreten des Zeleregnsses snd möglch - Verfügbarket von geegneter Software - Analyse von prospektven und retrospektven Beobachtungsstuden möglch - Ausgerefte Methodk (Loglneares Modell, GLIM, nchtlneares Regressonsmodell) Notaton: N unabhängge nach Kovarablenmustern grupperte Beobachtungen (y, x ), =1,..., N x : Vektor von p+1 Kovarablen, y : Anzahl der Erfolge, Realsaton von Y ~ B(m, π ), m : Anzahl der Versuche, N m = 1 M= : Anzahl der ndvduellen Beobachtungen

Daten: Zelgröße 1 0 1 Y 1 m 1 -Y 1 m 1 Kovarablen 2 Y 2 m 2 -Y 2 m 2 Muster : : : : N Y N m N -Y N m N Bespel: Stetge Kovarable(n): N=M (m 1) Zelgröße 1 0 1 1 0 1 Kovarablen 2 0 1 1 Muster : : : : N 1 0 1 Modellglechung π log = 1 π p j= 0 mt β j = (β 0,..., β p ) als dem Vektor der Regressonsparameter. Schätzung der Parameter β j durch ML x j β j

2. Überprüfung der Modellanpassung Statstsche Modellbldung läuft n zwe Schrtten ab Modellwahl und Modellüberprüfung Modellwahl: We beschrebe ch den mttleren Wert der Zelgröße?? Modellüberprüfung: Inwefern wecht deser von den beobachteten Werten ab? Modellüberprüfung gescheht auf zwe Ebenen 1) Betrachte ndvduelle Beträge der enzelnen Beobachtungen zu desen Statstken (auch graphsch): Resduenanalyse 2) Berechne Anpassungsmaße und beurtele Anpassung anhand ener enzelnen Zahl: Anpassungstests En Klassker unter den globalen Anpassungstests: Pearson-Statstk: N 2 y m X = m πˆ 1 2 ( πˆ ) ( πˆ ) = 1 Große Werte von X 2 zegen schlechte Anpassung an Statstscher Test: Vergleche X 2 mt Quantl der χ 2 - Vertelung mt N-p-1 Frehetsgraden

3. Das Problem der schwach besetzten Zellen Gültgket der Prüfvertelung von X 2 hängt wesentlch von der Annahme von hnrechend besetzten Zellen ab (N fest, m für alle ) Unrealstsch be großer Anzahl von Kovarablen oder stetgen Kovarablen Katastrophal: Im Extremfall m 1 glt für X 2 : X 2 N

4. Lösungsvorschläge (Auswahl) 4.1 Modfzerte Prüfvertelung - Unter n, m st X 2 asymptotsch normalvertelt (Osus/Rojek, 1992; McCullagh, 1986) 4.2 Grupperung von Beobachtungen - Hosmer-Lemeshow-Test (Hosmer/Lemeshow, 1980) Inzwschen Quas-Standard, Anwendung aber ncht ohne Probleme (Hosmer et al, 1997, Bertoln et al., 2000) 4.3 Verwendung anderer Teststatstken - X 2 F (Farrngton, 1996) X 2 F = X 2 + N = 1 m π ( 1 2πˆ ) ( ) ( y ) m ˆ π ˆ 1 πˆ - IM-Test (Whte, 1982; Orme, 1988) - R C (Copas, 1986, Hosmer et al., 1997) R C = M ( y mπˆ ) = 1 Summaton von rohen Pearson-Resduen 2

5. En sem-bayes'scher Lösungsvorschlag Problem 1: Lösungen von McCullagh und Osus/Rojek berechnen asymptotsche Momente von X 2 und verlassen sch auf de Normalvertelung Idee 1: Bayes'sche Schätzung des Modells lefert Posteror- Vertelung für alle Parameter und auch für alle Funktonen der Parameter. Also: Schätze Model durch MCMC und erhalte dadurch komplette "exakte" Posteror- Vertelung von X 2. Schön: MH-Algorthmus von Gamerman, 1997, verknüpft geschckt den IRLS-Algorthmus mt dem bayes'schen log. Modell, hat dadurch sehr effzente Proposal-Dchte Problem 2: Was st der "Nulleffekt" enes gut angepassten Modells?? Idee 2: Nutze asymptotsche Mttelwerte aus der frequentstschen Theore ("sem-bayes'sch")

Bespel: Berufsbedngte Handekzeme be Auszubldenden m Frseurhandwerk M=574 (340 Erfolge ), Mehrere Kovarablen (p=6): genetsche Dsposton, Arbetsbelastungen, Confounder, N=334, Vertelung der m : m Häufgket 1 205 (61%) 2 68 (20%) 3 35 (11%) >3 26 (8%)

Überprüfung der Modellanpassung: Werte der Teststatstken: X 2 = 369.25 X 2 MH (mean) = 384.37 X 2 MH (medan) = 378.56 p-werte: Test p-wert X 2 0,053 X 2 O 0,044 X 2 M 0,031 X 2 MHO 0,036 X 2 MHM 0,012

6. Fazt - Resultate des sem-bayes'schen Tests legen n ähnlchem Berech, evtl. sogar n besserer Rchtung - Es gbt noch vel zu tun: - Egenschaften des MCMC-Algorthmus (Konvergenz, Autokorrelaton) - ML-Pearson = Posteror Mode? - Egenschaften des Tests Smulatonsuntersuchungen Grundsätzlches Dlemma: En Anpassungstest kann nur de Alternatve prüfen, en ncht-sgnfkanter Test sagt uns ncht, dass en gutes Modell vorlegt.

7. Lteratur - Bertoln G et al. One model, several results: the paradox of the Hosmer-Lemeshow goodness-of-ft test for the logstc regresson model. J Epdem Bostat, 5:251-253, 2000. - Copas JB. Unweghted Sum of Squares Test for Proportons. Appl Statst, 38:71-80, 1989. - Farrngton CP. On Assessng Goodness of Ft of Generalzed Lnear Models to Sparse Data. J R Statst Soc B, 58:349-360, 1996. - Gamerman D. Effcent samplng from the posteror dstrbuton n generalzed lnear mxed models. Statstcs and Computng, 7: 57-68, 1997. - Hosmer DW, Lemeshow S. Goodness of ft tests for the multple logstc regresson model. Commun Statst - Theor Meth, 9:1043-1069, 1980. - Hosmer DW et al. A comparson of goodness-of-ft tests for the logstc regresson model. SM, 16:965-980, 1997. - McCullagh P. On the Asymptotc Dstrbuton of Pearson s Statstc n Lnear Exponental-Famly Models. Internatonal Statstcal Revew, 53:61-67, 1985. - Osus G, Rojek D. Normal Goodness-of-Ft Tests for Multnomal Models Wth Large Degrees of Freedom. JASA, 87:1145-1152, 1992. - Orme C. The calculaton of the nformaton matrx test for bnary data models. The Manchester School, 54:370-376, 1988. - Whte H. Maxmum Lkelhood Estmaton of Msspecfed Models. Econometrca, 50:1-25, 1982.