Logistische Regression in SAS

Größe: px

Ab Seite anzeigen:

Download "Logistische Regression in SAS"

Minna Roth
vor 6 Jahren
Abrufe

1 Logistische Regression in SAS Oliver Kuß Medizinische Universitätsklinik, Abt. Klinische Sozialmedizin, Bergheimer Str. 58, Heidelberg, 3. Konferenz für SAS -Anwender in Forschung und Entwicklung (KSFE) Februar 1999 Ruprecht Karls-Universität Heidelberg

2 1. Die Einleitung Standardsatz: Das logistische Regressionsmodell hat sich seit seiner Einführung in den siebziger Jahren zu einer Standardmethode in der Biometrie und Epidemiologie entwickelt, wenn es um die Auswertung von binären Zielgrößen geht. Beweis: Resultate einer MEDLINE-Suche nach Logistic Regression in Abstract oder Keyword (adjustiert nach der Gesamtzahl der publizierten Artikel) Anzahl Nennungen (pro )

3 Aber: Logistische Regression wird nicht nur in der Biometrie und der Epidemiologie verwendet. Andere Disziplinen: Ökonomie, Informationstechnik, Biologie, Linguistik, Psychologie, Ökologie, Soziologie, Geowissenschaften, Bevölkerungswissenschaft, Politische Wissenschaft Gründe für die wachsende Beliebtheit: - Interpretierbarkeit der geschätzten Parameter als Odds Ratios - Wahrscheinlichkeiten für das Eintreten des Zielereignisses können geschätzt werden - Anwendung in prospektiven und retrospektiven Designs - Verfügbarkeit von geeigneter Software

4 2. Das Modell Logistische Regression beschreibt den Zusammenhang zwischen einer kategoriellen Zielgröße und einer Menge von erklärenden Variablen. Für eine binäre Zielgröße hat das Modell die Form p logit( p ) i i = log = α + β x p i 1 i mit p i : Wahrscheinlichkeit für das Eintreten des Zielereignisses p i = p( yi = 1 xi ), α : Ιntercept-Parameter, β : Vektor von Steigungsparametern, x i : Vektor von Kovariablen Mögliche Erweiterungen: - Andere Linkfunktion (Probit, Gompit) - Zielgröße mehrkategoriell (nominal, ordinal) - Beobachtungen nicht mehr unabhängig

5 3. Der Beispieldatensatz Stichprobe: 162 Frauen mit unerfülltem Kinderwunsch Zielgröße: Schwangerschaft Erklärende Variablen: - Alter (in Jahren), - Dauer der Infertilität (in Jahren), - Eileiterdefekt Ergebnis:! "#$!$ %&'(() (&*)*+ %&(+,- '&(+*' &. '&',(' '&'+%% (&+-+) '&%%-% '&/,' "#0! '&(+'/ '&')/( *&()*, '&')+1 '&1-/ $23456 '&111' '&+%1+ +&%/)* '&'*1% '&+((

6 4. Die einzelnen Prozeduren 4.1 PROC LOGISTIC :798 < :97 - Kein CLASS-Statement - Interaktionsterme können nicht im MODEL- Statement angegeben werden - Umfangreiche Residuen-Analyse - Hosmer-Lemeshow-Test - ROC-Analyse - Variablen-Selektionsmethoden - Adjustierung nach Overdispersion - Bias-adjustierte geschätzte Wahrscheinlichkeiten (CTABLE-Option) - Andere Modelle können gefittet werden (Proportional Odds Modell, Bedingte logistische Regression, Bradley-Terry-Modell)

7 4.2 PROC GENMOD 7 89 : < :97<:: 9 - CLASS-Statement - Adjustierung nach Overdispersion - MAKE-Statement und Output Delivery System - GEE-Methode implementiert (REPEATED- Statement) für korrelierte Beobachtungen 4.3 PROC PROBIT 7 87 : < :97<: 98 - CLASS-Statement - Standard-Linkfunktion: Probit - Ordinale Zielgrößen

8 4.4 PROC CATMOD 7 88 :79 : 89 79:97 - Stetige Kovariablen müssen explizit angegeben werden (DIRECT-Statement) - Andere Parametrisierung, deshalb Odds Ratios für kategorielle Kovariablen nur auf Umwegen - Multinomiale logistische Regression (nominale und ordinale Zielgrößen) - Bedingte logistische Regression - Korrelierte Beobachtungen - WLS-Methode

9 4.5 PROC NLIN 7 8 =9 :(:798>:>9:? (:? % 7:? *@@ 787:'9:':'7:'??:87A9B? (AB? %A7B? *??:(??:'??:' :':'&( : : : B???C9?:(<> B??B>(??@@??:>B 9>(??@@<?C9? :?? &87:?? &9:??B? ( &:??B? % &7:??B? * Etwas speziell, eher als Ausgangspunkt zur Berechnung von komplizierteren Modellen

10 4.6 PROC IML B"!9 D3898ED :7>'F8 :A( :( %'C>>> : :7G7G7>>B@@ 9>7@A>:'@G 7:H :G 7:7B>HB>CG>7@@@ :A7 B3896=8$#IJ = 9 7':>>:(@GC9@<>C9@<B=97 B< 9':>>>:(@G 9>7'@A>:'@G 9>(7'@@GC9@ 8 :>%G> 9 9'@@ :8 >@( 7 :(7 8>8 F@ 7FK! C"87 K8 7 F B$#IJ =7 : >=89>7@@ :< 7FK$K7 F - Voller Zugriff auf alle berechneten Größen, ideal zur Weiterverarbeitung

11 5. Die Bugs? 5.1 Prüfung auf Existenz der ML-Schätzer Separation im Raum der Kovariablen Nichtexistenz der Parameter-Schätzer Separation: Existenz einer Hyperebene im Raum der Kovariablen, so daß diese die Beobachtungen mit Y=0 von denen mit Y=1 trennt. Beispiel: 1 Kovariable Hyperebene ist ein Punkt J =L9MI ('&/,,)'' %'&*-,/(' *'&%)+)%' +'&%)+'*','&%+/+,( -'&*/)1)( )'&-%+*,( 1'&)'*%/( /'&)(/**( (''&/'/(1( Keine einzige Prozedur diagnostiziert die Separation und liefert eine Warnung!!

12 5.2 GOF-Tests in PROC GENMOD - EVENT/TRIAL-Syntax <60 6=8('+((*&()*-(&'11% 86=8('+((*&()*-(&'11% ('+/)&,)/''&/*1* 8 N%('+/)&,)/''&/*1* 9 &/(&+%)-& ACTUAL-TRIAL-Syntax <60 6=8(,1(1%&1,,%(&(,)* 86=8(,1(1%&1,,%(&(,)* (,1(,/&''/)(&''-+ 8 N%(,1(,/&''/)(&''-+ 9 &/(&+%)-&

13 6. Das Fazit - SAS bietet eine Vielzahl von Möglichkeiten, logistische Regressionsmodelle zu fitten - Auswahl der Prozeduren ist abhängig vom Modell, für Standardanwendungen sind aber PROC LOGISTIC und PROC GENMOD die Methoden der Wahl, alle anderen vorgestellten Prozeduren sind in andere Richtungen spezialisiert

Ähnliche Dokumente

Logistische Regression in SAS

3. KSFE 1999 in Heidelberg 1 Logistische Regression in SAS Oliver Kuß Medizinische Universitätsklinik, Abt. Klinische Sozialmedizin Bergheimer Str. 58, 69115 Heidelberg email: okuss@med.uni-heidelberg.de