8 Logistische Regressionsanalyse

wwwstatstkpaketde 8 Logstsche Regressonsanalyse De logstsche Regressonsanalyse dent der Untersuchung des Enflusses ener quanttatven Varable auf ene qualtatve (n unserem Fall dchotomen Varable Wr gehen also davon aus, dass de abhängge Varable nur zwe Kategoren ( oder, ja oder nen aufwest Als Bespel könnte man sch folgendes vorstellen: Es werden Personen, de drogenabhängg waren, gefragt, we lange se schon abstnent snd, und ob se momentan noch Entzugserschenungen haben Als Grundlage für de logstsche Regressonsanalyse dent ene Kontngenztafel Es se bemerkt, dass es zu jedem Wert der quanttatven Varable (m Bespel de Abstnenzdauer genügend vele Beobachtungen geben muss, ansonsten müssten Intervalle gebldet bzw Werte zusammengefasst werden Abhängg Varable unabhängge Anzahl Anzahl Varable "ja" "nen" 9 2 2 8 4 3 7 5 4 5 8 5 5 9 6 3 9 7 2 9 8 2 9 2 v v2 ja (nsgesamt 9-mal nen (nsgesamt 2-mal 9 nen (nsgesamt -mal Wr könnten nun de Daten, we oben rechts zu sehen st, engeben, was aber zu aufwändg st Aus desem Grund geben wr de Tabelle drekt en Des können wr auf der Sete http://statstkpaketde/logreg/logreg2html tun Dazu müssen wr Sete 8

wwwstatstkpaketde neben Anzahl Zelen ene 9 engeben Danach kann man Häufgketen engeben wählen, de Tabelle engeben und dann Berechnung starten wählen Bevor wr zu der weteren Interpretaton der Ergebnsse kommen, gehen wr zunächst auf de Theore en Der logstschen Regresson legt das folgende Modell zu Grunde: P(Y= ja x = e e x x Wr nehmen also an, dass de Wahrschenlchket dafür, dass ene Personen mt ja antwortet, unter der Bedngung, dass de unabhängge Varable den Wert x aufwest (zb Abstnenzdauer = Jahr ene Funkton der unabhänggen Varable x st De oben zu sehende Funkton st ene so genannte logstsche Funkton Falls > st, so stegt de Funkton mt größer werdendem x an, dh de Wahrschenlchket wrd größer In unserem Bespel gehen wr von enem negatven aus, da anzunehmen st, dass de Wahrschenlchket dafür, dass Entzugserschenungen auftreten, mt der Zet abnmmt Von Interesse st also zunächst, ob der Parameter unglech Null st Außerdem muss untersucht werden, ob dass Modell angemessen st Des kann weder mt enem Modellanpassungstest überprüft werden Um de Parameter zu schätzen, wrd zunächst de Wahrschenlchket auf der lnken Sete der oberen Glechung durch de relatve Häufgket der jewelgen Personen ersetzt, de mt ja geantwortet haben Es wrd also de relatve Anzahl für jede Zele der oberen Tabelle gebldet De Werte (bs auf den Faktor % fnden Se n der verten Spalte der oberen Tabelle Es ergbt sch somt de folgende Glechung: e e x x ; =,, k (* Sete 82

wwwstatstkpaketde k st dabe de Anzahl der verschedenen Beobachtungen der unabhänggen Varablen x In unserem Bespel st k = 9; st de relatve Häufgket der Personen de de Frage mt ja beantwortet haben und für de glt x = x Im Bespel st x =, x 2 = 2,, x 9 = 9 Wr haben anstelle des Glechhetszechens das Zechen verwendet, da es durch de Schätzung der Wahrschenlchketen natürlch Abwechungen geben kann Sonst müsste man enen Fehlerterm e (analog zu dem lnearen Regressonsmodell enführen Im Bespel lautet de obere Glechung für x = x =: e,882 e Zur Schätzung kann man aus der Glechung (*, welche bezüglch der Parameter ncht lnear st, durch ene Transformaton ene lneare Funkton erhalten Dazu verwendet man de Umkehrfunkton der logstschen Funkton, de so genannte Logt-Funkton, de we folgt defnert st: logt(t = t ln t Durch Anwendung der Logt-Funkton erhält man de folgende Glechung: logt( p ˆ x (** Im Bespel ergbt sch für x =,54774 De transformerte Glechung kann nun als Matrx-Vektor Glechung dargestellt werden: Sete 83

Sete 84 k 2 k 2 x x x logt( logt( ˆ logt( p Oder kurz: X logt( y De Parameterschätzung kann nun über de Methode der gewchteten klensten Quadrate durchgeführt werden, da de emprsche Kovaranz-Matrx von Y bekannt st Dabe werden de Werte n der zweten Spalte der oberen Tabelle jewels als Realserungen von unabhängg bnomalvertelten Zufallsvarablen angenommen, mt der geschätzten Varanz n p p ˆ ( ˆ Her st n de Anzahl der Beobachtungen n der -ten Gruppe bzw Zele der oberen Tabelle (n = 9 + 2 =, n 2 = 8 + 4 = 2, Somt ergbt sch der Schätzer der Inversen der emprschen Kovaranz-Matrx: ( n ( n ( n Vˆ k k k 2 2 2 wwwstatstkpaketde

wwwstatstkpaketde Jetzt kann über de Methode der gewchteten klensten Quadrate geschätzt werden und es ergbt sch der Schätzer: ˆ (X t Vˆ X X t Vˆ y De Modellanpassung kann mt dem Wert sse der gewchteten Abwechungsquadrate überprüft werden Dabe glt: sse = Q( ˆ (y X t Vˆ (y X De Hypothesen zum zugehörgen Test lauten: H : Das Modell passt gegen H A : Das Modell passt ncht Falls sse zu groß st, so wrd das Modell verworfen Dabe st sse de Realserung ener unter H mt k- Frehetsgraden Ch-Quadrat vertelten Zufallsvarable De Nullhypothese wrd also auf dem Sgnfkanznveau verworfen, falls glt: Wert F (sse p k 2 Zusätzlch kann überprüft werden, ob de Parameter sgnfkant von Null verscheden snd Dabe st, we berets beschreben, der Parameter von besonderem Interesse De Hypothesen zu desem Test lauten: H : gegen H A : Sete 85

wwwstatstkpaketde Dabe wrd de Nullhypothese auf dem Sgnfkanznveau verworfen, falls glt: p Wert F ˆ Vˆ ar(ˆ 2 De geschätzte Varanz von ˆ unter der Wurzel m Nenner des oberen Ausdrucks erhält man, ndem man de emprsche Kovaranz- t Matrx des Vektors ˆ (ˆ ˆ bldet Dese ergbt sch durch t (X Vˆ X Das Element (2,2 deser Matrx enthält enen Schätzer für de Varanz von ˆ Analog kann en Test für durchgeführt werden Her muss das Element (, deser Matrx verwendet werden Betrachten wr nun de Ausgabe n unserem Bespel Logstsche Regresson Kreuztabelle mt absoluten Häufgketen: Summe 9 2 2 8 4 2 3 7 5 2 4 5 8 3 5 5 9 4 6 3 9 2 7 2 9 Sete 86

wwwstatstkpaketde 8 2 2 9 2 3 Summe 43 67 De relatven Häufgketen für de erste Kategore: 882 2 6667 3 5833 4 3846 5 357 6 25 7 88 8 667 9 538 Parameter Schätzer geschätzte Standardabwechung Prüfgröße für Test (H: Parameter = ; gegen H: Parameter <> p- Wert b 462876646698 492956284 88335844442838 3 b -398583427 9367974846 8582356834 Modellanpassung: sse: 326646, p-wert (H: Modell passt; gegen H: Modell passt ncht: 9924 (df = 7 Sete 87

wwwstatstkpaketde De über das Modell geschätzten Wahrschenlchketen für de erste Kategore: 7435 2 665 3 5664 4 4672 5 375 6 2832 7 296 8 5 9 68 We Se sehen, st der Schätzer für ˆ,46287 zu fnden unter ntercept und für ˆ,39858 zu fnden unter slope Da der Schätzer für negatv st, fällt de Wahrschenlchket mt der Zet der Abstnenzdauer Unter Std Estmator fnden Se de emprsche Standardabwechung der Schätzer Unter Prob sehen Se de p-werte We zu sehen st, st sgnfkant von Null verscheden (und das auf jedem gänggen Sgnfkanznveau Wählen wr = 5%, so glt: p- Wert = <,5 (der p-wert st ncht exakt Null, nur der auf 4 Nachkommastellen gerundete p-wert, womt de Nullhypothese, dass der Parameter Null st, verworfen werden kann Das Modell selbst kann ncht verworfen werden, denn her st en p-wert von,9924 zu sehen Wählen wr en für Anpassungstests üblches hohes Sgnfkanznveau = 2%, so kann de Nullhypothese (das Modell passt ncht verworfen werden, da,9924 >,2 Wollen Se de Wahrschenlchket dür das Auftreten von Entzugserschenungen nach 5 Jahren über das Modell schätzen (dh P(Y= ja 5, so ergbt sch Sete 88

wwwstatstkpaketde e e,46287,398585,46287,398585,8579, 8% Also treten Entzugserschenungen nach 5 Jahren noch n ca,8% aller Fälle auf Unten sehen Se de logstsche Kurve und de geschätzten Wahrschenlchketen für ja zu den verschedenen Abstnenzdauern We Se sehen, wrd de Wahrschenlchket für das Auftreten von Entzugserschenungen nach 9 Jahren noch auf mehr als % geschätzt Graph Sete 89

wwwstatstkpaketde Umsetzung mt SAS: data dat; nput anzahl x y; datalnes; 9 2 8 2 4 2 7 3 5 3 5 4 8 4 5 5 9 5 3 6 9 6 2 7 9 7 2 8 8 2 9 9 run; proc catmod data=dat order = data; drect x; model y = x / WLS; weght anzahl; run; Sete 9

wwwstatstkpaketde SAS-Output zur Prozedur CATMOD: Das SAS System De Prozedur CATMOD Datenüberscht Response y Response-Ausprägungen 2 Gewchtungsvarable anzahl Grundgesamtheten 9 Date DAT Gesamthäufgket Anzahl der fehlenden Werte Beobachtungen 8 Grundgesamthetsprofle Stchprobe x Stchprobengröße 2 2 2 3 3 2 4 4 3 5 5 4 6 6 2 7 7 8 8 2 9 9 3 Responseprofle Abhängge y 2 Sete 9

wwwstatstkpaketde Quelle Varanzanalyse Frehetsgrade Ch-Quadrat Pr > ChSq Konstante 883 3 x 8 < Resduum 7 3 9924 Analyse der gewchteten Klenste-Quadrate-Schätzer Parameter Schätzwert Standardfehler Ch- Quadrat Pr > ChSq Konstante 4629 4922 883 3 x -3986 937 8 < Sete 92