8 Logistische Regressionsanalyse



Ähnliche Dokumente
6. Modelle mit binären abhängigen Variablen

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

Lineare Regression (1) - Einführung I -

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

Grundgedanke der Regressionsanalyse

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Standardnormalverteilung / z-transformation

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

Prof. Dr. Roland Füss Statistik II SS 2008

Die hierzu formulierte Nullhypothese H lautet: X wird durch die Verteilungsdichtefunktion h(x)

1 Definition und Grundbegriffe

Mathematische und statistische Methoden II

Streuungs-, Schiefe und Wölbungsmaße

Klausur zur Vorlesung Lineare Modelle SS 2006 Diplom, Klausur A

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

Ordered Response Models (ORM)

Sei T( x ) die Tangente an den Graphen der Funktion f(x) im Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ).

Statistik und Wahrscheinlichkeitsrechnung

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren

4. Musterlösung. Problem 1: Kreuzende Schnitte **

Multivariate Analysemethoden

2 Zufallsvariable und Verteilungen

Kapitel V. Parameter der Verteilungen

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung

-70- Anhang: -Lineare Regression-

Definition des linearen Korrelationskoeffizienten

Übung zur Vorlesung - Theorien Psychometrischer Tests II

Analysis I. Vorlesung 17. Logarithmen. R R, x exp x,

Rückblick Regression II: Anpassung an Polynome

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition

Konkave und Konvexe Funktionen

Beschreibende Statistik Mittelwert

2.2 Rangkorrelation nach Spearman

5 Gemischte Verallgemeinerte Lineare Modelle

Weitere NP-vollständige Probleme

Erwartungswert, Varianz, Standardabweichung

Übung zur Vorlesung - Theorien Psychometrischer Tests II

Spiele und Codes. Rafael Mechtel

Konzept der Chartanalyse bei Chart-Trend.de

Aspekte zur Approximation von Quadratwurzeln

Sind die nachfolgenden Aussagen richtig oder falsch? (1 Punkt pro korrekter Beantwortung)

Auswertung univariater Datenmengen - deskriptiv

Stochastische Prozesse

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt:

6. Übung zur Linearen Algebra II

Versuch Nr. 6. Chemische Kinetik Aktivierungsenergie (Inversion von Saccharose)

Zulassungsprüfung Stochastik,

Resultate / "states of nature" / mögliche Zustände / möglicheentwicklungen

5. ZWEI ODER MEHRERE METRISCHE MERKMALE

Grundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt

Fachbereich Mathematik Prof. K. Grosse-Brauckmann D. Frisch WS 2007/08 10./ Gruppenübung

-2 Das einfache Regressionsmodell 2.1 Ein ökonomisches Modell

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY)

z.b. Münzwurf: Kopf = 1 Zahl = 2 oder z.b. 2 Würfel: Merkmal = Summe der Augenzahlen, also hier: Bilde die Summe der Augenzahlen der beiden Würfel!

Lösungen der Aufgaben zu Kapitel 2

Fallstudie 4 Qualitätsregelkarten (SPC) und Versuchsplanung

WS 2016/17 Prof. Dr. Horst Peters , Seite 1 von 9

Stochastische Prozesse

Bestimmung der Elementarladung nach Millikan. 1. Theorie zum Versuchs. F R = 6 $ $ $ r $ v. $ g. F s = 4 3 $ $ r 3 $ Öl.

Item-response Theorie (Probablistiche Testtheorie) Grundidee der item-response Theorie ist, dass die Antworten auf die Testitems lediglich

Übung zur Vorlesung - Theorien Psychometrischer Tests II

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

6.5. Rückgewinnung des Zeitvorgangs: Rolle der Pole und Nullstellen

Aufgabenkomplex 2: Umrechung von Einheiten, Ungleichungen, Komplexe Zahlen

Lineare Regression. Stefan Keppeler. 16. Januar Mathematik I für Biologen, Geowissenschaftler und Geoökologen

P[bk t c se(b k) k bk t c se(b k)] 1 (5.1.3)

Lineare Regression - Mathematische Grundlagen

3.3 Lineare Abbildungen und Matrizen

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Übung/Tutorate Statistik II: Schließende Statistik SS 2007

Methoden der innerbetrieblichen Leistungsverrechnung

Ökonomische und ökonometrische Evaluation. 1.3 Ökonometrische Grundkonzepte

1.1 Beispiele zur linearen Regression

Ökometrie I 10 Korrelation - Regression

Lösungen zum 3. Aufgabenblock

Schätzfehler in der linearen Regression (1) Einführung

Flußnetzwerke - Strukturbildung in der natürlichen Umwelt -

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

2πσ. e ax2 dx = x exp. 2πσ. 2σ 2. Die Varianz ergibt sich mit Hilfe eines weiteren bestimmten Integrals: x 2 e ax2 dx = 1 π.

Auswertung univariater Datenmengen - deskriptiv

Netzwerkstrukturen. Entfernung in Kilometer:

Diskrete Mathematik 1 WS 2008/09

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel

Übung zu Erwartungswert und Standardabweichung

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y

1.11 Beispielaufgaben

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2

1 Mehrdimensionale Analysis

Analyse von Querschnittsdaten. Bivariate Regression

Versicherungstechnischer Umgang mit Risiko

Maße der zentralen Tendenz (10)

(Essentiell) τ-äquivalente Tests:

Transkript:

wwwstatstkpaketde 8 Logstsche Regressonsanalyse De logstsche Regressonsanalyse dent der Untersuchung des Enflusses ener quanttatven Varable auf ene qualtatve (n unserem Fall dchotomen Varable Wr gehen also davon aus, dass de abhängge Varable nur zwe Kategoren ( oder, ja oder nen aufwest Als Bespel könnte man sch folgendes vorstellen: Es werden Personen, de drogenabhängg waren, gefragt, we lange se schon abstnent snd, und ob se momentan noch Entzugserschenungen haben Als Grundlage für de logstsche Regressonsanalyse dent ene Kontngenztafel Es se bemerkt, dass es zu jedem Wert der quanttatven Varable (m Bespel de Abstnenzdauer genügend vele Beobachtungen geben muss, ansonsten müssten Intervalle gebldet bzw Werte zusammengefasst werden Abhängg Varable unabhängge Anzahl Anzahl Varable "ja" "nen" 9 2 2 8 4 3 7 5 4 5 8 5 5 9 6 3 9 7 2 9 8 2 9 2 v v2 ja (nsgesamt 9-mal nen (nsgesamt 2-mal 9 nen (nsgesamt -mal Wr könnten nun de Daten, we oben rechts zu sehen st, engeben, was aber zu aufwändg st Aus desem Grund geben wr de Tabelle drekt en Des können wr auf der Sete http://statstkpaketde/logreg/logreg2html tun Dazu müssen wr Sete 8

wwwstatstkpaketde neben Anzahl Zelen ene 9 engeben Danach kann man Häufgketen engeben wählen, de Tabelle engeben und dann Berechnung starten wählen Bevor wr zu der weteren Interpretaton der Ergebnsse kommen, gehen wr zunächst auf de Theore en Der logstschen Regresson legt das folgende Modell zu Grunde: P(Y= ja x = e e x x Wr nehmen also an, dass de Wahrschenlchket dafür, dass ene Personen mt ja antwortet, unter der Bedngung, dass de unabhängge Varable den Wert x aufwest (zb Abstnenzdauer = Jahr ene Funkton der unabhänggen Varable x st De oben zu sehende Funkton st ene so genannte logstsche Funkton Falls > st, so stegt de Funkton mt größer werdendem x an, dh de Wahrschenlchket wrd größer In unserem Bespel gehen wr von enem negatven aus, da anzunehmen st, dass de Wahrschenlchket dafür, dass Entzugserschenungen auftreten, mt der Zet abnmmt Von Interesse st also zunächst, ob der Parameter unglech Null st Außerdem muss untersucht werden, ob dass Modell angemessen st Des kann weder mt enem Modellanpassungstest überprüft werden Um de Parameter zu schätzen, wrd zunächst de Wahrschenlchket auf der lnken Sete der oberen Glechung durch de relatve Häufgket der jewelgen Personen ersetzt, de mt ja geantwortet haben Es wrd also de relatve Anzahl für jede Zele der oberen Tabelle gebldet De Werte (bs auf den Faktor % fnden Se n der verten Spalte der oberen Tabelle Es ergbt sch somt de folgende Glechung: e e x x ; =,, k (* Sete 82

wwwstatstkpaketde k st dabe de Anzahl der verschedenen Beobachtungen der unabhänggen Varablen x In unserem Bespel st k = 9; st de relatve Häufgket der Personen de de Frage mt ja beantwortet haben und für de glt x = x Im Bespel st x =, x 2 = 2,, x 9 = 9 Wr haben anstelle des Glechhetszechens das Zechen verwendet, da es durch de Schätzung der Wahrschenlchketen natürlch Abwechungen geben kann Sonst müsste man enen Fehlerterm e (analog zu dem lnearen Regressonsmodell enführen Im Bespel lautet de obere Glechung für x = x =: e,882 e Zur Schätzung kann man aus der Glechung (*, welche bezüglch der Parameter ncht lnear st, durch ene Transformaton ene lneare Funkton erhalten Dazu verwendet man de Umkehrfunkton der logstschen Funkton, de so genannte Logt-Funkton, de we folgt defnert st: logt(t = t ln t Durch Anwendung der Logt-Funkton erhält man de folgende Glechung: logt( p ˆ x (** Im Bespel ergbt sch für x =,54774 De transformerte Glechung kann nun als Matrx-Vektor Glechung dargestellt werden: Sete 83

Sete 84 k 2 k 2 x x x logt( logt( ˆ logt( p Oder kurz: X logt( y De Parameterschätzung kann nun über de Methode der gewchteten klensten Quadrate durchgeführt werden, da de emprsche Kovaranz-Matrx von Y bekannt st Dabe werden de Werte n der zweten Spalte der oberen Tabelle jewels als Realserungen von unabhängg bnomalvertelten Zufallsvarablen angenommen, mt der geschätzten Varanz n p p ˆ ( ˆ Her st n de Anzahl der Beobachtungen n der -ten Gruppe bzw Zele der oberen Tabelle (n = 9 + 2 =, n 2 = 8 + 4 = 2, Somt ergbt sch der Schätzer der Inversen der emprschen Kovaranz-Matrx: ( n ( n ( n Vˆ k k k 2 2 2 wwwstatstkpaketde

wwwstatstkpaketde Jetzt kann über de Methode der gewchteten klensten Quadrate geschätzt werden und es ergbt sch der Schätzer: ˆ (X t Vˆ X X t Vˆ y De Modellanpassung kann mt dem Wert sse der gewchteten Abwechungsquadrate überprüft werden Dabe glt: sse = Q( ˆ (y X t Vˆ (y X De Hypothesen zum zugehörgen Test lauten: H : Das Modell passt gegen H A : Das Modell passt ncht Falls sse zu groß st, so wrd das Modell verworfen Dabe st sse de Realserung ener unter H mt k- Frehetsgraden Ch-Quadrat vertelten Zufallsvarable De Nullhypothese wrd also auf dem Sgnfkanznveau verworfen, falls glt: Wert F (sse p k 2 Zusätzlch kann überprüft werden, ob de Parameter sgnfkant von Null verscheden snd Dabe st, we berets beschreben, der Parameter von besonderem Interesse De Hypothesen zu desem Test lauten: H : gegen H A : Sete 85

wwwstatstkpaketde Dabe wrd de Nullhypothese auf dem Sgnfkanznveau verworfen, falls glt: p Wert F ˆ Vˆ ar(ˆ 2 De geschätzte Varanz von ˆ unter der Wurzel m Nenner des oberen Ausdrucks erhält man, ndem man de emprsche Kovaranz- t Matrx des Vektors ˆ (ˆ ˆ bldet Dese ergbt sch durch t (X Vˆ X Das Element (2,2 deser Matrx enthält enen Schätzer für de Varanz von ˆ Analog kann en Test für durchgeführt werden Her muss das Element (, deser Matrx verwendet werden Betrachten wr nun de Ausgabe n unserem Bespel Logstsche Regresson Kreuztabelle mt absoluten Häufgketen: Summe 9 2 2 8 4 2 3 7 5 2 4 5 8 3 5 5 9 4 6 3 9 2 7 2 9 Sete 86

wwwstatstkpaketde 8 2 2 9 2 3 Summe 43 67 De relatven Häufgketen für de erste Kategore: 882 2 6667 3 5833 4 3846 5 357 6 25 7 88 8 667 9 538 Parameter Schätzer geschätzte Standardabwechung Prüfgröße für Test (H: Parameter = ; gegen H: Parameter <> p- Wert b 462876646698 492956284 88335844442838 3 b -398583427 9367974846 8582356834 Modellanpassung: sse: 326646, p-wert (H: Modell passt; gegen H: Modell passt ncht: 9924 (df = 7 Sete 87

wwwstatstkpaketde De über das Modell geschätzten Wahrschenlchketen für de erste Kategore: 7435 2 665 3 5664 4 4672 5 375 6 2832 7 296 8 5 9 68 We Se sehen, st der Schätzer für ˆ,46287 zu fnden unter ntercept und für ˆ,39858 zu fnden unter slope Da der Schätzer für negatv st, fällt de Wahrschenlchket mt der Zet der Abstnenzdauer Unter Std Estmator fnden Se de emprsche Standardabwechung der Schätzer Unter Prob sehen Se de p-werte We zu sehen st, st sgnfkant von Null verscheden (und das auf jedem gänggen Sgnfkanznveau Wählen wr = 5%, so glt: p- Wert = <,5 (der p-wert st ncht exakt Null, nur der auf 4 Nachkommastellen gerundete p-wert, womt de Nullhypothese, dass der Parameter Null st, verworfen werden kann Das Modell selbst kann ncht verworfen werden, denn her st en p-wert von,9924 zu sehen Wählen wr en für Anpassungstests üblches hohes Sgnfkanznveau = 2%, so kann de Nullhypothese (das Modell passt ncht verworfen werden, da,9924 >,2 Wollen Se de Wahrschenlchket dür das Auftreten von Entzugserschenungen nach 5 Jahren über das Modell schätzen (dh P(Y= ja 5, so ergbt sch Sete 88

wwwstatstkpaketde e e,46287,398585,46287,398585,8579, 8% Also treten Entzugserschenungen nach 5 Jahren noch n ca,8% aller Fälle auf Unten sehen Se de logstsche Kurve und de geschätzten Wahrschenlchketen für ja zu den verschedenen Abstnenzdauern We Se sehen, wrd de Wahrschenlchket für das Auftreten von Entzugserschenungen nach 9 Jahren noch auf mehr als % geschätzt Graph Sete 89

wwwstatstkpaketde Umsetzung mt SAS: data dat; nput anzahl x y; datalnes; 9 2 8 2 4 2 7 3 5 3 5 4 8 4 5 5 9 5 3 6 9 6 2 7 9 7 2 8 8 2 9 9 run; proc catmod data=dat order = data; drect x; model y = x / WLS; weght anzahl; run; Sete 9

wwwstatstkpaketde SAS-Output zur Prozedur CATMOD: Das SAS System De Prozedur CATMOD Datenüberscht Response y Response-Ausprägungen 2 Gewchtungsvarable anzahl Grundgesamtheten 9 Date DAT Gesamthäufgket Anzahl der fehlenden Werte Beobachtungen 8 Grundgesamthetsprofle Stchprobe x Stchprobengröße 2 2 2 3 3 2 4 4 3 5 5 4 6 6 2 7 7 8 8 2 9 9 3 Responseprofle Abhängge y 2 Sete 9

wwwstatstkpaketde Quelle Varanzanalyse Frehetsgrade Ch-Quadrat Pr > ChSq Konstante 883 3 x 8 < Resduum 7 3 9924 Analyse der gewchteten Klenste-Quadrate-Schätzer Parameter Schätzwert Standardfehler Ch- Quadrat Pr > ChSq Konstante 4629 4922 883 3 x -3986 937 8 < Sete 92