Logistische Regression
|
|
- Arnim Gehrig
- vor 6 Jahren
- Abrufe
Transkript
1 Logistische Regression
2 Motivation Regressionsrechnung: Untersuchung des Zusammenhangs zwischen einer (oder mehreren) Zielvariablen und einer oder mehreren erklärenden Variablen. Bisher gesehen: Kontinuierliche Zielvariable Einfache lineare Regression Multiple lineare Regression Heute: Binäre Zielvariable Logistische Regression
3 Beispiele Tierversuch (Toxikologie) Überleben von Mäusen in Abhängigkeit von der Dosis? Frühgeburten Wie beeinflussen Gewicht, Alter, das Überleben von Frühgeborenen? Technik Bei welchen Bedingungen (Temperatur, Feuchtigkeit, ) fallen Geräte aus? Customer-Relationship-Management (CRM) Was sind erfolgreiche Massnahmen, damit ein Kunde auf ein neues Produkt wechselt? Gemeinsamkeiten Binäre Zielgrösse (lebt/tot, Ausfall/kein Ausfall, ja/nein, ) Beliebige erklärende Variablen
4 Beispiel: Aderverengung Ader verengt (Y=1) Ader nicht verengt (Y=0) binäre Zielvariable Y: Verengung (ja/nein) erklärende Variablen Vol: Atem-Volumen Rate: Atem-Frequenz Idee: Modelliere die Wahrscheinlichkeit einer Aderverengung, gegeben die erklärenden Variablen Vol und Rate: P Y = 1 Vol, Rate)
5 Grundidee Gegeben Binäre Zielvariable Y Erklärende Variablen X (1),, X (m) Ziel Modelliere die Wahrscheinlichkeit, dass für die i-te Beobachtungseinheit die Zielvariable den Wert 1 annimmt, gegeben ihre m Eingangsgrössen P Y i = 1 x i (1), xi (2),, xi (m) ) Beispiel Modelliere die Wahrscheinlichkeit, dass i-te Patientin eine Gefässverengung hat, gegeben ihre Atem-Frequenz und ihr Atem-Volumen. P Y i = 1 Vol i, Rate i )
6 Modellansatz Ziel Modelliere die Wahrscheinlichkeit, dass für die i-te Beobachtungseinheit die Zielvariable den Wert 1 annimmt, gegeben ihre m Eingangsgrössen P Y i = 1 x i (1), xi (2),, xi (m) ) Ansatz P Y i = 1 x i (1), xi (2),, xi (m) ) = h(xi (1), xi (2),, xi (m) ) Bemerkung Für eine binäre Variable Y {0,1} gilt: E Y = 0 P Y = P Y = 1 = P(Y = 1) Das heisst, wir modellieren im Prinzip wie bei der linearen Regression: E[Y i x i 1, x i 2,, x i m ] = h(x i (1), xi (2),, xi (m) )
7 Lineare Regression? Ansatz wie bei der linearen Regression?? Y i = β 0 + β 1 x i (1) + β2 x i (2) + + βm x i (m) + Ei Wenn man das versucht, dann gilt: P Y i = 1 x i ) = E Y i x i = β 0 + β 1 x i (1) + β2 x i (2) + + βm x i (m) Das heisst, die Funktion h wäre linear. Die geschätzten Wahrscheinlichkeiten können < 0 oder > 1 werden! Idee: Transformation von Y i direkt? Idee 2: Transformation von E Y i x i = P Y i = 1 x i ). Am besten so, dass es keine Einschränkungen mehr gibt.
8 Logistische Regression
9 Logit-Funktion g Benutze die Logit-Funktion g: [0,1] R g π = log π 1 π = log π log(1 π) Grundidee Die Funktion g transformiert die Wahrscheinlichkeiten auf die gesamte reelle Achse (R). Keine Beschränkung der möglichen Werte Lineare Funktion als Modell geeignet Bemerkung: Logit-Funktion -> Logistische Regression. Andere Funktionen möglich.
10 Logistisches Regressionsmodell Auf der transformierten Skala verwendet man den Ansatz von vorher (wie bei der multiplen linearen Regression). Das Modell der logistischen Regression lautet: g P Y i = 1 x i ) =log P Y i=1 x i ) P Y i =0 x i ) = β 0 + β 1 x i (1) + β2 x i (2) + + βm x i m = x i T β = η i mit x i = (1, x i (1), xi (2),, xi (m) ) und β = (β0, β 1,, β m ). Terminologie η i = β 0 + β 1 x i (1) + β2 x i (2) + + βm x i m = x i T β heisst linearer Prädiktor g heisst Link-Funktion. Die Link-Funktion transformiert den Erwartungswert E Y i x i = P Y i = 1 x i ) auf die geeignete Skala (hier: R)
11 Inverse Link-Funktion g 1 Kennt man den linearen Prädiktor η i (oder die Parameter β = (β 0, β 1,, β m )), dann erhält man die Wahrscheinlichkeit P Y i = 1 x i ) gemäss Entsprechend ist P Y i = 1 x i ) = g 1 η i = exp{η i} 1+exp{η i } P Y i = 0 x i ) = 1 P Y i = 1 x i ) = 1 1+exp{η i } Terminologie Die inverse Link-Funktion g 1 heisst logistische Funktion.
12 g(π) g 1 (η) g und g 1 p h 12
13 Beispiel: Aderverengung Ader verengt (Y=1) Ader nicht verengt (Y=0) binäre Zielvariable Y: Verengung ja/nein erklärende Variablen Vol: Atem-Volumen Rate: Atem-Frequenz Logistisches Regressionsmodell: g(p Y = 1 Vol, Rate)) = β 0 + β 1 Vol + β 2 Rate
14 Beispiel: Aderverengung Das angepasste logistische Regressionsmodell lautet: g(p Y = 1 Vol, Rate)) = መβ 0 + መβ 1 Vol + መβ 2 Rate = Vol Rate Punkte in der (Vol, Rate)-Ebene mit gleichen Wahrscheinlichkeiten besitzen die Eigenschaft, dass Vol Rate = konstant Das heisst, Rate hängt linear von Vol ab.
15 Rate Beispiel: Aderverengung (Vol, Rate)-Ebene Punkte mit gleichen W keiten liegen auf einer Geraden Geraden zu unterschiedlichen W keiten sind zueinander parallel Vol
16 Y Beispiel: Aderverengung g(p Y = 1 Vol, Rate)) = Vol Rate = ηƹ Vorhergesagte W keit gemäss Modell: exp{ η} P Y = 1 η = 1 + exp{ η} ηƹ
17 Interpretation der Parameter Erinnerung: Das Modell der logistischen Regression lautet: log(odds(y x))=log P Y=1 x) P Y=0 x) = β 0 + β 1 x 1 + β 2 x β m x m Wenn man x (j) um eine Einheit erhöht (und alles andere fix lässt), dann Erhöhen sich die log-odds von Y = 1 x um β j Ändern sich die odds von Y = 1 x um den Faktor exp β j Das Doppelverhältnis (odds ratio) odds(y x j =c j +1) odds(y x j =c j ) = exp β j für beliebiges c j. Das logarithmierte Doppelverhältnis (log odds ratio) log odds Y x j = c j + 1 odds Y x j = c j = β j für beliebiges c j.
18 Beispiel: Aderverengung Interpretation der Parameter des angepassten logistischen Regressionsmodells: g(p Y = 1 Vol, Rate)) = መβ 0 + መβ 1 Vol + መβ 2 Rate = Vol Rate Für ein Individuum mit Vol = 2.3 und Rate = 0.9 ergeben sich gemäss obigem Modell: Log-odds von = Odds von exp = Die geschätzte Wahrscheinlichkeit für eine Aderverengung ist für dieses Individuum: P Y = 1 Vol = 2.3, Rate = 0.9 = g = exp{1.779} 1+exp{1.779} = 0.86
19 Gruppierte Daten Grundidee Man hat zu den gleichen erklärenden Variablen mehrere Beobachtungen (Replikate) der Zielvariable. Beispiel: Frühgeburten Mittleres Gewicht (Klasse 500g-600g) Anzahl Beob. in Kategorie Anzahl nicht überlebende Säuglinge Angaben von 247 Säuglingen Einteilung in 10 Gewichtsklassen Anzahl überlebende Säuglinge
20 Gruppierte Daten Notation m l Beobachtungen Y i zu gleichen Bedingungen x i = x l Definiere Y l = 1 m l σ i:xi = x l Y i (Anteil Erfolge) Es gilt dann Y i mit x i = x l unabhängige Versuche mit Erfolgsw keit π l = P Y i = 1 x l. m l Y l ~ Bin(m l, π l ) binomialverteilt E Y l = π l, g π l = x l T β Wir verwenden das gleiche Modell wie vorher. Bei gruppierten Daten hat man den Vorteil, dass man mehr Informationen hat. Man könnte für jede Gruppe die W keit einzeln schätzen, wenn m l genug gross.
21 Anteil Überlebende ( Y l ) Beispiel: Frühgeburten Gewicht Die Grösse der Kreise ist proportional zu der Anzahl Beobachtungen m l
22 Schätzungen und Tests
23 Maximum Likelihood Frage Wie schätzt man die Parameter β = (β 0, β 1,, β m )? Verwende Maximum Likelihood Prinzip, d.h., wähle die Parameter β so, dass die Wahrscheinlichkeit des beobachteten Ereignisses maximal ist. Likelihood-Funktion Logit-Funktion l β = P β (Y 1 = y 1, Y 2 = y 2,, Y n = y n ) = ς n i=1 P β (Y i = y i ) P β Y i = y i = π i y i (1 π i ) 1 y i, das über π i von β abhängt: g π i = x i T β. Fasst W keiten des logistischen Modells in einem Ausdruck zusammen. Es gilt: P β Y i = 1 = π i und P β Y i = 0 = 1 π i
24 Maximum Likelihood Um das Produkt zu vermeiden arbeitet man mit der log-likelihood: ll β = log l β Man erhält durch Einsetzen von π i = exp x i T β 1+exp x i T β und Umformen ll β = σ n i=1 y i x i T β log 1 + exp x i T β Maximieren bezüglich β ergibt Parameterschätzer መβ. Bemerkungen: Im Gegensatz zur linearen Regression existiert keine geschlossen darstellbare Lösung Lösung durch iterative numerische Verfahren Approximation durch gewichtetes lineares Regressionsproblem Iterative Lösung vieler gewichteter linearer Regressionen
25 Verteilung von መβ Die Approximation mit linearen Regressionsproblemen liefert eine approximative Verteilung der geschätzten Parameter መβ ist approximativ multivariat normalverteilt mit Erwartungswert β und einer Kovarianzmatrix V (β) Approximative Tests und Vertrauensintervalle für die Koeffizienten: Teststatistik (Wald Test) T j = β j β j (β) V jj ist approximativ N(0,1)-verteilt. Bemerkung (β) V jj bezeichnet das j-te Diagonalelement von V (β) («Standardfehler von መβ j»)
26 R-Funktion glm() Modell Schätzungen & Tests Güte des Modells Numerik
27 Beispiel: Frühgeburten Modellgleichung Logit Link (default) Schätzungen der Koeffizienten መβ und zugehörige Standardfehler Teststatistik der Wald Tests und zugehörige p-werte (H 0 : መβ j = 0)
28 Residuen-Devianz Frage: Wie gut ist das geschätzte Modell? Residuen-Devianz (Analog zu Residuen-Quadratsummen in lin. Regression) Gruppierte Daten Y l Vergleiche log-likelihood des maximalen Modells mit derjenigen des geschätzten Modells: D y; π = 2 ll M ll መβ = 2 log l M l β ll M : Grösstmögliches Modell, kann für jede Gruppe π l frei wählen: π l = y l Residuen-Devianz vergleicht geschätztes Modell mit maximalem Modell («Anpassungstest»). Geht nur bei nicht zu kleinen Anzahlen m l pro Gruppe. Ungruppierte Daten Es gilt ll M = 0 (perfekter Fit) Anpassungstest macht keinen Sinn (cf. 8.3.k).
29 Devianz-Differenz Devianz-Differenz eignet sich zum Vergleich zweier geschachtelter Modelle. Likelihood-Ratio Test für Modellvergleich K G: Asymptotisch χ d 2 -verteilt, wenn das kleine Modell stimmt. Diese Likelihood-Ratio Tests sind den Wald Tests in der Regel vorzuziehen. R-Befehle Anzahl Freiheitsgrade d ist die Differenz der Anzahl Parameter der beiden Modelle: d = G K Vergleich geschachtelter Modelle: > anova(fit.1, fit.2, test = "Chisq") Signifikanztest für Faktoren: > drop1(fit, test = "Chisq")
30 Null-Devianz Frage: Hat das geschätzte Modell einen erklärenden Wert? Null-Devianz (Analog zu tot. Quadratsumme σ i (Y i തY) 2 in lin. Regression) Kleinstes sinnvolles Modell (Nullmodell) besteht nur aus Intercept, d.h. π i ist für alle Beobachtungen gleich: π (0) = σ n i=1 y i /n (globaler Anteil «Erfolge») D y; π (0) = 2 ll M ll መβ (0) Gesamt-Test für das Modell: Vergleicht Null-Devianz und Residuen-Devianz H 0 : alle β j = 0 (j = 1,, m) 2 Unter H 0 ist dies approximativ χ p 1 -verteilt.
31 Beispiel: Frühgeburten Gesamt-Test Null-Devianz Residuen-Devianz = = Approximativ χ 2 -verteilt mit = 2 Freiheitsgraden AIC = D y; π + 2 Anzahl geschätzte Parameter (Gütemass)
32 Residuenanalyse
33 Residuen Es existieren mehrere mögliche Definitionen. Rohe Residuen (response residuals) Prädiktor Residuen (working residuals, link residuals) Pearson Residuen R l (L) = Rl dη dπ π l = R l 1 π l π l (nach η projiziert) Devianz-Residuen d i : Beitrag der i-ten Beobachtung zur Residuen- Devianz. Entspricht quadriertem Residuum R i 2 in linearer Regression
34 Graphische Darstellungen QQ Plots machen in der Regel keinen Sinn Ausnahme Pearson Residuen für gruppierte Daten mit genug grossen m l näherungsweise standard-normalverteilt. Tukey-Anscombe Plots am geeignetsten. Rohe Residuen gegen π l Prädiktor Residuen gegen linearen Prädiktor Ƹ η l Insbesondere bei nicht gruppierten Daten braucht man einen Glätter (wegen Artefakten).
35 Rohe Residuen Prädiktor Residuen TA-Plots: Ungruppierte Daten Glätter geschätztes π linearer Prädiktor Artefakt: Wegen binärem Y erhält man links zwei Geraden mit Abstand 1, rechts zwei Kurven. Man kann Abweichungen nur sehen, wenn man Glättung einzeichnet.
36 Rohe Residuen TA-Plot: Gruppierte Daten Geschätztes π
37 Merkpunkte Logistische Regression ist die Standardmethode bei binären Zielgrössen. Gleiche Flexibilität wie gewöhnliche lineare Regression. Interpretation mittels odds beziehungsweise odds ratio: log(odds) = linearer Prädiktor log(odds ratio) = β j, falls man j-te Eingangsgrösse um eine Einheit erhöht. Parameterschätzungen via Maximum Likelihood Tests via Devianzen und Likelihood Ratio Tests Residuen nicht eindeutig definiert, mehrere Möglichkeiten. Wegen Artefakten wird zur Interpretation der Residuenplots ein Glätter benötigt.
Poisson Regression. Verallgemeinerte Lineare Modelle (GLMs)
Poisson Regression Verallgemeinerte Lineare Modelle (GLMs) 28.11.2011 Poisson Regression Aus der Einführungsvorlesung Poisson-Verteilung ist in der Regel gut geeignet, um Anzahlen zu modellieren. Frage
MehrLogistische Regression
Logistische Regression Werner Brannath VO Biostatistik im WS 2006/2007 Inhalt Logistische Regression Beispiel 1: Herzerkrankungsdaten aus Framingham Log Odds Modell Beispiel 1: Einfluss von Blutdruck Maximum
MehrKapitel 4: Binäre Regression
Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,
MehrSeminar zur Energiewirtschaft:
Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable
MehrKategorielle Daten. Seminar für Statistik Markus Kalisch
Kategorielle Daten Markus Kalisch 1 Phase 3 Studie: Wirksamer als Placebo? Medikament Placebo Total Geheilt 15 9 24 Nicht geheilt 10 11 21 Total 25 20 45 Grundfrage: Sind Heilung und Medikamentengabe unabhängig?
MehrMusterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
Mehr1 Gemischte Lineare Modelle
1 Gemischte Lineare Modelle Wir betrachten zunächst einige allgemeine Aussagen für Gemischte Lineare Modelle, ohne zu tief in die mathematisch-statistische Theorie vorzustoßen. Danach betrachten wir zunächst
MehrNicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood
Nicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood Interaktionseffekte Varianz-Kovarianz-Matrix Interaktionseffekte Varianz-Kovarianz-Matrix
MehrKategorielle Variablen
Kategorielle Variablen 06.11.2017 Motivation Bisher: Kontinuierliche Variablen Zusammenhang zwischen kontinuierlichen Variablen? Korrelation und Regression Jetzt: Kategorielle Variablen Zusammenhang zwischen
MehrVorlesung: Lineare Modelle
Vorlesung: Lineare Modelle Prof Dr Helmut Küchenhoff Institut für Statistik, LMU München SoSe 2014 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen
MehrLösung Übungsblatt 5
Lösung Übungsblatt 5 5. Januar 05 Aufgabe. Die sogenannte Halb-Normalverteilung spielt eine wichtige Rolle bei der statistischen Analyse von Ineffizienzen von Produktionseinheiten. In Abhängigkeit von
MehrML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.
Reparametrisierung des Modells Gegeben sei das Modell (2.1) mit (2.5) unter der linearen Restriktion Aβ = c mit A R a p, rg(a) = a, c R a. Wir betrachten die lineare Restriktion als Gleichungssystem. Die
MehrErgänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen
Institut für Stochastik WS 2007/2008 Universität Karlsruhe JProf. Dr. H. Holzmann Dipl.-Math. oec. D. Engel Ergänzungsmaterial zur Vorlesung Statistik 2 Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Inferenzstatistik in Regressionsmodellen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für
MehrEmpirische Analysen mit dem SOEP
Empirische Analysen mit dem SOEP Methodisches Lineare Regressionsanalyse & Logit/Probit Modelle Kurs im Wintersemester 2007/08 Dipl.-Volksw. Paul Böhm Dipl.-Volksw. Dominik Hanglberger Dipl.-Volksw. Rafael
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
MehrDie Funktion f wird als Regressionsfunktion bezeichnet.
Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht
MehrStatistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536
fru@hephy.oeaw.ac.at VO 142.090 http://tinyurl.com/tu142090 Februar 2010 1/536 Übersicht über die Vorlesung Teil 1: Deskriptive Teil 2: Wahrscheinlichkeitsrechnung Teil 3: Zufallsvariable Teil 4: Parameterschätzung
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =
MehrSchätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC
MehrMaximum-Likelihood Schätzung
Maximum-Likelihood Schätzung VL Forschungsmethoden 1 Wiederholung Einführung: Schätzung 2 Likelihood-Schätzung und Generalisiertes Lineares Modell Zufallsverteilungen 3 Lernziele 1 Grundzüge der Likelihood-Schätzung
MehrKlassen diskreter Variablen
Modelle diskreter Variablen Klassen diskreter Variablen binär multinomial Weitere Klassifizierung multinomialer diskreter Variablen: kategorial y = 1, falls Einkommen < 3000 e. y = 2, falls Einkommen zw.
MehrInferenz im multiplen Regressionsmodell
1 / 29 Inferenz im multiplen Regressionsmodell Kapitel 4, Teil 1 Ökonometrie I Michael Hauser 2 / 29 Inhalt Annahme normalverteilter Fehler Stichprobenverteilung des OLS Schätzers t-test und Konfidenzintervall
MehrDr. Matthias Rudolf: M3 Multivariate Statistik Vorlesung LogRA. Folie Nr. 1
2.1 Beispiele 2.2 Odds Ratio 2.3 Modell der logistischen Regression 2.3.1 Modellgleichung 2.3.2 Voraussetzungen 2.4 Schätzungen, Tests und Modellgüte 2.4.1 Schätzung der logistischen Regressionskoeffizienten
MehrKapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell
Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften
Mehr4.1 Problemstellung. E E i = 0 : Linearität, Additivität. 4 Residuen-Analyse 4.1. PROBLEMSTELLUNG 96. (a) (b) gleiche Varianz var E i = σ 2,
4.1. PROBLEMSTELLUNG 96 4 Residuen-Analyse 4.1 Problemstellung a Modellannahmen: E i N 0, σ 2 (a) E E i = 0 : Linearität, Additivität. (b) gleiche Varianz var E i = σ 2, (c) normalverteilt. b c (d) E i
MehrLogistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios
Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios PD Dr.Gabriele Doblhammer, Fortgescrittene Methoden, SS2004 Logistische Regression Tabelle 2 Alter und Symptome von Herz-/Kreislauferkrankung(CD)
Mehr2.Tutorium Generalisierte Regression
2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte
MehrTheorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"
Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen
MehrKapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem
MehrOrdinale abhängige Variablen. Einführung Regressionsmodelle für ordinale Variablen Empirisches Beispiel Ausblick
Kap. 6: Ordinale abhängige Variablen Einführung Regressionsmodelle für ordinale Variablen Empirisches Beispiel Ausblick 6.1 Einführung Typische ökonomische Beispiele für ordinale abhängige Variablen: Bildungsniveau
MehrForschungsstatistik I
Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/
MehrEinführung in die Statistik
Einführung in die Statistik Analyse und Modellierung von Daten von Prof. Dr. Rainer Schlittgen Universität Hamburg 12., korrigierte Auflage Oldenbourg Verlag München Inhaltsverzeichnis 1 Statistische Daten
MehrUnterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13
Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression Robin Ristl Wintersemester 2012/13 1 Exakter Test nach Fisher Alternative zum Chi-Quadrat Unabhängigkeitstest
MehrDas (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
MehrPrognoseintervalle für y 0 gegeben x 0
10 Lineare Regression Punkt- und Intervallprognosen 10.5 Prognoseintervalle für y 0 gegeben x 0 Intervallprognosen für y 0 zur Vertrauenswahrscheinlichkeit 1 α erhält man also analog zu den Intervallprognosen
MehrRegression und Korrelation
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen
MehrBachelorprüfung: Mathematik 4 - Statistik (2 Stunden)
Prof. P. Bühlmann D-UWIS, D-ERDW, D-AGRL Frühling 2007 Bachelorprüfung: Mathematik 4 - Statistik (2 Stunden) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt.
MehrEinführung in die Maximum Likelihood Methodik
in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood
Mehr5 Erwartungswerte, Varianzen und Kovarianzen
47 5 Erwartungswerte, Varianzen und Kovarianzen Zur Charakterisierung von Verteilungen unterscheidet man Lageparameter, wie z. B. Erwartungswert ( mittlerer Wert ) Modus (Maximum der Wahrscheinlichkeitsfunktion,
MehrBivariate Analyseverfahren
Bivariate Analyseverfahren Bivariate Verfahren beschäftigen sich mit dem Zusammenhang zwischen zwei Variablen Beispiel: Konservatismus/Alter Zusammenhangsmaße beschreiben die Stärke eines Zusammenhangs
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrKap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur
Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur 2.1 Lineare und generalisierte lineare Modelle Das klassische lineare Regressionsmodell
MehrStatistische Datenanalyse
Werner A. Stahel Statistische Datenanalyse Eine Einführung für Naturwissenschaftler 3., durchgesehene Auflage vieweg VII 1 Einleitung 1 1.1 Was ist Statistische Datenanalyse? 1 1.2 Ziele 6 1.3 Hinweise
MehrWahrscheinlichkeit und Statistik: Zusammenfassung
HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
Mehr1. Lösungen zu Kapitel 7
1. Lösungen zu Kapitel 7 Übungsaufgabe 7.1 Um zu testen ob die Störterme ε i eine konstante Varianz haben, sprich die Homogenitätsannahme erfüllt ist, sind der Breusch-Pagan-Test und der White- Test zwei
MehrAuswertung und Lösung
Körperkraft [Nm] 0 50 100 150 200 250 0 20 40 60 80 Lean Body Mass [kg] Dieses Quiz soll Ihnen helfen, den R Output einer einfachen linearen Regression besser zu verstehen (s. Kapitel 5.4.1) Es wurden
Mehr4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers
4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis
MehrDie partielle Likelihood-Funktion
Die partielle Likelihood-Funktion Roger Züst 12. Juni 26 1 Repetition: Maximum-Likelihood-Methode Hat man n unabhängige Beobachtungen x 1, x 2,..., x n einer Zufallsvariablen X und eine Familie von möglichen
MehrDiagnostik von Regressionsmodellen (1)
Diagnostik von Regressionsmodellen (1) Bei Regressionsanalysen sollte immer geprüft werden, ob das Modell angemessen ist und ob die Voraussetzungen eines Regressionsmodells erfüllt sind. Das Modell einer
MehrStatistik II Übung 4: Skalierung und asymptotische Eigenschaften
Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden
MehrForschungsstatistik I
Prof. Dr. G. Meinhardt 6. Stock, Taubertsberg R. 06-06 (Persike) R. 06-31 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/
MehrRegression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate
Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für
MehrStatistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur
Mehr5. Spezielle stetige Verteilungen
5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für
MehrJohn Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer
John Komlos Bernd Süssmuth Empirische Ökonomie Eine Einführung in Methoden und Anwendungen 4y Springer 1 Einführung 1 1.1 Ökonometrie 1 2 Vorüberlegungen und Grundbegriffe 7 2.1 Statistik als Grundlage
Mehr1 Einführung Ökonometrie... 1
Inhalt 1 Einführung... 1 1.1 Ökonometrie... 1 2 Vorüberlegungen und Grundbegriffe... 7 2.1 Statistik als Grundlage der Empirischen Ökonomie... 7 2.2 Abgrenzung und Parallelen zu den Naturwissenschaften...
MehrSchriftliche Prüfung (90 Minuten)
Dr. M. Kalisch Probeprüfung Statistik 1 Sommer 2014 Schriftliche Prüfung (90 Minuten) Bemerkungen: Alle schriftlichen Hilfsmittel und ein Taschenrechner sind erlaubt. Mobiltelefone sind auszuschalten!
Mehr6.2 Lineare Regression
6.2 Lineare Regression Einfache lineare Regression (vgl. Kap. 4.7) Y i = θ 0 + θ 1 X i + ǫ i ǫ i (0, σ 2 ) ˆθ 1 ˆθ 0 = S XY S 2 X = 1 ( Yi n ˆθ ) 1 Xi als Lösung der Minimumaufgabe n (Y i θ 1 X 1 θ 0 )
MehrStatistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
MehrLineare Regression II
Lineare Regression II Varianzanalyse als multiple Regession auf Designvariablen Das lineare Regressionsmodell setzt implizit voraus, dass nicht nur die abhängige, sondern auch die erklärenden Variablen
MehrEinführung in die Statistik
Einführung in die Statistik Analyse und Modellierung von Daten Von Prof. Dr. Rainer Schlittgen 4., überarbeitete und erweiterte Auflage Fachbereich Materialwissenschaft! der Techn. Hochschule Darmstadt
MehrLineare Regression 1 Seminar für Statistik
Lineare Regression 1 Seminar für Statistik Markus Kalisch 17.09.2014 1 Statistik 2: Ziele Konzepte von einer breiten Auswahl von Methoden verstehen Umsetzung mit R: Daten einlesen, Daten analysieren, Grafiken
Mehr6. Statistische Schätzung von ARIMA Modellen
6. Statistische Schätzung von ARIMA Modellen Vorschau: ARIMA Modelle Modellidentifikation verschiedene Schätzverfahren Modelldiagnostik Fallstudien Zeitreihenanalyse 1 6.1 ARIMA Modelle Bisher: ARMA(p,q)-Modelle:
MehrModellanpassung und Parameterschätzung. A: Übungsaufgaben
7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit
MehrLogit-Analyse mit ordinalen und nominalen abhängigen Variablen
Logit-Analyse mit ordinalen und nominalen abhängigen Variablen Regressionsmodelle für Politikwissenschaftler Übersicht Das multinomiale Logit-Modell Das konditionale Logit-Modell Regressionsmodelle für
Mehr4. Verteilungen von Funktionen von Zufallsvariablen
4. Verteilungen von Funktionen von Zufallsvariablen Allgemeine Problemstellung: Gegeben sei die gemeinsame Verteilung der ZV en X 1,..., X n (d.h. bekannt seien f X1,...,X n bzw. F X1,...,X n ) Wir betrachten
MehrEine und zwei kategorielle Variablen
Eine und zwei kategorielle Variablen 7.11.2011 Einführung Kategorielle Variable, Faktor Eine kategorielle Variable (Faktor) hält fest, zu welcher Kategorie eine Beobachtung gehört. Falls die Kategorien
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 8. Dezember 2010 Teil V Schließende Statistik 1 Parameterschätzung Erwartungstreue und Konsistenz Maximum-Likelihood
MehrDr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp
Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:
MehrÜbung V Lineares Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung
MehrAufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:
Aufgabe 1 (8=2+2+2+2 Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten: Die Zufallsvariable X bezeichne die Note. 1443533523253. a) Wie groß ist h(x 5)? Kreuzen
MehrStrukturgleichungsmodellierung
Strukturgleichungsmodellierung FoV Methodenlehre FSU-Jena Dipl.-Psych. Norman Rose Parameterschätzung, Modelltest & Fit Indizes bei SEM Forschungsorientierte Vertiefung - Methodenlehre Dipl.-Psych. Norman
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 25. Januar 2013 1 Der χ 2 -Anpassungstest 2 Exakter Test nach Fisher Mendelsche Erbregeln als Beispiel für mehr
MehrKategorielle*Zielgrössen*!
Kategorielle*Zielgrössen* Mul3nomialeundordinaleRegression BarbaraHellriegel 30.11.2015 Bisher:*Regressionsmodelle*für*diverseArtenvonZielgrössenY: * o kon3nuierlichesy o binäresbzw.binomialesy o Anzahl
MehrLineare Regression Blockpraktikum zur Statistik mit R 28. März 2012 Sören Gröttrup Institut für Mathematische Statistik Universität Münster SS 2012
Lineare Regression Blockpraktikum zur Statistik mit R 28. März 2012 Sören Gröttrup Institut für Mathematische Statistik Universität Münster SS 2012 Beispiel: Ausgangsfrage Ziel: Wie wirkt sich die eingesetzte
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
MehrAbbildung 1: Dieses Quiz soll Ihnen helfen, die Residuenplots besser zu verstehen. Am Schluss kommen noch vermischte Aufgaben zur Wiederholung.
Residuals vs Fitted Normal Q Q Residuals 2 1 0 1 2 16 18 30 Standardized residuals 2 1 0 1 2 18 30 16 5 10 15 20 25 30 Fitted values 2 1 0 1 2 Theoretical Quantiles Abbildung 1: Dieses Quiz soll Ihnen
Mehrdie wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen
Kapitel 8 Schätzung von Parametern 8.1 Schätzmethoden Gegeben seien Beobachtungen Ü Ü ¾ Ü Ò die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen ¾ Ò auffassen. Die Verteilung
MehrMultiple Regressionsanalyse - Kurzabriss
Multiple Regressionsanalyse - Kurzabriss Ziele: Schätzung eines Kriteriums aus einer Linearkombination von Prädiktoren Meist zu Screening-Untersuchungen, um den Einfluß von vermuteten Ursachenvariablen
MehrWahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme
Binomialverteilung Wahrscheinlichkeitsfunktion Konstruktionsprinzip: Ein Zufallsexperiment wird n mal unabhängig durchgeführt. Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder
MehrSimultane Mehrgleichungssysteme: Parameterschätzung
Simultane Mehrgleichungssysteme: Parameterschätzung Stichwörter: Eigenschaften des OLS-Schätzers Hilfsvariablenschätzer 2SLS limited information Methoden 3SLS FIML full information Methoden o1-21.tex/0
MehrTests einzelner linearer Hypothesen I
4 Multiple lineare Regression Tests einzelner linearer Hypothesen 4.5 Tests einzelner linearer Hypothesen I Neben Tests für einzelne Regressionsparameter sind auch Tests (und Konfidenzintervalle) für Linearkombinationen
MehrZeitreihenanalyse. Zerlegung von Zeitreihen Saisonindex, saisonbereinigte Zeitreihe Trend und zyklische Komponente Prognose Autokorrelation
Zeitreihenanalyse Zerlegung von Zeitreihen Saisonindex, saisonbereinigte Zeitreihe Trend und zyklische Komponente Prognose Autokorrelation Beispiel für Zeitreihe Andere Anwendungen Inventarmanagment Produktionsplanung
MehrZufallsvariablen [random variable]
Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden
Mehr8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)
8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme) Annahme B4: Die Störgrößen u i sind normalverteilt, d.h. u i N(0, σ 2 ) Beispiel: [I] Neoklassisches Solow-Wachstumsmodell Annahme einer
MehrB. Regressionsanalyse [progdat.sav]
SPSS-PC-ÜBUNG Seite 9 B. Regressionsanalyse [progdat.sav] Ein Unternehmen möchte den zukünftigen Absatz in Abhängigkeit von den Werbeausgaben und der Anzahl der Filialen prognostizieren. Dazu wurden über
MehrDas Lineare Regressionsmodell
Das Lineare Regressionsmodell Bivariates Regressionsmodell Verbrauch eines Pkw hängt vom Gewicht des Fahrzeugs ab Hypothese / Theorie: Je schwerer ein Auto, desto mehr wird es verbrauchen Annahme eines
MehrStatistik II. Regressionsanalyse. Statistik II
Statistik II Regressionsanalyse Statistik II - 23.06.2006 1 Einfachregression Annahmen an die Störterme : 1. sind unabhängige Realisationen der Zufallsvariable, d.h. i.i.d. (unabh.-identisch verteilt)
MehrKapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.
Kapitel 3 Schließende lineare Regression 3.1. Einführung induktiv Fragestellungen Modell Statistisch bewerten, der vorher beschriebenen Zusammenhänge auf der Basis vorliegender Daten, ob die ermittelte
MehrAnalyse von Querschnittsdaten. Signifikanztests I Basics
Analyse von Querschnittsdaten Signifikanztests I Basics Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004
Mehr1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:
Beispiele zum Üben und Wiederholen zu Wirtschaftsstatistik 2 (Kurs 3) 1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt: Haushaltseinkommen 12 24 30 40 80 60
MehrBreusch-Pagan-Test I auf Heteroskedastie in den Störgrößen
Breusch-Pagan-Test I Ein weiterer Test ist der Breusch-Pagan-Test. Im Gegensatz zum Goldfeld-Quandt-Test ist es nicht erforderlich, eine (einzelne) Quelle der Heteroskedastizität anzugeben bzw. zu vermuten.
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Diese Selbstkontrollarbeit bezieht sich auf die Kapitel 1 bis 4 der Kurseinheit 1 (Multivariate Statistik) des Kurses Multivariate Verfahren (883). Hinweise:
MehrStatistische Modellierung Merkblatt
Inhaltsverzeichnis Statistische Modellierung Merkblatt Welches Modell nimmt man wann?... 1 Logit:... 2 Probit:... 2 Poisson:...2 Loglinear:... 2 multinomiales Logit:... 2 Ordinales Logit (PROC LOGISTIC
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und
MehrStatistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management
Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Ausgangsdaten Bundesliga 2008/2009 Gegeben: Daten zu den 18 Vereinen der ersten Bundesliga
Mehr