Lineare Regression II
|
|
|
- Jakob Müller
- vor 9 Jahren
- Abrufe
Transkript
1 Lineare Regression II Varianzanalyse als multiple Regession auf Designvariablen Das lineare Regressionsmodell setzt implizit voraus, dass nicht nur die abhängige, sondern auch die erklärenden Variablen metrisches Messniveau aufweisen. Es ist jedoch möglich, auch nominalskalierte erklärende Variablen zu betrachten, wenn die Ausprägungen einer nominalskalierten vorher in Designvariablen umgesetzt wird. Beispiel: Regression der Bewertung der SPD auf die Konfression mit den Ausprägungen katholisch (), protestantisch (2), konfessionslos (3). Zunächst werden aus der Variable Konfession Designvariablen gebildet, wobei die Zahl der Designvariablen gleich der Zahl der Ausprägungen minus ist. Bei der sogenannten Dummy- Kodierung ergibt sich folgendes Schema: Konfession katholisch protestantisch konfessionslos Dkath 0 0 Dprot 0 0
2 Varianzanalyse als multiple Regession auf Designvariablen: Dummy-Kodierung Konfession katholisch protestantisch konfessionslos Dkath 0 0 Dprot 0 0 Bei katholischen Befragten hat die Designvariable Dkath den Wert und die Designvariable Dprot den Wert 0. Umgekehrt ist es bei protestantischen Befragten. Hier hat Dprot den Wert und Dkat den Wert 0. Bei konfessionslosen Befragten weisen beiden Designvariablen Dkat und Dprot jeweils den Wert 0 auf. Die Auspägung einer erklärenden Variablen, für die keine eigene Designvariable gebildet wird, wird als Referenzkategorie bezeichnet. In einer anschließenden multiplen Regression wird EvalSPD auf Dkath und Dprot regrediert. Die folgende Analyse basiert auf einer Auswahl aus allen Fällen, wobei zufällig in jeder der drei Gruppen n k = 70 ausgewählt wurden. 2
3 Varianzanalyse als multiple Regession auf Designvariablen: Dummy-Kodierung Konfession katholisch protestantisch konfessionslos Dkath 0 0 Dprot 0 0 Modell (Konstante) Dkat Dprot a. Abhängige Variable: EvalSPD a,b Nicht standardisierte Standardisie rte Standardf B ehler Beta T Signifikanz b. Ausschließliche Auswahl von Fällen, bei denen group >.00 Die Regressionsfunktion lautet: Ŷ = Dkat Dprot 3
4 Varianzanalyse als multiple Regession auf Design-Variablen: Dummy-Kodierung In Abhängigkeit von der Konfession gibt es drei unterschiedliche Vorhesagewerte: Konfession Katholisch Konfession katholisch protestantisch konfessionslos Dkath 0 0 Dprot 0 0 Ŷ = Dkat Dprot Vorhersagewert ŷkatholisch = b0 + b + b2 0 = = ŷ = b + b 0 + b = =.95 Protestantisch Pr otes tan tisch 0 2 Konfessionslos ŷkonfessionslos = b0 + b 0 + b2 0 = Aus den Vorhersagewerten folgt für die Interpretation der Regressionskoeffizienten: - Die Regressionskonstante b 0 gibt den Vorhersagewert der abhängigen Variablen wieder, wenn die Referenzkategorie konfessionslos der erklärenden Variablen realisiert wird; - das Regressionsgewicht b der Designvariable Dkath gibt die Differenz der Vorhersage (geschätzte Mittelwertdifferenz) von katholischen Befragten zur Referenzkategorie wieder; - das Regressionsgewicht b 2 der Designvariable Dprot gibt die Differenz der Vorhersage (geschätzte Mittelwertdifferenz) von protestantischen Befragten zur Referenzkategorie wieder; 4
5 Varianzanalyse als multiple Regession auf Design-Variablen: Effekt-Kodierung Modell Konfession katholisch protestantisch konfessionslos Ekath 0 Eprot 0 Anstelle der Dummy-Kodierung wird oft die Effekt-Kodierung verwendet, bei der die Designvariablen den Wert aufweisen, wenn die Referenzkategorie realisert wird. Die Verwendung der Effekt-Kodierung ergibt folgendes Resultat: (Konstante) Ekat Eprot a. Abhängige Variable: EvalSPD a,b Nicht standardisierte Standardisie rte Standardf B ehler Beta T Signifikanz b. Ausschließliche Auswahl von Fällen, bei denen group >.00 Die Regressionsfunktion lautet: Ŷ = Ekat +.8 Eprot 5
6 Varianzanalyse als multiple Regession auf Design-Variablen: Effekt-Kodierung In Abhängigkeit von der Konfession gibt es wieder drei unterschiedliche Vorhesagewerte: Konfession Katholisch Konfession katholisch protestantisch konfessionslos Ekath 0 Eprot 0 Ŷ = Ekat +.8 Eprot Vorhersagewert ŷkatholisch = b0 + b + b2 0 = = ŷ = b + b 0 + b = =.94 Protestantisch Pr otes tan tisch 0 2 ŷ = b + b + b = = Konfessionslos ( ) ( ) Konfessionslos 0 2 Die Vorhersagewerte sind bei der Effekt-Kodierung (bis auf Abweichungen durch Rundungsfehler) identisch mit denen der Dummy-Kodierung. Wenn in zwei Regressionsmodellen die Zahl der Regressionskoeffizienten (Modellparameter) gleich ist und beide Modelle zum selben Ergebnis kommen, spricht man von Modellequivalenz. Modelle mit Effekt-Kodierung und mit Dummy-Kodierung sind also equivalent. 6
7 Varianzanalyse als multiple Regession auf Design-Variablen: Effekt-Kodierung Konfession katholisch protestantisch konfessionslos Ekath 0 Eprot 0 Ŷ = Ekat +.8 Eprot ŷkatholisch = b0 + b + b2 0 = = ŷ = b + b 0 + b = =.94 Pr otes tan tisch 0 2 ( ) ( ) ŷ = b + b + b = = Konfessionslos 0 2 Für die Interpretation werden die Vorhersagewerte mit den empirischen Mittelwerten in der Stichprobe verglichen. Bericht EvalSPD Mittelwert N Standardab weichung Konfess.00 katholisch 2.00 protestantisch 3.00 konfessionslos Insgesamt
8 Varianzanalyse als multiple Regession auf Design-Variablen: Effekt-Kodierung Ŷ = Dkat +.8 Dprot ŷkatholisch = b0 + b + b2 0 = = ŷ = b + b 0 + b = =.94 Pr otes tan tisch 0 2 ( ) ( ) ŷ = b + b + b = = Konfessionslos 0 2 Bericht EvalSPD Mittelwert N Standardab weichung Konfess.00 katholisch 2.00 protestantisch 3.00 konfessionslos Insgesamt Die Regressionskonstante b 0 gibt den Gesamtmittelwert (engl: grand mean) wieder; das Regressionsgewicht b der Designvariable Ekath gibt dann die Abweichung (Mittelwertdifferenz) von katholischen Befragten zum Gesamtmittelwert wieder; das Regressionsgewicht b 2 der Designvariable Eprot gibt dann die Abweichung (Mittelwertdifferenz) von protestantischen Befragten zum Gesamtmittelwert wieder. Die negative Summe der beiden Regressionsgewichte ist schließlich die Abweichung von konfessionslosen Befragten zum Gesamtmittelwert. 8
9 Varianzanalyse als multiple Regession auf Design-Variablen Wenn allerdings die Fallzahlen in den einzelnen Gruppen unterschiedlich ausfallen, ergibt sich folgendes Bild: EvalSPD Konfess.00 katholisch 2.00 protestantisch 3.00 konfessionslos Insgesamt Modell Modell (Konstante) Dkat Dprot a. Abhängige Variable: EvalSPD (Konstante) Ekat Eprot Bericht Dummy-Kodierung: Effekt-Kodierung: a. Abhängige Variable: EvalSPD Standardab Mittelwert N weichung a Nicht standardisierte Standardf B ehler Beta T Signifikanz a Nicht standardisierte Standardisie rte Standardisie rte Standardf B ehler Beta T Signifikanz Bei der Dummy-Kodierung bleibt die Interpretation gleich; bei der Effekt-Kodierung gibt die Konstante nicht mehr den Gesamtmittelwert, sondern den Mittelwert der drei Gruppenmittelwerte wieder: = ( )/3 Konfession Vorhersagewert Katholisch b 0 + b = Protestantisch b 0 + b 2 =.243 Konfessionslos b 0 = Konfession Vorhersagewert Katholisch b 0 + b = Protestantisch b 0 + b 2 =.242 Konfessionslos b 0 b b2 =
10 Varianzanalyse als multiple Regession auf Design-Variablen Wenn anstelle inhaltlicher (metrischer) Variablen ausschließlich Designvariablen als erklärende Variablen (Prädiktoren) verwendet werden, spricht man davon, dass die Prädiktoren eine Designmatrix bilden. Designmatrix bei Dummy-Kodierung Konst. Dkath Dprot 0 bei Katholiken bei Protestanten bei Konfessionslosen Designmatrix bei Effekt-Kodierung Konst. Dkath Dprot 0 bei Katholiken bei Protestanten bei Konfessionslosen Die Regressionsgewichte erfassen empirisch dann immer Kontraste, das sind hier Abweichungen von Mittelwerten. Die Standardfehler und T-Tests prüfen, ob eine Mittelwertdifferenz signifikant ist. 0
11 Varianzanalyse als multiple Regession auf Design-Variablen Die Prüfung der Hypothese ob die Ausprägungen der erklärenden nominalskalierten Variablen (hier: Konfession) überhaupt Mittelwertabweichungen generiert, kann wieder über den F-Test gegen das Konstantenmodell erfolgen, bei dem alle Regressionsgewichte der Designvariablen null sind. ANOVA b Modell Regression Residuen Gesamt Quadrats Mittel der umme df Quadrate F Signifikanz a a. Einflußvariablen : (Konstante), Dprot, Dkat b. Abhängige Variable: EvalSPD Modell Regression Residuen Gesamt ANOVA b Quadrats Mittel der umme df Quadrate F Signifikanz a a. Einflußvariablen : (Konstante), Eprot, Ekat b. Abhängige Variable: EvalSPD Unabhängig von Dummyoder Effekt-Kodierung führt die Varianzanalyse des gesamten Modells stets zum gleichen Ergebnis. Ursache ist die Equivalenz der Regressionsmodelle. Der simultane Test von Mittelwertdifferenzen wird als Varianzanalyse bezeichnet. Nominalskalierte Variablen heißen in der Varianzanalyse Faktoren. Im Regressionsmodell werden anstelle eines Faktors die ihm zugeordneten Designvariablen als Prädiktoren eingesetzt.
12 Varianzanalyse mit mehreren Faktoren In der Varianzanalyse wird oft der simultane Einfluss mehrerer Faktoren gleichzeitig analysiert. Beispiel: Neben der Konfession wird im folgenden auch die Region als 2. Faktor eingesetzt. Da es s sich um eine dichotome Variable handelt, die bereits die Ausprägungen 0 (für Westen ) und (für Osten ) aufweist, kann in der Designmatrix die Region bei Dummy-Kodierung direkt als Prädiktor verwendet werden. Konst. Dkath Dprot Region 0 0 bei Katholiken im Westen 0 0 bei Protestanten im Westen bei Konfessionslosen im Westen 0 bei Katholiken im Osten 0 bei Protestanten im Osten 0 0 bei Konfessionslosen im Osten 2
13 Varianzanalyse mit mehreren Faktoren Bei Effekt-Kodierung wird für die Region eine / -kodierte Designvariable Ereg eingesetzt, wobei der Wert für die Referenzkategorie der Befragten aus den Westen verwendet wird.. Konst. Dkath Dprot Region 0 bei Katholiken im Westen 0 bei Protestanten im Westen bei Konfessionslosen im Westen 0 bei Katholiken im Osten 0 bei Protestanten im Osten bei Konfessionslosen im Osten Bei der Schätzung werden zunächst wieder Modell mit gleichen Fallzahlen (n km = 35) bei allen Ausprägungskombinationen der beiden Faktoren geschätzt. 3
14 Varianzanalyse mit mehreren Faktoren: Dummy-Kodierung Bericht Mittelwert region Ost/West 0 West Ost Insgesamt EvalSPD Konfess.00 katholisch 2.00 protestantisch 3.00 konfessionslos Insgesamt Model (Konstante) Dkat Dprot region Ost/W a. Abhängige Variable: EvalSPD a,b Standardisie Nicht standardisierte rte Standardf B ehler Beta T Signifikanz b. Ausschließliche Auswahl von Fällen, bei denen group >.00 Konfession Reg. Vorhersagewert Katholisch West b 0 +b =.042 Protestantisch West b 0 +b 2 = 2.5 Konfessionslos West b 0 =.729 Katholisch Ost b 0 +b +b 3 =.442 Protestantisch Ost b 0 +b 2 +b 3 =.75 Konfessionslos Ost b 0 + b 3 =.329 Die Regressionskonstante schätzt nun (nicht ganz korrekt) den Mittelwert von Konfessionslosen im Westen. Die Gewichte schätzen die Abweichungen von dieser Gruppe, wobei das Modell gleiche 4 Effekte zwischen den Regionen bzw. Konfessionsgruppen unterstellt.
15 Varianzanalyse mit mehreren Faktoren: Effekt-Kodierung Bericht Mittelwert region Ost/West 0 West Ost Insgesamt EvalSPD Konfess.00 katholisch 2.00 protestantisch 3.00 konfessionslos Insgesamt a,b Standardisie Nicht standardisierte rte Modell B Standardf ehler Beta T Signifikanz (Konstante Ekat Eprot Ereg a. Abhängige Variable: EvalSPD b. Ausschließliche Auswahl von Fällen, bei denen group >.00 Konfession Reg. Vorhersagewert Katholisch West b 0 +b b 3 =.043 Protestantisch West b 0 +b 2 b 3 = 2.4 Konfessionslos West b 0 b b 2 b 3 =.728 Katholisch Ost b 0 +b +b 3 =.443 Protestantisch Ost b 0 +b 2 +b 3 =.74 Konfessionslos Ost b 0 b b 2 +b 3 =.328 Die Regressionskonstante schätzt wieder (korrekt) den Gesamtmittelwert. Die Gewichte erfassen die Abweichungen von dieser Gruppe, wobei das Modell (fälschlicherweise) gleiche Effekte zwischen den Regionen bzw. Konfessionsgruppen unterstellt. 5
16 Varianzanalyse mit mehreren Faktoren: Interaktionseffekte bei Dummy-Kodierung Werden in der Designmatrix zusätzliche Prädiktoren aufgenommen, die die Produkte der den Faktoren zugeordneten Designvariablen sind, können Interaktionseffekte (erster Ordnung) geschätzt werden. Interaktionseffekte modellieren Effekte, die spezifisch für das gleichzeitige Auftreten von Ausprägungskombinationen der Faktoren sind. Konst. Dkath Dprot Region Dkath Reg. Dkath Reg bei Katholiken im Westen bei Protestanten im Westen bei Konfessionslosen im Westen 0 0 bei Katholiken im Osten 0 0 bei Protestanten im Osten bei Konfessionslosen im Osten 6
17 Varianzanalyse mit mehreren Faktoren: Interaktionseffekte bei Dummy-Kodierung Bericht Mittelwert region Ost/West 0 West Ost Insgesamt EvalSPD Konfess.00 katholisch 2.00 protestantisch 3.00 konfessionslos Insgesamt a,b Standardf B ehler Beta T Signifikanz (Konstante) Dkat Dprot region Ost/ DkatO DprotO a. Abhängige Variable: EvalSPD Mode Standardisie cht standardisier rte oeffiziente b. Ausschließliche Auswahl von Fällen, bei denen group >. Konfession Reg. Vorhersagewert Katholisch West b 0 +b =.428 Protestantisch West b 0 +b 2 = Konfessionslos West b 0 =.629 Katholisch Ost b 0 +b +b 3 +b 4 =.057 Protestantisch Ost b 0 +b 2 +b 3 +b 5 =.229 Konfessionslos Ost b 0 +b 3 =.429 Die beobachteten Gruppenmittelwerte werden exakt geschätzt. 7
18 Varianzanalyse mit mehreren Faktoren: Interaktionseffekte bei Effekt-Kodierung Ganz analog ist das Vorgehen bei Effektkodierung. Konst. Ekath Eprot Ereg Ekath Reg. Eprot Reg. 0 0 bei Katholiken im Westen 0 0 bei Protestanten im Westen bei Konfessionslosen im Westen 0 0 bei Katholiken im Osten 0 0 bei Protestanten im Osten bei Konfessionslosen im Osten 8
19 Varianzanalyse mit mehreren Faktoren: Interaktionseffekte bei Effekt-Kodierung Bericht Mittelwert region Ost/West 0 West Ost Insgesamt EvalSPD Konfess.00 katholisch 2.00 protestantisch 3.00 konfessionslos Insgesamt a,b Mode Standardisie icht standardisiert rte Standardf B ehler Beta T Signifikanz (Konstan Ekat Eprot Ereg EkatO EprotO a. Abhängige Variable: EvalSPD b. Ausschließliche Auswahl von Fällen, bei denen group >.0 Konfession Reg. Vorhersagewert Katholisch West b 0 +b b 3 b 4 =.428 Protestantisch West b 0 +b 2 b 3 b 5 = Konfessionslos West b 0 b b 2 b 3 +b 4 +b 5 =.629 Katholisch Ost b 0 +b +b 3 +b 4 =.057 Protestantisch Ost b 0 +b 2 +b 3 +b 5 =.229 Konfessionslos Ost b 0 b b 2 +b 3 b 4 b 5 =.429 Die beobachteten Gruppenmittelwerte werden wiederum exakt geschätzt. 9
20 Varianzanalyse mit mehreren Faktoren: Korrelationen der Prädiktoren Im Unterschied zur Dummy-Kodierung korrelieren bei Effekt-Kodierung und gleichen Fallzahlen in den Subgruppen die Designvariablen verschiedener Faktoren weder untereinander, noch gibt es Korrelationen zwischen Designvariablen für Haupteffekte und Interaktionseffekte. Korrelation nach Pearson Korrelation nach Pearson EvalSPD Ekat Eprot Ereg EkatO EprotO EvalSPD Dkat Dprot region Ost/West DkatO DprotO Korrelationen a a. Ausschließliche Auswahl von Fällen, bei denen group >.00 Korrelationen a a. Ausschließliche Auswahl von Fällen, bei denen group >.00 EvalSPD Ekat Eprot Ereg EkatO EprotO region EvalSPD Dkat Dprot Ost/West DkatO DprotO
21 ML-Schätzung der Regressionskoeffizienten In der Regel werden die Regressionskoeffizienten nach der OLS-methode geschätzt. Anstelle der OLS-Regression können die Regressionskoeffizienten unter der Normalverteilungsannahme auch nach der Maximum-Likelihood-Methode geschätzt werden (ML- Schätzung). Bei dieser Methode werden die Regressionskoeffizienten so festgelegt, dass die tatsächlich in der Stichprobe beobachteten Realisationen die größte Auftretenschance hätten, wenn die zu schätzenden Regressionskoeffizienten mit ihren Schätzungen übereinstimmen würden. Wenn für die Residuen die Normalverteilungsannahme gilt, berechnet sich die Wahrscheinlichkeitsdichte jedes Residuums nach: ( ) f Y x = e 2π σ 2 Yx 2 ( Y μ ) 2 Yx σ 2 Yx 2
22 ML-Schätzung der Regressionskoeffizienten In der für die Schätzung verwendeten Likelihood-Funktion wird die Dichtefunktion als mathematische Funktion der Regressionskoeffizienten aufgefasst. Da bei voneinander unabhängigen Realisierungen die gemeinsame Dichte aller Realisierungen das Produkt der Dichtefunktion der einzelnen Fälle ist, ergibt sich als zu maximierende Likelihood-Funktion der gesamten Stichprobe: 2 ( y ) 2 i βˆ ˆ 0 β xi n! 2 L( βˆ ˆ ˆ 0, β, σ ζ ) = exp = max 2 i= 2π σˆ 2 σˆ ζ ζ Für die Lösung wird anstelle der Maximierung der Likelihood-Funktion äquivalent die negative Log-Likelihood-Funktion minimiert: ( ˆ ˆ 2 2 ˆ ) ( ˆ ζ ζ) 2 ( y ) 2 i βˆ ˆ 0 β xi n! ln L( β, β, σ ) = 0.5 n ln 2π σ = min ˆ 0 2 i= 2 σζ Berechnet man diese Lösung, ergeben sich für die Regressionskoeffizienen die gleichen Schätzfunktionen wie bei der OLS-Lösung. Beide Methoden führen hier also zum gleichen Ergebnis. 22
23 Eigenschaften der ML-Schätzung Ein Vorteil der Methode liegt darin, dass ML-Schätzer unter sehr allgemeinen Bedingungen statistisch erwünschte Eigenschaften aufweisen: die Schätzer sind konsistet, asymptotisch erwartungstreu und asymptotisch normalverteilt die Standardfehler sind verglichen mit den Standardfehlern vieler anderer Schätzmethoden minimal die Varianzen und Kovarianzen der Schätzer lassen sich konsistent aus den Stichprobendaten schätzen. Im Falle des linearen Regressiosmodells kommt hinzu, + dass die Schätzer der Regressionskoeffizienten bei beliebiger Stichprobengröße erwartungstreu und exakt normalverteilt sind + dass durch Anwendung eines einfachen Korrekturfaktor auch des ML-Schätzer der Residualvarianz bei beliebiger Stichprobengröße erwartungstreu geschätzt werden kann. 23
Lineare Regression I
Statistische Zusammenhangsanalyse Lineare Regression I Um zu untersuchen, ob eine erklärende Variable X Einfluss auf eine abhängige Variable Y hat, wird die gemeinsame Verteilung der beiden Variablen untersucht.
Drittvariablenkontrolle in der linearen Regression: Trivariate Regression
Drittvariablenkontrolle in der linearen Regression: Trivariate Regression 14. Januar 2002 In der Tabellenanalyse wird bei der Drittvariablenkontrolle für jede Ausprägung der Kontrollvariablen eine Partialtabelle
Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO
Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung
1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.
0 Einführung 1 Wahrscheinlichkeitsrechnung 2 Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung 5 Hypothesentests 6 Regression Lineare Regressionsmodelle Deskriptive Statistik:
Aufgaben zu Kapitel 4
Rasch, Friese, Hofmann & aumann (2006). Quantitative Methoden. Band (2. Auflage). Heidelberg: Springer. Aufgaben zu Kapitel 4 Aufgabe a) Berechnen Sie die Korrelation zwischen dem Geschlecht und der Anzahl
Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. 21. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle
Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit 2. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle In vielen Untersuchungen soll eine komplexere Beziehungsstruktur untersucht werden.
Varianzkomponentenschätzung
Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler
Vorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation
Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation PEΣO 12. November 2001 Von der Tabellenanalyse zur Regression Die bivariate Verteilung zweier metrischer Variablen kann konzeptionell
I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03
I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03 Vorlesung: 12.11.2002 He uses statistics as a drunken man use lampposts - for support rather than for illumination. Andrew Lang Dr. Wolfgang Langer
Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS
Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Korrelation vs. Regression 2. Ziele der Regressionsanalyse 3. Syntax für
Stochastik Praktikum Lineare Modelle
Stochastik Praktikum Lineare Modelle Thorsten Dickhaus Humboldt-Universität zu Berlin 06.10.2010 Übersicht 1 Einfache lineare Regression 2 Multiple lineare Regression 3 Varianzanalyse 4 Verallgemeinerte
Statistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 22 Übersicht Weitere Hypothesentests in der Statistik 1-Stichproben-Mittelwert-Tests 1-Stichproben-Varianz-Tests 2-Stichproben-Tests Kolmogorov-Smirnov-Test
Einführung in die Induktive Statistik: Regressionsanalyse
Einführung in die Induktive Statistik: Regressionsanalyse Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Regressionsanalyse Ziel: Analyse
4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers
4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis
Test von Hypothesen: Signifikanz des Zusammenhangs (F-Test)
Test von Hyothesen: Signifikanz des Zusammenhangs (F-Test) Die Schätzung der Regressionsfunktion basiert auf Daten einer Stichrobe Inwiefern können die Ergebnisse dieser Schätzung auf die Grundgesamtheit
SozialwissenschaftlerInnen II
Statistik für SozialwissenschaftlerInnen II Henning Best [email protected] Universität zu Köln Forschungsinstitut für Soziologie Statistik für SozialwissenschaftlerInnen II p.1 Varianzanalyse Statistik
Lineare Regression. Kapitel Regressionsgerade
Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell
Empirische Analysen mit dem SOEP
Empirische Analysen mit dem SOEP Methodisches Lineare Regressionsanalyse & Logit/Probit Modelle Kurs im Wintersemester 2007/08 Dipl.-Volksw. Paul Böhm Dipl.-Volksw. Dominik Hanglberger Dipl.-Volksw. Rafael
Willkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Inferenzstatistik in Regressionsmodellen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für
Seminar zur Energiewirtschaft:
Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable
Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"
Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen
Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20
Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 20 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)
Multivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
Hypothesentests mit SPSS
Beispiel für eine einfache Regressionsanalyse (mit Überprüfung der Voraussetzungen) Daten: bedrohfb_v07.sav Hypothese: Die Skalenwerte auf der ATB-Skala (Skala zur Erfassung der Angst vor terroristischen
Korrelation - Regression. Berghold, IMI
Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines
Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate
Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für
B. Regressionsanalyse [progdat.sav]
SPSS-PC-ÜBUNG Seite 9 B. Regressionsanalyse [progdat.sav] Ein Unternehmen möchte den zukünftigen Absatz in Abhängigkeit von den Werbeausgaben und der Anzahl der Filialen prognostizieren. Dazu wurden über
Kapitel 4: Merkmalszusammenhänge
Kapitel 4: Merkmalszusammenhänge Streudiagramme SPSS bietet die Möglichkeit, verschiedene Arten von Streudiagrammen zu zeichnen. Gehen Sie auf Grafiken Streu-/Punkt-Diagramm und wählen Sie die Option Einfaches
Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.
Kapitel 3 Schließende lineare Regression 3.1. Einführung induktiv Fragestellungen Modell Statistisch bewerten, der vorher beschriebenen Zusammenhänge auf der Basis vorliegender Daten, ob die ermittelte
Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.
Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall
Probeklausur für die Abschlussklausur Statistik II
Georg-August-Universität Göttingen Methodenzentrum Sozialwissenschaften Probeklausur für die Abschlussklausur Statistik II Nachname: Vorname: Matrikelnummer: Studiengang bitte ankreuzen BA: Diplom: Magister:
Statistik II Übung 4: Skalierung und asymptotische Eigenschaften
Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden
Übung V Lineares Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung
STATISTIK FÜR DIE SOZIALWISSENSCHAFTEN
Steffen-M. Kühnel Dagmar Krebs 2008 AGI-Information Management Consultants May be used for personal purporses only or by libraries associated to dandelon.com network. STATISTIK FÜR DIE SOZIALWISSENSCHAFTEN
Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen
Analyse von Querschnittsdaten Spezifikation der unabhängigen Variablen Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Annahmen gegeben? kategoriale Variablen Datum 3.0.004 0.0.004
Die Funktion f wird als Regressionsfunktion bezeichnet.
Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht
Ziel der linearen Regression
Regression 1 Ziel der linearen Regression Bei der linearen Regression wird untersucht, in welcher Weise eine abhängige metrische Variable durch eine oder mehrere unabhängige metrische Variablen durch eine
Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell
Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften
Die Regressionsanalyse
Die Regressionsanalyse Zielsetzung: Untersuchung und Quantifizierung funktionaler Abhängigkeiten zwischen metrisch skalierten Variablen eine unabhängige Variable Einfachregression mehr als eine unabhängige
Teil: lineare Regression
Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge
Prüfungsliteratur: Rudolf & Müller S
1 Beispiele zur univariaten Varianzanalyse Einfaktorielle Varianzanalyse (Wiederholung!) 3 Allgemeines lineares Modell 4 Zweifaktorielle Varianzanalyse 5 Multivariate Varianzanalyse 6 Varianzanalyse mit
Statistische Methoden in den Umweltwissenschaften
Statistische Methoden in den Umweltwissenschaften Korrelationsanalysen Kreuztabellen und χ²-test Themen Korrelation oder Lineare Regression? Korrelationsanalysen - Pearson, Spearman-Rang, Kendall s Tau
Multivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Diese Selbstkontrollarbeit bezieht sich auf die Kapitel 1 bis 4 der Kurseinheit 1 (Multivariate Statistik) des Kurses Multivariate Verfahren (883). Hinweise:
Lösung Übungsblatt 5
Lösung Übungsblatt 5 5. Januar 05 Aufgabe. Die sogenannte Halb-Normalverteilung spielt eine wichtige Rolle bei der statistischen Analyse von Ineffizienzen von Produktionseinheiten. In Abhängigkeit von
Wahrscheinlichkeitsrechnung und Statistik
10. Vorlesung - 2018 Grundbegriffe der Statistik statistische Einheiten = Objekte an denen interessierende Größen erfaßt werden z.b. Bevölkerung einer Stadt; Schüler einer bestimmten Schule; Patienten
Forschungsstatistik I
Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike [email protected] http://psymet03.sowi.uni-mainz.de/
Musterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn
Deskriptive Beschreibung linearer Zusammenhänge
9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,
Einführung in die Maximum Likelihood Methodik
in die Maximum Likelihood Methodik Thushyanthan Baskaran [email protected] Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood
Statistik II Übung 3: Hypothesentests
Statistik II Übung 3: Hypothesentests Diese Übung beschäftigt sich mit der Anwendung diverser Hypothesentests (zum Beispiel zum Vergleich der Mittelwerte und Verteilungen zweier Stichproben). Verwenden
Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II
Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Statistik II Wiederholung Literatur Kategoriale Unabhängige, Interaktion, nicht-lineare Effekte
Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse II: Lineare multiple Regression
Institut für Soziologie Christian Ganser Methoden 2 Regressionsanalyse II: Lineare multiple Regression Inhalt 1. Anwendungsbereich 2. Vorgehensweise bei multipler linearer Regression 3. Beispiel 4. Modellannahmen
Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller
Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
Zusammenfassung 11. Sara dos Reis.
Zusammenfassung 11 Sara dos Reis [email protected] Diese Zusammenfassungen wollen nicht ein Ersatz des Skriptes oder der Slides sein, sie sind nur eine Sammlung von Hinweise zur Theorie, die benötigt
Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief
Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Statistik II Literatur Kategoriale Unabhängige, Interaktion, nicht-lineare Effekte : Schätzung Statistik
Prognoseintervalle für y 0 gegeben x 0
10 Lineare Regression Punkt- und Intervallprognosen 10.5 Prognoseintervalle für y 0 gegeben x 0 Intervallprognosen für y 0 zur Vertrauenswahrscheinlichkeit 1 α erhält man also analog zu den Intervallprognosen
Statistik II: Signifikanztests /2
Medien Institut : Signifikanztests /2 Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 [email protected] Gliederung 1. Korrelation 2. Exkurs: Kausalität 3. Regressionsanalyse 4. Key Facts 2 I
Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. Lineare Regression Statistisches Modell Realisierung mit der SPSS-Prozedur Regression
Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit Lineare Regression Statistisches Realisierung mit der SPSS-Prozedur Regression Statistische Zusammenhangsanalyse Lineare Regression Um zu untersuchen,
Mathematische und statistische Methoden II
Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike
Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben
Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben Es wurden die Körpergrößen von 3 Versuchspersonen, sowie Alter und Geschlecht erhoben. (Jeweils Größen pro Faktorstufenkombination). (a)
Regression und Korrelation
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen
Bivariate Analyseverfahren
Bivariate Analyseverfahren Bivariate Verfahren beschäftigen sich mit dem Zusammenhang zwischen zwei Variablen Beispiel: Konservatismus/Alter Zusammenhangsmaße beschreiben die Stärke eines Zusammenhangs
Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem
Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!
Statistik 2 1. Klausur Sommersemester 2013 Hamburg, 26.07.2013 A BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................
ELEMENTARE EINFÜHRUNG IN DIE MATHEMATISCHE STATISTIK
DIETER RASCH ELEMENTARE EINFÜHRUNG IN DIE MATHEMATISCHE STATISTIK MIT 53 ABBILDUNGEN UND 111 TABELLEN ZWEITE, BERICHTIGTE UND ERWEITERTE AUFLAGE s-~v VEB DEUTSCHER VERLAG DER WISSENSCHAFTEN BERLIN 1970
Ökonometrie. Hans Schneeweiß. 3., durchgesehene Auflage. Physica-Verlag Würzburg-Wien 1978 ISBN
2008 AGI-Information Management Consultants May be used for personal purporses only or by libraries associated to dandelon.com network. Hans Schneeweiß Ökonometrie 3., durchgesehene Auflage Physica-Verlag
VS PLUS
VS PLUS Zusatzinformationen zu Medien des VS Verlags Statistik II Inferenzstatistik 2010 Übungsaufgaben und Lösungen Inferenzstatistik 2 [Übungsaufgaben und Lösungenn - Inferenzstatistik 2] ÜBUNGSAUFGABEN
Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp
Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:
Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.
Gliederung Grundidee Einfaches lineares Modell KQ-Methode (Suche nach der besten Geraden) Einfluss von Ausreißern Güte des Modells (Bestimmtheitsmaß R²) Multiple Regression Noch Fragen? Lineare Regression
Mehrdimensionale Zufallsvariablen
Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC
Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
ANOVA und Transformationen. Statistik II
und Statistik II Wiederholung Literatur Statistik II und (1/28) Literatur Zum Nachlesen Agresti ch. 12 (nur bis Seite 381) Agresti ch. 13 (nur bis Seite 428) Statistik II und (2/28) Literatur für nächste
Multiple Regression III
Multiple Regression III Werner Brannath VO Biostatistik im WS 2006/2007 Inhalt Überprüfung der Modellannahmen Residuen-Plot Normal-Q-Q-Plot Cook s Distanz-Plot Maßnahmen bei Abweichungen von Modellannahmen
Beispiel: Multiples Modell/Omitted Variable Bias I
4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3 Beispiel: Multiples Modell/Omitted Variable Bias I Beispieldatensatz mit Daten zur Lohnhöhe (y i ), zu den Ausbildungsjahren über den Hauptschulabschluss
Vorlesung: Multivariate Statistik für Psychologen
Vorlesung: Multivariate Statistik für Psychologen 7. Vorlesung: 05.05.2003 Agenda 2. Multiple Regression i. Grundlagen ii. iii. iv. Statistisches Modell Verallgemeinerung des Stichprobenmodells auf Populationsebene
Vorlesung: Multivariate Statistik für Psychologen
Vorlesung: Multivariate Statistik für Psychologen 6. Vorlesung: 28.04.2003 Organisatorisches Terminverlegung Übungsgruppen Gruppe 5 alter Termin: Donnerstag, 01.05.03, 12 14 Uhr, IfP SR 9 neuer Termin:
Nicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood
Nicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood Interaktionseffekte Varianz-Kovarianz-Matrix Interaktionseffekte Varianz-Kovarianz-Matrix
Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.
Lineare Regression Einfache Regression Beispieldatensatz: trinkgeld.sav Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X. H0: Y lässt sich nicht durch X erklären, das heißt
Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167
Multivariate lineare Regression Statistik für SozialwissenschaftlerInnen II p.167 Multivariate Regression Verfahren zur Prüfung des gemeinsamen linearen Einflusses mehrerer unabhängiger Variablen auf eine
