Eine Einführung in R: Lineare Regression

Größe: px
Ab Seite anzeigen:

Download "Eine Einführung in R: Lineare Regression"

Transkript

1 Eine Einführung in R: Lineare Regression Katja Nowick, Lydia Müller und Markus Kreuz Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig Dezember 2015 Katja Nowick, Lydia Müller und Markus Kreuz Grundlagen III ( Institut für Medizinische 15. Dezember Informatik, 2015 Statistik und 1 / Epide 29

2 I. Ergänzungen zu Übung 3 ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 2 / 29 Univ

3 Weitere Tests in R chisq.test: χ 2 -Test fisher.test: Fisher-Test binom.test: Binomial-Test cor.test: Korrelationstest kruskal.test: Kruskal-Wallis-Test ks.test: Kolmogorov-Smirnov-Test shapiro.test: Shapiro-Wilk-Test ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 3 / 29 Univ

4 Bootstrap Verfahren Wenn die theoretische Verteilung der interessierenden Statistik nicht bekannt ist, können Bootstrapverfahren eingesetzt werden. Mögliche Anwendungen: Bootstrap Kondenzintervalle Bootstrap Tests Vorgehen: Aus der Originalstichprobe werden B Bootstrap-Stichproben der gleichen Gröÿe mit zurücklegen gezogen: x b = (x 1,..., x n), b = 1,...B. Dies entspricht einer Ziehung aus der empirischen Verteilungsfunktion. Für jede der B Stichproben kann die interessierende Statistik T berechnet werden. Dies ermöglicht die Abschätzung der Verteilung von T und damit die Schätzung von Quantilen und p-werten. ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 4 / 29 Univ

5 Bootstrap Beispiel: Kondenzintervall x<-rnorm(100) mean(x) Fragestellung: Bestimme das 95% Kondenzintervall für die Schätzung des Mittelwertes. t<-rep(na,n) for (i in 1:N){ t[i]<-mean(sample(x,length(x),replace=t)) } quantile(t,c(0.05,0.95)) ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 5 / 29 Univ

6 Lineare Einfachregression ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 6 / 29 Univ

7 Einleitung Ziel der Regressionsanalyse: Welchen Einuss hat eine Gröÿe X auf eine andere Zufallsvariable Y? Y : metrische Zielvariable, zu erklärende Variable, Regressand X : erklärende Variable, Regressor (zufällig oder deterministisch) Daten: n Realisierungen (y 1, x 1 ),..., (y n, x n ) Ziel der linearen Regression Die Lineare Regression untersucht, ob ein linearer Zusammenhang zwischen X und Y besteht. ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 7 / 29 Univ

8 Modell der Linearen Regression Y = β 0 + β 1 X + ε Y : Zielvariable, zu erklärende Variable, Regressand X : erklärende Variable, Regressor ε : unbeobachtbare Fehlervariable, unabhängig und identisch verteilt (in der Regel als N(0, σ)) zu schätzende Koezienten des Models: β 0, β 1 β 0 : Intercept β 1 : Regressionskoezient der Variable X Für i = 1,..., n Beobachtungen: y i = β 0 + β 1 x i + ε i i = 1,..., n ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 8 / 29 Univ

9 Annahmen: Lineare Regression Es besteht ein linearer Zusammenhang zwischen X und Y Y ist metrisch und normalverteilt (Kategorial: Logit Regression; Allgemeinere Verteilungen: GLM's) E(y i ) = β 0 + β 1 x i Var(y i ) = σ 2 Homoskedastizität, d.h. die Fehler ε i haben die gleiche Varianz: Var(ε i ) = σ 2 für alle i = 1,..., n Die Fehler ε i, mit i = 1,..., n, sind unabhängig (GegenBsp: Zeitreihendaten) Die Fehler ε sind unabhängig vom Wert der Zielvariable Y ( Institut für Grundlagen Medizinische III Informatik, Statistik15. unddezember Epidemiologie 2015 (IMISE), 9 / 29 Univ

10 Beispiel: Simulierte Daten X<-seq(1,6,0.01) epsilon<-rnorm(length(x), mean=0, sd=1) Y<-X+epsilon X Y ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Univ Grundlagen III 15. Dezember / 29

11 Schätzung der β i β 0 und β 1 können durch Minimierung der Summe des Quadratischen Fehlers geschätzt werden Kleinste Quadrate Schätzer: MLQ MLQ = n i=1( yi (β 0 + β 1 x i ) )2 min! Dies führt zu folgenden Schätzungen für β 0, β 1 und der getteten Wert Ŷ (Regressionsgerade): Schätzungen n i=1 ˆβ 1 = (x i x)(y i ȳ) cov(x,y ) n = i=1 (x i x) 2 var(x ) ˆβ 0 = Ȳ ˆβ 1 X Ŷ = ˆβ 0 + ˆβ 1 X ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 11 / 29 Univ

12 Testen des β-koezienten Der Regressionskoezient β 1 der Variable X ist ein Indikator für den linearen Zusammenhang von X und Y. Es gilt: Zusammenhang zwischen β 1 und cor(x, Y ) Daraus folgt: β 1 = cor(x, Y ) σ Y σx β 1 < 0: negativer (linearer) Zusammenhang β 1 = 0: kein (linearer) Zusammenhang β 1 > 0: positiver (linearer) Zusammenhang Es gibt einen einfachen Test, der angibt, ob β 1 signikant ungleich Null ist, d.h. ob ein signikanter Zusammenhang zwischen X und Y besteht. ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 12 / 29 Univ

13 Zerlegung der Gesamtstreuung Die Maÿzahl R 2 dient als Hinweis darauf, wie gut ein Regressionsmodell zu den Daten passt. Die Idee hinter diesem Maÿ ist die sogenannte Streuungszerlegung: SQT = n (y i ȳ) 2 = i=1 n (y i ŷ i ) 2 + i=1 } {{ } SQR n (ŷ i ȳ) 2 i=1 } {{ } SQE SQT: Sum of Squares Total, die Gesamtstreuung (Var(Y )) SQE: Sum of Squares Explained, die durch das Modell erklärte Streuung SQR: Sum of Squares Residuals, die Rest- oder Residualstreuung ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 13 / 29 Univ

14 Bestimmtheitsmaÿ R 2 Liegen die Punkte (y 1, x 1 ),..., (y n, x n ) alle auf einer Geraden, so ist SQR= 0 und die Gesamtstreuung wäre gleich der erklärten Streuung. Das Bestimmtheitsmaÿ R 2 ist gegeben durch: Zerlegung des R 2 R 2 = SQE SQT = 1 SQR SQT [0, 1] Je gröÿer also das R 2 ist, desto besser passt das Modell zu den Daten. Dabei bedeuten: R 2 = 0: Die erklärte Streuung ist 0, d.h. das Modell ist extrem schlecht; X und Y sind nicht linear abhängig R 2 = 1: Die erklärte Streuung entspricht der Gesamtstreuung, das Modell passt perfekt ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 14 / 29 Univ

15 Multiple Regression ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 15 / 29 Univ

16 Mehrere erklärende Variablen Fragestellung: Wie ist der Einuss mehrerer Variablen X 1,..., X p auf eine Zielgröÿe Y? Realisierungen: (y 1, x 11,..., x 1p ),..., (y n, x n1,..., x np ) Modell der multiplen linearen Regression mit p erklärenden Gröÿen X = X 1,..., X p : Modell der multiplen linearen Regression Y = X β + ε y i = β 0 + p j=1 β j x ij + ε i i = 1,..., n, j = 1,..., p Dabei ist X = (x ij ) die sogenannte Designmatrix. Vorteil zur einfachen Regression: β j beschreibt den Zusammenhang der j.ten Variable zu Y bedingt auf alle übrigen j 1 Variablen (Kontrolle von ungewollten oder Scheineekten) ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 16 / 29 Univ

17 Least-Squares Schätzer β 0, β 1,..., β p können (analog zur einfachen linearen Regression) durch Minimierung der Summe des Quadratischen Fehlers geschätzt werden (Kleinste Quadrate oder Least-Squares): ( n MLQ = i=1 y i (β 0 + β 1 x 1i β p x pi ) )2 min! Der Least-Squares Schätzer ergibt sich nach Umformen zu: ˆβ = (X T X ) 1 X T Y ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 17 / 29 Univ

18 Residuenanalyse Da die Residuen alle unterschiedliche Varianz besitzen, skaliert man sie auf einheitliche Varianz: r i,stud = r i ˆσ 1 h ii N(0, σ) Frage: Sind die Voraussetzungen für das lineare Modell erfüllt? Zu untersuchen sind: 1 Anpassung des Modells an die Daten: Residuen gegen gettete Wert Ŷ 2 Normalverteilung des Fehlers: QQ-Plot: Quantile der Residuen gegen die theoretische NV 3 Homoskedastizität des Fehlers: Standardisierte Residuen gegen gettete Wert Ŷ, wenn die geeignet mit H standardisierten Residuen abhängig von Ŷ sind, deutet dies auf ungleiche Varianzen der Fehler hin ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 18 / 29 Univ

19 Umsetzung in R ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 19 / 29 Univ

20 Beispieldaten: airquality Ozone: Mean ozone in parts per billion from 1300 to 1500 hours at Roosevelt Island Solar.R: Solar radiation in Langleys in the frequency band Angstroms from 0800 to 1200 hours at Central Park Wind: Average wind speed in miles per hour at 0700 and 1000 hours at LaGuardia Airport Temp: Maximum daily temperature in degrees Fahrenheit at La Guardia Airport Mit diesen Daten kann untersucht werden, welchen Einuss Sonneneinstrahlung, Wind und Temperatur auf die Ozonwerte haben. ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 20 / 29 Univ

21 Beispiel in R Wir laden den Datensatz airquality data(airquality) Wir untersuchen das Modell: Ozone i = β 0 + β 1 Temp i + ε i... also die Abhängigkeit des Ozons von der Temperatur Aufruf der Funktion lm() test <- lm( formula= Ozone Temp, data= airquality) test ist ein Objekt der Klasse lm Ausgabe in R: Coefficients: (Intercept) Temp ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 21 / 29 Univ

22 Scatterplot: Ozone Temp plot(temp,ozone) abline(test$coefficients, col=red) Temp Ozone ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Univ Grundlagen III 15. Dezember / 29

23 Modelldiagnose R 2 und andere Maÿe des Modells : summary(test) Estimate Std. Error t value Pr(> t ) (Intercept) e-13 Temp < 2e-16 Multiple R-squared: , Adjusted R-squared: Koezienten: test$coefficients Gettete Werte Ŷ : test$fitted.values Studentisierte Residuen: ls.diag(test)$std.res Hat-Matrix: ls.diag(test)$hat Verschiedene Diagnoseplots: plot(test) oder plot.lm(test) (u.a. Residuenanalyse) ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 23 / 29 Univ

24 Modelldiagnose in R I: Residuen gegen gettete Werte Residuen gegen gettete Werte Ŷ zur Untersuchung der Anpassung des Modells an die Daten Keine systematische Abweichung, z.b. Trend oder U-Form Fitted values Residuals lm(ozone ~ Temp) Residuals vs Fitted ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Univ Grundlagen III 15. Dezember / 29

25 Modelldiagnose in R II: Residuen-QQ Plot der studentisierten (besondere Standardisierung) gegen die theoretischen (NV) Residuen zur Untersuchung der Normalverteilung des Fehlers Wenn die Residuen normalverteilt sind, sollten sie auf der gestrichelten Geraden liegen Normal Q Q 117 Standardized residuals Theoretical Quantiles lm(ozone ~ Temp) 62 ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 25 / 29 Univ

26 Modelldiagnose in R III: Standardisierte Residuen gegen Ŷ Standardisierte, absolute Residuen gegen gettete Werte Ŷ zur Untersuchung der Homoskedastizität des Fehlers Keine systematische Abweichung, z.b. ansteigende Varianz Fitted values Standardized residuals lm(ozone ~ Temp) Scale Location ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Univ Grundlagen III 15. Dezember / 29

27 Multiple Regression in R Wir untersuchen nun das Modell: Ozone i = β 0 + β 1 Temp i +β 2 Solar.R i + ε i... also die Abhängigkeit des Ozons von der Temperatur und der Sonneneinstrahlung Aufruf der Funktion lm() model2 <- lm( formula= Ozone Temp + Solar.R, data= airquality) Ausgabe in R: Coefficients: (Intercept) Temp Solar.R ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 27 / 29 Univ

28 Ausgabe von summary(model2): Estimate Std. Error t value Pr(> t ) (Intercept) e-12 Temp e-15 Solar.R Multiple R-squared: , Adjusted R-squared: Interpretation: Solar.R besitzt ein β, das signikant von Null verschieden ist (p Wert < 0.05) Das β der Variable Temp verändert sich nur leicht durch die Aufnahme von Solar.R: von zu Das R 2 wird durch die Aufnahme von Solar.R nur noch leicht verbessert: von zu Durch die beiden Variablen Solar.R und Temp kann die Hälfte der Streuung der Ozonmessungen erklärt werden. ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 28 / 29 Univ

29 Spezikation der Regressionsvariablen lm(formula,...) formula: Hier muss das Modell bzw die Variablen des Modelles speziziert werden. Allgemeiner Aufbau der linearen Einfachregression formula= Y X Beispiel: formula= Ozone Temp Allgemeiner Aufbau der multiplen linearen Regression formula= Y X 1 + X X p Beispiel: formula= Ozone Temp + Solar.R ( Institut für Grundlagen Medizinische III Informatik, Statistik 15. und Dezember Epidemiologie 2015 (IMISE), 29 / 29 Univ

Statistik Einführung // Lineare Regression 9 p.2/72

Statistik Einführung // Lineare Regression 9 p.2/72 Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

6.1 Grundbegriffe und historischer Hintergrund

6.1 Grundbegriffe und historischer Hintergrund Kapitel 6 Regression 61 Grundbegriffe und historischer Hintergrund Bedeutung der Regression: Eines der am häufigsten verwendeten statistischen Verfahren Vielfache Anwendung in den Sozialwissenschaften

Mehr

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Contents Aufgabe 1 1 b) Schätzer................................................. 3 c) Residuenquadratsummen........................................

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) Interdisziplinäres Seminar Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) WS 2008/09 19.11.2008 Julia Schiele und Lucie Wink Dozenten: Prof. Dr. Bühner, Prof. Dr. Küchenhoff

Mehr

Kap. 9: Regression mit einer binären abhängigen Variablen

Kap. 9: Regression mit einer binären abhängigen Variablen Kap. 9: Regression mit einer binären abhängigen Variablen Motivation Lineares Wahrscheinlichkeitsmodell Probit- und Logit-Regression Maximum Likelihood Empirisches Beispiel: Analyse der HMDA-Daten Ausblick:

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen Modelle mit Interationsvariablen I Modelle mit Interationsvariablen II In der beim White-Test verwendeten Regressionsfuntion y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 2 1 + β 4 x 2 2 + β 5 x 1 x 2, ist anders

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Einführung in die statistische Datenanalyse

Einführung in die statistische Datenanalyse Einführung in die statistische Datenanalyse Jens Röder & Matthias Wieler 8.-12. Oktober 2007 Inhaltsverzeichnis 1 Deskriptive Statistik für die Explorative Datenanalyse 3 2 Zufallsvariablen 5 2.1 Grundlegende

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

6Korrelationsanalyse:Zusammenhangsanalysestetiger Merkmale

6Korrelationsanalyse:Zusammenhangsanalysestetiger Merkmale 6Korrelationsanalyse:Zusammenhangsanalysestetiger Merkmale 6.1 Korrelationsanalyse 6.1 Korrelationsanalyse Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig

Mehr

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten

Mehr

Interne und externe Modellvalidität

Interne und externe Modellvalidität Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Überblick über die Tests

Überblick über die Tests Anhang A Überblick über die Tests A.1 Ein-Stichproben-Tests A.1.1 Tests auf Verteilungsannahmen ˆ Shapiro-Wilk-Test Situation: Test auf Normalverteilung H 0 : X N(µ, σ 2 ) H 1 : X nicht normalverteilt

Mehr

Klausur STATISTIK 2 für Diplom VWL

Klausur STATISTIK 2 für Diplom VWL Klausur STATISTIK 2 für Diplom VWL Name, Vorname: Matrikel-Nr. Die Klausur enthält zwei Typen von Aufgaben: Teil A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens

Mehr

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe 2011. Institut für Statistik Ludwig-Maximilians-Universität München

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe 2011. Institut für Statistik Ludwig-Maximilians-Universität München Gemischte Modelle Fabian Scheipl, Sonja Greven Institut für Statistik Ludwig-Maximilians-Universität München SoSe 2011 Inhalt Amsterdam-Daten: LMM Amsterdam-Daten: GLMM Blutdruck-Daten Amsterdam-Daten:

Mehr

Stochastische Eingangsprüfung, 17.05.2008

Stochastische Eingangsprüfung, 17.05.2008 Stochastische Eingangsprüfung, 17.5.8 Wir gehen stets von einem Wahrscheinlichkeitsraum (Ω, A, P) aus. Aufgabe 1 ( Punkte) Sei X : Ω [, ) eine integrierbare Zufallsvariable mit XdP = 1. Sei Q : A R, Q(A)

Mehr

1 Statistische Grundlagen

1 Statistische Grundlagen Konzepte in Empirische Ökonomie 1 (Winter) Hier findest Du ein paar Tipps zu den Konzepten in Empirische 1. Wenn Du aber noch etwas Unterstützung kurz vor der Klausur brauchst, schreib uns eine kurze Email.

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei

Mehr

Prognosen. Prognosen sind schwierig, besonders wenn sie die Zukunft betreffen. Auch ein Weiser hat nicht immer recht Prognosefehler sind hoch

Prognosen. Prognosen sind schwierig, besonders wenn sie die Zukunft betreffen. Auch ein Weiser hat nicht immer recht Prognosefehler sind hoch Universität Ulm 8969 Ulm Germany Dipl.-WiWi Sabrina Böck Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Wintersemester 8/9 Prognosen

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

EINFACHE LINEARE REGRESSION MODUL 13 PROSEMINAR DESKRIPTIVE STATISTIK ANALYSE UND DARSTELLUNG VON DATEN I GÜNTER HAIDER WS 1999/2000

EINFACHE LINEARE REGRESSION MODUL 13 PROSEMINAR DESKRIPTIVE STATISTIK ANALYSE UND DARSTELLUNG VON DATEN I GÜNTER HAIDER WS 1999/2000 INSTITUT FÜR ERZIEHUNGSWISSENSCHAFT - UNIVERSITÄT SALZBURG PROSEMINAR DESKRIPTIVE STATISTIK ANALYSE UND DARSTELLUNG VON DATEN I GÜNTER HAIDER WS 1999/2 MODUL 13 EINFACHE LINEARE REGRESSION Erziehungswissenschaft/Haider

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

(GENERAL FULL FACTORIALS)

(GENERAL FULL FACTORIALS) TQU BUSINESS GMBH VOLLFAKTORIELLE VERSUCHSPLÄNE (GENERAL FULL FACTORIALS) Lernziele Sie können vollfaktorielle Versuchspläne auf und mehr Stufen erstellen. Sie kennen Haupteffekte und Wechselwirkungen

Mehr

Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen" Dr. Uwe Waschatz

Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen Dr. Uwe Waschatz Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen" Dr. Uwe Waschatz Inhalt Problembeschreibung Multiple lineare Regressionsanalyse Statistische Versuchsplanung / Design of Experiments

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Klausur Statistik Lösungshinweise

Klausur Statistik Lösungshinweise Klausur Statistik Lösungshinweise Prüfungsdatum: 1. Juli 2015 Prüfer: Etschberger, Heiden, Jansen Studiengang: IM und BW Aufgabe 1 14 Punkte Ein Freund von Ihnen hat über einen Teil seiner Daten, die er

Mehr

Einfache Modelle für Paneldaten. Statistik II

Einfache Modelle für Paneldaten. Statistik II Einfache Modelle für daten Statistik II Wiederholung Literatur daten Policy-Analyse II: Statistik II daten (1/18) Literatur Zum Nachlesen Einfache Modelle für daten Wooldridge ch. 13.1-13.4 (im Reader)

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 9B a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Man kann erwarten, dass der Absatz mit steigendem Preis abnimmt, mit höherer Anzahl der Außendienstmitarbeiter sowie mit erhöhten

Mehr

Im Modell der Varianzanalyse (mit festen Effekten) ist das. aus dem Durchschnittsmesswert für y plus dem Effekt des.

Im Modell der Varianzanalyse (mit festen Effekten) ist das. aus dem Durchschnittsmesswert für y plus dem Effekt des. Einfatorielle Varianzanalyse Varianzanalyse untersucht den Einfluss verschiedener Bedingungen ( = nominalsalierte(r) Variable(r)) auf eine metrische Variable. Die Bedingungen heißen auch atoren und ihre

Mehr

Evaluation der Normalverteilungsannahme

Evaluation der Normalverteilungsannahme Evaluation der Normalverteilungsannahme. Überprüfung der Normalverteilungsannahme im SPSS P. Wilhelm; HS SPSS bietet verschiedene Möglichkeiten, um Verteilungsannahmen zu überprüfen. Angefordert werden

Mehr

Wiederholung: Statistik I

Wiederholung: Statistik I Wiederholung: Statistik I Lehrstuhl für BWL, insb. Mathematik und Statistik Gegeben sei eine diskrete Zufallsvariable X. Für die möglichen Realisationen x i von X seien folgende Wahrscheinlichkeiten bekannt:

Mehr

Teil II: Einführung in die Statistik

Teil II: Einführung in die Statistik Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Zeitreihenanalyse. Teil III: Nichtlineare Zeitreihenmodelle. Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel. Göttingen, Januar 2008 DAX

Zeitreihenanalyse. Teil III: Nichtlineare Zeitreihenmodelle. Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel. Göttingen, Januar 2008 DAX Zeitreihenanalyse Teil III: Nichtlineare Zeitreihenmodelle Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel DAX -10-5 0 5 10 0 200 400 600 800 1000 trading day Göttingen, Januar 2008 Inhaltsverzeichnis

Mehr

Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess

Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess Definiere x t = Y t Y t 1. Y t p+1 Sylvia Frühwirth-Schnatter Econometrics III WS 2012/13 1-84 Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

IV. Prognosen - Teil 2

IV. Prognosen - Teil 2 Universität Ulm 89069 Ulm Germany B.Sc. Daniele Sabella Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2014 Übung

Mehr

Untersuchungen zum Thema Tracking Error

Untersuchungen zum Thema Tracking Error Untersuchungen zum Thema Tracking Error J. Fulmek 24. August 2003 1 Einleitung Im Folgenden werden folgende Punkte untersucht: 1. verschiedene in der Literatur übliche Definitionen des Tracking Errors

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen

Mehr

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Christian FG Schendera Regressionsanalyse mit SPSS 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Inhalt Vorworte V 1 Korrelation 1 1.1 Einführung 1 1.2 Erste Voraussetzung: Das Skalenniveau

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse

Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse Analyse von Zeitreihen in der Umweltphysik und Geophysik Stochastische Prozesse Yannik Behr Gliederung 1 Stochastische Prozesse Stochastische Prozesse Ein stochastischer Prozess ist ein Phänomen, dessen

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

# # Daten aus einem csv-file einlesen # readerout = reader(open("daten.csv","rb"),delimiter=',');

# # Daten aus einem csv-file einlesen # readerout = reader(open(daten.csv,rb),delimiter=','); -*- coding: utf-8 -*- This Python-program was developed using "Enthought Canopy v. 1.4.1", a Pytho analysis environment, on a MacBook Pro running OS X 10.9.5 written by T. Ihn, D-PHYS ETH Zurich, 5 Oct

Mehr

Institut für Soziologie Benjamin Gedon. Methoden 2. Regressionsanalyse IV: Transformation und Interaktion

Institut für Soziologie Benjamin Gedon. Methoden 2. Regressionsanalyse IV: Transformation und Interaktion Institut für Soziologie Methoden 2 Regressionsanalyse IV: Transformation und Interaktion Inhalt 1. Zusammenfassung letzte Sitzung 2. Weitere Annahmen und Diagnostik 3. Transformationen zur besseren Interpretierbarkeit

Mehr

Ausgewählte Kapitel der Statistik: Regressions- u. varianzanalytische Modelle Lösung von Grundaufgaben mit SPSS Statistics 20.0

Ausgewählte Kapitel der Statistik: Regressions- u. varianzanalytische Modelle Lösung von Grundaufgaben mit SPSS Statistics 20.0 1 Ausgewählte Kapitel der Statistik: Regressions- u. varianzanalytische Modelle Lösung von Grundaufgaben mit SPSS Statistics 20.0 Text: grund1_spss20.doc Daten: grund1_?.sav Lehrbuch: W. Timischl, Biostatistik.

Mehr

Statistische Thermodynamik I Lösungen zur Serie 1

Statistische Thermodynamik I Lösungen zur Serie 1 Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

Herzlich Willkommen zur Vorlesung Statistik

Herzlich Willkommen zur Vorlesung Statistik Herzlich Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Kovarianz und Korrelation Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam. Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.de 1 Gliederung 7 Weitere Krigingverfahren 7.1 Simple-Kriging 7.2 Indikator-Kriging

Mehr

Datenanalyse und Statistik

Datenanalyse und Statistik Datenanalyse und Statistik p. 1/44 Datenanalyse und Statistik Vorlesung 2 (Graphik I) K.Gerald van den Boogaart http://www.stat.boogaart.de Datenanalyse und Statistik p. 2/44 Daten Schätzung Test Mathe

Mehr

Viewer: interaktive Graphik editieren. Viewer: interaktive Graphik. Übung 10: Graphiken

Viewer: interaktive Graphik editieren. Viewer: interaktive Graphik. Übung 10: Graphiken S. Heim/C. Heumann SPSS Kurs, SS 2009, 57 Graphiken: Streudiagramm Grafiken > Interaktiv > Streudiagramm u. a. mit Regressionslinie und Legendenvariablen Höhe versus Breite positive Korrelation? Färbung

Mehr

12. Bivariate Datenanalyse. In den Kapiteln 4-11 wurden univariate Daten betrachtet:

12. Bivariate Datenanalyse. In den Kapiteln 4-11 wurden univariate Daten betrachtet: 12. Bivariate Datenanalyse Während einer nur Zahlen im Kopf hat, kann er nicht auf den Kausalzusammenhang kommen Anonymus In den Kapiteln 4-11 wurden univariate Daten betrachtet: Von univariaten Daten

Mehr

Varianzanalyse * (1) Varianzanalyse (2)

Varianzanalyse * (1) Varianzanalyse (2) Varianzanalyse * (1) Einfaktorielle Varianzanalyse (I) Die Varianzanalyse (ANOVA = ANalysis Of VAriance) wird benutzt, um Unterschiede zwischen Mittelwerten von drei oder mehr Stichproben auf Signifikanz

Mehr

Übung 1 - Konjunkturprognosen

Übung 1 - Konjunkturprognosen Universität Ulm 89069 Ulm Germany Dipl.-Math. oec. Daniel Siepe Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Wintersemester 2010/2011

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

Die Analyse sozialen Wandels auf Basis wiederholter Querschnittserhebungen

Die Analyse sozialen Wandels auf Basis wiederholter Querschnittserhebungen Die Analyse sozialen Wandels auf Basis wiederholter Querschnittserhebungen Beitrag für den RatSWD-Nachwuchsworkshop: Längsschnittanalysen auf der Basis amtlicher Sozial- und Wirtschaftsdaten, Berlin, 25.-26.

Mehr

Gefährdet die ungleiche Verteilung unseres Vermögens den gesellschaftlichen Zusammenhalt?

Gefährdet die ungleiche Verteilung unseres Vermögens den gesellschaftlichen Zusammenhalt? Gefährdet die ungleiche Verteilung unseres Vermögens den gesellschaftlichen Zusammenhalt? Prof. Dr. K.-W. Hansmann Rotary-Vortrag am 22. September 2014 (Die farbigen Graphiken habe ich mit der Progrmmiersprache

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/31 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Kapitel 3: Interpretationen

Kapitel 3: Interpretationen Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Statistik II: Regressions- und Varianzanalyse

Statistik II: Regressions- und Varianzanalyse Statistik II: Regressions- und Varianzanalyse Eine Einführung für Studierende der Psychologie Helge Toutenburg und Christian Heumann mit Beiträgen von Michael Schomaker überarbeitet von Hans-Georg Sonnenberg

Mehr

Aufgabe 1 10 ECTS. y i x j gering mittel hoch n i Hausrat 200 25 0 225 KFZ 0 10 75 85 Unfall 20 35 90 145 Reiserücktritt 40 5 0 45 n j 260 75 165 500

Aufgabe 1 10 ECTS. y i x j gering mittel hoch n i Hausrat 200 25 0 225 KFZ 0 10 75 85 Unfall 20 35 90 145 Reiserücktritt 40 5 0 45 n j 260 75 165 500 Aufgabe 1 Für die Securance-Versicherung liegen Ihnen die gemeinsamen absoluten Häugkeiten der Merkmale X: Schadenshöhe und Y : Versicherungsart für die letzten 500 gemeldeten Schäden vor. 1. Interpretieren

Mehr

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression 6.0 Logistische Regression 6.1 Das binäre Modell 6.1 Das binäre Modell Sei x der Vektor der Einflussgrößen mit einem Eins-Element, um die Regressionskonstante zu modellieren. Angenommen, es gilt das Regressionsmodell:

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift: 20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie

Mehr

BEDIENUNGSANLEITUNG FÜR AMOS (Letzte Änderung: Mittwoch, 10. Februar 2001)

BEDIENUNGSANLEITUNG FÜR AMOS (Letzte Änderung: Mittwoch, 10. Februar 2001) AMOS - Bedienungsanaleitung 1 BEDIENUNGSANLEITUNG FÜR AMOS (Letzte Änderung: Mittwoch, 10. Februar 2001) A. Aufbau einer Inputdatei (Excel-Arbeitsblatt), welche eine Kovarianz- bzw. Korrelationsmatrix

Mehr

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen 4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.

Mehr

Versuchsplanung. Inhalt. Grundlagen. Faktor-Effekt. Allgemeine faktorielle Versuchspläne. Zweiwertige faktorielle Versuchspläne

Versuchsplanung. Inhalt. Grundlagen. Faktor-Effekt. Allgemeine faktorielle Versuchspläne. Zweiwertige faktorielle Versuchspläne Inhalt Versuchsplanung Faktorielle Versuchspläne Dr. Tobias Kiesling Allgemeine faktorielle Versuchspläne Faktorielle Versuchspläne mit zwei Faktoren Erweiterungen Zweiwertige

Mehr