Prüfungsleistung Quantitative Methoden II, WS10/11

Ähnliche Dokumente
Prognoseintervalle für y 0 gegeben x 0

Beispiel: Multiples Modell/Omitted Variable Bias I

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2014/15. ( = 57 Punkte)

Beispiel: Multiples Modell/Omitted Variable Bias I

Statistische Datenanalyse mit R, Korrelation und Regression. Dr. Andrea Denecke Leibniz Universität IT-Services

Bachelorprüfung: Statistik (1 Stunde)

Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.

Schweizer Statistiktage, Aarau, 18. Nov. 2004

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

x t2 y t = 160, y = 8, y y = 3400 t=1

Biostatistik 101 Korrelation - Regressionsanalysen

Teekonsum in den USA (in 1000 Tonnen), Nimmt den Wert 1 an für alle Perioden, Durchschnittlicher Preis des Tees in Periode t (in Tausend $/Tonne).

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

Empirische Wirtschaftsforschung in R

Multiple Regression III

11. Übungsblatt zur Vorlesung Ökonometrie SS 2014

6. Tutoriumsserie Statistik II

Auswertung und Lösung

1 Beispiel zur Methode der kleinsten Quadrate

Tutorial: Regression Output von R

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Konfidenz-, Prognoseintervalle und Hypothesentests IV im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen

Schriftliche Prüfung (90 Minuten)

Musterlösung zu Serie 1

CIM2004 Übung 7: Permutationstest, Bootstrap & Jackknife

Vorlesung: Statistik II für Wirtschaftswissenschaft

Kovarianzanalyse. Truthahngewicht. Truthahngewicht. Methoden empirischer Sozialforschung. 1 metrische und mehrere metrische und kategoriale Variablen

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Schließende Statistik Wintersemester 2012/13. Namensschild. Dr.

Lean Body Mass [kg] Estimate Std. Error t value Pr(> t ) (Intercept) ??? lbm <2e-16 ***

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Schließende Statistik Sommersemester Namensschild. Dr.

Multivariate Verfahren

Mehrfache und polynomiale Regression

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016

Züchtungslehre - Lösung 3

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

11. weitere Übungsaufgaben Statistik II WiSe 2017/2018

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie SS ( = 57 Punkte)

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2017/18. ( = 58 Punkte)

Schriftliche Prüfung (90 Minuten)

Lineare Modelle in R: Zweiweg-Varianzanalyse und Kovarianzanalyse

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)

Statistik II. IV. Hypothesentests. Martin Huber

Probeklausur EW II. Für jede der folgenden Antworten können je 2 Punkte erzielt werden!

Lineare Modelle in R: Klassische lineare Regression

Einführung in die formale Demographie Übung

Schriftliche Prüfung (1 Stunde)

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie SS 2018

Konfidenz-, Prognoseintervalle und Hypothesentests II bei heteroskedastischen Störgrößen

Fragen. Einführung in die induktive Statistik. Übersicht. Lineare Einfachregression

Musterlösung. Modulklausur Multivariate Verfahren

Stochastik Praktikum Lineare Modelle

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Übung V Lineares Regressionsmodell

Biostatistik 101 Korrelation - Regressionsanalysen

Schriftliche Prüfung (90 Minuten)

Aufgabe 35 mit R (Ökonometrie SS 2014 an der UdS)

Schriftliche Prüfung (90 Minuten)

Statistik II für Betriebswirte Vorlesung 8

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Studiengang Schließende Statistik Sommersemester Namensschild. Dr.

Mehrere metrische Merkmale

Einführung in die formale Demographie Übung

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

1 Kodierung kategorialer Einflussgrößen

Statistik II (Sozialwissenschaften)

> r.lm < lm(log10(ersch) log10(dist), > summary(r.lm) > r.lms < summary(r.lm) R-Funktionen zur linearen Regression. data = d.

Statistik II Übung 3: Hypothesentests

PVK Statistik Tag Carlos Mora

Einleitung. Statistik. Bsp: Ertrag Weizen. 6.1 Einfache Varianzanalyse

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

Schriftliche Prüfung (2 Stunden)

epg = read.table(file.path(pfadu, "epg.txt")) amp = read.table(file.path(pfadu, "dbdauer.txt"))

Lineare Regression in R, Teil 1

Statistik II Übung 1: Einfache lineare Regression

Eine Einführung in R: Varianzanalyse

> ### Beispiel 7 ### > > library(faraway); options(digits = 5) > data(savings) > savings.lm = lm(sr ~ pop15 + pop75 + dpi + ddpi, savings)

Schriftliche Prüfung (2 Stunden)

Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell

Dr. M. Kalisch. Statistik (für Biol./Pharm. Wiss.) Winter Musterlösung

Wirtschaftswissenschaftliches Prüfungsamt

Multivariate Verfahren

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

Ich bestätige, dass ich obige Hinweise zur Kenntnis genommen habe und sie befolgen werde.

Variablen Selektion beste Volles Modell

Statistik II Übung 3: Hypothesentests Aktualisiert am

Hypothesentests mit SPSS

V. Das lineare Regressionsmodell

2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme)

Statistik II Übung 1: Einfache lineare Regression

Aufgabenstellung und Ergebnisse zur. Bachelor-Prüfung Schließende Statistik Wintersemester 2017/18. Dr. Martin Becker

Transkript:

Universität Hamburg Fachbereich Psychologie 46-02.020 Seminar: Datenanalyse, A Seminarleiter: Ingmar Böschen Wintersemester 2010/ 2011 13.03.11 Prüfungsleistung Quantitative Methoden II, WS10/11 Rick Bode Email: rick.bode@studium.uni-hamburg.de

Die EAM (European Association of Movement)-Ergebnisse von 2000 zeigten, dass deutsche Kinder, verglichen mit denen aus anderen europäischen Ländern, sich unterdurchschnittlich wenig bewegen. Die beliebtesten Freizeitaktivitäten seien Fernsehen und Computerspielen. Dies sorge kurzfristig für schlechte motorische Leistungen, langfristig aber würde Deutschland damit wahrscheinlich immer weniger Medaillen bei den olympischen Spielen gewinnen und außerdem würden die Kosten für das Gesundheitssystem exponentiell steigen. Diese erschreckenden Ergebnisse sorgen dafür, dass die bereits existierenden Schulkonzepte radikal überdacht werden müssen. Einige Pilotprojekte wurden bereits gestartet und müssen nun bewertet werden. Unter anderem in der Gemeinde Erpel in Rheinland-Pfalz. In Erpel gibt es zwei Schulen, eine staatliche ( Hans-Wolfgang-Erpel-Gesamtschule ) und eine private ( Mens sana in corpore sano -Schule), in der der Unterricht sich dadurch unterscheidet, dass die Kinder in Letzterer ein tägliches Bewegungsprogramm absolvieren (zum Beispiel: Laufen mit der Maus, Yoga mit Hans ). Alle Kinder besuchten bis zur sechsten Klasse die örtliche Grundschule ( Halbe-Erpel-Grundschule ) und sind nun seit einem halben Jahr auf die zwei Schulen verteilt. Ich überprüfe die motorischen Fähigkeiten von Kindern im Alter von zwölf bis dreizehn Jahren. Verschiedene Einflüsse können nun eine Rolle auf die Entwicklung der motorischen Fähigkeiten der Kinder haben. So wurden die Schulform der Kinder x 1 ; x 1 =0 staatlicheschule x 1 =1 privateschule, das Alter der Kinder x 2, wobei der Eintritt ins zwölfte Lebensjahr als Nullpunkt oder Referenz gesetzt wurde, sodass die Abweichungen in Monaten angegeben sind. Des weiteren wurde die Körpergröße in Zentimetern x 3 und die von Kindern und Eltern geschätzte wöchentliche Schlafdauer der Kinder in Stunden x 4 registriert. In diesem Aufsatz möchte wird mittels Regressionsanalyse überprüfen, ob es einen Zusammenhang zwischen diesen vier Faktoren und dem Testergebnis y gibt und wenn ja welche 2

der Faktoren ein ideales Modell vermitteln. Bei dem Test handelt es sich um den MoBS (Motorisches-Bewegungs-Standard-Inventar für Kinder und Jugendliche). Daraus erbgeben sich folgende statistische Hypothesen für die einzelnen Faktoren: H 0 : α 0 =0 ; β 0 =0 α x1 =α 0 ; β x1 =β 0 α x2 =α 0 ; β x2 =β 0 α x3 =α 0 ; β x3 =β 0 α x4 =α 0 ; β x4 =β 0 H 1 : α 0 =0 ; β 0 =0 α x1 α 0 ; β x1 β 0 α x2 α 0 ; β x2 β 0 α x3 α 0 ; β x3 β 0 α x4 α 0 ; β x4 β 0 Ziel ist es ein Modell zu finden, dass möglichst wenige dieser Variablen verwendet, aber gleichzeitig für eine möglichst große Aufklärung von y sorgt. Alle Tests werden dabei auf einem Signifikanzniveau von p= 0. 05 durchgeführt. Für die Erhebung konnte ich insgesamt n= 97 Versuchspersonen gewinnen. In Tabelle 1 findet sich eine Übersicht zu den entsprechenden Lage- und Verteilungsmaße der einzelnen Variablen. MoBS Alter Körpergröße Schlaf pro Woche Minimum 39.53-0.858 126.7 32.50 1. Quartil 153.05 2.952 141.7 43.70 Median 367.12 5.103 146.6 52.50 Mean 311.97 4.943 146.8 51.64 3. Quartil 432.08 6.780 153.1 59.20 Maximum 530.82 12.932 165.9 69.10 sd 142.61 2.800 7.531 10.036 Tabelle 1: deskreptive Beschreibung Insgesamt gibt es H x 1 =0 =36 Schüler, die die staatliche Schule besuchen und H x 1 =1 =61 Schüler, die die private Schule besuchen. Dabei befanden sich die Schüler zum Zeitpunkt der Erhebung in einem durchschnittlichen Alter von knapp zwölf Jahren und fünf Monaten. Über das Alter hinweg sind die Schüler mit einer Standardabweichung von etwas weniger als drei Monaten normal verteilt. Eine Normalverteilung zeigt sich ebenso bei der Körpergröße der Schüler. Diese variiert zwischen x 3min =1.267 m und x 3max =1.659 m. Die wöchentliche Schlafdauer liegt zwischen x 4min =32.5h und x 4max =69.1h, was einer durchschnittlichen 3

täglichen Schlafdauer von 4.64 9.87 h entspricht. Die starke Varianz lässt sich wohl vor allem durch die mit der Pubertät verbundenen Änderungen erklären. Im Durchschnitt schlafen die Teilnehmer noch x 4mean =7.38h täglich, was wohl dem Normalzustand in diesem Alter entspricht. Die entsprechenden Verteilungen dieser Werte zeigen sich auch noch einmal in Abbildung 1. Mithilfe der Boxplots (Abbildung 2) lassen sich Ausreißer feststellen. Dabei zeigt sich, dass eine der Versuchspersonen ein stark abweichendes Alter hat. Hierbei handelt es sich um einen Teilnehmer, der erst ein Jahr später eingeschult wurde, er besucht jedoch genau so lange wie alle anderen Schüler die Schule. Außerdem wird in dem für Erzeugung der Grafiken verwendeten Programm R zur Hilfe der Konstruktion von Boxplots die hinges (oben links), statt der Quartile genutzt (Groß, 20 Y i =277.9649 x1 i 3.4114 x2 i 10, S. 60, 70-71). In einer Darstellung, die die Quartile (oben rechts) verwendet ist kein Ausreißer mehr zu sehen. Ich gehe also davon aus, dass dieser Wert nicht für eine Verzerrung der Ergebnisse sorgt. Abbildung 1: Histogramme 4

Abbildung 2: Boxplots Bei der Überprüfung der einfachen linearen Modelle auf die Gauss-Markov-Annahmen zeigt sich, dass lediglich für die Regression zwischen der Schulform und dem Testwert im MoBS die nötigen Voraussetzungen für die Berechnung einer solchen erfüllt sind. In Abbildung 3 ist für dieses Modell zum einen die Verteilung der Residuen (links) und zum anderen, das lineare Regressionsmodell (rechts), inklusive entsprechender Punktewolke aufgeführt. Call: lm(formula = dat$y ~ dat$x1) Residuals: Min 1Q Median 3Q Max -121.222-35.062-2.072 36.248 116.678 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 138.852 8.319 16.69 <2e-16 *** dat$x1 275.290 10.491 26.24 <2e-16 *** --- Residual standard error: 49.92 on 95 degrees of freedom Multiple R-squared: 0.8788, Adjusted R-squared: 0.8775 F-statistic: 688.6 on 1 and 95 DF, p-value: < 2.2e-16 Tabelle 2: Regression Schulform - MoBS 5

Abbildung 3: Regression 1 In Tabelle 2 lässt sich eine Erklärung dieses Modells sehen. Mittels formula, lässt sich noch einmal nachvollziehen welches Modell der Berechnung zu Grunde liegt. Bei den Residuals handelt es sich um die in Abbildung 3 (links) bereits dargestellten Abweichung. Die berechneten Werte stimmen hierbei mit der Grafik überein. Aus dem Punkt Coefficients lässt sich nun unsere lineare Funktionsgleichung ablesen. Unter Pr > t lässt sich erkennen, dass die erhaltenen Werte signifikant sind. Aus dem linearen Modell ergibt sich nun ein =138.852 und ein =275.290. Damit lässt sich das lineare Modell wie folgt formulieren: Y i =138.852 x i 275.290, wobei x i der Schulform und Y i dem Testergebnis des MoBS entspricht. Die Güte des Modells vermittelt das Bestimmtheitsmaß R 2. Als konservativeres Kriterium wähle ich das adjustierte Bestimmtheitsmaß. Es gibt an, dass das Modell R 2 adj =0.8775 der Varianz zwischen abhängiger und unabhängiger Variable aufklären kann. Des weiteren lässt sich nun untersuchen inwiefern ein zwei- oder mehrfaktorielles Regressionsmodell sinnvoll ist. Eine Möglichkeit zur Bewertung bietet hierfür das AIC (Groß, 6

2010, S. 214-218) nach Akaike, welches auf dem Maximum-Likelihood Ansatz beruht. Die Funktion step ermöglicht schrittweise eine Anpassung des Modells und eine Berechnung des jeweilig zugehörigen AIC's. Bei Ausführung erhalte ich folgende Funktion als Bestes Modell: Step : AIC =619.08 dat $ y ~ x1 x4 x3 x2. Die Frage die sich nun stellt ist, inwiefern ein solches Modell Sinn macht, da recht viele Faktoren verwendet werden und die AIC-Werte sich bei Zunahme der letzten drei Faktoren nur geringfügig ändern. Bei der Überprüfung der Voraussetzungen lässt sich außerdem feststellen, dass die Voraussetzungen für die Modelle bei denen das Alter und die Körpergröße zu Hilfe genommen wurde nicht erfüllt sind. Lediglich für das zweifaktorielle Regressionsmodell, indem der Wert des MoBS durch die Schulform und die wöchentliche Schlafdauer erklärt wird, sind die Voraussetzungen erfüllt. Call: lm(formula = dat$y ~ dat$x1 + dat$x4) Residuals: Min 1Q Median 3Q Max -94.52317-23.69097 0.07415 23.99634 110.70521 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -38.9928 20.2247-1.928 0.0569. dat$x1 277.9649 7.6492 36.339 < 2e-16 *** dat$x4 3.4114 0.3701 9.217 8.5e-15 *** --- Residual standard error: 36.37 on 94 degrees of freedom Multiple R-squared: 0.9363, Adjusted R-squared: 0.935 F-statistic: 691 on 2 and 94 DF, p-value: < 2.2e-16 Tabelle 3: Regression Schulform - wöchentlicher Schlaf - MoBS In Tabelle 3 sind die entsprechenden Daten dieses Modells dargestellt. Der Wert für den Achsenabschnitt wird dabei nicht signifikant, ich kann daher nicht davon ausgehen, dass er verscheiden von Null ist. Die beiden Beta-Koeffizienten hingegen weisen ein signifikantes Ergebnis auf. Damit lässt sich das Regressionsmodell wie folgt formulieren: 7

Y i =277.9649 x1 i 3.4114 x2 i. Das adjustierte Bestimmtheitsmaß gibt eine Varianzaufklärung von R 2 adj =0.935. Dieses Modell sorgt also für eine geringfügig bessere Aufklärung der Varianz, als das einfache lineare Regressionsmodell. Eine entsprechende Darstellung des Modells findet sich in Abbildung 4. Abbildung 4: lineare Regression Schulform - Schlafdauer - MoBS Zusammenfassend habe ich zwei mögliche Regressionsmodelle erhalten. In dem einfacheren der beiden zeigt sich, wie das Testergebnis im MoBS durch die Schulform ausgedrückt werden kann. Für unsere Untersuchung lässt sich damit die entsprechende Nullhypothese verwerfen und die Alternativhypothese annehmen. Zu beachten ist jedoch bei allen Modellen, dass sich keine Kausalität ergibt. Die Alternativhypothese könnte wie folgt lauten: Kinder von Schulen mit einem täglichen Bewegungsprogramm, haben bessere Testergebnisse im MoBS. Es lässt sich dabei nicht 8

feststellen ob das tägliche Bewegungsprogramm für bessere motorische Fähigkeiten sorgt oder ob beispielsweise Kinder mit besseren motorischen Fähigkeiten lieber auf eine Schule mit täglichen Bewegungsprogramm gehen, bzw. ihre Eltern sie dadurch fördern wollen. Alle anderen Nullhypothesen zur linearen Einfachregression muss ich beibehalten, da die entsprechenden Modellvoraussetzungen nicht erfüllt waren. Ich konnte eine Kombination von unabhängigen Variablen ergründen, so gibt es einen kumulativen Zusammenhang zwischen der Schulform und der wöchentlichen Schlafdauer auf der einen, sowie dem Testergebnis im MoBS auf der anderen Seite. Die Aussage die getroffen wird, könnte wie folgt lauten: Kinder von einer Schule mit einem täglichen Bewegungsprogramm und hoher wöchentlicher Schlafdauer, haben bessere Testergebnisse im MoBS. Auch hier gilt wie im einfachen Modell, dass keine Kausalität feststellbar ist. Dieses Modell ist komplexer und hat eine leicht bessere Vorhersage-kraft. Gewünscht ist natürlich ein möglichst große Vorhersage-kraft, wichtig ist aber auch die Verwendung eines möglichst einfachen Modells. Ich würde die Entscheidung für eines der beiden Modelle grundsätzlich von der Forschungsfrage abhängig machen, würde mich aber wahrscheinlich für das einfache lineare Regressionsmodell entscheiden, da das zweite meine Aussagekraft nur minimal verbessert. Um weitere Peinlichkeiten bei zukünftigen olympischen Spielen zu vermeiden, würde ich dem Kultusministerium empfehlen, die bereits vorhandenen Ergebnisse noch einmal experimentell zu überprüfen. Sollten diese Studien meine Ergebnisse bestätigen, würde ich weiter empfehlen, zusätzliche Bewegungsprogramme an allen Schulen flächendeckend einzuführen. Literatur Groß, J. (2010). Grundlegende Statistik mit R: Eine anwendungsorientierte Einführung in die Verwendung der Statistik Software R (1. Aufl.). Vieweg+Teubner. 9

2011-03-12 pruefung.r 1 #Daten einlesen setwd("/home/rick/dokumente/uni/psychologie/datenanalyse I/pruefung") dat=read.table("datreg32.txt", header=t) #geladene Bibliotheken library(hmisc) library(car) library(gmodels) library(gplots) library(grdevices) #deskriptive Statistik summary(table(dat$y,dat$x1,dat$x2,dat$x3,dat$x4)) max(dat$vpnr) sd(dat) sum(dat$x1) par(mfrow=c(2,2),family="hersheyserif", ps=14) boxplot(dat$x2, main="boxplot Alter - hinges") boxplot(dat$x2, main="boxplot Alter - Quartile",range=0) boxplot(dat$x3, main="boxplot Körpergröße") boxplot(dat$x4, main="boxplot Schlafdauer") boxplot(dat$y[dat$x1==0],dat$y[dat$x1==1], xlab="staatlich vs. privat") shapiro.test(dat$x2) shapiro.test(dat$x3) shapiro.test(dat$x4) #Histogramme par(mfrow=c(2,2),family="hersheyserif", ps=12) hist(dat$x1, main="schulform",xlab="staatlich vs. privat",border="black",col="navyblue",angle=45, density=30, freq=f) dat$x2->x hist(x, main="altersverteilung",xlab="abweichung in Monaten vom 12. Geburtstag",border="black",col=c("saddlebrown","navyblue","red3"), bg="grey",angle=45, density=30, freq=f) curve(dnorm(x, mean=mean(x), sd=sd(x)), add=t, col="darkred",lwd=2) dat$x3->x hist(x, main="verteilung Körpergröße",xlab="Körpergröße in cm",border="black",col=c("saddlebrown","navyblue","red3"),angle=45, density=30, freq=f) curve(dnorm(x, mean=mean(x), sd=sd(x)), add=t, col="darkred",lwd=2) dat$x4->x hist(x, main="verteilung Schlafdauer",xlab="wöchentliche Schlafdauer in Stunden",border="black",col=c("saddlebrown","navyblue","red3"),angle=45, density=30, freq=f) r1=lm(dat$y~dat$x1) r2=lm(dat$y~dat$x2) r3=lm(dat$y~dat$x3) r4=lm(dat$y~dat$x4) shapiro.test(r1$res) #erfüllt Voraussetzungen shapiro.test(r2$res) #erfüllt Voraussetzungen nicht shapiro.test(r3$res) #erfüllt Voraussetzungen nicht shapiro.test(r4$res) #erfüllt Voraussetzungen nicht par(mfrow=c(1,2), family="hersheyserif", ps=10) qqplot(r1$res, main="verteilung der Residuen") plot(dat$x1,dat$y, xlab="schulform",pch=13,col="darkblue", ylab="mobs", main="lineares Regressionsmodell") abline(r1, col="dark red");text(0.5,350,"lineare");text(0.5,300," Einfach- Regression:");text(0.5,250,"Schulform-MoBS") summary(r1) r12=lm(dat$y~dat$x1+dat$x2) file:///home/rick/dokumente/uni/psychologie/datenanalyse I/pruefung/pruefung.r

2011-03-12 pruefung.r 2 r13=lm(dat$y~dat$x1+dat$x3) r14=lm(dat$y~dat$x1+dat$x4) library(scatterplot3d) s3d<-scatterplot3d(dat$x1,dat$x4,dat$y) s3d$plane3d(r14) lm.all<-lm(dat$y~dat$x1+dat$x2+dat$x3+dat$x4) AIC(lm.all) step(lm.all,direction="both") inde<-dat[,2:6] lm.null<-lm(dat$y~1,data=inde) lm.forw <- step(lm.null, scope=formula(inde),direction="both") r143<-lm(dat$y~dat$x1+dat$x4+dat$x3) shapiro.test(r143$res) qqplot(r143$res) r1432<-lm(dat$y~dat$x1+dat$x2+dat$x3+dat$x4) shapiro.test(r1432$res) qqplot(r1432$res) file:///home/rick/dokumente/uni/psychologie/datenanalyse I/pruefung/pruefung.r