Beipiele zum Üben und Wiederholen Wirtschaftsstatistik 2 (Kurs 3) Lösungen

Ähnliche Dokumente
1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Vorlesung: Statistik II für Wirtschaftswissenschaft

Prognoseintervalle für y 0 gegeben x 0

Lean Body Mass [kg] Estimate Std. Error t value Pr(> t ) (Intercept) ??? lbm <2e-16 ***

Bachelorprüfung: Statistik (1 Stunde)

Auswertung und Lösung

Multiple Regression III

Eine Einführung in R: Varianzanalyse

Eine Einführung in R: Varianzanalyse

Statistisches Testen

Schweizer Statistiktage, Aarau, 18. Nov. 2004

Musterlösung. Modulklausur Multivariate Verfahren

Tutorial: Regression Output von R

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einleitung. Statistik. Bsp: Ertrag Weizen. 6.1 Einfache Varianzanalyse

Musterlösung. Kind Blume (beredet) Blume (nicht beredet)

Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13

Schriftliche Prüfung (90 Minuten)

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Vergleich von Gruppen I

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

Dr. M. Kalisch. Statistik (für Biol./Pharm. Wiss.) Winter Musterlösung

Eine Einführung in R: Varianzanalyse

Beispiel: Multiples Modell/Omitted Variable Bias I

Prüfung aus Statistik 2 für SoziologInnen

Schriftliche Prüfung (1 Stunde)

Statistik II. IV. Hypothesentests. Martin Huber

a) Man bestimme ein 95%-Konfidenzintervall für den Anteil der Wahlberechtigten, die gegen die Einführung dieses generellen

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2014/15. ( = 57 Punkte)

Schriftliche Prüfung (90 Minuten)

Inferenz im multiplen Regressionsmodell

Biostatistik 101 Korrelation - Regressionsanalysen

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Multivariate Verfahren

Schriftliche Prüfung (2 Stunden)

Schriftliche Prüfung (2 Stunden)

Auswertung und Lösung

Die Funktion f wird als Regressionsfunktion bezeichnet.

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest.

Schätzung im multiplen linearen Modell VI

Übung V Lineares Regressionsmodell

Wahrscheinlichkeitsrechnung und Statistik für Biologen Faktorielle Varianzanalyse

1 Beispiel zur Methode der kleinsten Quadrate

Fragen. Einführung in die induktive Statistik. Übersicht. Lineare Einfachregression

Schriftliche Prüfung (2 Stunden)

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

Fragestellungen. Ist das Gewicht von Männern und Frauen signifikant unterschiedlich? (2-sample test)

Beispiel: Multiples Modell/Omitted Variable Bias I

Stochastik Praktikum Lineare Modelle

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Statistik II. Regressionsanalyse. Statistik II

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

D-CHAB Frühlingssemester 2017 T =

5. Seminar Statistik

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Schriftliche Prüfung (90 Minuten)

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern

Varianzkomponentenschätzung

Schriftliche Prüfung (90 Minuten)

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

11. Übungsblatt zur Vorlesung Ökonometrie SS 2014

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

Goethe-Universität Frankfurt

T-Test für unabhängige Stichproben

Konfidenz-, Prognoseintervalle und Hypothesentests IV im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen

Jost Reinecke. 7. Juni 2005

Statistik II für Betriebswirte Vorlesung 8

Musterlösung zu Serie 1

Tests für Erwartungswert & Median

# Befehl für den Lilliefors-Test

Biostatistik 101 Korrelation - Regressionsanalysen

Statistik II. Weitere Statistische Tests. Statistik II

Lineare Modelle in R: Klassische lineare Regression

Statistik II. IV. Hypothesentests. Martin Huber

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am Autor: Ludwig Bothmann

Zusammenfassung 11. Sara dos Reis.

Bachelorprüfung: Mathematik 4 - Statistik (2 Stunden)

Vergleich von Parametern zweier Stichproben

Klausur zu Methoden der Statistik II (mit Kurzlösung) Wintersemester 2012/13. Aufgabe 1

Biostatistik, WS 2017/18 Der zwei-stichproben-t-test

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie SS ( = 57 Punkte)

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

W-Rechnung und Statistik für Ingenieure Übung 13

Transkript:

Beipiele zum Üben und Wiederholen Wirtschaftsstatistik 2 (Kurs 3) Lösungen 1.1 (Das Beispiel 1.1 entspricht dem Beispiel 7.1 aus dem Buch Brannath/Futschik/Krall) a) Streudiagramm mit Regressionsgerade. Linearer Zusammenhang erscheint plausibel. b) Luxusausgaben = α + β*einkommen + ε c) Intercept a= -3.03940, Steigung b=0.38541 So sieht der Output von R dazu aus, unter Estimates sind die gesuchten Koeffizienten, daneben ihre Standard Fehler, T-Teststatistik und p-wert für die Hypothese H0: Koeffizient=0. Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -3.03940 2.12576-1.430 0.191 x 0.38541 0.04827 7.984 4.43e-05 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 1.2 Nummer 1 und 3 zeigen lineare Abhängigkeit. In Nummer 2 gibt es überhaupt keinen systematischen Zusammenhang. In Nummer 4 besteht ein Zusammenhang, aber kein linearer. In Darstellung 1 hat die gedachte Regressionsgerade für x=0 etwa den Wert y=10, daher a=10. Die Steigung ist ca. b=1. In Darstellung 3 ist der y-wert bei x=0 ca. -10 (a=-10). Die Steigung hier ist ca. b=-2. 1.3 Modellannahmen: 1)Varianzhomogenität: Die Varianz der Fehler ist überall gleich groß (also unabhängig von x). 2) Normalverteilung: die Fehler sind normalverteilt (mit Erwartungswert 0 und Varianz σ 2 ).

Annahme 1 prüft man mit dem Residuenplot. Hier ist kein Trend zu erkennen, die Annahme wird bestätigt. Annahme 2 kann mit einem QQ-Plot geprüft werden. Liegen die Punkte im QQ-Plot, so wie hier, annähernd auf einer Geraden, kann von Normalverteilung ausgegangen werden. 1.4 Die Residuen: 1 2 3 4 5 6-0.2571429-0.3342857 0.4885714-0.4885714 2.1342857-1.5428571 Der Residuenplot (Residuen gegen x-werte). Offensichtlich ist die Annahme gleicher Varianzen nicht erfüllt, je größer x wird, desto größer wird die Fehlervarianz. 1.5 a) Die Summe der Residuen ist 0. b) SQR=66,23976 und s 2 =SQR/(n-2)=66,23976/8=8,27997 c) und die Stichprobenvarianz von y ist,also ist SQT = SQE + SQE, also SQE = SQT SQR = 594,1-66,23976 = 527,8602 Bestimmtheitsmaß: R 2 =SQE/SQT= 527,8602/594,1=0,8885 Was bedeutet das: Relativ gute Erklärung der y-werte durch das Modell. Man kann es auch so formulieren:etwa 89% der Varianz der y-werte (Luxusausgaben) werden durch unser Modell erklärt. 1.6 Vollständiger Output: Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 430.42 27.37 15.726 2.22e-08 *** Benzinpreis -72.71 19.75-3.682 0.00423 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 a) Estimate Kleinste Quadrate Schätzer für Intercept und Steigung, Std. Error der dazugehörige Standardfehler, t value die T-Teststatistiken, Pr(> t ) die p-werte für die Hypothesen aus Punkt b).

b) t(a)=a/se(a)= 430,42/27,37=15,72598; t(b)= -3,681519 Kritische Grenzen: Beide Teststatistiken liegen außerhalb der kritischen Grenzen beide H 0 verwerfen. c) P-Wert für eine zweiseitige Alternativhypothese:, wobei T n-2 eine zufallszahl aus einer T-Verteilung mit n-2 Freiheitsgraden ist und t der Betrag der berechneten Teststatistik. Durch Vergleichen von t mit den Quantilen, die in der Tabelle für die entsprechenden Freiheitsgrade enthalten sind, kann die Größenordnung des p-werts abgeschätzt werden. Z.B.: Bei 10 Freiheitsgraden ist laut Tabelle P(T 4,14)=0,999. Für eine Teststatistik T=4,14 wäre der p- Wert also 2*(1-0,999)=0,002. Die Teststatistik für H0: α=0 ist t=15,7 deutlich größer als 4,14, der p- Wert wird daher auf jeden Fall kleiner als 0,002 sein. Der Absolutwert der Teststatistik für b, t =3,68, liegt zwischen den in der Tabelle enthaltenen Werten 3,17 und 4,14. Aus der Tabelle lesen wir bei 10 Freiheitsgraden ab P(T 3,17)=0,995. Also ist P(T>3,17)=0,005 und P( T >3,17)=2*0,005=0,01. Wir wissen schon P( T >4,14)=0,002. t =3,68 liegt zwischen 3,17 und 4,14, daher liegt der p-wert zwischen 0,01 und 0,002. 1.7 a) 99% KI für mittlere Verkaufsmenge am Sonntag: b) 99% KI für Verkaufsmenge an einem individuellen Sonntag: c) Vorhersagen außerhalb des ursprünglich beobachteten Wertebereichs für die unabhängige Größe sind problematisch. Die Unsicherheit wird mit steigendem Abstand von größer (siehe Konfidenzintervalle) und vor allem kann nicht garantiert werden, dass das Modell außerhalb des beobachteten Bereichs noch gilt. 2.1 a) Stichprobenkovarianz b) Korrelationskoeffizienz r(werbung,umsatz) = 0,7498593 c) Das Bestimmheitsmaß ist der quadrierte Korrelationskoeffizient, R 2 =r 2 =0,562289 2.2 Teststatistik Die Grenzen für den Test stammen aus einer T-Verteilung mit 98 Freiheitsgraden. Bei einer so hohen Zahl an Freiheitsgraden kann die T-Verteilung durch eine Standardnormalverteilung angenähert werden. Das entsprechende 97,5% Quantil und damit die obere kritische Grenze ist z 0,975 =1,96 (siehe letzte Zeile der T-Verteilungstabelle). T=15,97>c o =1,9 also H0: r=0 verwerfen.

2.3 Index i 1 2 3 4 5 6 7 8 Werbung 80 85 92 101 106 109 112 115 Rang Werbung 1 2 3 4 5 6 7 8 Umsatz 252 204 200 244 296 311 275 298 Rang Umsatz 4 2 1 3 6 8 5 7 Der Korrelationskoeffizient nach Spearman wird als der Pearson-Korrelationskoeffizient der Ränge der Beobachtungen berechnet. r Spearman = 0,714 2.4 a) 1 b) Korrelationsmatrix: X1 X2 X3 X1 1 0,1-0,2 X2 0,1 1-0,8 X3-0,2-0,8 1 Für c) r nahe bei 1 oder -1 zeigt starken Zusammenhang an. Ist r positiv steigen beide Größen gemeinsam (direkt proportionaler Zusammenhang), ist r negativ, fällt die eine Größe, wenn die andere steigt (indirekt proportionaler Zusammenhang). 3.1 a) b) 3.2 a) b) Residuenvektor

s 2 =SQR/(n-k-1)=0,2597 (Beachte: k ist die Anzahl der unabhängigen Variablen.) c) (Es gilt auch hier SQT=SQE+SQR) R 2 =SQE/SQT=0.9658 d) siehe auch Buch Brannath/Futschik/Krall S.224 Streuquelle Quadratsumme Freiheitsgrade mittlere QS F-Teststatistik Regression (erklärt) 14,68 2 7,3403 28,264 Residuen 0,52 2 0,2597 Total 15,2 4 Die Teststatistik folgt einer F-Verteilung mit k=2 Zählerfreiheitsgraden und n-k-1=2 Nennerfreiheitsgraden. Wir testen die H0, dass alle Koeffizienten außer dem Intercept gleich 0 sind. Wenn diese H0 nicht abgelehnt werden kann, hat unser Modell keine signifikante Erklärungskraft. Anders formuliert, unser Regressionsmodell wäre nicht besser als das Modell y=b 0. Der hier angewandte F-Test prüft, ob die erklärte Streuung signifikant größer ist als die Fehlerstreuung. Kleine Werte der Teststatistik sprechen hier für die Nullhypothese, große Werte sprechen dagegen. Wir brauchen daher nur eine obere kritische Grenze, die hier das 95% Quantil einer F-Verteilung mit Freiheitgraden df 1 =2 und df 2 =2 ist. Also. Die Teststatistik ist größer als diese Grenze, also wird die Nullhypothese verworfen. Das bedeutet, zumindest einer der Koeffizienten b 1 und b 2 ist signifikant von Null verschieden. (Andernfalls müssten wir die Fragen aus dem nächsten Beispiel hier gar nicht untersuchen.) 3.3 Die Einträge in der Diagonale sind die Varianzen der geschätzten Koeffizienten b 0, b 1 und b 2. (Die anderen Einträge sind die Kovarianzen für die entsprechende Kombination, z.b..) Die Standardfehler sind die Quadratwurzeln der Varianzen, daher SE(b 0 )=1,7118, SE(b 1 )=0,1479 und SE(b 2 )=0,0160. (Wenn man von weniger stark gerundeten Werten als den oben angeschriebenen ausgeht.) Die Teststatistik für H0: b 1 =0 lautete. Die Teststatistik folgt unter der Nullhypothese einer T-Verteilung mit n-k-1=5-2-1=2 Freiheitsgraden. Also sind die kritische Grenzen verwerfen.. T liegt innerhalb dieser Grenzen, also können wir die Nullhypothese nicht

Für H0: b 2 =0 wird analog verfahren, allerdings mit dem Ergebnis, dass die Nullhypothese abgelehnt wird. Das bedeutet also abschließend, dass die Dauer des Kundenkontakts keinen Einfluss auf die Trinkgeldhöhe hat, die Höhe der Rechnung aber durchaus. Mit jedem Euro des Rechnungsbetrags steigt die Trinkgeldhöhe laut Modell um b 2 =0,117. (Hier wäre es auch interessant, zu prüfen, ob der Intercept, der als b 0 =-0,121 berechnet wurde von 0 signifikant verschieden ist. Wenn nicht, könnte man von dem sehr einfachen Zusammenhang Trinkgeld = 0,12*Rechnungshöhe ausgehen.) So sieht der R-Output für das Modell der Beispiele 3.2 und 3.3 aus. Darin finden sich alle Elemente dieser Beispiele: Estimate Std. Error t value Pr(> t ) (Intercept) -0.12139 1.71181-0.071 0.9499 x1 0.25174 0.14791 1.702 0.2309 x2 0.11682 0.01597 7.316 0.0182 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.5096 on 2 degrees of freedom Multiple R-squared: 0.9658, Adjusted R-squared: 0.9317 F-statistic: 28.26 on 2 and 2 DF, p-value: 0.03417 3.4 Das 90% Konfidenzintervall für den mittleren Wert an der gegebenen Stelle ist [6,2701 ; 7,8879]. Für einen individuellen Wert ist es [5,3853 ; 8,7727]. 3.5 a) Zufriedenheit=β 0 + β 1 *Alter + β 2 *Ausgaben + β 3 *Zimmergröße + β 4 *Begleiteranzahl + ε Die Punkte b bis d sind mit dem Wissen aus Bsp. 3.2 und 3.3 leicht zu beantworten. 4.1 H0: µ 1 =µ 2 = =µ k also alle erwarteten Mittelwerte sind gleich. Modellannahmen (Voraussetzungen) sind wie bei der linearen Regression Varianzhomogenität (die wahre Varianz der Residuen muss also in jeder Gruppe gleich sein) und Normalverteilung der Residuen. 4.2 a) Die Varianzanalysetabelle sieht so aus: Df Sum Sq Mean Sq F value Pr(>F) gr 1 22.5 22.5 9 0.01707 Residuals 8 20.0 2.5 b) p=0.01707 aus Tabelle ersichtlich. c) Das Ergebnis ist identisch. In diesem einfachen Fall gilt T 2 = f. Two Sample t-test data: a and b t = -3, df = 8, p-value = 0.01707

4.3 Das Regressionsmodell sieht dann so aus: Interessant ist die H0: β 1 = 0, denn β 1 entspricht der Differenz der erwarteten Gruppenmittelwerte. Das Ergebnis ist das selbe wie oben. Die Teststatistik für H0: β 1 = 0 entspricht der T-Teststatistik des Zweistichproben T-tests. (Das Vorzeichen hängt davon ab, welche Gruppe als erste betrachtet wird.) Estimate Std. Error t value Pr(> t ) (Intercept) 3.0000 0.7071 4.243 0.00283 ** gruppe 3.0000 1.0000 3.000 0.01707 * 4.4 a) Die Tabelle der mehrfaktoriellen Varainazanalyse sieht so aus: Df Sum Sq Mean Sq F value Pr(>F) bel 2 1211.4 605.68 4.3151 0.01611 * klima 1 13.8 13.75 0.0980 0.75496 bel:klima 2 142.0 70.99 0.5058 0.60467 Residuals 94 13194.2 140.36 b) Beleuchtung hat einen signifikanten Einfluss auf die Arbeitsplatzzufriedenheit (p=0,01611<0,05). Der Faktor Klimatisierung und Wechselwirkungen zwischen den Faktoren haben keinen signifikanten Einfluss (p>0,05).

4.5 Das sind die Idealfälle, wenn die Koeffizienten für nicht signifikante Einflüsse genau 0 sind. Bei realen Daten werden die Koeffizient nicht genau 0 sein und die Linien werden nicht genau aufeinander liegen bzw. genau parallel sein. Beachte: Ein Faktor (hier x1) bestimmt die Steigung der Geraden, der andere (x2) verschiebt die Geraden zueinander. Der Wechselwirkungsterm bewirkt, dass die Steigung unterschiedlich ausfällt.

5.1 Insgesamt wurden n=111 Personen befragt. Unsere H0 ist Die erwartete Häufigkeit ist in allen Gruppen gleich groß. Diese erwartete Häufigkeit ist also bei k=4 Gruppen n/4=27,5. Wir bilden die Differenzen zwischen beobachteten Häufigkeiten b i und erwarteten Häufigkeiten e i b e b-e 25 27.75-2.75 60 27.75 32.25 12 27.75-15.75 14 27.75-13.75 Die Teststatistik ist. Die Verteilung der Teststatistik unter der H0 kann durch eine Verteilung mit k-1 Freiheitsgraden approximiert werden. Also kritische Grenze = 7,815 < -Teststatistik daher H0 verwerfen. Der p-wert ist hier kaum von Null zu unterscheiden:. X ist dabei eine verteilte Zufallszahl. 5.2 a) Die erwarteten Häufigkeiten werden hier als Produkt der jeweiligen Spalten- und Zeilenrandsummen gebrochen durch die Gesamtzahl an Beobachtungen berechnet. Die Teststatistik wird daraus wie in 5.1 berechnet. Die zur Approximation dienende Verteilung hat nun Freiheitsgrade. k und r sind dabei die Anzahl der Kategorien der beiden Faktoren. Heraus kommt. Kritische Grenze und p-wert werden analog zu 5.1 aus einer Verteilung mit vier Freiheitsgraden bestimmt (c o = 9,487729, p<0,0001). Die Nullhypothese wird verworfen. b)ja, alle erwarteten Häufigkeiten sind 5. (Die kleinste erwartete Häufigkeit ist 26,19701 für die Kombination aus Personenschaden mit ABS+ESP). 6.1 a) p=7/10; Odds = p/(1-p)=2,333 oder Odds = Anzahl gewonnen / Anzahl verloren = 7/3 = 2,333. b) Genauso, p=4/12=0,333; Odds = 4/8 = 0,5 c) Odds-Ratio:. OR > 1, daher sind die Chancen für einen Heimsieg höher als die Chancen für eine Auswärtssieg.

6.2 a) b) Estimate Std. Error z value Pr(> z ) (Intercept) -0.6931 0.6124-1.132 0.258 heim 1.5404 0.9226 1.670 0.095. Mit α=0,05 können wir beide Hypothesen nicht verwerfen. Die p-werte werden aus der Normalverteilungsfunktion berechnet. (Z ist eine Standardnormalverteilte Zufallszahl). Der p-wert für H0: β 1 =0 kann so bestimmt werden (vgl. mit der Angegeben Internetseite): c) Für diese einseitige Hypothese müssen wir nur die obere Grenze beachten. der p-wert ist also die Wahrscheinlichkeit, dass die Teststatistik bei geltender Nullhypothese über z=1,67 liegt: Hier ist p<α, die Nullhypothese H0: β1 0 kann verworfen werden. β 1 ist signifikant größer als 0, daher ist die Odds-Ratio signifikant größer als 1 und damit sind die Odds für Sieg bei einem Heimspiel signifkant größer als bei einem Auswärtsspiel. d) oder Also identisch zu den Ergebnissen aus 6.1

e) 95% KI für β 1 : 95% KI für OR: 7.1 (Die Werte sind zur besseren Übersicht gerundet) a) Die Modellgleichung lautet b) Die Modellgleichung lautet Für Buben gilt daher: Für Mädchen gilt die Gerade: c) Für Buben gilt: Für Mädchen gilt: d) In Punkt b ist Die Steigung ist für Mädchen und Buben gleich, aber der Achsabschnitt ist verschoben. Die zwei Geraden verlaufen also parallel. Durch Hinzufügen des Wechselwirkungsterms erhält jede Gerade auch noch eine eigene Steigung.

Punkt a=schwarze Linie, Punkt b=rote Linien, Punkt c=grüne Linien. Die roten Punkte entsprechen den Werten der Mädchen, die schwarzen denen der Buben. 7.2 a) Aus den Koeffizienten sieht man, dass die Odds bei einem Heimspiel gegenüber einem Auswärtsspiel steigen (Haupteffekt Heim hat positiven Koeffizienten). Mit steigender Rangzahl des Gegners steigen die Odds auch (Haupteffekt Rang hat positiven Koeffizienten), dieser Effekt wird allerdings bei Heim=1 umgekehrt, denn dann tritt der Wechselwirkungsterm in Kraft und der Einfluss von Rang ist dann. Die Summe der Koeffizienten wird also negativ. b) überbleibt. oder man sieht, dass beim bilden des Quotienten nur

c) Bei einem Auswärtsspiel: überbleibt. oder man sieht, dass beim Bilden des Quotienten nur Das Verhältnis der Odds-Ratios ist oder man rechnet entsprechend den obigen Formeln gleich d) i b i exp(b i ) entspricht 0-4,2188 0,015 1 10,1429 25410 Odds-Ratio für Heim, wenn Rang=0, kommt hier aber nicht vor. 2 0,7076 2,029 Odds-Ratio für Rang, wenn Heim=0 (siehe Punkt c). 3-1,7670 0,1708 Verhältnis der Odds-Ratios für Rang bei Heimspiel und Auswärtspiel (siehe letztes Ergebnis von Punkt c). 8.1 a) Einfaktorielle Varianzanalye b) Normalverteilung und Varianzhomogenität der Residuen. Überprüfen mit QQ-Plot (Normalverteilung) und Levene Test (Varianzhomogenität). c) Box-Plots 8.2 a)mehrfaches lineares Regressionsmodell erstellen. Verkaufswert ist die abhängige Größe und Wohnfläche, Grünlage und Energieffizienz sind die unabhängigen Einflussgrößen. Für gegeben Werte von Wohnfläche, Grünlage und Energieffizienz kann aus dem Modell ein Vorhersahewert für den Verkaufswert bestimmt werden. Berechnung eines Konfidenzintervalls für die Vorhersage ist zu empfehlen. 8.3 a) Sport ja Sport nein gesund 29 14 krank 12 31 b) Chi-Quadrat Unabhängigkeitstest. Alternative, da es sich um eine 2x2 Tafel handelt: Exakter Test nach Fisher. c) Nullhypothese: Es gibt keinen Zusammenhang zwischen den Faktoren Sport und Krankmeldung.