Ausgewählte Lösungen zu den Tutoriumsaufgaben zu Statistik I

Ähnliche Dokumente
Lage- und Streuungsparameter

Tutorium zur Vorlesung Statistik I, Prof. Dr. W. Ludwig-Mayerhofer WiSe 2009/10. Aufgabensammlung Tutorium WiSe 2009/10

Chi-Quadrat Verfahren

Statistik eindimensionaler Größen

Statistik II. Statistische Tests. Statistik II

Beschreibende Statistik Eindimensionale Daten

Willkommen zur Vorlesung Statistik

3.5 Beschreibende Statistik. Inhaltsverzeichnis

Willkommen zur Vorlesung Statistik (Master)

Lösung Aufgabe 19. ( ) = [Mio Euro]. Empirische Varianz s 2 = 1 n

Übungsbuch Statistik für Dummies

Vorlesung Wirtschaftsstatistik 2 (FK ) Wiederholungen deskriptive Statistik und Einleitung Normalverteilungsverfahren. Dipl.-Ing.

Grundlegende Eigenschaften von Punktschätzern

Analytische Statistik II

Kapitel 1: Deskriptive Statistik

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005

1.4 Der Binomialtest. Die Hypothesen: H 0 : p p 0 gegen. gegen H 1 : p p 0. gegen H 1 : p > p 0

Jost Reinecke. 7. Juni 2005

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

Angewandte Statistik 3. Semester

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE. Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße

Biomathematik für Mediziner, Klausur SS 2001 Seite 1

8. Konfidenzintervalle und Hypothesentests

Statistik und Wahrscheinlichkeitsrechnung

Statistische Grundlagen I

Einfache statistische Auswertungen mit dem Programm SPSS

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Fachrechnen für Tierpfleger

Verteilungsfunktion und dquantile

Kapitel 1 Beschreibende Statistik

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität

Aufgaben zu Kapitel 9

Kapitel 5: Einfaktorielle Varianzanalyse

1 Verteilungen und ihre Darstellung

Die zweite Form ist die Profillinie, in der die Mittelwerte aller Skalafragen in einer Übersicht übereinander dargestellt werden.

4. Kumulierte Häufigkeiten und Quantile

Bivariate Kreuztabellen

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Auswertung und Darstellung wissenschaftlicher Daten (1)

Lösungen zu den Übungsaufgaben in Kapitel 10

Bivariate Zusammenhänge

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Thema: Mittelwert einer Häufigkeitsverteilung. Welche Informationen kann der Mittelwert geben?

Mathematik für Biologen

Statistik I. Übungklausur. Prof. Dr. H. Toutenburg

Deskriptive Statistik

Zusammenhangsanalyse in Kontingenztabellen

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

I. Deskriptive Statistik 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Sonderanhang: Manuelle Berechnungen der Statistikaufgaben

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

Mathematik VERA-8 in Bayern Korrekturanweisungen für Testheft C: Gymnasium

Aussagen hierzu sind mit einer unvermeidbaren Unsicherheit behaftet, die statistisch über eine Irrtumswahrscheinlichkeit bewertet wird.

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)

N

Willkommen zur Vorlesung Statistik

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.)

Webergänzung zu Kapitel 10

Klausur Statistik I. Dr. Andreas Voß Wintersemester 2005/06

Zufallsauswahl mit R

Wie man zwei Kekssorten auf Unterschiede testet

Prof. Dr. Günter Hellmig. Aufgabenskript Induktive Statistik

Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende

Kapitel 1: Deskriptive Statistik

Willkommen zur Vorlesung Statistik

Mathematik: LehrerInnenteam Arbeitsblatt Semester ARBEITSBLATT 12. Erwartungswert, Varianz und Standardabweichung

Online-Aufgaben Statistik (BIOL, CHAB) Auswertung und Lösung

Beurteilende Statistik

Deskriptive Statistik

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

Deskriptive Statistik & grafische Darstellung

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Wir basteln uns einen Graphen.

Mathematische und statistische Methoden I

1 Zahlentheorie. 1.1 Kongruenzen

Mittelwertvergleiche, Teil I: Zwei Gruppen


Prüfgröße: Ist die durch eine Schätzfunktion zugeordnete reelle Zahl (etwa Mittelwert 7 C).

Hypothesentest, ein einfacher Zugang mit Würfeln

Tabellen und Abbildungen Dr. Z. Shi Wiss. Arbeiten

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Inferenzstatistik (=schließende Statistik)

Wiederholungsklausur zur Vorlesung Informationsökonomik

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Expertenrunde Gruppe 1: Wiederholungsgruppe EXCEL (Datenerfassung, Darstellungsformen, Verwertung)

- Beschreibung der Stichprobe(n-Häufigkeitsverteilung) <- Ermittlung deskriptiver Maßzahlen (Mittelungsmaße, Variationsmaße, Formparameter)

Transkript:

Ausgewählte Lösungen zu den Tutoriumsaufgaben zu Statistik I Rechnen mit dem Summenzeichen Zum Ausdruck 5X (x i 3) i=2 Der Ausdruck rechts vom Summenzeichen bedeutet, dass von den einzelnen Datenwerten jeweils ein Betrag von 3 abzuziehen ist; die sich ergebenden Werte sind dann aufzusummieren. Die Indizes zum Summenzeichen sagen, dass man dies nur für den zweiten bis fünften Wert der Datenreihe tun soll. Die Lösung lautet also: (160 3) + (90 3) + (20 3) + (0 3) = (160 + 90 + 20 + 0) 4 3 = 258 In der zweiten Aufgabe muss außerdem nach dem Addieren von 10 zu den einzelnen Datenwerten das Ergebnis auch noch mit sich selbst multipliziert werden; die Summierung bezieht sich auf die Datenwerte Nr. 3 bis zum letzten Wert. Häufigkeiten und graphische Darstellungen Aufgabe Kommune Zu den Aufgaben right or wrong, and explain : 70 Prozent der Befragten fahren ihre Kinder vier Mal oder häufiger... : Falsch. Kumuliert wird ja vom niedrigsten Wert her, also 0 mal. Richtig ist: 70 Prozent fahren ihre Kinder vier Mal oder seltener... Mehr als die Hälfte... fahren ihre Kinder wenigstens einmal... : Richtig. Es sind nur vierzig Prozent, die ihre Kinder nie mit dem PKW in die Schule fahren. Der Modus kann... nicht abgelesen werden : Falsch. Der Modus ist der Wert, der am häufigsten vorkommt. Da für jeden einzelnen Wert die Häufigkeiten angegeben sind, sieht man sogleich, das der Modus den Wert 0 hat. Aufgabe 23 Haushalte eines Studentenwohnheims... Stamm-Blatt Diagramm Hier ist zunächst zu entscheiden, welche Einteilung man wählt ob ein Blatt jeweils eine ganze 10er-Gruppe umfasst oder nicht. Im ersten Fall erhielte man nur fünf Blätter; üblicherweise strebt man Diagramme mit einer größeren Zahl 1

von Blättern an, um die Verteilung der Daten differenzierter beurteilen zu können. Also wird man besser Fünfer-Schritte wählen. Das Diagramm sieht dann wie folgt aus: 1 8889 2 01344 2 7779 3 23 3 59 4 3 4 889 5 13 In der Klausur würde ein ansonsten richtiges Diagramm mit nur fünf Blättern nur zu einem kleinen Punktabzug führen. Median und arithmetisches Mittel Da es sich um eine ungerade Zahl von Fällen handelt, ist der Median leicht als der 12. Fall bestimmbar; der Wert des Medians ist also 27. Das arithmetische Mittel beträgt 31,6. Die Standardabweichung beträgt 55,9. Aufgabe Histogramm zu Umsatzsteuersätzen Erste Aussage: Richtig. Links vom Wert 10 liegen zwei Säulen, die eine repräsentiert einen, die andere zwei Fälle. Rechts vom Wert 20 gibt es ebenfalls zwei Säulen, jede repräsentiert sechs Fälle. Das sind zusammen zwölf, also viel mehr als die drei Fälle < 10. Zweite Aussage: Richtig. Der Wert 21 liegt sehr weit rechts in der Verteilung, auf jedenfall in den obersten 12 Fällen, die gerade erwähnt wurden. Es gibt 35 Fälle mit dem Wert 20 oder kleiner. Irgendwo in diesen 35 Fällen muss der Median liegen (genauer gesagt: Es ist der 24. Fall). Dritte Aussage: Richtig. Es gibt einen Gipfel bei 12,5 bis 15, einen zweiten bei 17,5 bis 20. Boxplot zum Fernsehkonsum (a) Der Wert des 1. (3.) Quartils entspricht dem unteren (oberen) Rand der Box. Die Werte sind also (ungefähr) 0,5 bzw. 3,5. Das 2. Quartil entpricht der horizontalen Linie innerhalb der Box, dieser Wert ist ungefähr 1,5. Der Interquartilsabstand ist die Differenz zwischen 3. und 1. Quartil, also 3. Der Median ist das gleiche wie das 2. Quartil. 2

Man könnte für das 1. Quartil auch auf einen Wert von 0,6 kommen, die Graphik lässt das nicht ganz exakt erkennen; entsprechend wäre der Interquartilsabstand nur 2,9. Das wäre in der Klausur gänzlich unproblematisch: Es geht darum, dass Sie das Prinzip verstanden haben. (b) 1. Quartil: 25 Prozent der Studierenden sehen nicht mehr als 0,5 Stunden pro Tag fern. 3. Quartil: 75 Prozent der Studierenden sehen nicht mehr als 3,5 Stunden pro Tag fern. Aufgabe Stem and Leaf-Diagramm der Sozialhilfestatistik Der Median befindet sich an 4304. Stelle im geordneten Datensatz. Das erste Quartil befindet sich an 2152. Stelle im geordneten Datensatz, das dritte Quartil an 6456. Stelle im geordneten Datensatz. Den Wert des ersten Quartils findet man, in dem man zunächst die Häufigkeiten (Spalte Frequencies ) kumuliert: In der ersten Zeile des Stamm-Blatt-Diagrammes befinden sich 1556 Fälle (hier ist also der 2152. Fall im geordneten Datensatz noch nicht zu finden), in der ersten und zweiten Zeile zusammen befinden sich 2614 Fälle. Der Wert des ersten Quartils ist also in der zweiten Zeile des Diagramms zu finden. Zwischen dem letzten Fall, der noch zur ersten Zeile gehört, und dem gesuchten Quartil-Wert liegen noch 596 Fälle: 2152-1556=596. Es ist bekannt, dass jedes Blatt des Diagrammes 34 Fälle umfasst. Das heißt, dass der gesuchte Quartilwert durch das 18. Blatt der zweite Reihe repräsentiert ist (569/34=17,52). Dieser Wert beträgt 7 Monate. Der Wert des zweiten Quartils, also des Medians beträgt 19 Monate; der Wert für das dritte Quartil beträgt 38 Monate. 1 Mit dem zweiten Quartil-Wert verbindet sich folgende Aussage (sie ist identisch mit der Aussage zum Median): 50 Prozent der in der Stichprobe befindlichen Sozialhilfeempfänger beziehen seit 19 oder weniger Monaten Sozialhilfe, die andere 50 Prozent seit 19 oder mehr Monaten. Einfache Streuungsmaße und Box-and-Whisker-Plot Aufgabe Konstruktion eines Box-Plot Der Box-Plot muss ungefähr so aussehen wie auf der nächsten Seite zu sehen. Achten Sie auf den Hinweis unter der Graphik! Bitte beachten Sie, dass der Box-Plot am Bildschirm u.u. fehlerhaft dargestellt wird. Auf Papier ist es besser mit Ausnahme des in der Legende erläuterten Fehlers. 1 In der Klausur werden wir Sie aber nicht mit einem so komplizierten Diagramm aufhalten. Aber: Wenn Sie dieses gekonnt haben, können Sie auch einfachere! 3

Figure 1: Aus technischen Gründen fehlen leider die vertikalen Linien zwischen dem oberen bzw. unteren Rand der Box und den Enden der Whiskers Aufgabe In einer Gemeinde wurde Ende 2001... Der Modus ändert sich selbstverständlich; er entspricht dem um 30 Prozent erhöhten Modus von 2004. Ebenso ändert sich natürlich der Wert des 2. Quartils; er ist im Jahr 2004 gleichfalls 30 Prozent höher als im Jahr 2001. Auch die Varianz ändert sich (sie nimmt zu); da die Datenwerte sich prozentual ändern, wachsen die großen Datenwerte um absolute größere Beträge als die kleinen Beträge, was insgesamt die Streuung erhöht. Weil in die Varianz die quadrierten Abweichungen vom Mittelwert eingehen, nimmt die Varianz auch um mehr als 30 Prozent zu. Nur der Variationskoeffizient bleibt unverändert. Denn die Standardabweichung ändert sich um genau 30 Prozent, ebenso das arithmetische Mittel. Dividiert man Standardabweichung durch das arithmetische Mittel, kommt also der gleiche Wert heraus wie 2001. Genau dies gegenüber Änderungen der Skala invariant zu bleiben ist auch der Sinn des Variationskoeffizienten. Aufgabe Der Vorstandsvorsitzende... Das arithmetische Mittel ändert sich, denn es gehen alle Datenwerte in seine Berechnung ein. Ändern sich einige derselben (und zwar alle in die gleiche Richtung; wir nehmen mal an, dass es keine negativen Erfolgsprämien gibt...), so muss sich auch das arithmetische Mittel ändern. Der Median hingegen bleibt unverändert. Es ändern sich ja nur die Werte der beiden höchsten Perzentile. Davon bleibt der Median unberührt. 4

Das gleiche gilt für den Interquartilsabstand, der sich ja aus dem Wert des 1. und des 3. Quartils errechnet; diese sind ebenfalls von den Änderungen am obersten Rand der Verteilung nicht tangiert. Standardabweichung und Varianz ändern sich. Denn die Streuung der Daten nimmt insgesamt zu. Zum 1. Quartil siehe Interquartilsabstand. Aufgabe Taxifirmen Die Varianz für die Firma Roadrunner beträgt 6,90, die Standardabweichung 2,63; für Taxi Müller lauten die Werte 1,53 und 1,24. (Dies sind, glaube ich, die Schätzungen für die Grundgesamtheit; wenn Sie miminal kleinere Werte haben, haben Sie vermutlich auch richtig gerechnet.) Auf jeden Fall müssen Sie herausbekommen haben, dass die Varianz bei Roadrunner viel größer ist. Das sieht man natürlich schon an den Rohdaten. Im Schnitt müssen die Kunden bei beiden Firmen gleich lang auf ein Taxi warten, nämlich knapp 3,7 Minuten. Die Wartezeiten bei der Firma Roadrunner streuen jedoch viel stärker um den Mittelwert. Ob sich jetzt Kunden für Roadrunner oder Taxi Müller entscheiden, hängt von deren Risikofreudigkeit ab: Risikofreudige Kunden könnten ihr Glück bei der Firma Roadrunner versuchen, denn immerhin sind dort Wartezeiten von 0 Minuten zwei Mal aufgetreten, und Werte von 1 und 2 sind sehr häufig. Risikoscheue Taxikunden entscheiden sich für die Firma Taxi Müller, die beständiger zu sein scheint: Hier warten die Kunden zwar oft 3 Minuten, allerdings warten sie niemals länger als 6 Minuten ein beträchtlicher Unterschied zur Firma Roadrunner, die ihre Kunden auch schon mal 10 Minuten auf ein Taxi warten lässt. Konfidenzintervalle und Signifikanztests Aufgabe: Konfidenzintervall für Frauenanteil und Einkommen Frauenanteil Gehen wir von Anteilswerten aus, so beträgt der Standardfehler r r p1 (1 p 1 ) 0, 466 0, 534 = 4160 4160 was gerundet 0,0077 ergibt. Bei einer Irrtumswahrscheinlichkeit von 0,05 beträgt der dazugehörige Wert für das Quantil der Standardnormalverteilung 1,96. DieuntereGrenzedesKonfidenzintervalls ist also 0, 466 1, 96 0, 0077 = 0, 466 0, 015 = 0, 451 oder 45,1 Prozent. Die obere Grenze des Konfidenzintervalls beträgt 5

0, 466 + 1, 96 0, 0077 = 0, 466 + 0, 015 = 0, 481 oder 48,1 Prozent. Anmerkungen: In dieser Lösung wurde durchgängig mit gerundeten Werten (drei Nachkommastellen) gerechnet (das beginnt schon bei dem Anteilswert der Frauen, der ja exakt 0,466105769 beträgt). Bei noch genauerer Berechnung kommt aber (gerundet) auch nichts anderes heraus. Man kann die Lösung natürlich auch direkt in Prozentwerten berechnen, also statt 0,466 und 0,534 durchgängig 46,6 und 53,4 verwenden. Einkommen Hier ist zu beachten, dass die Standardabweichung in der Stichprobe angegeben ist. Der Standardfehler beträgt also s x = 28, 9 =0, 7225 n 1 40 Der Wert für die Untergrenze des Konfidenzintervalls ist also 82, 9 1, 96 0, 7225 = 82, 9 1, 416 = 81, 484 Für die Obergrenze des Konfidenzintervalls ergibt sich 82, 9+1, 96 0, 7225 = 82, 9+1, 416 = 84, 316 Anmerkung: Wenn Sie bei dieser Aufgabe runden, etwa beim Standardfehler mit 0,72 weiterrechnen, ist das natürlich auch ok. Bei der echten Klausur sollten Sie normalerweise Angaben erhalten, wie genau zu rechnen ist. Kreuztabellenanalyse Die folgenden Angaben sind als Musterlösung formuliert so ähnlich kann/soll es in der Klausur aussehen, wenn man die volle Punktzahl erreichen will. Aufgabe Parteipräferenz Zur Berechnung der Prozentsatzdifferenz müssen die bedingten Anteilswerte der Parteipräferenz für eine beliebige Spalte berechnet werden (Spalte deshalb, weil die Tabelle unüblich angeordnet ist; beliebige Spalte deshalb, weil es in einer Vierfelder-Tabelle egal ist, welche Spalte man wählt, weil die Prozentsatzdifferenzen sich invers zueinander verhalten). Für die Spalte CDU/CSU ergibt sich ein Prozentwert von (144/297) 100 = 48, 48, gerundet 48 Prozent für die Männer und 200/345 = 57, 97, gerundet 58 Prozent für die Frauen. Die Prozentsatzdifferenz zwischen Männern und Frauen hinsichtlich der Präferenz 6

für die CDU/CSU beträgt also -10 Prozent. (Daraus folgt, dass die entsprechende Prozentsatzdifferenz für die SPD +10 Prozent beträgt.) Für das relative Risiko der Männer, SPD zu präferieren, 2 müssen wir die bedingten Anteilswerte für SPD-Präferenz zueinander ins Verhältnis setzen. Wir erhalten also 52/42 = 1, 24. Die odds ratio gibt es nicht; es muss eine der möglichen Odds-Ratios festgelegt werden (auch wenn sich die übrigen dann daraus ergeben). Ich berechne hier die Odds Ratio für Männer vs. Frauen, und zwar für die Odds CDU/CSU vs. SPD.AuchwenndieBerechnungsichstrenggenommenaufdiebedingten Anteilswerte bezieht, rechne ich mit den absoluten Zahlen, weil das Ergebnis das gleiche, aber nicht von Rundungsfehlern beeinträchtigt ist. Odds Männer: 144/153 = 0, 97 Odds Frauen: 200/145 = 1, 38 Odds Ratio: 0, 97/1, 38 = 0, 68. Zwischenbemerkung: Die Aufgabenstellung in diesem Teil lautete, die entsprechenden Werte auszurechnen. Daher ist es nicht erforderlich, zu erläutern, was das Ergebnis nun besagt. Achten Sie in der Klausur bei solchen und anderen Gelegenheiten darauf, was verlangt ist! Weiter im Text: Zweiter Teil der Aufgabe: Alle oben genannten Ergebnisse besagen, dass in der Stichprobe ein Zusammenhang zwischen Geschlecht und Präferenz besteht. Um zu testen, ob wir mit der genannten Wahrscheinlichkeit auch berechtigt sind, einen Zusammenhang in der Grundgesamtheit anzunehmen, muss der Chi- Quadrat-Test herangezogen werden. 3 Hierzu benötigen wir zunächst die unter der Nullhypothese (kein Zusammenhang) erwarteten Häufigkeiten. CDU/CSU SPD Männlich (344 297)/642 = 159 (298 297)/642 = 138 Weiblich (344 345)/642 = 185 (298 345)/642 = 160 Die quadrierte Differenz zwischen beobachteten und erwarteten Häufigkeiten beträgt: 2 Bei dieser Teilaufgabe muss nicht begründet werden, warum man gerade dieses Risiko berechnet und wie es sich beispielsweise zum relativen Risiko, CDU/CSU zu wählen, verhält. Denn die Aufgabenstellung sagt hier klar und eindeutig, welches relative Risiko zu berechnen ist. Man erkennt jetzt vielleicht, dass man sich ein klein wenig Rechnerei gespart hätte, wenn man bei der vorherigen Aufgabe gleich die Anteilswerte für die SPD berechnet hätte. Nachdem das jetzt aber ganz einfach ist, macht ist es nichts. Und für die Punktzahl in der Klausur ist es völlig gleichgültig. 3 Streng genommen ist die Frage richtig beantwortet, wenn Sie den Chi-Quadrat-Wert angeben und die Schlussfolgerung, die daraus zu ziehen ist; die einzelnen Berechnungsschritte müssen nicht zwingend angegeben werden. Aber: Wenn sie sich verrechnen, muss bei diesem Vorgehen die ganze Aufgabe als falsch gewertet werden. Daher ist es immer besser, wenn sie die einzelnen Berechnungsschritte nachvollziehen. Wenn ich sehe, dass Sie den Lösungsweg kennen, aber sich nur etwas verrechnet haben, gibt es nur einen kleinen Punktabzug. 7

CDU/CSU SPD Männlich (144 159) 2 = 15 2 = 225 (153 138) 2 =15 2 = 225 Weiblich (200 185) 2 =15 2 = 225 (145 160) 2 = 15 2 = 225 Anmerkung: Alternativ kann in der Klausur an dieser Stelle auch folgendermaßen geschrieben werden: In einer Vier-Felder-Tabelle sind die quadrierten Differenzen zwischen beobachteten und erwarteten Werten in allen vier Feldern gleich. Daher muss der Wert nur ein Mal berechnet werden z. B. für Männlich und CDU/CSU: (144 159) 2 = 15 2 = 225. Im letzten Schritt sind nun die quadrierten Differenzen durch die erwarteten Werte zu teilen. CDU/CSU SPD Männlich 225/159 = 1, 42 225/138 = 1, 63 Weiblich 225/185 = 1, 22 225/160 = 1, 41 Der kritische Wert für eine Vier-Felder-Tabelle bei 5-prozentiger Irrtumswahrscheinlichkeit lautet 3,84. Man sieht auch ohne exakte Berechnung, dass der Chi- Quadrat-Wert, der sich durch Aufsummierung der Einzelwerte in der Tabelle ergibt, auf jeden Fall größer ist als dieser kritische Wert, denn jeder der vier Einzelwerte ist schon größer als 1. Damit kann die Nullhypothese, dass kein Zusammenhang zwischen Geschlecht und Parteipräferenz besteht, mit 5-prozentiger Irrtumswahrscheinlichkeit verworfen werden. 4 Aufgabe Fußballmannschaften Die Antwort auf die in der Aufgabenstellung formulierte Bitte lautet: Es handelt sich hier um eine Kreuztabelle. Um zu prüfen, ob die Unterschiede zufällig sind oder nicht, muss man den Chi-Quadrat-Test heranziehen. Dafür benötigt man aber die absoluten Häufigkeiten. Die gewünschte Berechnung kann mit den vorhanden Prozentwerten nicht durchgerechnet werden. Zahl der Freiheitsgrade: Antwortvariante 1: Die Zahl der Freiheitsgrade errechnet sich durch (Zahl der Zeilen 1) mal (Zahl der Spalten 1). Hier also 2 mal 1 = 2. Antwortvariante 2: Bei der Frage nach den Freiheitsgraden für Kreuztabellen geht man von der Annahme aus, dass die Randverteilung gegeben ist und fragt, 4 Selbstverständlich dürfen Sie in der Klausur auch den Chi-Quadrat-Wert exakt berechnen. Möglicherweise ist dies auch erforderlich, wenn das Ergebnis in der Tabelle nicht so klar ist wie hier. Die hier im Text skizzierte Antwort steht für das Motto Mathematik ist das Ersetzen von Rechnen durch Denken (auch wenn natürlich ein klein wenig überschlagsweise gerechnet wird). 8

wie viele Zellen in der Tabelle frei variieren können. Das sieht dann folgendermaßen aus (fiktive Zahlen eingetragen): Männer Frauen Gesamt Siege 124 Unentschieden 30 Niederlagen 46 Gesamt 100 100 200 IndenZellenkönnenjetztbeliebigeWerteauftauchen(natürlichmüssensie zur Randverteilung passen; es können maximal 100 Siege bei den Männern auftreten, weil es auch nicht mehr Spiele der Männer gibt). Also nehmen wir mal an, die Männer haben 53 mal gewonnen und 17 mal unentschieden gespielt. Jetzt liegen alle anderen Werte fest: Es müssen unter dieser Bedingung 30 Niederlagen bei den Männern sein (damit sich eine Summe von 100 ergibt), es müssen 71 Siege bei den Frauen sein (damit sich insgesamt 124 Siege ergeben), usw. (da wir jetzt zwingend wissen, dass es 30 Niederlagen der Männer gibt, liegt auch die Zahl von 16 für die Niederlagen der Frauen fest). Und deshalb gibt es hier zwei Freiheitsgrade: Zwei Werte (egal welche) können frei variieren; sobald diese gegeben sind, liegen alle anderen fest. Nehmen wir mal an, es gäbe in der Tabelle auch die Ergebnisse für die Regionalligamannschaft der Sportfreunde Siegen als dritte Spalte. Dann müssten wir (um im obigen Beispiel zu bleiben) etwa auch die Zahl der Siege und der Unentschieden der Frauenmannschaft (oder der Sportfreunde) kennen, bevor die übrigen Zahlen festliegen. Allgemein sieht man also: Die Zahl der Freiheitsgrade errechnet sich durch (Zahl der Zeilen 1) mal (Zahl der Spalten 1). Im Beispiel der Klausuraufgabe also 2 mal 1 = 2. Anmerkung: Die Antwortvariante 2 beglückt das Herz des Statistik-Professors. Aber die Antwortvariante 1 ist genauso richtig und brächte daher volle Punktzahl. Und, naja, zum Korrigieren ist die erste Variante sogar einfacher. (Wie im Text angegeben, ist eine solche Aufgabe aber ohnehin nicht zu erwarten.) 9