Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik II (mit Kurzlösung) Wintersemester 2008/2009 Aufgabe 1 Im Rahmen einer Bildungsstudie wurden auch die mathematischen Kenntnisse von 1000 zufällig ausgewählten Abiturienten/innen überprüft. Dabei stellte sich heraus, dass 300 der Befragten nicht in der Lage waren zu berechnen, wieviel 12,5% von 180 ist und wieviel Wochenlohn eine Reinigungskraft bekommt, wenn sie an fünf Tagen einer Woche je zwei Stunden für einen Stundenlohn von 6,50 Euro arbeitet. a) Berechnen Sie 12,5% von 180 und den Wochenlohn der Reinigungskraft. b) Um das Ausmaß dieser Katastrophe erfassen zu können, beauftragt Sie die Kultusministerkonferenz, ein Konfidenzintervall für den wahren, aber unbekannten Anteil der Abiturienten/innen, die nicht in der Lage sind, die gestellten Rechenaufgaben zu lösen, zu schätzen (1 α = 0,9). c) Sie sind sich sicher, dass dies noch eine grobe Verharmlosung ist und dass der Anteil bei über 32% liegt. Führen Sie einen geeigneten Test durch (1 α = 0,95). d) Ein statistikbewanderter Kollege entgegnet darauf, dass aufgrund der Ergebnisse der Teilaufgabe b) ein Test überflüssig sei. Wie ist der Einwand des Kollegen zu verstehen?
Aufgabe 2 (I) Das Marktforschungsinstitut Geefka möchte die Wirksamkeit von bestimmten Werbemaßnahmen für Joghurt testen. Hierzu werden unterschiedliche Werbemaßnahmen (Prospekt-, Plakat-, Rundfunkwerbung etc.) für je eine von fünf verschiedenen Joghurt-Marken in einer Großstadt durchgeführt. Durch Befragungen zufällig ausgewählter ortsansässiger Personen nach der bevorzugten Joghurt-Marke soll ermittelt werden, ob die Werbemaßnahmen einen Einfluß auf die Beliebtheit einer Joghurt-Marke haben. In der nachfolgenden Tabelle sind die Umfrageergebnisse dargestellt. bevorzugte Joghurt-Marke Stichprobenumfang Fruchti Wolke7 Yogi Donena Alpi 120 16 28 32 24 20 Überprüfen Sie mit Hilfe eines geeigneten statistischen Tests, ob sich die Präferenz der Kunden auf die einzelnen Joghurt-Marken gleichverteilt (α = 0,05). Interpretieren Sie die Testergebnisse inhaltlich und vor dem Hintergrund des Fehlerrisikos. (II) Es wird ein neuer Magerjoghurt namens Federleicht auf den Markt gebracht, der ganz besonders die weiblichen Käufer ansprechen soll. Nach einer Einführungsphase mit geeigneten Werbeaktionen wählt der Mitarbeiter P.R. des Marktforschungsinstituts Geefka zufällig 3407 Personen in einer Großstadt aus und führt eine Befragung durch. Dabei ermittelt er unter anderem das Geschlecht und stellt die Frage Haben Sie in den letzten 30 Tagen den Magerjoghurt der Marke Federleicht gekauft?. P.R. will der Frage nachgehen, ob der Kauf des Joghurts Federleicht vom Geschlecht des Käufers abhängt. In der folgenden Tabelle sind die Ergebnisse seiner Befragung dargestellt. Geschlecht Kauf 0= nein 1= ja 0= männlich 1331 427 1= weiblich 1292 357 Mit Hilfe der Statistik-Software R führt P.R. eine geeignete statistische Untersuchung durch und erhält folgenden Output: > summary(untersuchung) Call: xtabs(formula = ~ geschlecht + kauf) Number of cases in table: 3407 Number of factors: 2 Test for independence of all factors: Chisq = 3.346, df = 1, p-value = 0.06737 a) Welche Untersuchung führt P.R. durch? b) Interpretieren Sie seine Ergebnisse ausführlich.
Aufgabe 3 Ein forstwirtschaftlicher Betrieb will untersuchen, ob durch die gestiegene Luftverschmutzung das Wachstum von Eichen gehemmt wird. Um dieser Frage nachzugehen, sammelt der Förster Horst Silberwald bei seinem ersten Herbstspaziergang zufällig drei Eichenblätter und untersucht deren Länge X i mit i = 1, 2, 3. Dem Förster ist bekannt, dass die Länge X von Eichenblättern hinreichend genau normalverteilt ist. Für eine Punktschätzung der durchschnittlichen Blattlänge µ schlägt er die Schätzfunktionen vor. T (1) 3 = X 1 + X 2 + X 3 3 und T (2) 3 = 1 4 X 1 + 1 2 X 2 + 1 4 X 3 a) Ihnen ist bekannt, dass Erwartungstreue und Effizienz zu den wünschenswerten Eigenschaften von Schätzfunktionen zählen. Erklären Sie diese beiden Begriffe verbal und formal. b) Welche der beiden vorgeschlagenen Schätzfunktionen T (1) 3 und T (2) 3 würden Sie vorziehen? Begründen Sie Ihre Entscheidung. c) Aus der Biologie weiß man, dass die durchschnittliche Blattlänge von Eichenblättern einen Mittelwert von µ = 8,0 cm und eine Varianz von σ 2 = 9 cm 2 besitzt. Zwischen 7,5 und 8,5 cm Blattlänge gelten Eichenblätter als gesund ausgebildet. Förster Silberwald wählt nun zufällig 100 Eichenblätter aus. Mit welcher Wahrscheinlichkeit wird das Stichprobenmittel dieser 100 Blätter im Normbereich für gesunde Eichenblätter liegen?
Aufgabe 4 (I) Bei einer Kaninchenausstellung wurden 150 Kaninchen von einer Jury nach den Kriterien Körperhaltung und Fellqualität begutachtet. Beide Kriterien wurden jeweils mit gut oder mangelhaft bewertet. 48% der Kaninchen hatten eine gute Fellqualität. Bei 88% der Kaninchen wurde mindestens eines der beiden Kriterien mit gut bewertet. Nur 48 Kaninchen erhielten die Note sehr gut, da sie bei beiden Kriterien mit gut bewertet wurden. Berechnen Sie die Wahrscheinlichkeit, dass a) ein zufällig ausgewähltes Kaninchen keine gute Fellqualität besitzt, b) ein zufällig ausgewähltes Kaninchen eine gute Körperhaltung besitzt, c) ein zufällig ausgewähltes Kaninchen mit sehr schlecht bewertet wurde, weil es sowohl eine mangelhafte Fellqualität als auch eine mangelhafte Körperhaltung aufweist. (II) Für die Teilnahme an der Kaninchenausstellung ist eine formale Anmeldung notwendig. Bei den Organisatoren sind während der Anmeldefrist von vier Wochen durchschnittlich 2 Anmeldungen pro Tag eingegangen. a) Wie ist die Zufallsvariable Anzahl der Anmeldungen pro Tag verteilt und wie lautet der Parameter? b) Wie groß ist die Wahrscheinlichkeit, dass sich an einem Tag mehr als vier Kaninchenzüchter angemeldet haben? (III) Die Häufigkeit sozial unerwünschter oder strafbarer Handlungen wird in Umfragen meist unterschätzt, z.b. wenn direkt gefragt wird Würden Sie eine rechtsradikale Partei wählen?. Sie haben in der Vorlesung ein statistisches Verfahren kennen gelernt, um die tatsächliche Häufigkeit korrekt schätzen zu können. Wie heißt diese Technik? Skizzieren Sie das Vorgehen kurz (keine Berechnung).
Aufgabe 5 (R-Aufgabe) (I) Am Samstag Abend lief die beliebte Show Wer bist du?. Aus Erfahrung weiß man, dass 63% der Bamberger Bevölkerung diese Sendung sehen. Sie wählen zufällig 13 Personen aus der Bamberger Bevölkerung aus. Bei diesem Verfahren kann eine Person mehrfach ausgewählt werden. a) Wie ist die Anzahl der Personen, die das Spiel gesehen haben, verteilt? b) Wie kann man mit R die Wahrscheinlichkeit berechnen, dass genau 7 Personen das Spiel gesehen haben? c) Berechnen Sie mit R die Wahrscheinlichkeit, dass von 13 Personen, die Sie zufällig auswählen, weniger als 10, aber mindestens 5 die Sendung gesehen haben. (II) Der Aufruf?rhyper lässt u. a. folgende Information erscheinen: The Hypergeometric Distribution Description Density, distribution function, quantile function and random generation for the hypergeometric distribution. Usage dhyper(x, m, n, k, log = FALSE) phyper(q, m, n, k, lower.tail = TRUE, log.p = FALSE) qhyper(p, m, n, k, lower.tail = TRUE, log.p = FALSE) rhyper(nn, m, n, k) Arguments x, q: vector of quantiles representing the number of white balls drawn without replacement from an urn which contains both black and white balls. m the number of white balls in the urn. n the number of black balls in the urn. k the number of balls drawn from the urn. p probability, it must be between 0 and 1. nn number of observations. If length(nn) > 1, the length is taken to be the number required. log log.p logical; if TRUE, probabilities p are given as log(p). lower.tail logical; if TRUE (default), probabilities are P[X <= x], otherwise, P[X > x].
Es wird nun eine Gruppe von k Personen betrachtet, die die Sendung gesehen haben. Mit dem folgenden R Befehl wird simuliert, dass aus der Gruppe j Personen ausgewählt werden, um gefragt zu werden, ob sie die Sendung gut fanden. rhyper(1,8,6,7) a) Erklären Sie welches Modell der Simulation zu Grunde liegt. b) Welche Werte haben k und j? c) Wie viele Personen sind in der Gruppe, die die Sendung als gut einstufen? (III) Es soll untersucht werden, ob sich die Zuschauer der Sendung Wer bist du? im Bezug auf die Dauer, die sie durchschnittlich pro Woche vor dem Fernseher verbringen (Gesamtdauer) von denen unterscheiden, die die Sendung nicht gesehen haben. Der Vektor a enthält die Gesamtdauern der Zuschauer der Sendung, der Vektor b, die Gesamtdauern derer, die die Sendung nicht gesehen haben (jeweils in Stunden). Es wird der folgende Test durchgeführt: t.test(a,b,alternative= less,mu=2, paired=false,var.equal=true,conf.level=0.95) a) Welche Hypothese soll hier nachgewiesen werden? Interpretieren Sie diese auch inhaltlich. b) Was bedeutet die Wahl paired=false, var.equal=true und conf.level=0.95? c) Es ergibt sich ein p Wert von 0.4. Was bedeutet das?
Lösung zu Aufgabe 1 a) 12,5% von 180 sind 22,5 Wochenlohn: 65 Euro b) Approxiamtionsbedingungen: 0, 1 < p = 0, 3 < 0, 9 und np(1 p) > 9 approximatives 90%-Konfidenzintervall für Anteilswerte: c) approximativer Anteilswerttest KI = [0,2761; 0,3238] 1,3558 < 1,6448 Nullhypothese nicht ablehnen, d.h. das Testergebnis stützt These nicht. d) Das KI beinhaltet alle Werte, für welche die Nullhypothese nicht verworfen werden kann.
Lösung zu Aufgabe 2 (I) χ 2 -Anpassungstest Approxiamtionsbedingungen: k 8 np 0 i 5 χ 2 = 6,6668 χ 2 0,95 (4) = 9,49 Nullhypothese auf einem Signifikanzniveau von α = 0,05 nicht ablehnen. (II) a) χ 2 -Unabhängigkeitstest b) Test auf Unabhängigkeit zwischen Geschlecht und Magerjoghurtkauf. bei zu hohem Wert der Teststatistik wird die Hypothese verworfen.
Lösung zu Aufgabe 3 a) Erwartungstreue: E(T n ) = θ Im Mittel über alle Stichproben fehlerfreie Schätzung von θ. Effizienz: Gilt V ar(t (1) n ) < V ar(t (2) n ) so heißt T (1) n effizienter als T (2) n. b) Erwartungstreue: E(T (1) 3 ) = µ X nachrechnen E(T (2) 3 ) = µ X nachrechnen Effizienz: V ar(t (1) 3 ) = 1 3 σ2 X V ar(t (2) 3 ) = 3 8 σ2 X T (1) 3 vorzuziehen! c) P (7,5 < X < 8,5) = P (X < 8,5) P (X < 7,5) = 0,905
Lösung zu Aufgabe 4 (I) a) P( keine gute Fellqualität )= 0, 52 b) P( gute Körperhaltung )= 0, 72 c) P( sehr schlecht )= 0, 12 (II) a) X P oi(λ = 2) b) P (X > 4) = 0,0527 (III) Randomized Response. Interviewer weiß nicht, ob die Antwort, die er erhält stimmt, da durch Zufallssprozess gesteuert.
Lösung zu Aufgabe 5 I) a) Binomialverteilt mit prob = 0.63 und size = 13. b) dbinom(x=7,prob=0.63,size=13) c) pbinom(x=9,prob=0.63,size=13)-pbinom(x=4,prob=0.63,size=13) II) a) Urnenmodell, Auswahl ohne Zurücklegen (hypergeometrische Verteilung) b) k= 14; j =7 c) 8 Personen III) a) Zuschauer der Sendung schauen durchschnittlich pro Woche mindestens 2 Stunden weniger TV als Nicht-Zuschauer. b) unverbundener t-test; Varianz in beiden Gruppen gleich; Konfidenzniveau = 0,95. c) Nullhypothese nicht ablehnen.