Klausur zur Vorlesung Statistik I und II, WS 26/27 Lösungsvorschlag Aufgabe 1 (a) (2 Punkte) (3+3+3+3+2 Punkte) Statistische Einheit: Ein neuen Kfz, Statistische Gesamtheit: Alle neuen Kfz, welche in Europa verkauft werden. Merkmal: Der CO 2 -Ausstoß pro Kilometer (in typischen Test-Szenarien) Skalierung: Kardinalskaliert (darüberhinaus verhältnisskaliert und stetig). Beispielshafte Merkmalsausprägung: z.b. 12 g/km. (b) (2+2+2 Punkte) Aufgabe 2 Zeitliche Abgrenzung: die Zukunft bzw. der Zeitraum nach Inkrafttreten des EU- Richtlinie. Räumliche Abgrenzung: Nur Kfz, welche in Europa verkauft werden. ( Europa allein ist auch OK) Sachliche Abgrenzung: Keine Lkw, Busse oder andere Verkehrsmittel wie Schiffe, Flugzeuge etc. (1+4 Punkte) Eine lineare Regression ist nur bei zwei kardinalskalierten Merkmalen sinnvoll. Da weder Städtenamen noch das Geschlecht kardinalskaliert sind, ergibt hier eine Regression (trotz der suggerrierenden Darstellung der Abbildung) keinen Sinn. Nebenbei: Sinnvoll wäre z.b. eine Korrelationsuntersuchung die Führerscheinbesitzanteile (kardinalskaliert) von Männern und Frauen in den verschiedenen Städten, welcher eine Antwort auf die Frage gibt Impliziert ein höherer Männeranteil auch einen höheren Frauenanteil oder nicht? Aufgabe 3 (4 Punkte) Bei einer Stichprobenbefragung von 1 Radbenutzern wurde nach der Länge des letzten mit dem Rad zurückgelegten Weges gefragt und das Ergebnis in folgender Tabelle zusammengefasst (Wege länger als 2 km kamen nicht vor): Entfernung (km) <.5.5-1 1-2 2-3 3-5 5-1 1-2 Zahl der Radler 42 158 22 182 187 171 4 1
(a) Relativen Klassenhäufigkeiten (4 Punkte) f k = h k n Arbeitstabelle für diesen Aufgabenteil und Teile (b),(c): Klasse (x u -x o ) x k f k F k fk D.5.25.42.42.84.5 1.75.158.2.316 1 2 1.5.22.42.22 2 3 2.5.182.62.182 3 5 4.187.789.935 5 1 7.5.171.96.342 1 2 15.4 1.4 (b),(c) Werte siehe Wertetabelle; Diagramme: (je 4 Punkte für Wertetabelle und Zeichnung 16 Punkte) F 1.9.8.7.6.5.4.3.2.1 2 4 6 8 1 12 Entfernung (km) (d) Arithmetische Mittel: f D.35.3.25.2.15.1.5 2 4 6 8 1 12 Entfernung (km) (3 Punkte) 7 x = x kf k = 3.5445. k=1 Median: Da F 3 <.5 und F 4 >.5, befindet sich der Median in Klasse 4. Also (3 Punkte) x.5 = x u 4 + (.5 F 3) x 4 f 4 = 2.44. Modus: Das Dichtemaximum liegt in Klasse ˆk = 2, da f2 D Feinberechnung mit Formel aus dem Skript: (3 Punkte) größer ist als alle anderen Dichten. x D = x u f2 D 2 + fd 1 2f2 D fd 1 fd 3 x 2 =.8537. 2
Welcher Bruchteil der Wege ist länger als 4 km? (3 Punkte) Der Bruchteil ( 1 F(4) = 1 F 4 + 4 ) ( xu 5 f 5 = 1 F 4 + f ) 5 =.345. x 5 2 Welche Weglänge wird von 75% der Wege nicht überschritten? Diese ist gleich dem Quantil (2 Punkte) x.5 = x u 5 + (.75 F 4) x 5 f 5 = 4.583. (e) (6 Punkte) Bei Stichproben aus dem laufenden Verkehr ist es wahrscheinlicher, Radler mit langen Wegen in die Stichprobe zu bekommen, da man bei langen Wegen mit erhöhter Wahrscheinlichkeit Kontrollquerschnitte überquert. Bei einer Zufalls-Stichprobe mit gleicher Wahrscheinlichkeit dafür, dass sich ein Kontrollpunkt auf einem bestimmten Kilometer des Gesamtnetzwerkes befindet, ist die Wahrscheinlichkeit proportional dem Anteil der Fahrleistung der entsprechenden Klasse. Damit gilt für die Klasse 7 unter der Annahme, dass f 7 die tatsächliche relative Häufigkeit der Wege der Klasse 7 in der Grundgesamtheit darstellt: p 7 = f 7x 7 x =.1693. Diese Wahrscheinlichkeit ist um den Faktor x 7 / x = 4.23 größer als die relative Häufigkeit f 7 für außerhalb des Verkehrsflusses erhobenen Stichpoben! Aufgabe 4 (a) (2 Punkte) (2+2+2 Punkte) Das geeignete Maß für die Verkehrssicherheit ist die personenbezogene Risikokennziffer. Bei der Zahl der Straßenverkehrstoten würden Länder mit großer Verkehrsleistung zu schlecht gemacht und außerdem Vergleiche mit der Vergangenheit mit i. A. geringerer Verkehrsleistung verzerrt, d.h. die Gegenwart zu schlecht gemacht. Bei der fahrzeugbezogene Risikokennziffer würden Verkehrsmittel mit hohem Besetzungsgrad (Busse, Bahnen, Flugzeuge, Schiffe) zu schlecht gemacht. Die i. A. hohen Opferzahlen bei schweren Unfällen dieser Verkehrsmittel relativieren sich dadurch, dass z.b. eine Zugfahrt 1 Pkw-Fahrten ersetzt. Der Bezug auf die zurückgelegte Strecke ermöglicht darüberhinaus einen Vergleich verschiedener straßengebundener Modi (Motorrad, Kfz, Bus). Ansonsten stünde z.b. das Motorrad mit i. A. weniger Kilometern pro Jahr zu gut und Busse sowie Taxis zu schlecht da. (b) (5+5 Punkte) 3
(c) Sei n die Fahrzeugzahl, t die Zahl der Verkehrstoten, L = 12 km/jahr und I der Besetzungsgrad. dann gilt Fahrzeugbezogene Risikokennziffer r Fz = t Ln Personenbezogene Risikokennziffer r Pers = t LnI Jahr 196 197 199 25 Kfz (Mio) 11.6 2.8 43.6 56.3 Mittlere Insassenzahl 1.6 1.5 1.4 1.4 Straßenverkehrstote 16 447 21 332 11 46 5 361 Fahrzeugbezogene Risikokennziffer (Tote/Mrd km) 118.2 85.5 21.1 7.9 Personenbezogene Risikokennziffer (Tote/Mrd km) 73.8 57. 15.1 5.7 Gegenüber 197 ist das Risiko bei einem festen Weg im Jahre 25 um den Faktor geringer. r Pers (197) r Pers (25) = 1 (4 Punkte) Bei den Verkehrsunfällen sind auch Fußgänger und Radfahrer in wchselnden Anteilen eingeschlossen (reicht zur Beantwortung dieser Teilaufgabe). Deren Anteile steigen ständig, so dass für diese Verkehrsteilnehmer der Verkehr nicht 1 mal sicherer geworden ist, zumal hier der Bezug auf die Kfz-Verkehrsleistung problematisch ist. Autofahren selbst hingegen wurde eher mehr als 1 mal sicherer. Außerdem sind nach diesem Maß Flugzeuge außerordentlich sicher, aber es wird nicht berücksichtigt, dass Flugzeuge erst zum Zurücklegen weiter Strecken verleiten. Trotz mehrerer Unfälle (Challenger, Columbia) sind übrigens Raumfähren nach diesem Kriterium nicht extrem unsicher (Nach einem Jahr Erdumrundungen hat man etwa 3 Millionen km zurückgelegt!). Aufgabe 5 (4 Punkte) Ein Fußgänger beachtet die Verkehrsregeln und geht nur bei Grün über Straßenübergänge mit Lichtsignalanlagen. Auf den Weg zur Arbeit und zurück muss er jeweils einen signalisierten Übergang überqueren. Die Ampel hat keine Grün-Anforderung, 6 s Rotphase und 3 s Grünphase. (a) Verteilungsfunktion für die Wartezeit x in Sekunden bei zufälliger Ankunft: Die Verteilungsfunktion F(x) ist die Wahrscheinlichkeit dafür, dass die Wartezeit kleiner oder gleich x Sekunden beträgt. Offensichtlich kann x nur sein. Deshalb F(x) = für x < Mit der Wahrscheinlichkeit p = 3/9 = 1/3 erreicht der Fußgänger den Übergang bei grüner Ampel, muss also nicht warten (x = ). Also F() = 1/3. Die maximale Wartezeit beträgt 6 Sekunden, deshalb F(x) = 1 für x > 6. 4
Falls der Fußgänger warten muss, ist wegen der zufälligen Ankunft die Wartezeit zwischen und 6 Sekunden gleichverteilt mit der Dichte f(x) = 2/3 1/6 (die 2/3 kommen daher, da der Fußgänger nur mit dieser Wahrscheinlichkeit überhaupt warten muss, also F(6) F() = 2/3). Damit ist für x 6 die Verteilungsfunktion gegeben durch F(x) = 1 3 + x 9. (b) Zu betrachten: 2*2=4 Überquerungen. Bedingungen des Zentralen Grenzwertsatzes (ZGWS) (nicht verlangt!) Unabhängig: Da es sich um einen reinen Fußweg handelt, hängt die Ampelphase bei Erreichen nicht von irgendwelchen Synchronisationen ( Grüne Welle ) ab. Abgesehen von dem Fall, dass der Fußgänger die Ampel an jedem Tag minutengenau zur selben Uhrzeit erreicht, ist auch eine mögliche Kopplung an die Uhrzeit (welche ihrerseits die Ampelphase bestimmen könnte) ausgeschlossen. Die 4 Zufallsereignisse Wartezeit X i bei Überquerung i sind also unabhängig. Endliche Varianz. Da die Varianz nie größer als die Spannweite R zum Quadrat sein kann, ist mit R = 6 diese Bedingung erfüllt. Die größte Einzelvarianz darf höchstens 1/3 der Gesamtvarianz sein. Dies ist bei 4 identisch verteilten Summanden (i.i.d, independent, identically distributed variables) mit Beiträgen von jeweils 1/4 der Gesamtvarianz der Fall. Der ZGWS sagt aus, dass die Gesamtwartezeit mit 4 Y = X i N(µ y, σy) 2 µ = 4µ x, σ 2 y = 4σ 2 x. Berechnung von Erwartungswert µ x und Varianz σ 2 x der Zufallsvariablen X i : Hier muss man berücksichtigen, dass X sowohl diskrete als auch stetige Anteile hat: Mit der Wahrscheinlichkeit p = 1/3 ist X =, Für < x 6 ist X gleichverteilt mit der Dichte f(x) = 1/9. Erwartungswert: 6 µ x = p + xf(x) dx = [ ] x 2 6 = 2. 18 Alternativ anschaulich: Mit Wahrscheinlichkeit 1 p = 2/3 muss gewartet werden, und zwar im Mittel 3 Sekunden, also µ x = 2 3 3 = 2. Varianz: 6 σx 2 = x 2 f(x) dx µ 2 x = [ ] x 3 6 4 = 27 21 6 27 4 = 4. 5
Damit ist die Gesamtwartezeit Y N(8, 4 2 ). (c) Wahrscheinlichkeit für eine Wartezeit größer 2 h (Y > 7 2): ( ) 7 2 8 P(Y > 7 2) = 1 F(7 2) = 1 Φ = 1 Φ( 2) = Φ(2) =.9772. 4 Wahrscheinlichkeit für eine Wartezeit kleiner 2 1/2 h (Y < 9 ): ( ) 9 8 P(Y < 9 ) = F(9 ) = Φ = Φ(2.5) =.9938. 4 Aufgabe 6 (45 Punkte) Die Zahl der Kfz pro 1 Einwohner in den großen chinesischen Städten wird durch folgende Zeitreihe beschrieben: Jahr 1985 199 1995 2 25 Kfz/1 Einwohner 18 26 48 61 13 (a) Exponentielle Regression ist hier angemessener als eine lineare, da es sich (i) um einen Wachstumsprozess handelt ( fundamentale Begründung), (ii) die Quotienten, nicht jedoch die Differenzen zwischen jeweils einem Fünf-Jahres-Zeitraum annähernd konstant sind ( technische Begründung). (Eine Begründung ist ausreichend für volle Punktzahl dieser Teilaufgabe) (b) Arbeitstabellefür x (Jahreszahl 1985), y (Kfz/1 Einwohner) und z = ln(y): x i y i z i x 2 i x i z i 18 2.89. 5 26 3.258 25 16.29 1 48 3.871 1 38.71 15 61 4.111 225 61.66 2 13 4.635 4 92.69 Damit in der transformierten Variablen z = ln(y) mit x = 1, z = 3.753: 5 x i z i 5 x z ẑ(x) = ã + bx, b = =.868, ã = ȳ b x = 2.885. 5 x 2 i 5 x2 Nach Rücktransformation erhält man ŷ(x) = eẑ(x) = eãe bx = ae bx, a = eã = 17.9, b =.868. Prognose für 21, d.h.x = 25: ŷ(25) = ae 25b = 156.9 (Fahrzeuge/1 Einwohner) 6
Zur Veranschaulichung (nicht verlangt) Plots: Zahl der Kfz pro 1 Einwohner 18 16 14 12 1 8 6 4 2 1985 199 1995 2 25 21 215 Jahr ln(zahl der Kfz pro 1 Einwohner) 5.5 5 4.5 4 3.5 3 2.5 1985 199 1995 2 25 21 215 Jahr (c) Jährlichen Wachstumsfaktor und Wachstumsrate: I regr = Messzahlen direkt: I data = ŷ(x + 1) ŷ(x) ( y5 y 1 = e b = 1.97, r regr = I regr 1 =.97 = 9.7%. ) 1 2 = 1.911, rdata = I data 1 =.911 = 9.11%. Die Messzahlen aus der Regression und direkt aus den Daten mit Hilfe des geometrischen Mittels sind also nahezu identisch! (d) Bestimmtheitsmaß (in den nichttransformierten Variablen): B y = 1 s2 e s 2 y mit der Gesamtvarianz s 2 y = 1 5 n yi 2 ȳ2 = 95.4. der Residualvarianz s 2 e = 1 5 n (y i ŷ(x i )) 2 = 11.31. Damit ist B y =.9875. Die exponentielle Regression ist besser, solange das Bestimmtheitsmaß für die lineare Regression schlechter (also kleiner) ist. (e) Im Jahre 21 wäre die naive Prognose mit Hilfe der Exponentialfunktion ŷ(21 1985) = ŷ(115) = 388 6, also mehr als 388 Fahrzeuge pro Person. Wie bei vielen Wachstumsprozessen setzen irgendwann die berühmten Grenzen des Wachstums ein, welche zu einer Sättigung, z.b. in der Region y = 1 (ein Kfz pro Person) oder darunter, führen. Geeignet sind z.b. die logistische Funktion (aus der Vorlesung), aber auch z.b. die tanh Funktion (Tangens Hypebolicus). 7
Aufgabe 7 (3 Punkte) Heute um 2:45 findet das UEFA-Cup Fußball-Rückspiel Ajax Amsterdam gegen Werder Bremen statt. Die Quoten eines einschlägigen Anbieters von Sportwetten sind folgende: Ereignis Amsterdam gewinnt Bremen gewinnt Unentschieden Quote (am 15.2) 2.6 3.2 2.4 (a) Nach den Angaben gilt fü die Ereignisse i =A, B oder U mit den dazugehörigen Quoten q i, dass die Wahrscheinlichkeiten p i proportional zu den inversen Quoten sind. Die Proportionalitätskonstante ergibt sich aus der Normierungsbedingung: p i = c q i, p 1 + p 2 + p 3 = 1 p i = 1/q i 1/q 1 + 1/q 2 + 1/q 3 Mit q 1 = q A = 2.6, q 2 = q B = 3.2 und q 3 = q U = 2.4 gilt p A =.345, p B =.281, p U =.374. Hintergrund (nicht verlangt): Die subjektiven Definition kann überall dort zum Einsatz kommen, wo man mit richtigen Voraussagen Geld (oder Ehre) gewinnen kann, man mit seiner Entscheidung den Markt beeinflusst, so dass sichere Gewinne unmöglich werden und die Gewinnfunktion eine kardinalskalierte Größe ist. Hier kann man mit richtigen Tipps reales Geld (kardinalskaliert) gewinnen und beeinflusst mit seinen Entscheidungen den Markt, zumindest indirekt über den Einfluss auf die Quoten des Anbieters. (b) Seien die Anteile der Wetteinsätze auf die Ereignisse i = A,B oder U durch θ i gegeben. Dann ist der Erwartungswert des Gewinns des Wettanbieters in Einheiten des Gesamteinsatzes gegeben durch 3 3 G = 1 θ i p i q i = 1 θ i 1 3 j=1 1 q j = 1 1 =.12. 3 1 q j j=1 Hier wurde die Normierungsbedingung i θ i = 1 verwendet. Der Wettanbieter gewinnt also, unabhängig davon, auf welches Ereignis die Spieler setzen, im Mittel 1% der Einsätze. Wichtig ist dabei nur, dass die subjektive Wahrscheinlichkeit die tatsächliche widerspiegelt. Beeinflussen Wettbetrüger die tatsächlichen Ausgänge (z.b. durch Bestechung des Schiedsrichters und gleichzeitig hohe Einsätze auf den begünstigten Club), kann der Erwartungswert des Gewinns des Anbieters durchaus negativ werden! (c) Statistische Wahrscheinlichkeiten = relative Häufigkeiten in der Zeitreihe der Vergangenheit: p stat A = 3 4, p B = 1 4, p U =. Die klassische Laplace sche Definition kann man nicht anwenden, da man die Grundgesamtheit, welche auch alle möglichen Spiele in der Zukunft mit einschließt, nicht abzählen kann. Außerdem sind die Elementarereignisse (z.b. 2:, 2:1, 4:2 etc für das Ereignis A) nicht gleich wahrscheinlich. 8
Bemerkung am Rande: Am 17.2. hat Werder Bremen unerwartet gegen irgendein Bundesliga- Schlusslicht verloren. Daraufhin wurden auch die Quoten verändert, z.b. Stand 2.2.7, 2:3 h: q A = 2.4, q B = 2.7, q U = 3.2. Die Gewinnwahrscheinlichkeit für Bremen beträgt damit nur noch p B =.337 statt.374 (in Klausur der Wert von p U, da ich dort p A und p U vertauscht hatte). Aufgabe 8 (4 Punkte) Die Zahl der Wege pro mobiler Person und Tag, welche mit dem ÖPNV zurückgelegt werden, ist in Dresden durch folgende Zeitreihe gegeben (Verkehrserhebung SrV): Jahr 1991 1994 1998 23 Mittl. ÖPNV-Wegezahl.69.71.63.62 (a) Lineare Regression unter Verwendung der angegebenen Zwischengrößen x = 1996.5, ȳ =.6625 und s 2 x = 2.25 sowie der berechneten Summe 4 x i y i = 529.13 b = 4 x i y i 4 xȳ 4s 2 x =.735, a = ȳ b x = 15.328. und daraus z.b. mit der Referenz x = 199: bzw. mit der Referenz x = : Prognose für 28: (b) Test-Statistik mit b = und n = 4: Realisierung t B von T B aus der Stichprobe: ŷ(x) =.712 + ˆb(x 199). ŷ(x) = 15.328 + ˆbx. ŷ(28) =.712 + 18ˆb =.578. T B = 4 ˆBs x ˆσ R T(2). t B = 2ˆbs x ˆσ R = 2.41. Dabei wurde der angegebene Schätzer ˆb =.7346 des Regressionskoeffizienten, sowie s x = 4.5 und der Schätzer der Residualvarianz aus den Daten verwendet: ˆσ 2 R = 1 n 2 n (y i ŷ(x i )) 2 =.7522. n=1 Die Nullhypothese ÖV-Wegezahlen sinken nicht ist bei α =5% nicht widerlegbar, falls t B > t (2) 1 α = t(2).95 = 2.92. Dies ist eine wahre Aussage man kann nicht auf eine sinkende Wegezahl schließen! 9
(c) Konfidenzintervall bei 1% Fehlerwahrscheinlichkeit für die Prognose 28: mit y(28) [ŷ(28) (28), ŷ(28) + (28)] ŷ(28) =.578, (28) = σŷ(28)t (2) 1 α/2 =.938. Hier wurde mit der Formel in der Aufgabenstellung und der dort gegebenen Größen σŷ(28) = σŷ 2 (28) =.32 berechnet sowie t (2) 1 α/2 = t(2).95 = 2.92 verwendet. Damit ist das Konfidenzintervall y(28) [.484,.672]. (d) Bei der längeren Zeitreihe erstrecken sich die Datenpunkte in die frühere DDR hinein. Durch die Umwälzungen zur Wendezeit ist sicher die Annahme der Homoskedastizität (die Varianz der Abweichungen der einzelnen Datenpunkte von der Regressionsfunktion ist konstant) und damit eine der Annahmen der Konfidenzintervall-Schätzung von Regressionsfunktionen nicht erfüllt. (die Erwähnung der Wende allein reicht zur Beantwortung dieses Teils). 1