1. Ist das folgende Argument gültig? Datenanalyse Klausur SS 2014 (nicht wortwörtlich) Lösung (aus einer Nachbesprechung mit Elsenbeer) Wenn minderjährige Mörder für ihr Vergehen genauso verantwortlich sind wie Erwachsene, ist eine lebenslängliche Strafe für sie gerechtfertigt. Minderjährige Mörder sind für ihr Vergehen nicht genauso verantwortlich wie Erwachsene. Also ist eine lebenslängliche Strafe für sie nicht gerechtfertigt. a) Stellen Sie das Argument symbolisch dar. Verwenden Sie dabei M für minderjährige Mörder sind genauso verantwortlich... und L für lebenslängliche Strafe ist gerechtfertigt. Prämisse 1: M L Prämisse 2: ~M Konklusion: ~L Welche logischen Operatoren haben Sie verwendet? Benennen Sie diese. Implikation ( ) und Negation/Verneinung (~) b) Überprüfen Sie mit Hilfe einer Wahrheitstabelle die Gültigkeit des Arguments. Zuordnung Prämisse 1 Prämisse 2 Konklusion M L M L ~M ~L W W W F F W F F F W F W W W F * F F W W W * Argument ist ungültig (dazuschreiben, sonst gilt die Aufgabe als nicht gelöst!)
2. Nachfolgend sehen Sie Messwerte* zur Infiltrabilität eines Sandbodens in mm/h. Ziel der Messungen war, zu überprüfen, ob die Infiltrabilität abgenommen hat. Das arithmetische Mittel früherer Messungen lag bei 95 mm/h. Jemand schlägt Ihnen vor, einen T-Test durchzuführen. Was halten Sie davon? *In der Klausur waren es andere, wahrscheinlich realistischere Werte. Das Prinzip ist aber das gleiche. 1 25,8 2 26,3 3 26,7 4 27,8 5 29,9 6 32,4 7 35,0 8 40,3 9 51,1 10 56,3 11 57,8 12 69,2 13 95,1 14 100,3 15 106,7 16 110,2 17 122,0 18 130,3 19 145,8 Ein Histogramm/Boxplot oder die Berechnung der Abstände der Werte zum Median (56,3) ergibt, dass die Daten ziemlich rechtsschief sind (die Daten über dem Median (#11-19) sind stärker gestreut als die Daten unter dem Median (#1-9)). Der T-Test eignet sich aber nur für symmetrische oder annähernd symmetrische Datensätze.
3. H 0 sei Ihre Nullhypothese, H A Ihre Alternativhypothese und D seien Ihre Daten. Welcher Wahrscheinlichkeit entspricht der p-wert bei einem Signifikanztest bezüglich der Nullhypothese? P(D H 0 ) 4. Unterstreichen Sie die eine falsche der folgenden Aussagen: a) Die Prämissen eines deduktiven Arguments beinhalten bereits die Schlussfolgerung. b) Die Konklusion eines induktiven Arguments folgt zwingend aus den Prämissen. (Ein induktives Argument macht die Konklusion plausibler, aber nicht wahr.) c) Sind alle Prämissen eines gültigen deduktiven Arguments wahr, dann ist die Schlussfolgerung sicher wahr. 5. Sie spielen Roulette. Auf dem Roulettetisch gibt es 18 schwarze, 18 rote und 2 grüne Felder. Ihre Kugel blieb 10 mal hintereinander auf einem schwarzen Feld liegen. Wie groß ist die Wahrscheinlichkeit, dass sie beim nächsten Durchgang auf einem roten Feld liegen bleibt? 18/38, denn die Ereignisse schwarz, rot und grün sind unabhängig voneinander. 6. Was ist der Erwartungswert einer Zufallsvariablen? Erklären Sie in Worten, keine Formel! nach Wikipedia: Der Erwartungswert ist der Wert, den eine Zufallsvariable nach unbegrenzt vielen Experimenten im Mittel annimmt. Elsenbeers Lieblingslösung: Der Erwartungswert ist die Summe der Produkte aus den möglichen Werten einer Zufallsvariablen und deren Wahrscheinlichkeiten. 7. Der monatliche Temperaturverlauf im Boden folgt in etwa einer Sinuskurve. Wie groß ist der Pearson-Korrelationskoeffizient r dafür? r = 0
8. Sie führen ein Urnenexperiment durch. In der Urne befinden sich 9 Kugeln, die jeweils entweder rot oder grün sein können. Der zu schätzende Parameter ist die Anzahl roter Kugeln in der Urne. Die Datenerhebung (=Entnahme und Feststellung der Farbe einer Kugel) kann folgende Werte für die entsprechende Zufallsvariable Y liefern: Y=1 (Kugel ist rot) oder Y=0 (Kugel ist nicht rot). Sie führen eine Beobachtung durch, indem Sie eine Kugel ziehen, und stellen fest, dass diese rot (Y = 1) ist. a) Geben Sie einen plausiblen Wert für die a-priori-wahrscheinlichkeit der möglichen Parameterwerte an. 1/10 b) Wie berechnet sich die a-posteriori-wahrscheinlichkeit? Erklären Sie in Worten, keine Formel! Die a-posteriori-wahrscheinlichkeit ist gleich dem Produkt aus a-priori-wahrscheinlichkeit und Likelihood, geteilt durch die Summe der Produkte aus a-priori-wahrscheinlichkeiten und Likelihoods. c) Füllen Sie folgende Tabelle zum vorliegenden Versuch aus und beschriften Sie die entsprechenden Spalten. x i a priori likelihood Y = 1 a priori x likelihood a posteriori 0 1/10 0 0 0 1 1/10 1/9 1/90 1/45 2 1/10 2/9 2/90 2/45 3 1/10 3/9 3/90 3/45 4 1/10 4/9 4/90 4/45 5 1/10 5/9 5/90 5/45 6 1/10 6/9 6/90 6/45 7 1/10 7/9 7/90 7/45 8 1/10 8/9 8/90 8/45 9 1/10 9/9 9/90 9/45 f(y j ) Σ = 45/90 = 1/2 Σ = 1 9. Wie lesen Sie die Werte (2, 3, 4) als Vektor in R ein? Der Vektor soll die Bezeichnung b tragen. b <- c(2,3,4)
10. Der Grenzwert für die Aldicarb-Konzentration im Grundwasser ist 7ppb. Wird dieser Grenzwert in einer bestimmten Region überschritten? Nachfolgend sehen Sie einen Ausschnitt aus den Ergebnissen eines Signifikanztests mit dem Mittelwert aus 4 monatlichen Messungen c Ald, der jeweiligen Standardabweichung s, dem t-wert und dem empirischen Signifikanzniveau (p-wert): Brunnen c Ald s t p 2 24.6 2.3 15.4 0.0003 a) Welchem Zweck dienen die erhobenen Daten? Die Daten dienen der Evidenz gegen die Nullhypothese. (Denn wir haben einen Fisher- Signifikanztest vorliegen.) b) Bestimmen Sie, welche der folgenden Aussagen wahr und welche falsch sind: Die Nullhypothese wurde vollständig widerlegt. Mit Hilfe des Signifikanztests lässt sich die Wahrscheinlichkeit ermitteln, dass H 0 wahr ist. Die Alternativhypothese wurde bewiesen. Die Wahrscheinlichkeit, dass H A wahr ist, lässt sich aus den Ergebnissen ableiten. Wir können die Wahrscheinlichkeit ableiten, eine falsche Entscheidung zu treffen, falls H 0 abgelehnt wird. wahr falsch 11. Ein Test führt zu einem nichtsignifikanten Ergebnis. Unterstreichen Sie die wahre Aussage: a) Die 95%-Vertrauensintervalle überschneiden sich. b) Die 95%-Vertrauensintervalle überschneiden sich nicht. 12. Welches der folgenden Streuungsmaße verträgt Ausreißer am besten, welches am schlechtesten? MAD am besten (= median absolute deviation) d F s (= Quartilsabstand, Länge der Box beim Boxplot) am schlechtesten (= Standardabweichung der Stichprobe)
13. Es wird eine Umfrage unter Studierenden durchgeführt, ob sie glauben, dass Deutschland Weltmeister wird oder nicht. Sie wollen damit den Anteil an der gesamten Studierendenschaft derer schätzen, die glauben, dass Deutschland das Finale gewinnt. Das Vorwissen bezüglich der Meinungen wird mit einer Beta-Verteilung β(a,b) modelliert. Die Umfrage ergibt, dass y von n Studierenden an einen Sieg glauben. Wie berechnen Sie die a-posteriori Verteilung β(a',b')? Beschreiben Sie in Worten, keine Formel! (Die Aufgabe wurde gestellt, als schon klar war, dass Deutschland im Finale steht.) Um a' zu erhalten, wird die Anzahl der Erfolge (y) zu a addiert. Um b' zu erhalten, wird die Anzahl der Misserfolge (n-y) zu b addiert. 14. Wie unterscheiden sich der Signifikanztest nach Fisher und der Zweihypothesentest von Neyman-Pearson bezüglich der erhobenen Daten? Fisher verwendet die Daten als Evidenz gegen die Nullhypothese (siehe Aufgabe 10), Neyman und Pearson verwenden sie als Entscheidungshilfe zwischen zwei Hypothesen.