Nacht des Wissens Paradoxes aus der Wahrscheinlichkeitsrechnung Oder warum unser Bauchgefühl oft kein guter Ratgeber ist Prof. Dr. Veith Tiemann EBC Hochschule Hamburg tiemann.veith@ebc-hochschule.de Hamburg, am 2. November 2013 1
Inhaltsverzeichnis 1 Zitate Statistik? Paradox? 3 2 Ein paar Ziegen Statistik? 4 3 Die erste Ziffer Statistik? 10 4 Drei Kisten mit Münzen Statistik! 16 5 Geburtstage Statistik und hacken? 18 6 Anhang 19 6.1 Ziegenproblem............................................. 19 6.2 Das Ziffernproblem........................................... 24 6.3 Das Kistenproblem........................................... 27 6.4 Das Geburtstagsproblem........................................ 28
1 ZITATE STATISTIK? PARADOX? 1 Zitate Statistik? Paradox? Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write. H.G. Wells, (1866 1946). Es ist mir noch heute rätselhaft, dass man herausbringt, was 60 Millionen Menschen denken, wenn man zweitausend befragt. Erklären kann ich das nicht. Es ist eben so. Elisabeth Noelle-Neumann, Meinungsforscherin Paradox Wikipedia 3
2 EIN PAAR ZIEGEN STATISTIK? 2 Ein paar Ziegen Statistik? Eine Wette mit zwei Ziegen und einem Auto Sie haben es in die letzte Runde der Spielshow Geh aufs Ganze! bzw. die amerikanische Originalshow Let s make a deal! geschafft. Vor Ihnen befinden sich drei verschlossene Türen. Hinter zwei Türen ist jeweils eine Ziege, hinter einer ein Auto versteckt. Sie dürfen sich vor eine Tür stellen, zum Beispiel Tür 3. Der Moderator, der natürlich weiß, was hinter welcher Tür versteckt ist, öffnet eine Tür. Natürlich nicht die, hinter der das Auto versteckt ist, und auch nicht die, welche Sie sich ausgesucht haben. Er öffnet zum Beispiel Tür 1. Sie sehen eine Ziege. Nun bietet der Moderator Ihnen Folgendes an: Sie bleiben bei Ihrer Ursprungswahl (Tür 3), oder Sie wechseln zur anderen noch verschlossenen Tür (Tür 2). Sie bekommen anschließend das, was hinter der Tür ist. Wie sollten Sie sich verhalten? Sie wollen natürlich das Auto gewinnen. Das ist das Ziegenproblem 4
2 EIN PAAR ZIEGEN STATISTIK? Abbildung 1: Das Ziegenproblem was tun? 5
2 EIN PAAR ZIEGEN STATISTIK? Ja, das ist gar nicht so einfach und gemein paradox. In der Wahrscheinlichkeitsrechnung führen (fast) immer drei Wege zum Ziel: 1. Ausrechnen: per Formel das ist oft nicht so einfach, dazu gehört in der Regel eine gute Portion Formelerfahrung 2. Aufschreiben: was kann alles passieren man muss sich alle möglichen Ausgänge des Experiments vor Auge führen, oftmals sind das zu viele 3. Simulieren: das Experiment nachspielen das kann der Rechner übernehmen oder man baut das Experiment nach. Wir wollen mit dem 3. Fall beginnen. Im Grunde benötigt man nur drei Tassen und drei Gegenstände, die Ziege und Auto darstellen. Es geht auch mit dem Rechner... 6
2 EIN PAAR ZIEGEN STATISTIK? Fall zwei schaffen wir auch. Wir nehmen einmal an, der Kandidat hätte Tor 1 ausgewählt. Die folgende Tabelle zeigt dann, was überhaupt alles passieren kann. Jede Zeile weist natürlich die Wahrscheinlichkeit 1/3 auf die Tabelle sieht für die beiden anderen Fälle völlig strukturgleich aus: Auto Moderator nie wechseln immer wechseln 1 2 oder 3 1 0 2 3 0 1 3 2 0 1 Summe: 1 2 Tabelle 1: Ziegenproblem Was kann passieren? Alles klar ;-) Stellen Sie sich eine strukturgleiche Situation einmal mit 100 Türen vor... Fall 1 ist im Anhang dokumentiert... 7
2 EIN PAAR ZIEGEN STATISTIK? Abbildung 2: Das Ziegenproblem Leserbriefe! 8
2 EIN PAAR ZIEGEN STATISTIK? Mitte der 60er Jahre hat sich übrigens niemand über das prisoner s dilemma aufgeregt, als Problem von F. Mosteller aufgeführt. 50 Challenging problems in probability Lösung und Missverständnis sind identisch... 9
3 DIE ERSTE ZIFFER STATISTIK? 3 Die erste Ziffer Statistik? Eine Wette mit einer Zeitschrift und einer Zahl Man nehme eine beliebige Zeitschrift, schlage diese an einer beliebigen Stelle auf und betrachte die erste (oder auch die zweite, zwölfte oder letzte) von Null verschiedene Zahl, die Ihnen begegnet Seitenzahlen sollen erst mal nicht berücksichtigt werden. Ich wette, dass die erste Ziffer dieser Zahl entweder eine 1, 2 oder 3 ist. Sollte dort zum Beispiel zu lesen sein, Frau bekommt 3 Kinder oder 66 % der Amerikaner stehen hinter ihrem Präsidenten oder Geschäftsführer veruntreut 750.000 e, dann ergeben sich als erste Ziffer die 3, die 6 bzw. die 7. Sie dürfen nun auf die Ziffern 4, 5, 6, 7, 8, 9 setzen. Wie sollten Sie sich verhalten? 10
3 DIE ERSTE ZIFFER STATISTIK? Auch dies klingt nicht sehr sinnvoll, paradox eben. Uns stehen prinzipiell wieder die gleichen Möglichkeiten zur Verfügung. Es ist etwas aufwändiger, das Ganze nachzuspielen. Man benötigt ein paar Zeitschriften oder andere Zahlenquellen. Das Phänomen ist unter dem Namen Benfords Gesetz zu finden. Dieses gibt schlussendlich die Wahrscheinlichkeiten für die erste Ziffer einer Zahl vor. Auch dazu gibt es eine schöne Geschichte, Stichworte: Newcomb, Benford, Logarithmustabellen. Wenn es damals schon PCs gegeben hätte, tja dann... 11
3 DIE ERSTE ZIFFER STATISTIK? Die Wahrscheinlichkeiten als Formel herzuleiten, ist nicht so ganz einfach. Aber dies sind die Wahrscheinlichkeiten für die Anfangsziffern einer (im Prinzip) beliebig ausgewählten Zahl: Anfangsziffer k Wahrscheinlichkeit P k kumulierte WS 1 0.301 0.301 2 0.176 0.477 3 0.125 0.602 4 0.097 0.699 5 0.079 0.778 6 0.067 0.845 7 0.058 0.903 8 0.051 0.954 9 0.046 1.000 Tabelle 2: Verteilung der Anfangsziffer einer Zahl Wie man sieht, wird man in etwas über 60% der Fälle die Wette gewinnen! 12
3 DIE ERSTE ZIFFER STATISTIK? Warum ist das wohl so? Beispiel: DAX, Gehälter Übrigens: Bei der zweiten Ziffer einer Zahl ist dieses Ungleichgeweicht schon schon deutlich verringert anzutreffen. Ab der 4. Stelle ist (auf drei Stellen hinter dem Komma gerundet) die Wahrscheinlichkeit für jede Ziffer gleich, nämlich 1/10. Im Anhang finden Sie die durchschnittlichen Wahrscheinlichkeiten für die ersten 5 Ziffern einer beliebigen Zahl. 13
3 DIE ERSTE ZIFFER STATISTIK? Was wächst oder schrumpft, verharrt deshalb relativ lange im Bereich der führenden Eins. Aber auch für Größen, die sich nicht groß ändern gilt das Phänomen: Es gibt einfach mehr Pfützen als Tümpel, mehr Tümpel als Ozeane [...] es gibt auch mehr Kieselsteine als Felsbrocken und überhaupt mehr kleine Dinge als große. Und in der Praxis: Steuerfahndung!? Spiegel Artikel zu dem Thema Veith Tiemann: Statistik und Steuerbetrug, ZRFC: Zeitschrift für Risk, Fraud & Compliance, 1/2012 14
3 DIE ERSTE ZIFFER STATISTIK? 15
4 DREI KISTEN MIT MÜNZEN STATISTIK! 4 Drei Kisten mit Münzen Statistik! Kein Glück an der Glücksspielbude... Sie sind auf dem Jahrmarkt und kommen zu einer Glücksspielbude. Folgendes Spiel wird Ihnen angeboten: Drei identisch aussehende Holzkisten enthalten jeweils zwei Münzen. In einer sind zwei Goldmünzen, in der nächsten zwei Silbermünzen und in der letzten eine Goldund eine Silbermünze. Sie wählen zufällig eine Kiste die beiden anderen Kisten werden weggeräumt, greifen ohne zu schauen hinein und haben eine Goldmünze in der Hand. Der Budenbesitzer wettet nun: Holen Sie noch die zweite Münze raus. Ich wette, die ist auch aus Gold! Und gehen Sie auf die Wette ein? Wie wahrscheinlich ist es denn, dass die zweite Münze in der von Ihnen gewählten Kiste auch noch aus Gold ist? 16
4 DREI KISTEN MIT MÜNZEN STATISTIK! Ich vermute, dass Sie die Situation intuitiv falsch eingeschätzt haben. Der Budenbesitzer wird mit großer Wahrscheinlichkeit (66 %) gewinnen. Die Wette ist nämlich nicht fair. 17
5 GEBURTSTAGE STATISTIK UND HACKEN? 5 Geburtstage Statistik und hacken? Wie viele Personen müssen mind. in einem Raum sein, damit Sie darauf wetten würden, wenigstens zwei haben am selben Tag Geburtstag? Würden Sie sagen, hier und heute ist das so? Wie viele Personen müssen mind. in einem Raum sein, damit Sie darauf wetten würden, wenigstens eine weitere Person hat an Ihrem persönlichen Geburtstag auch Geburtstag, z.b. am 13.6.? Würden Sie sagen, hier und heute ist das so? 18
6 ANHANG 6 Anhang 6.1 Ziegenproblem Die Bilder der Simulation sprechen eine recht eindeutige Sprache und verweisen auf die per Tabelle ermittelten Wahrscheinlichkeiten. Selbstverständlich kann die Unterstützung der These noch um einige Argumente erweitert werden. Da wäre zum Beispiel noch der Satz von Bayes, der uns noch einmal messerscharf darauf hinweist, daß wir es mit bedingten Wahrscheinlichkeiten zu tun haben. Die Hauptaussage ist die folgende: Wenn die Testperson vor Tür 1 steht und die Moderatorin öffnet Tür 3, dann interessiert nicht die Wahrscheinlichkeit P (Auto ist hinter Tür 2), sondern eben die folgende P (Auto ist hinter Tür 2 Tür 3 wurde geöffnet) die zweitgenannte Wahrscheinlichkeit läßt sich dann über die totale Wahrscheilichkeit und Bayes berechnen: P (Auto ist hinter Tür 2 Tür 3 wurde geöffnet) = Zähler: P (Tür 3 wurde geöffnet Auto ist hinter Tür 2) P (Auto ist hinter Tür 2) P (Tür 3 wurde geöffnet) 1 1/3, weil eben nur die dritte Tür geöffnet werden kann 19
6 ANHANG 6.1 Ziegenproblem Nenner: Dieser ist über die totale Wahrscheinlichkeit zu berechnen. Das Ereignis Tür 3 wurde geöffnet kann mit allen drei Situationen Auto hinter Tür1, Tür 2 oder Tür 3 auftreten. Also ist für alle drei Situationen die Summe der folgenden Wahrscheinlichkeiten zu berechnen: P (Tür 3 wurde geöffnet Auto ist hinter Tür i) P (Auto ist hinter Tür i) Die Eintrittswahrscheinlichkeit der Bedingung ist immer 1/3, so daß für i = 1... 3 der folgende Ausdruck entsteht: 1/2 1/3 + 1 1/3 + 0 1/3 damit ergibt sich: 1/3 1/2 1/3 + 1 1/3 = 2/3 Das ist ein feiner, aber eben der entscheidende Unterschied. Wem das zu formal ist, kann sich den folgenden Entscheidungsbaum einmal ansehen. Es wird angenommen, der Kandidat hat sich zunächst für Tür 1 entschieden und der Moderator öffnet Tür 3: 20
6 ANHANG 6.1 Ziegenproblem p=1/3 p=1/3 p=1/3 A 1 A 2 A 3 p=1 p=1 p=1/2 M 2 I p=1/2 M 3 II Das wurde beobachtet. M 3 III M 2 IV A i : Das Auto ist hinter Tür i M j : Der Moderator öffnet Tür j Abbildung 3: Entscheidungsbaum um Ziegenproblem Wir haben das Ereignis M 3 beobachtet. In unserer Situation kann sich M 3 nur im Fall II oder III ereignet haben. Die Eintrittswahrscheinlichkeiten dieser beiden Fälle lauten: P (II) = 1/2 1/3 = 1/6 bzw. P (III) = 1/3. Man kann sehen, daß Situation III mit einer doppelt so großen Wahrscheinlichkeit eintritt das ist der Fall, daß wir wechseln. Was gilt nun für die (bedingte) Wahrscheinlichkeit P (A 2 M 3 )? Das ist dem Bild sehr einfach zu entnehmen. 21
6 ANHANG 6.1 Ziegenproblem Es muß gelten P (II M 3 ) + P (III M 3 ) = 1, weil das das Einzige ist, was passieren kann, schließlich haben wir M 3 beobachtet. Außerdem wissen wir, daß gilt P (II M 3 ) = 1/2 P (III M 3 ) Also ergibt sich: 1 P (III M 3 ) = 1 2 P (III M 3) P (III M 3 ) = P (A 2 M 3 ) = 2/3 Eine weitere Bestätigung und Untermauerung der Wechselstrategie. 22
Das Ziegenproblem: 1000 Spiele Wechseln: 66.4% Nicht Wechseln: 33.6% rel. Gewinnhäufigkeiten 0.0 0.2 0.4 0.6 0.8 1.0 Nicht wechseln Wechseln 664 336 0 200 400 600 800 1000 Anzahl der Spiele Abbildung 4: Das Ziegenproblem Simulation von 1000 Spielen
6 ANHANG 6.2 Das Ziffernproblem 6.2 Das Ziffernproblem Die folgend Graphik 5 zeigt einmal die Entwicklung der relativen Häufigkeiten der jeweils ersten Ziffer von knapp 120.000 Zahlen. Die Wahrscheinlichkeiten sind als horizontale Linien eingezeichnet. Diese sind als Datensätze in einer Statistiksoftware hinterlegt. Graphik 6 stellt dann die gesamte relative Häufigkeit dann als Stabdiagramm dar. Das Ergebnis ist gleichsam erstaunlich und überzeugend! Die Wahrscheinlichkeiten für die ersten 5 Ziffern: 1. Stelle 2. Stelle 3. Stelle 4. Stelle 5. Stelle 0 0.0000 0.1197 0.1018 0.1002 0.1 1 0.3010 0.1139 0.1014 0.1001 0.1 2 0.1761 0.1088 0.1010 0.1001 0.1 3 0.1249 0.1043 0.1006 0.1001 0.1 4 0.0969 0.1003 0.1002 0.1000 0.1 5 0.0792 0.0967 0.0998 0.1000 0.1 6 0.0669 0.0934 0.0994 0.0999 0.1 7 0.0580 0.0904 0.0990 0.0999 0.1 8 0.0512 0.0876 0.0986 0.0999 0.1 9 0.0458 0.0850 0.0983 0.0998 0.1 24
Entwicklung der Anteile der ersten Ziffer rel.h 0.0 0.2 0.4 0.6 0.8 1.0 1 2 3 4 5 6 789 0 20000 40000 60000 80000 100000 120000 Abbildung 5: Entwicklung der rel. Häufigkeiten
Verteilung der ersten Ziffer Umfang= 119098 rel. Haeufigkeiten 0.0 0.2 0.4 0.6 0.8 1.0 1 2 3 4 5 6 7 8 9 Abbildung 6: Verteilung der Ziffern
6 ANHANG 6.3 Das Kistenproblem 6.3 Das Kistenproblem Was man leicht übersieht ist, dass es zwei Möglichkeiten gibt, aus der Kiste mit den beiden Goldmünzen eine zu ziehen. Wenn man nun also mit dem ersten Zug eine Goldmünze gezogen hat, dann hat man entweder zufällig die Goldmünze aus der Kiste mit je einer Gold- und einer Silbermünze gezogen oder man hat eine der beiden aus der Kiste mit den beiden Goldmünzen gezogen. Ist man in der Kiste mit den beiden gelandet, dann ist die zweite Münze auch aus Gold. Es gibt also genau drei gleichwahrscheinliche Möglichkeiten, beim ersten Zug eine Goldmünze zu ziehen. Zwei davon führen dazu, dass man auch beim zweiten Zug eine Goldmünze zieht! Ergo ist die Wahrscheinlichkeit 2/3. 27
6 ANHANG 6.4 Das Geburtstagsproblem 6.4 Das Geburtstagsproblem Hier sind verblüffend wenig Personen notwendig: 23 im ersten Fall und 253 im zweiten. Zusammenhang: Mit 23 Personen lassen sich genau 253 Paar bilden... 28