Rechnernutzung in der Physik Vorlesung: Block 3: Datenanalyse Günter Quast http://www.ekp.kit.edu/~quast Fakultät für Physik Institut für Experimentelle Kernphysik WS 2013/14
Statistische Methoden der Datenanalyse - Literatur: G. Bohm u. G. Zech, Einführung in Statistik und Messdatenanalyse G. Bohm u. G. Zech, Einführung in Statistik und Messdatenanalyse für Physiker, DESY, Hamburg 2005,e-book für Physiker, DESY, Hamburg 2005,e-book http://www-library.desy.de/preparch/books/vstatmp.pdf http://www-library.desy.de/preparch/books/vstatmp.pdf V. Blobel, E. Lohrmann Statistische und numerische Methoden der V. Blobel, E. Lohrmann Statistische und numerische Methoden der Datenanalyse, Teubner, Stuttgart 1998 Datenanalyse, Teubner, Stuttgart 1998 http://www.desy.de/~blobel/ebuch.pdf http://www.desy.de/~blobel/ebuch.pdf G. Cowan Statistical Data Analysis, Clarendon, Oxford, 1998 G. Cowan Statistical Data Analysis, Clarendon, Oxford, 1998 R.J. Barlow Statistics, Wiley1989 R.J. Barlow Statistics, Wiley1989 D.S. Sivia Data Analysis A Bayesian Tutorial, Clarendon, Oxford 1996 D.S. Sivia Data Analysis A Bayesian Tutorial, Clarendon, Oxford 1996 + viele mehr, z.b. S. Brandt, Datenanaylse, Springer + viele mehr, z.b. S. Brandt, Datenanaylse, Springer (recht mathematisch) (recht mathematisch)
Einführung & Motivation
Zufall in den Naturwissenschaften Schon in der klassischen Physik: Einfluss unkontrollierbarer Größen (Ablesegenauigkeit, Fertigungsgenauigkeit von wird als Messfehler statistisch behandelt in Vielteilchensystemen: statistische Mechanik betrachtet Eigenschaften von Verteilungen statt aller Phasenraumkoordinaten von Teilchen Messgeräten, Rauschen usw.) In der Quantenphysik: - Vorhergesagt werden Wahrscheinlichkeitsverteilungen von Observablen nur statistische Aussagen, z.b. mittlere Lebensdauer eines Zustands oder Erwartungswert des Aufenthaltsortes sehr häufig: Mischung aus vorhersagbarer Komponente und Zufallskomponente. Wahrscheinlichkeitsaussage, Statistik. Ziel: Extraktion der vorhersagbaren Komponente(n)
Wozu Statistische Datenanalyse? der Job des Wissenschaftlers: Vergleich von Modellen mit der Wirklichkeit Frage: Passt das (theoretische) Modell zu den Beobachtungen (Messungen)? - wenn nein: Modell verwerfen oder verbessern - wenn ja: freie Modellparameter bestimmen Messungen sind immer mit statistischen Ungenauigkeiten behaftet (Rauschen, Ablese- oder Digitalisierungsgenauigteit, Eichung,...) in der Quantenphysik sind die relevanten Modellvorhersagen und -Größen selbst Parameter von Zufallsverteilungen (mittlere Lebensdauer eines Zustands, Erwartungswert eines Operators,...) gutes Modell schlechteres Modell
Modell einer Messung gemessener Wert m = w + wahrer Wert z zufälliger Beitrag z kann mehrere Ursachen haben: - zufälliger Beitrag zum Messwert ( Rauschen ) statistische Unsicherheit - Genauigkeit des verwendeten Messinstruments systematische Unsicherheit - mitunter gibt es auch eine Unsicherheit auf den wahren Wert, den man oft z zuschlägt theoretische Unsicherheit - Fehler im Messprozess sollten nicht passieren! z = zstat + zsyst + ztheo
Zufall in der Physik: jedes Mal passiert etwas anderes! Was sind die festen Größen, mit denen sich alle diese Prozesse beschreiben lassen? Im Standarmodell der Teilchenphysik: nur 25 Parameter! OPAL Experiment am LEP Quantenmechanik: e+e - Kollisionen im Opal-Experiment am LEP-Collider
Statistik: Einführung Experiment misst Häufigkeitsverteilungen Entdeckung Entdeckungdes des Higgsbosons Higgsbosons ATLAS,CMS, 2012 ATLAS,CMS, 2012 Theorie sagt Modelleigenschaften voraus Fehlerbehaftete Messdaten und Parameter-abhängiges Modell Zahl der beobachten Ereignisse mit einer invarianten Masse in einem bestimmten Intervall ist ein Zufallsereignis
Messen und Statistik Auswertung von Messreihen: Schätzung von Parametern aus endlicher Stichprobe (z.b. Mittelwert) Verteilung der Messwerte um den Mittelwert Anpassung von Funktionen (z.b. Ausgleichsgerade ) Kombination von Messungen Unsicherheit von Messgrößen: Einfluss schwer kontrollierbarer Größen (oft: Messfehler, besser: Messunsicherheit ) mit Methoden der Statistik behandelt (z. B. Ablesegenauigkeit, Rauschen, Eichfehler...) Angabe von Messwert ohne Unsicherheit ist sinnlos! dabei statistische und systematische Unsicherheiten z.b. Masse des Higgs-Bosons: mh = 125,5 ± 0.2 (stat.) ± 0.6 (syst.) GeV/c2 (ATLAS Exp.) mh = 125,7 ± 0.3 (stat.) ± 0.3 (syst.) GeV/c2 (CMS Exp.) Summer '13
Statistische Methoden anderswo: Sammlung und Analyse von Daten Forschung in Naturwissenschaften, Medizin z.b. Evidenz für Klimawandel, Wirksamkeit von Therapien und Medikamenten,... Finanzwelt und Handel: Börsendaten, Wechselkurse, Risikoberwertungen, Angebotsplanung,... Data-Mining in der Wirtschaft: Google, Payback-Karten, Umfragen... Test von Hypothesen, Klassifizierung von Daten, Bewertung von Risiken Ist diese E-Mail Spam? Gibt es eine globale Erwärmung? Ist dieser Online-Kunde ein potenzieller Betrüger? Ist dieser Versicherungskunde ein Raser? Als Naturwissenschaftler sollten Sie die angewandten Methoden verstehen und die Vorgänge bewerten können!
Ach ja: Blatt 4, Aufg. 9 Gegeben zwei Messungen: es interessiert das Verhältnis: x=1,5 ± 0.5 und y=0,6 ± 0.15 r = x/y und der Fehler auf r 1. Fehlerfortplanzungsgesetz aus dem Anfängerpraktikum: r=2.5 ± 1.04 2. Simulation des Experiments mit dem Computer: Messung repräsentiert durch Zufallszahlen: x = 1,5 + Gauß(0,1.5), y = 0.6 + Gauss(0, 0.15) Verhältnis r 10'000 mal berechnet und Häufigkeitsverteilung dargestellt r=2.7 ± 1.3 Frage: Frage: Was Wasist istrichtig? richtig? oder oder Wer Werhat hatrecht, recht,gauß Gaußoder oder numpy numpy??
Wahrscheinlichkeit
Beschreibung des Zufalls Der Zufall folgt genauen Regeln, deren Verständnis die Grundlage zur Behandlung der statistischen Komponente in empirischen Daten unerlässlich ist. Teilgebiet der Mathematik, das sich mit der Beschreibung des Zufalls beschäftigt: Die Stochastik (von altgriechisch στοχαστικὴὴ τέχνὴ stochastikē technē, lateinisch ars conjectandi, also Kunst des Vermutens, Ratekunst ) ist ein Teilgebiet der Mathematik und fasst als Oberbegriff die Gebiete Wahrscheinlichkeitstheorie und Statistik zusammen. (aus Wikipedia) Zentral dabei ist das Konzept der Wahrscheinlichkeit Mathematische Grundlage: die Kolmogorov-Axiome An dieser Stelle ausreichend ist die Häufigkeitsdefinition
Zufallsereignis (Zufalls-)Ereignis im Sinne der Statistik: durch spezifische Eigenschaften definiertes Ergebnis eines Prozesses Beispiele: - eine 3 würfeln - ein Tor fällt in den ersten fünf Minuten eines Fußballspiels - beim Angeln einen Hecht fangen - eine 2 und dann eine 5 würfeln - eine Zahl größer als 3 würfeln - Messung eines Werts für e zwischen 1.60 10-19 C und 1.61 10-19C Kompatible Ereignisse: - eine gewürfelte Zahl ist >3 und 5 ( >3 5 ) - eine Karte aus einem Kartenspiel ist rot und ein As ( rot As ) - eine Karte ist ein As oder eine Dame ( As U Dame ) - Karte ist As oder kein As (gilt für beliebige, d.h. alle Karten!) Exklusive Ereignisse: - 3 und gleichzeitig 5 würfeln - eine Karte ist ein As und eine Dame (gilt für keine Karte)
Häufigkeitsdefinition der Wahrscheinlichkeit Eine Beobachtung wird unter identischen Bedingungen unabhängig voneinander n mal wiederholt. Wenn die Eigenschaft A dabei k mal beobachtet wird, ist das Verhältnis k / n die (empirische) Wahrscheinlichkeit für das Auftreten von A: Bsp.: Wahrscheinlichkeit, eine Zahl 1,, 6 zu Würfeln: 1/6 Wahrscheinlichkeit für Kopf oder Zahl 0.5 Wahrscheinlichkeit, ein As beim Skat zu ziehen: 4 / 32 = 1 / 8 Wahrscheinlichkeit, eine Karo-Karte zu ziehen (Spiel ohne Joker): 1/4 Beim Festlegen der Wahrscheinlichkeit helfen bei diesen Beispielen Symmetrien oder Kombinatorik, d.h. Abzählen der günstigen Ausgänge bezogen auf alle möglichen Ergebnisse.
Wahrscheinlichkeit: Kopf oder Zahl? Beispiel Münzwurf: Wahrscheinlichkeit für Kopf: Wahrscheinlichkeit für Zahl: pk=0.5 pz=1-pk=0.5 Führe N=1,.., N Computer-Experimnte durch, berechne jeweils die Häufigkeit hn= NK(n) / n hn throwcoin.py # throw a coin N times import numpy as np N=500 f=[ ] Nh=0 for n in range(n): if np.random.rand()>0.5: Nh+=1 f.append(float(nh)/(n+1.)) Häufigkeit nähert sich der Wahrscheinlichkeit an: hn pk(n) n Anm.: Berechnung des Unsicherheitsbands wird später behandelt.
Die Kolmogorov-Axiome Formale Definition der Wahrscheinlichkeit: seien ei : Elementarereignisse, die sich gegenseitig ausschließen Ω : die Menge aller Elementarereignisse ei ej P(ei ): die Warhscheinlichkeit für ei Kolmogorov-Axiome (1931): positiv normiert additiv
Laplace Bedingungen Zusammenhang mit der Häufigkeit (Kombinatorische Definition) : Laplace-Bedingungen: Ereignismenge endlich alle Wahrscheinlichkeiten gleich Die Wahrscheinlichkeit eines Ereignisses A berechnet sich als Quotient aus der Anzahl g der günstigen Fälle und der Anzahl n aller möglichen Ergebnisse erfüllt die Kolmogorov-Axiome als Definition der Wahrscheinlichkeit unbefriedigend, weil der Begriff in L2 vorkommt!
Kombination von Wahrscheinlichkeiten Folgerungen aus Kolmogorov-Axiomen (ohne Beweis): A = nicht A (A, A schließen sich aus) A oder B falls sich A und B ausschließen AuB falls A und B unabhängig fall sich A und B ausschließen Bedingte Wahrscheinlichkeit für A wenn B wahr ist. Veranschaulichung Bedingte Wahrscheinlichkeit P(A und B) =
Stochastische Unabhängigkeit Zwei Ereignisse und heißen stochastisch unabhängig, wenn gilt und stochastisch abhängig sonst. Im Rahmen bedingter Wahrscheinlichkeiten bekommt stochastische Unabhängigkeit eine sehr anschauliche Bedeutung: (und umgekehrt) D.h. die Wahrscheinlichkeit für das Eintreten von Ereignis B ist unabhängig vom Eintreten des Ereignisses A
Statistik: Bayes-Wahrscheinlichkeit Bayes'sche Definition von Wahrscheinlichkeit Wahrscheinlichkeit ist der Grad des Glaubens, dass ein Experiment ein bestimmtes Ergebnis haben wird. Reverend Thomas Bayes (1702 1761) - Subjektive Wahrscheinlichkeit (erfüllt Kolmogorov-Axiome!) Frequenz-Aussagen oft nicht möglich. dann ist Bayes- Interpretation die einzig mögliche Beispiele für Bayes-Wahrscheinlichkeit: - das Teilchen in diesem Ereignis ist ein Positron. - die Natur ist supersymmetrisch. - es wird morgen regnen. - Deutschland wird 2014 Fußball-Weltmeister. - es hat am 8. März 1792 in Kairo geregnet. Essay Towards Solving a Problem in the Doctrine of Chances (1763), posthum veröffentlicht in Philosophical Transactions of the Royal Society of London.
Statistik: Bayes-Theorem Aus bedingter Wahrscheinlichkeit Bayes'sches Theorem
Statistik: Wahrscheinlichkeit Besonders wichtig durch die Interpretation A: Richtigkeit einer Theorie B: Wahrscheinlichkeit der Beobachtung bestimmter Daten Likelihood Posterior Prior Evidenz P(Theorie Daten) Wahrscheinlichkeit, dass die Theorie stimmt, wenn bestimmte Daten beobachtet wurden P(Daten Theorie) Wahrscheinlichkeit, bestimmte Daten zu beobachten, wenn die Theorie stimmt Interessant ist die erste Frage, häufig wird jedoch nur die zweite beantwortet!
Statistik: Wahrscheinlichkeit Bsp: AIDS-Test Wahrscheinlichkeit in allgemeiner Bevölkerung: Ziemlich zuverlässiger AIDS-Test (Resultat + oder -): a priori-wissen Messung, Likelihoods Wie besorgt sollte man sein, wenn man ein positives Testresultat hat? D. h. wie groß ist (die posteriori-wahrscheinlichkeit) P(AIDS + )?
Statistik: Wahrscheinlichkeit Bsp.: AIDS-Test (2) Die Posterior-Wahrscheinlichkeit P(AIDS +) beträgt nur 3,2%! Warum? Wegen der kleinen Prior-Wahrscheinlichkeit von 0.01% und der nicht vernachlässigbaren Missidentifikationswahrscheinlichkeit! aber Vorsicht: Prior nicht richtig, wenn man zu einer Risikogruppe gehört!
Denkschulen (klassische) frequentistische Statistik, objektive Definition Wahrer Wert einer Größe existiert (ist aber unbekannt), wird im Limes unendliche vieler Messungen erreicht: P(A) = lim Typisches Resultat: Fehlerintervall 68% aller aus Daten gebildeten Intervalle [a,b] erhalten den wahren Wert μ Bayes sche Statistik: subjektive Wahrscheinlichkeit Angabe einer Bayes-Wahrscheinlichkeit für wahren Wert einer Größe, P(A) = Grad der Sicherheit ( degree of belief ), dass Ereignis A eintritt Typisches Resultat: Fehlerintervall Mittelwert liegt mit 68% Wahrscheinlichkeit in Intervall [a,b] Benutzung von Vorwissen ( Prior ) erlaubt: P(Theorie Daten) ~ P(Daten Theorie) x P(Theorie) In der unmittelbaren Praxis werden wir uns zunächst nicht darum kümmern müssen, bei der professionellen Interpretation von Ergebnissen wird der Unterschied aber bedeutsam.