Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Ähnliche Dokumente
Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Rechnernutzung in der Physik

Statistics, Data Analysis, and Simulation SS 2017

Statistik - Fehlerrechnung - Auswertung von Messungen

Numerische Methoden und Algorithmen in der Physik

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Statistics, Data Analysis, and Simulation SS 2017

1 Messfehler. 1.1 Systematischer Fehler. 1.2 Statistische Fehler

Einführung in die Theorie der Messfehler

Wichtige Definitionen und Aussagen

Moderne Methoden der Datenverarbeitung in der Physik I

Messunsicherheit und Fehlerrechnung

Stichwortverzeichnis. Chi-Quadrat-Verteilung 183, 186, 189, 202 ff., 207 ff., 211 Testen von Zufallszahlen 294 Cărtărescu, Mircea 319

Einführung Fehlerrechnung

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Statistische Methoden der Datenanalyse

Statistik I für Betriebswirte Vorlesung 4

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Die Maximum-Likelihood-Methode

Einführung in die Statistik

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.)

Mehrdimensionale Verteilungen und Korrelation

Statistics, Data Analysis, and Simulation SS 2017

Statistische Methoden in den Umweltwissenschaften

Mehrdimensionale Zufallsvariablen

4.1 Stichproben, Verteilungen und Schätzwerte. N(t) = N 0 e λt, (4.1)

Einführung in die Statistik

Statistische Messdatenauswertung

Auswertung von Messungen Teil I

Wahrscheinlichkeitsrechnung und schließende Statistik

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Stichwortverzeichnis. Symbole

Einführung in die Fehlerrechnung und Messdatenauswertung

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Modellierung- und Simulation Mathis Plewa ( )

ELEMENTARE EINFÜHRUNG IN DIE MATHEMATISCHE STATISTIK

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Einführung in die computergestützte Datenanalyse

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

I. Deskriptive Statistik 1

Teil / Ein paar statistische Grundlagen 25. Kapitel 1 Was Statistik ist und Warum sie benötigt Wird 2 7

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Statistik. Einführung in die com putergestützte Daten an alyse. Oldenbourg Verlag München B , überarbeitete Auflage

Statistik, Datenanalyse und Simulation

Einführungsseminar S1 Elemente der Fehlerrechnung. Physikalisches Praktikum der Fakultät für Physik und Astronomie Ruhr-Universität Bochum

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Kapitel 2 Experiment: Messwert & Messgenauigkeit

Begleitmaterial zur Vorlesung. Fehlerrechnung und Fehlerabschätzung bei physikalischen Messungen

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Rechnernutzung in der Physik

Computer in der Wissenschaft

Statistische Methoden der Datenanalyse

Statistik I für Betriebswirte Vorlesung 3

Statistik und Wahrscheinlichkeitsrechnung

Über den Autor 7. Einführung 21

STATISTISCHE METHODEN UND IHRE ANWENDUNGEN

Parameteranpassung mit kleinsten Quadraten und Maximum Likelihood

Statistik und Wahrscheinlichkeitsrechnung

BOXPLOT 1. Begründung. Boxplot A B C

Statistik für Ökonomen

Institut für Physik Physikalisches Grundpraktikum

Uwe Hassler. Statistik im. Bachelor-Studium. Eine Einführung. für Wirtschaftswissenschaftler. ^ Springer Gabler

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

6. Schätzverfahren für Parameter

2 Alle Standardabweichungen σ i sind bekannt, bzw. die Kovarianzmatrix der Daten ist bekannt: Minimieren der χ 2 - Funktion.

1 EINLEITUNG Allgemeines Kapitelübersicht Gebrauch dieses Buches Verwenden zusätzlicher Literatur...

Statistik K urs SS 2004

Statistische Methoden

Wahrscheinlichkeitsrechnung und schließende Statistik

Statistische Methoden der Datenanalyse

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Experimentalphysik E1!

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Wolfgang Kohn Riza Öztürk. Statistik für Ökonomen. Datenanalyse mit R und SPSS. 3., überarbeitete Auflage. 4^ Springer Gabler

Statistik in Geodäsie, Geoinformation und Bauwesen

Anfänger-Praktikum I WS 11/12. Michael Seidling Timo Raab Enrico Mank. Praktikumsbericht: Galton-Brett

Übungsaufgaben zu Kapitel 12 bis 14

Physikalische Übungen für Pharmazeuten

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse

Chi-Quadrat-Verteilung

Statistik für NichtStatistiker

JosefPuhani. Kleine Formelsammlung zur Statistik. 10. Auflage. averiag i

Transkript:

Datenanalyse (PHY231) Herbstsemester 2015 Olaf Steinkamp 36-J-22 olafs@physik.uzh.ch 044 63 55763

Vorlesungsprogramm Einführung, Messunsicherheiten, Darstellung von Messdaten Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik - Mittelwert, Standardabweichung, Kovarianz und Korrelation Fehlerfortpflanzungsgesetz Wahrscheinlichkeitsverteilungen - diskrete Verteilungen, kontinuierliche Verteilungen - zentraler Grenzwertsatz Monte-Carlo Methode Wahrscheinlichkeitsverteilungen II - Faltung zweier Verteilungen - Verteilungen zweier Variablen Stichproben und Schätzfunktionen - Maximum-Likelihood Methode - Methode der kleinsten Quadrate Interpretation von Messergebnissen - Konfidenzintervalle, Testen von Hypothesen Beispielprogramme im Verzeichnis /disk/puma/da/vorl/stat Grundbegriffe der Statistik (2)

Vorlesungsprogramm Einführung, Messunsicherheiten, Darstellung von Messdaten Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik - Mittelwert, Standardabweichung, Kovarianz und Korrelation Fehlerfortpflanzungsgesetz Wahrscheinlichkeitsverteilungen - diskrete Verteilungen, kontinuierliche Verteilungen - zentraler Grenzwertsatz Monte-Carlo Methode Wahrscheinlichkeitsverteilungen II - Faltung zweier Verteilungen - Verteilungen zweier Variablen Stichproben und Schätzfunktionen - Maximum-Likelihood Methode - Methode der kleinsten Quadrate Interpretation von Messergebnissen - Konfidenzintervalle, Testen von Hypothesen Beispielprogramme im Verzeichnis /disk/puma/da/vorl/stat Grundbegriffe der Statistik (3)

Mittelwert einer Verteilung Für eine Verteilung aus Werten x 1, x 2,, x : arithmetischer Mittelwert der Verteilung: x 1 x i geometrischer Mittelwert: x x 1 x 2 x 3... x Median: die Hälfte aller Werte ist grösser, die Hälfte aller Werte ist kleiner Modus: der am häufigsten vorkommende Wert im folgenden: Mittelwert arithmetischer Mittelwert Grundbegriffe der Statistik (4)

Mittelwert einer Funktion f(x i ) Arithmetischer Mittelwert f 1 f (x i ) Beispiel: f (x ) = x 2 f = x 2 = 1 x i 2 Gewichteter Mittelwert von Werten x i mit Gewichten w i w i x i x w i Beispiel: für Messungen mit unterschiedlichen Messunsicherheiten σ i (Herleitung später): w i = 1 σ i 2 Mittelwert eines Histogramms mit Intervallen x ni x i ni x i : Intervallzentren n i : Anzahl Einträge Mittelwert des Histogramms = gewichteter Mittelwert der Intervallzentren Grundbegriffe der Statistik (5)

Einfacher und gewichteter Mittelwert Beispiel: Lebensdauer des eutrons Resultate verschiedener Experimente [Quelle: Particle Data Group] ältere Messungen haben größere Messunsicherheiten als neuere Messungen gewichteter Mittelwert aller Messungen = (886.3 ± 0.9) s zum Vergleich: einfacher Mittelwert = 891.4 s neuere Messungen einfacher Mittelwert gewichteter Mittelwert mit Unsicherheit nlife.py nlife.dat # result[s] error[s] 918 14 881 8 937 18 903 13 876 21 877 10 878 30 894 5 888 3 891 9 888 3 888 3 882.6 2.7 889 5 885.4 1.0 887 3 pylab: Befehl average() kann gewichtete Mittelwerte berechnen Grundbegriffe der Statistik (6)

Unsicherheit auf gewichtetem Mittelwert Gewichteter Mittelwert von Messungen x i mit Messunsicherheiten σ i Messungen voneinander unabhängig: benutze Gaußsche Fehlerfortpflanzung = ( x σ ) 2 x i i aufgepasst: Gaußsche Fehlerfortpflanzung gilt nicht, wenn die Messungen korreliert sind (z.b. wenn es gemeinsame systematische Messunsicherheiten gibt!) mehr dazu nächste Woche x = ( x i σ i 2) ( 1 σ i 2) Spezialfall: Messunsicherheit auf allen Messungen gleich, σi = σ für alle i = ( 1 σ i 2 σ i) 2 ( 1 σ i 2) = 1 ( 1 σ i 2) = 1 1 σ 2 = σ Grundbegriffe der Statistik (7) vgl. Folie 12

Mittelwert histogrammierter Daten Beispiel: exponentialverteilte Messwerte (Zerfallszeiten radioaktiver Quelle) #!/usr/bin/env python expohist.py from pylab import * # # generiere exponentialverteilte Werte # = 10000 meantrue = 53.7 tdata = exponential(meantrue,) # # Mittelwert der Verteilung # meandata = mean(tdata) # # histogrammiere die Werte # tmin = 0 ; tmax = 600 ; nbins = 100 ni,ti,patch = hist(tdata,nbins,(tmin,tmax)) # # Mittelwert des Histogramms # tbin = ti[0:-1]+ti[1:])/2.0 meanhist = dot(ni,tbin) / sum(ni) wahrer Mittelwert: 53.7 min Mittelwert der Messwerte: 53.6 min Mittelwert des Histogramms 100 Intervalle: 53.6 min 10 Intervalle: 59.0 min 3 Intervalle: 105. min aufgepasst: Informationsverlust bei zu groß gewählter Intervallbreite! Grundbegriffe der Statistik (8)

Vorlesungsprogramm Einführung, Messunsicherheiten, Darstellung von Messdaten Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik - Mittelwert, Standardabweichung, Kovarianz und Korrelation Fehlerfortpflanzungsgesetz Wahrscheinlichkeitsverteilungen - diskrete Verteilungen, kontinuierliche Verteilungen - zentraler Grenzwertsatz Monte-Carlo Methode Wahrscheinlichkeitsverteilungen II - Faltung zweier Verteilungen - Verteilungen zweier Variablen Stichproben und Schätzfunktionen - Maximum-Likelihood Methode - Methode der kleinsten Quadrate Interpretation von Messergebnissen - Konfidenzintervalle, Testen von Hypothesen Beispielprogramme im Verzeichnis /disk/puma/da/vorl/stat Grundbegriffe der Statistik (9)

Breite einer Verteilung Streuung der Messwerte = Maß für Messgenauigkeit große Messunsicherheit Messwerte streuen stark breite Verteilung kleine Messunsicherheit Messwerte streuen wenig schmale Verteilung Beispiel: Rekonstruktion von ϒ-Resonanzen in ATLAS / CMS / LHCb ϒ(1s),ϒ(2s),ϒ(3s): sehr kurzlebige Teilchen, zerfallen z.b. in zwei Myonen messe die Impulse der zwei Myonen und berechne ihre invariante Masse für echte ϒ-Zerfälle: invariante Masse = Masse des ϒ(1s), ϒ(2s) oder ϒ(3s) Breite der Signalverteilung bestimmt durch Messgenauigkeit des Detektors ϒ(1s) ϒ(2s) ϒ(3s) Grundbegriffe der Statistik (10)

Maße für die Breite einer Verteilung Mittlere Abweichung der Messwerte vom Mittelwert 1 x i x Absolutbetrag: unschöne mathematische Behandlung (z.b. Bilden von Ableitung) Statistiker: Varianz der Verteilung V (x ) 1 i=1 (x i x ) 2 okay bzgl. mathematischer Behandlung aber: andere Einheit als Messgröße es gilt auch (Beweis in den Übungen): V (x ) = x 2 x 2 Physiker: Standardabweichung der Verteilung V(x) = 1 i=1 (x i x) 2 = x 2 x 2 Grundbegriffe der Statistik (11)

Standardabweichung Aufgepasst: zwei Definitionen der Standardabweichung! 1 i=1 (x i x ) 2 s x 1 1 (x i x ) 2 in pylab: std(x,0) std(x,1) Definition mit 1 / gibt die Standardabweichung der gemessenen Verteilung Definition mit 1 / (-1) gibt einen Schätzwert für die Standardabweichung einer theoretischen Verteilung, die die gemessene Verteilung beschreibt Unterschied für große vernachlässigbar, aber nicht für kleine deshalb wichtig: immer angeben, welche Definition Sie verwenden werden wir in ein paar Wochen ausführlich diskutieren Grundbegriffe der Statistik (12)

Standardabweichung einer Verteilung und Unsicherheit auf ihrem Mittelwert Standardabweichung der Verteilung ist bestimmt durch die Streuung der einzelnen Messwerte um den Mittelwert ist ein Maß für die Messunsicherheit auf den einzelnen Messungen hängt nicht von der Zahl der Messungen ab Unsicherheit auf dem Mittelwert der Verteilung ist umso kleiner, je kleiner die Streuung der Messwerte ist 34 mean 9441.8 std 49.5 dmean 8.5 nimmt mit zunehmender Anzahl Messungen ab = vgl. Folie 6 34000 mean 9450.1 std 49.8 dmean 0.27 Beispiel: Verteilung gaußverteilter Zufallszahlen, erzeugt mit μ = 9450 und σ = 50 Grundbegriffe der Statistik (13)

Standardabweichung einer histogrammierten Verteilung Histogramm mit Intervallen Folie 10 Folie 4 = x 2 x 2 = n i x i 2 ni ( ni x i ni )2 x i : Intervallzentren n i : Anzahl Einträge Beispiel: 200 Messungen der Gravitationskonstante (s. letzte Woche) Standardabweichung der Verteilung: 0.66 sec Standardabweichung des Histogramms 50 Intervalle: 0.67 sec 5 Intervalle: 0.71 sec 2 Intervalle: 1.23 sec wieder: Informationsverlust bei zu groß gewählter Intervallbreite! Grundbegriffe der Statistik (14)

Vorlesungsprogramm Einführung, Messunsicherheiten, Darstellung von Messdaten Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik - Mittelwert, Standardabweichung, Kovarianz und Korrelation Fehlerfortpflanzungsgesetz Wahrscheinlichkeitsverteilungen - diskrete Verteilungen, kontinuierliche Verteilungen - zentraler Grenzwertsatz Monte-Carlo Methode Wahrscheinlichkeitsverteilungen II - Faltung zweier Verteilungen - Verteilungen zweier Variablen Stichproben und Schätzfunktionen - Maximum-Likelihood Methode - Methode der kleinsten Quadrate Interpretation von Messergebnissen - Konfidenzintervalle, Testen von Hypothesen Beispielprogramme im Verzeichnis /disk/puma/da/vorl/stat Grundbegriffe der Statistik (15)

Korrelation und Kovarianz Betrachte statistischen Zusammenhang zwischen zwei Zufallsvariablen positive Korrelation: Wert einer Variablen nimmt im Mittel zu, wenn der Wert der anderen zunimmt (x i x) (y i y ) < 0 x (x i x) (y i y) > 0 negative Korrelation: Wert einer Variablen nimmt im Mittel ab, wenn der Wert der anderen zunimmt y Kovarianz für Wertepaare (x 1,y 1 ),, (x,y ) (x i x) (y i y ) > 0 (x i x) (y i y ) < 0 cov (x, y ) 1 (x i x)(y i y ) = xy x y x cov (x,y) > 0 für positive Korrelation y cov (x,y) < 0 für negative Korrelation cov (x,y) = 0 wenn keine Korrelation achteil: Absolutwert hängt von den für x und y gewählten Einheiten ab Grundbegriffe der Statistik (16)

Korrelationskoeffizient Einheitenloses, normiertes Maß für Korrelation zweier Zufallsvariablen ρ cov (x, y ) σ y = xy x y σ y -1 ρ 1 ρ = 0: keine Korrelation y ρ > 0: positive Korrelation ρ < 0: negative Korrelation ρ = ±1: vollständige Korrelation, x Wert von x i legt Wert von y i fest und umgekehrt Grundbegriffe der Statistik (17) [aus: Barlow, Statistics]

Kleine Formelsammlung (arithmetischer) Mittelwert einer Verteilung: x = 1 einfach: x i gewichtet: x = Standardabweichung einer Verteilung: x i /σ i 2 1/σ i 2 = V (x ) = 1 i=1 (x i x) 2 = x 2 x 2 Unsicherheit auf dem Mittelwert einer Verteilung: einfach: = Korrelationskoeffizient zweier Variablen: gewichtet: = 1 1/σ i 2 ρ = cov (x, y ) σ y = xy x y σ y ( -1 ρ 1 ) Grundbegriffe der Statistik (18)

Extra: inkompatible Messergebnisse Beispiel: betrachte zwei der Messungen der eutronlebensdauer (Folie 5) t 2 = (881 ± 8) s ; t 3 = (918 ± 14) s die Ergebnisse sind nicht gut miteinander kompatibel welche Annahme wird hier gemacht? erwarte aufgrund der angegebenen Messunsicherheiten eine Abweichung von ungefähr 14 2 +8 2 s 16 s, tatsächlicher Unterschied mehr als doppelt so groß Standardformel ergibt zu kleine Unsicherheit für den gewichteten Mittelwert σ t Was tun in solchen Fällen? = 1 (1/8 2 )+(1/14 2 ) s 7 s deutlich kleiner als der Unterschied zwischen den beiden Einzelmessungen nehme an, eines der Ergebnisse ist falsch und verwende nur das andere? gefährlich und nur mit sehr, sehr guter Begründung zulässig!!!!!! besser: nehme an, dass die angegebenen Messunsichereiten unterschätzt sind und skaliere die Unsicherheit auf dem Mittelwert entsprechend Grundbegriffe der Statistik (19)

Extra: inkompatible Messergebnisse Definiere chi Quadrat : χ 2 ( x i x ) 2 2 σ i s. später: Methode der kleinsten Quadrate Messergebnisse x i sollten im Mittel um die angegebene Messunsicherheit σ i vom Mittelwert abweichen für Messergebnisse erwarte χ² 1 für χ² 1: gebe Unsicherheit auf Mittelwert gemäß Standardformel an für χ² > 1: skaliere alle Unsicherheiten mit Korrekturfaktor S = χ 2 /( 1) für χ² >> 1: erfordert spezielle Behandlung (z.b. gebe keinen Mittelwert an) für unser Beispiel: = 2 ; χ 2 = (881 890)2 8 2 + (918 890)2 14 2 = 5.27 S = 5.27/(2 1) = 2.3 t = (890 ± 2.3 7) s = (890 ± 16) s Grundbegriffe der Statistik (20)