Testen von Hypothesen

Ähnliche Dokumente
Schätzung von Parametern

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Experimentelle Methoden der Teilchenphysik Sommersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

VL 13a: Testen von Hypothesen

Statistische Tests (Signifikanztests)

VL 08: Testen von Hypothesen

Statistische Methoden der Datenanalyse. Übung XI

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Numerische Methoden und Algorithmen in der Physik

1. Grundbegri e der Stochastik

Statistik und Wahrscheinlichkeitsrechnung

Statistische Methoden der Datenanalyse

Statistische Tests funktionieren generell nach obigem Schema; der einzige Unterschied besteht in der unterschiedlichen Berechnung der Testgröße.

Statistik und Wahrscheinlichkeitsrechnung

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Lösung Übungsblatt 5

Statistik, Datenanalyse und Simulation

Statistics, Data Analysis, and Simulation SS 2017

Statistik II. Statistische Tests. Statistik II

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse

Statistics, Data Analysis, and Simulation SS 2017

Wichtige Definitionen und Aussagen

Klassifikation von Signifikanztests

Computergestützte Datenanalyse in der Kern- und Teilchenphysik

Seminar zur Energiewirtschaft:

Chi-Quadrat-Verteilung

Die Familie der χ 2 (n)-verteilungen

2. Formulieren von Hypothesen. Nullhypothese: H 0 : µ = 0 Gerät exakt geeicht

Die Familie der χ 2 (n)-verteilungen

Wahrscheinlichkeitsrechnung

Statistische Messdatenauswertung

Statistische Methoden in den Umweltwissenschaften

Frequentisten und Bayesianer. Volker Tresp

Spezielle Verteilungen einer Variablen

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Statistik II für Betriebswirte Vorlesung 1

Hypothesen über die Grundgesamtheit. Aufgabenstellung der Testtheorie Hypothesen (Annahmen, Vermutungen oder

4.1 Stichproben, Verteilungen und Schätzwerte. N(t) = N 0 e λt, (4.1)

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

Klassifikation von Signifikanztests

3. Das Prüfen von Hypothesen. Hypothese?! Stichprobe Signifikanztests in der Wirtschaft

Stochastik Praktikum Testtheorie

Schließende Statistik

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Christoph Sawade/Niels Landwehr Tobias Scheffer

das Kleingedruckte...

VU mathematische methoden in der ökologie: räumliche verteilungsmuster 1/5 h.lettner /

Wahrscheinlichkeit und Statistik BSc D-INFK

Einführung in Quantitative Methoden

Die Maximum-Likelihood-Methode

Parameterfreie Tests. ²- Unabhängigkeitstest Test auf Unabhängigkeit von zwei Zufallsgrößen

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung

Testen von Hypothesen

3 Grundlagen statistischer Tests (Kap. 8 IS)

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Einführung in die statistische Testtheorie

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Rechnernutzung in der Physik

D-MATH Wahrscheinlichkeitsrechnung und Statistik FS18 Prof. J. Teichmann. Serie 12

Statistische Grundlagen

Sammlung alter Klausuraufgaben zur Stochastik keine Abgabe keine Besprechung in den Tutorien

Statistik II. IV. Hypothesentests. Martin Huber

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Abbildung 1: Dieses Quiz soll Ihnen helfen, die Residuenplots besser zu verstehen. Am Schluss kommen noch vermischte Aufgaben zur Wiederholung.

Statistik für Bachelorund Masterstudenten

- Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden.

Statistik, Datenanalyse und Simulation

Rechnernutzung in der Physik

Grundgesamtheit, Merkmale, Stichprobe. Eigenschaften der Stichprobe. Klasseneinteilung, Histogramm. Arithmetisches Mittel, empirische Varianz

Lösungen zum Aufgabenblatt 14

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Einführung in die Induktive Statistik: Testen von Hypothesen

Hypothesentests. Hypothese Behauptung eines Sachverhalts, dessen Überprüfung noch aussteht.

Inhaltsverzeichnis. 4 Statistik Einleitung Wahrscheinlichkeit Verteilungen Grundbegriffe 98

Statistik II. IV. Hypothesentests. Martin Huber

Statistisches Testen

Wahrscheinlichkeitsrechnung und Statistik

Auswertung und Lösung

Verfahren zur Datenanalyse gemessener Signale

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Güteanalyse. Nochmal zur Erinnerung: Hypothesentest. Binominalverteilung für n=20 und p=0,5. Münzwurf-Beispiel genauer

4.1. Nullhypothese, Gegenhypothese und Entscheidung

3) Testvariable: T = X µ 0

Statistik für Ingenieure und Naturwissenschaftler

Arbeitsbuch zur deskriptiven und induktiven Statistik

Online-Aufgaben Statistik (BIOL, CHAB) Auswertung und Lösung

Grundlagen der Statistik

Allgemeines zu Tests. Statistische Hypothesentests

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Statistik - Fehlerrechnung - Auswertung von Messungen

Testen von Hypothesen

2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Tests für Erwartungswert & Median

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Transkript:

Testen von Hypothesen

Fällen von Entscheidungen Statistische Auswertung von Daten bisher (Parameterschätzung, Konfidenzregionen): Bestimmung von Parametern und deren Fehler bei einer gegebenen Wahrscheinlichkeitsverteilung Häufig soll aus Daten eine weitere Information gewonnen werden: Fällen einer Entscheidung, z.b.: Ist das nachgewiesene Teilchen ein Pion oder ein Kaon? Ist die gemessene Zerfallszeitverteilung einer radioaktiven Substanz eine Exponentialverteilung? Existiert das Higgs-Boson oder nicht? Formulierung in Form von Hypothesen Hi (Wahrscheinlichkeitsdichten für die Daten: f(x Hi ))

Hypothesen Arten von Hypothesen: Einfach = unabhängig von Parametern Zusammengesetzt = parameterabhängig: f(x H,a) Bezeichnung von Hypothesen: Zu testende Hypothese: Null-Hypothese H0 Alle anderen Hypothesen: Alternativhypothese(n): H1, H2, Reduktion der Dimensionalität durch Teststatistik x t, f(x H) g(t H) Definition von Entscheidungskriterien anhand der Teststatistik

Wahl zwischen zwei Hypothesen Konfidenzlevel von H0 für t > tc : Signifikanz Verwerfen der richtigen Hypothese: Fehler erster Art Konfidenzlevel von H1 für t < tc :, Mächtigkeit (power) 1 Akzeptieren der falschen Hypothese: Fehler zweiter Art Geeignete Wahl der Teststatistik für möglichst signifikanten und mächtigen Test Klassifizierung

Klassifizierungsmethoden Fisher-Diskriminante Lineare Transformation, t = const definiert Hyperebenen Optimal bei Gaußverteilungen Neuronale Netze Optimal bei hinreichender Anzahl Knoten Likelihood-Ratio r = f(x H0) / f(x H1) > rc Neyman-Pearson-Lemma Optimal (für einfache Hypothesen)

Test einer Hypothese Sind Daten statistisch verträglich mit Hypothese H0? Statistische Methoden können eine Hypothese nicht (direkt) beweisen, sondern höchstens widerlegen! Beweis über Ausschluss von Alternativhypothesen Wahl der gewünschten Signifikanz Bestimmung einer Konfidenzregion (nicht eindeutig, z.b. ein-/zweiseitig) Verwerfen der Hypothese, falls Daten außerhalb der Konfidenzregion Oft statt vorheriger Wahl von Angabe von p-wert Wahrscheinlichkeit statistische Fluktuation wie in den beobachteten Daten oder größer zu erhalten unter Annahme von H0 ( beobachtete Signifikanz )

Beispiel: Orbital angeregte Bs-Mesonen Hat man ein, oder zwei, oder mehr Signale, oder sind alles nur statistische Fluktuationen?

Gefahr von Verzerrungen Beispiel: 20 Physiker führen (unabhängig voneinander) jeweils eine Messung durch Einer sieht eine Abweichung von der Erwartung um 2 (Ausschluss der Null-Hypothese mit 5% Signifikanz) Der eine publiziert sein Ergebnis, die anderen nicht Bias der veröffentlichten Ergebnisse! Publikation sollte nicht vom Ausgang des Tests abhängen Auch negative Resultate publizieren

Binomial-Verteilung Beispiel: 15 Münzwürfe Daten: n = Anzahl Kopf 1. Vermutung: Münze gezinkt Null-Hypothese: p = ½ Gewählte Signifikanz: 10% Anzahl Kopf 15 14 13 12 11 10 2. Vermutung: Kopf wahrscheinlicher als Zahl Null-Hypothese: p ½ Gewählte Signifikanz: 10% Wahrscheinlichkeit p 0.003% 0.05% 0.3% 1.4% 4.2% 9.2%

Poisson-Verteilung Häufige Frage: Signifikanz eines Signals Beispiel: Daten: n = 5, Untergrund-Erwartung b = 0.5 p(n >= 5 b = 0.5) = 1.7 x 10-4 Problem: Unsicherheit der Untergrund-Erwartung z.b. für b = 0.8: p = 1.4 x 10-3 Angabe eines Bereichs von p-werten Falls n groß Gauß'sche Näherung f(n H0) = Gauß( = b, = ( b + b2 )) Für b = 0: Signifikanzniveau S / B, S = n - b, B = b

Signale in Verteilungen Beispiel: PoissonVerteilung: p = 5.0 x 10-4 Mehr Ereignisse in beiden mittleren Bins als erwartet: n = 11, b = 3.2 Nur richtig, falls schon vor der Messung dort ein Signal vermutet wird und die Bins ausgewählt wurden Signifikanz der Abweichung geringer, falls Sie irgendwo in der Verteilung auftreten kann Man mehrere Verteilungen anschaut Die Selektionskriterien (bewusst oder unbewusst) gewählt wurden, so dass ein Peak entsteht Bilde Analyse: Wahl der Selektionskriterien, bevor man die Daten anschaut

Pearson's 2-Test t = i = 1..N (yi f(xi ))2 / i2 folgt 2-Verteilung für N Freiheitsgrade (ndf), falls yi Gauß-verteilt Ndf = N m, falls m Parameter aus den Daten bestimmt Histogramm-Binning: N klein Empfindlichkeit, Gauß-sche Näherung N groß Auflösung von Strukturen Beispiel von voriger Seite mit i = yi : 2 = 29.8, ndf = 20 p = 7.3% Toys: p = 11%

Run-Test Beispiel: 2 = 12 für 12 Bins 2-Test ok Aber Daten offensichtlich nicht linear Struktur der Abweichungen: AAABBBBBBAAA für A = above, B = below Nur 3 Runs Mögliche Anzahl Anordnungen für NA A- und NB B-Werte: C(NA, NB) = N! / (NA! NB!), N = NA + NB Wahrscheinlichkeit für r Runs: r gerade: p(r) = 2 C(NA 1, r/2 1) C(NB 1, r/2 1) / C(N, NA) r ungerade: p(r) = [C(NA 1, (r-3)/2) C(NB 1, (r-1)/2) + C(NA 1, (r-1)/2) C(NB 1, (r-3)/2)] / C(N, NA) E[r] = 1 + 2NANB / N, E[V(r)] = 2NANB(2NANB N) / [N2(N-1)] Beispiel: E[r] = 7, (r) = 1.65 r = 2.4, p(einseitig) = 1%

Kolmogorov-Smirnov-Test Daten der Größe nach sortieren Kumulierte Verteilung, normiert mit 1/N, auftragen Y(x) = (Anzahl Werte < x) / N Vergleich mit kumulierter Wahrscheinlichkeitsverteilung F(x) = x f(x') dx' Testgröße definiert durch maximale Abweichung: t = N max Y(x) F(X) Z.B. p = 1% für t = 1.63, p = 10% für t = 1.22 Gilt nur, wenn f(x) nicht an die Daten angepasst wurde (kein Analogon zu ndf beim 2-Test)

Vergleich von Mittelwerten und Varianzen Test auf gleichen Mittelwerten zweier Datensätze bei unbekannter Varianz ^ 2 Schätzung der Varianz aus den Daten: s2 = 1/[N(N-1)] i = 1..N (xi - ) ^ ^ ) / (s 2 + s 2) Testgröße: t = ( 1 2 1 2 folgt Studentscher t-verteilung Test auf gleiche Varianz zweier Datensätze ^ ^ Testgröße: F = V1 / V2 Folgt F-Verteilung Für große Anzahlen ist Z = ½ log F Gauß-verteilt mit Mittelwert ½ (1/f2 1/f1) und Varianz ½ (1/f2 + 1/f1) für f1 = N1 1 und f2 = N2 1

Likelihood-Ratio als Testgröße Häufiger Fall: Test auf bestimmte Werte von Parametern eines allgemeinen Modells Testgröße: T = f(x a1(h0),..., am(h0), âm+1,...ân) / f(x â') Satz von Wilks: Wird eine Grundgesamtheit durch eine Wahrscheinlichkeitsdichte f(x a) beschrieben (die vernünftigen Anforderungen an ihre Stetigkeit genügt), und werden m der n Parameter festgelegt, so folgt -2 ln T einer 2-Verteilung mit m Freiheitsgraden für (sehr) große N

Beispiel: Orbital angeregte Bs-Mesonen Allgemeines Modell: Untergrund und zwei Signale Null-Hypothese (pro Signal): Signalanzahl = 0 Zwei Parameter weniger (Anzahl und Mittelwert) Erstes Signal: T = 48 p = 3x10-10, 6.3 Zweites Signal: T = 74 p = 10-14, 7.7

Beispiel: Orbital angeregte Bs-Mesonen Überprüfung der Signifikanzbestimmung mit Toy-MC Signifikanz > 5 Genaue Bestimmung des p-wertes limitiert durch Anzahl Pseudoexperimente

Beispiel: Orbital angeregte Bs-Mesonen Theorie sagt weiteres Signal bei ~0.022 GeV vorher Likelihood-Ratio-Test (ohne/mit drittem Signal): 3.7 Evidenz für weiteres Signal?

Beispiel: Orbital angeregte Bs-Mesonen Weiterer Test mit alternativem Untergrund-Modell Signifikanz nur noch 2.7 Mehr Daten erforderlich, um Evidenz des Signals zu etablieren (falls es existiert)

Beispiel: Bs-Materie-Antimaterie-Asymmetrie 2008: p = 7% 2010: p = 44%

Empfehlungen Legen Sie den Test und die gewünschte Signifikanz fest, bevor Sie die Messung durchführen Vermeiden Sie Verzerrungen Blinde Analyse Prüfen Sie die Robustheit des Resultats (Binning, Selektion, Fit-Modell) Überprüfen Sie die Signifikanzbestimmung, falls angebracht, durch Pseudoexperimente Visualisieren Sie die Daten und achten Sie auf Abweichungen, die nicht vom Test erfasst werden Publizieren Sie Ihr Resultat, auch wenn kein signifikanter Effekt beobachtet wird