Grundlagen der schließenden Statistik

Ähnliche Dokumente
Auswertung und Lösung

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

Statistisches Testen

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

2. Formulieren von Hypothesen. Nullhypothese: H 0 : µ = 0 Gerät exakt geeicht

Statistik II für Betriebswirte Vorlesung 1

Biostatistik, Winter 2011/12

Statistische Tests (Signifikanztests)

Bereiche der Statistik

Beispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10

Testen von Hypothesen:

Mathematik für Biologen

How To Find Out If A Ball Is In An Urn

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Biostatistik, Winter 2011/12

8. Konfidenzintervalle und Hypothesentests

Kapitel 3 Schließende Statistik

So berechnen Sie einen Schätzer für einen Punkt

5. Seminar Statistik

Biostatistik, WS 2013/2014 Konfidenzintervalle

3. Das Prüfen von Hypothesen. Hypothese?! Stichprobe Signifikanztests in der Wirtschaft

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

30. März Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette

Auswertung und Lösung

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Statistik und Wahrscheinlichkeitsrechnung

Klassifikation von Signifikanztests

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -

Statistische Tests für unbekannte Parameter

Statistik I für Betriebswirte Vorlesung 13

Schließende Statistik

3.Wiederholung: Toleranzbereiche Für EX Geg:

Multivariate Verfahren

Mathematische Statistik Aufgaben zum Üben. Schätzer

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

Statistik Zusätzliche Beispiele SS 2018 Blatt 3: Schließende Statistik

Wichtige Definitionen und Aussagen

Kapitel III: Einführung in die schließende Statistik

Klassifikation von Signifikanztests

Statistische Tests für unbekannte Parameter

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Bereiche der Statistik

Statistische Tests funktionieren generell nach obigem Schema; der einzige Unterschied besteht in der unterschiedlichen Berechnung der Testgröße.

Kapitel 3 Schließende Statistik

Serie 9, Musterlösung

Nachklausur zur Vorlesung

Beurteilende Statistik

Statistik II. Statistische Tests. Statistik II

das Kleingedruckte...

Mögliche Fehler beim Testen

Mathematik für Biologen

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)

Hypothesentests. Hypothese Behauptung eines Sachverhalts, dessen Überprüfung noch aussteht.

Mathematik für Biologen

Allgemeines zu Tests. Statistische Hypothesentests

Einführung in die Induktive Statistik: Testen von Hypothesen

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

3) Testvariable: T = X µ 0

Wirtschaftsstatistik-Klausur am

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Vorlesung: Statistik II für Wirtschaftswissenschaft

Stochastik Serie 11. ETH Zürich HS 2018

THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ

Abbildung 1: Dieses Quiz soll Ihnen helfen, die Residuenplots besser zu verstehen. Am Schluss kommen noch vermischte Aufgaben zur Wiederholung.

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Mathematik für Biologen

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Lösungen zu Übungsblatt 9 Höhere Mathematik2/Stochastik 2 Master KI/PI

2.3 Intervallschätzung

Bemerkungen zu statistischen Tests

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Statistik II. IV. Hypothesentests. Martin Huber

Klausur zu Statistik II

Probeklausur - Statistik II, SoSe 2017

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Willkommen zur Vorlesung Statistik (Master)

T-Test für den Zweistichprobenfall

Statistik I für Betriebswirte Vorlesung 14

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Software oder Tabellen (nicht Thema dieser Veranstaltung).

T-Test für unabhängige Stichproben

Wahrscheinlichkeitsrechnung und Statistik. 11. Vorlesung /2019

3 Grundlagen statistischer Tests (Kap. 8 IS)

Analyse von Querschnittsdaten. Signifikanztests I Basics

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002

Statistik Übungsblatt 5

Methodenlehre. Vorlesung 13. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

2.3 Intervallschätzung

Auswertung und Lösung

Goethe-Universität Frankfurt

Grundidee. χ 2 Tests. Ausgangspunkt: Klasseneinteilung der Beobachtungen in k Klassen. Grundidee. Annahme: Einfache Zufallsstichprobe (X 1,..., X n ).

Klausur zur Vorlesung

Transkript:

Grundlagen der schließenden Statistik Schätzer, Konfidenzintervalle und Tests 1 46

Motivation Daten erhoben (Umfrage, Messwerte) Problem: Bei Wiederholung des Experiments wird man andere Beobachtungen erhalten Ergebnisse sind mit Unsicherheit behaftet Wie kann man die Unsicherheit quantifizieren? 2 46

Schätzer 3 46

Beispiel: Normalverteilung Messungen, bei denen bekannt ist, dass die zufälligen Messfehler sich normalverteilt verhalten 100.09 99.08 93.14 97 101.47 101.95 93.96 98.18 91.87 Modellieren die Messungen mit festem Erwartungswert µ: damit X i N ( µ, σ 2) X i = µ }{{} + ε }{{} i, Effekt / wahre Messung Messfehler Schätzproblem für den Parameter µ der Verteilung N ( µ, σ 2) Verschiedene Schätzer für µ existieren, z.b. (empirischer) Mittelwert X n oder empirischer Median X ( n 2 ) Hier: X n = 97.42 und X ( n 2 ) = 98.18 4 46

Schätzer Gegeben eine Familie von möglichen Verteilungen P θ, θ Θ Für N (µ, σ 2 ) ist θ = ( µ, σ 2) und Θ = R (0, ] Gesucht ist ein Parameter λ = λ(θ) λ(µ, σ 2 ) = µ Ein Schätzer ist eine Abbildung die den P θ -verteilten Beobachtungen X 1,..., X n eine Schätzung λ zuordnet n ˆµ = X n = 1 X n i i=1 Der Schätzer hängt von den zufälligen Beobachtungen X 1,..., X n ab und ist damit selbst zufällig (hätte man das Experiment wiederholt, hätte man andere Daten und damit auch eine andere Schätzung) 5 46

Beispiel: Normalverteilung 100.09 99.079 93.143 97.004 101.47 101.95 93.96 98.182 91.867 Berechnen Mittelwert: X n = 97.42 Den Daten liegt µ = 100 zugrunde, X n weicht davon ab Ist diese Abweichung groß oder klein? Fehler in der Schätzung muss quantifiziert werden 6 46

Bewertung von Schätzern Problem: Auch unsinnige Schätzer zugelassen Schätzer sollte unverzerrt sein, also im Mittel den richtigen Wert treffen E θˆλ(x 1,..., X n ) = λ Schätzer sollte wenig streuen: der Standardfehler s. e. θ (ˆλ) = Var θ ˆλ(X1,..., X n ) sollte klein sein Unverzerrter Schätzer mit kleinem Standardfehler: Geringe Streuung um den echten Parameter 7 46

Konfidenzintervalle 8 46

Bereichsschätzung Problem an Punktschätzung: Man trifft den wahren Parameter nicht! mittlere Ungenauigkeit kann man über Standardfehler quantifizieren Gibt nur Aussagen über den erwarteten Abstand, keine Aussage bei nur einer Schätzung Muss eventuell auch geschätzt werden Schätzen Bereich, der den wahren Parameter mit hoher Wahrscheinlichkeit enthält Größe des Bereichs entspricht Unsicherheit in der Schätzung 9 46

Beispiel Messen mit Messungenauigkeit, unbekannter Erwartungswert µ 10 46

Beispiel Messen mit Messungenauigkeit, unbekannter Erwartungswert µ X n Schätzer X n trifft den Erwartungswert nicht! 10 46

Beispiel Messen mit Messungenauigkeit, unbekannter Erwartungswert µ X n Bereich um X n, der mit hoher Wahrscheinlichkeit µ enthält 10 46

Konfidenzbereiche Gegeben Beobachtungen X 1,..., X n (Umfrageergebnisse, Messungen) Parameter λ (z.b. tatsächlicher Anteil in der Bevölkerung, entrauschte Messung) Fehlertoleranz α (meist 5%) Dann ist ein Konfidenzbereich K für λ zum Niveau 1 α (95%) eine Abbildung, welche den Beobachtungen X 1,..., X n einen Bereich K(X 1,..., X n ) zuordnet, sodass gilt. P θ (Bereich enthält λ) = P θ (K(X 1,..., X n ) λ) 1 α Konfidenzbereiche sind (wie Schätzer) zufällig 11 46

Konfidenzbereiche sind zufällig Wiederholte Messungen ergeben unterschiedliche Konfidenzbereiche, müssen tatsächlichen Parameter nicht enthalten! 16 Konfidenzintervall 12 8 4 0 5 10 15 20 Experiment Nummer 12 46

Interpretation von Konfidenzbereichen Der echte Parameter λ ist fest, der Konfidenzbereich K (X 1,..., X n ) ist zufällig Man wirft mit der Dartscheibe nach dem Dart Würde man das Experiment wiederholen, dann enthält der Konfidenzbereich den Parameter in mindestens 1 α der Fälle Nach Beobachtung gilt entweder λ K(X 1,..., X n ) oder nicht Alle Wahrscheinlichkeiten sind prospektiv zu lesen! 13 46

Konfidenzintervalle bei Normalverteilung 0.4 Gegeben Beobachtungen X 1,..., X n N (µ, 1) mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 = 1 Beispiel: Messungen bei denen Schwankungen der Messfehler bekannt ist 0.3 0.2 0.1 0.0 2 0 2 Abbildung: Dichte der Standardnormalverteilung, µ = 0 14 46

Konfidenzintervalle bei Normalverteilung 0.4 Gegeben Beobachtungen X 1,..., X n N (µ, 1) mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 = 1 Beispiel: Messungen bei denen Schwankungen der Messfehler bekannt ist 0.3 0.2 0.1 0.0 2 0 2 Abbildung: Dichte der Standardnormalverteilung, µ = 0 14 46

Konfidenzintervalle bei Normalverteilung 0.4 Gegeben Beobachtungen X 1,..., X n N (µ, 1) mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 = 1 Beispiel: Messungen bei denen Schwankungen der Messfehler bekannt ist 0.3 0.2 0.1 0.0 2 0 2 Abbildung: Dichte der Standardnormalverteilung, µ = 0 14 46

Konfidenzintervalle bei Normalverteilung 0.4 Gegeben Beobachtungen X 1,..., X n N (µ, 1) mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 = 1 Beispiel: Messungen bei denen Schwankungen der Messfehler bekannt ist 0.3 0.2 0.1 0.0 95% 2 0 2 Abbildung: Dichte der Standardnormalverteilung, µ = 0 14 46

Konfidenzintervalle bei Normalverteilung Erhalten für festes µ einen Vertrauensbereich V µ mit P µ ( Xn V µ ) = 95% = 1 α Für Normalverteilung mit Erwartungswert µ und Varianz σ 2 : V µ = [µ 1.96 σ, µ + 1.96 σ], wobei ±1.96 den 97.5%- und 2.5%-Quantilen der Standardnormalverteilung entspricht, man schneidet rechts und links jeweils α 2 = 2.5% ab 15 46

Konfidenzintervalle bei Normalverteilung Jetzt umdrehen: Für gegebenes X n wählen wir alle µ für die X n V µ liegt, dabei beachten: X n N (µ, σ2 n ) und nicht etwa N (µ, σ 2 )! Aus X n [ µ 1.96 σ n, µ + 1.96 ] σ n wird dann µ [ X n 1.96 σ n, X n + 1.96 ] σ, n Daher Faustformel: Mittelwert ± 2 Standardfehler Wenn σ 2 nicht bekannt, schätzen durch die empirische Varianz σ 2 t-verteilung mit größeren Quantilen 16 46

Vorhersagen und Klassifikation 17 46

Vorhersagen Nach Beobachtungen von Messungen X 1,..., X n N ( µ, σ 2) wollen wir eine erneute Messung Y N ( µ, σ 2) vorhersagen Ähnlich zu Schätzungen: Punktvorhersage trifft tatsächliche Realisierung nicht Vorhersagebereich Kennt man µ, σ 2, so gilt P (Y (µ + σ q 0.025, µ + σ q 0.975 )) = 0.95, (µ + σ q 0.025, µ + σ q 0.975 ) ist ein Vorhersageintervall zum Niveau 0.95. Kennt man µ und σ 2 nicht, so muss man diese schätzen und erhält dadurch zusätzliche Unsicherheit: ( ( )) n + 1 n + 1 P Y X n + σ n 2 t 0.025, µ + σ n 2 t 0.975 = 0.95 18 46

Klassifikation Bank muss entscheiden, ob ein Kunde einen Kredit gewährt bekommt Dazu: Betrachte ähnliche Kunden und sagen für neuen Kunden vorher ob er den Kredit zurück zahlt oder nicht Spezieller Fall von Vorhersage: Nur endliche Klassen möglich Formal: Beobachtungen (X 1, Y 1 ),..., (X n, Y n ) wobei Y i { Zahlt Kredit zurück, Zahlt Kredit nicht zurück } und X i Merkmale sind (Alter, Wohnort, Beruf) Gegeben eine neue Beobachtung X n+1 muss Y n+1 vorhergesagt werden P (Y n+1 X n+1) schätzen Parametrisch Modellieren (logistische Regression) Besten Klassifikator bestimmen Maschinelles Lernen 19 46

Statistische Tests 20 46

Überprüfen von Hypothesen Wisenschaftstheorie: Aufstellen und Überprüfen von falsifizierbaren Hypothesen Hypothesen können nicht bestätigt werden, nur verworfen werden Verworfen wird, falls es genügend Beweise gegen die Hypothese gibt Beweise sind hier unter der Hypothese extreme (unwahrscheinliche) Werte 21 46

Beispiel: Neues Medikament Ein neues Medikament soll getestet werden, dabei soll zu einer vorgegeben Wahrscheinlichkeit (Signifikanzniveau) verschiedene Hypothesen getestet werden: Das neue Medikament hat keine Wirkung Das neue Medikament ist höchstens so gut wie das alte Problem: Die Wirkung der Medikamente ist hängt von verschiedenen Faktoren ab: Geschlecht, Alter, Vorerkrankungen etc. Modellieren stochastisch Idee: Betrachten erwartete Wirkung 22 46

Beispiel: Neues Medikament wirkt Tabelle: Beispieldaten zur Wirkung eines Medikaments Vorher Nachher -0.34103 4.65560-0.88530 2.88740 2.96751 2.58324-2.32540-0.41677 0.82769 3.47115 Problem: Wie können wir im statistischen Sinne hart entscheiden, ob hier ein Effekt vorliegt, oder die Beobachtungen nur durch Zufall zustande kam? 23 46

Beispiel: Neues Medikament wirkt Betrachten Differenzen von Nachher und Vorher und erhalten Beobachtungen X 1,..., X n : 4.9966 3.7727-0.38427 1.9086 2.6435 Annahme: diese sind normalverteilt (muss begründet sein!) Nullhypothese: Das Medikament wirkt nicht, d.h. Erwartungswert der Differrenzen ist 0 Unter der Nullhypothese gilt X i N ( 0, σ 2) verteilt X n t 4 σ2 5 Idee: Wie unwahrscheinlich sind die Daten dann? X n = 2.587, σ 2 = 2.031 X n σ2 5 = 2.848 24 46

Beispiel: Neues Medikament wirkt 0.4 0.3 0.2 0.1 0.0 4 2 0 2 4 Abbildung: Dichte der t-verteilung, gestrichelt: Standardnormalverteilung 25 46

Beispiel: Neues Medikament wirkt 0.3 0.2 t 0.025 t 0.975 0.1 0.0 4 2 0 2 4 Abbildung: Dichte der t 4-Verteilung, mit α 2 und 1 α 2 - Quantilen 25 46

Beispiel: Neues Medikament wirkt 0.3 0.2 t 0.025 t 0.975 X n 0.1 0.0 4 2 0 2 4 Abbildung: Dichte der t 4-Verteilung, mit α 2 und 1 α 2 - Quantilen und X n Daten sind also sehr unwahrscheinlich, Hypothese wird verworfen 25 46

Statistische Tests Gegeben X 1,..., X n P θ Nullhypothese über den Parameter θ: θ = θ 0 Alternativhypothese: θ θ 0 Dann ist ein statistischer Test ϕ eine Abbildung, welche den Beobachtungen X 1,..., X n Ablehnen oder Nicht-Ablehnen zuordnet 26 46

Fehler erster und zweiter Art Test verwirft nicht Test verwirft 27 46

Fehler erster und zweiter Art Test verwirft nicht Test verwirft Nullhypothese trifft zu richtige Entscheidung Fehler zweiter Art 27 46

Fehler erster und zweiter Art Nullhypothese trifft zu Alternative trifft zu Test verwirft nicht richtige Entscheidung Fehler erster Art Test verwirft Fehler zweiter Art richtige Entscheidung 27 46

Fehler erster und zweiter Art Nullhypothese trifft zu Alternative trifft zu Test verwirft nicht richtige Entscheidung Fehler erster Art Test verwirft Fehler zweiter Art richtige Entscheidung ϕ heißt Test zum Signifikanzniveau α, falls der Fehler erster Art P θ0 ( ϕ verwirft ), also ein fehlerhaftes Verwerfen der Nullhypothese, kleiner als α ist. 27 46

Fehler erster und zweiter Art Nullhypothese trifft zu Alternative trifft zu Test verwirft nicht richtige Entscheidung Fehler erster Art Test verwirft Fehler zweiter Art richtige Entscheidung ϕ heißt Test zum Signifikanzniveau α, falls der Fehler erster Art P θ0 ( ϕ verwirft ), also ein fehlerhaftes Verwerfen der Nullhypothese, kleiner als α ist. Unter der Alternative θ heißt die Güte des Tests β (θ) = P θ ( ϕ verwirft nicht ) 27 46

Interpretation Test verwirft: Nicht: die Hypothese ist mit Wahrscheinlichkeit 95% falsch Hypothese wurde mit Irrtumswahrscheinlichkeit 95% verworfen, wobei diese richtig zu interpretieren ist Problem: Welche der Annahmen der Hypothese ist verletzt? Test verwirft nicht: Nicht: die Hypothese ist bestätigt Abweichung nicht vorhanden oder nur klein? Konfidenzintervall betrachten Geringer Stichprobenumfang? Wie bei Konfidenzintervallen: Für α = 5% verwirft man in einem von 20 Fällen fälschlicherweise 28 46

p-werte Meist ergeben sich mehrere Tests zu allen α [0, 1] p-wert ist das kleinste Signifikanzniveau, zu dem man noch abgelehnt hätte Hypothese wird genau dann zum Level α verworfen, wenn p-wert kleiner als α ist schwierig zu interpretieren, da α ja vor dem Testen festgelegt wurde Bei unabhängiger Wiederholung unter der Nullhypothese einen mindestens genauso extremen Wert zu beobachten 29 46

Gängige Tests Einstichproben-t-Test Zweistichproben-t-Test (verbundene oder unverbundene) Stichproben F -Test Tests auf Normalverteilung, z.b. Shapiro-Wilks Test Schwierig zu interpretieren, besser: qq-plots Tests auf Unabhängigkeit Vorzeichentest 30 46

Konfidenzbereiche und Tests 31 46

Dualität Gegeben einen Konfidenzbereich K(X 1,..., X n ) für Parameter λ zum Niveau 1 α erhält man sofort einen Test der Hypothese λ = λ 0 zum Niveau α, indem man verwirft, wenn λ 0 K(X 1,..., X n ) λ 0 32 46

Dualität Gegeben Tests ϕ λ0 zum Signifikanzniveau α der Hypothese λ = λ 0 für alle möglichen λ 0, so erhält man einen Konfidenzbereich mittels K(X 1,..., X n ) = {λ 0 ϕ λ0 verwirft nicht } Hier muss also unter allen Hypothesen λ = λ 0 gerechnet werden schwieriger 33 46

Vor-/Nachteile von Konfidenzbereichen Konfidenzbereiche sind informativer λ 0 34 46

Vor-/Nachteile von Konfidenzbereichen Informativer Unsicherheit wird mit berücksichtigt Leichter zu interpretieren dafür aber Man muss unter allen Alternativen λ 0 rechnen können Berechnung kann kompliziert sein 35 46

Vor-/Nachteile von Tests aber Man muss nur unter der Nullhypothese rechnen Falls Konfidenzbereiche schwierig zu bestimmen sind, kann man testen 0/1 Aussage, Unsicherheit nicht mit quantifiziert Interpretation schwierig, sowohl für Verwerfen als auch für nicht verwerfen Konfidenzbereiche sind Tests vorzuziehen 36 46

Multiples Testen, p-hacking 37 46

p-hacking Abbildung: Quelle: https://xkcd.com/882/

p-hacking Abbildung: Quelle: https://xkcd.com/882/

p-hacking Abbildung: Quelle: https://xkcd.com/882/

p-hacking Abbildung: Quelle: https://xkcd.com/882/

Multiples Testen: Das Problem Oft möchte man mehrere Hypothesen testen oder Konfidenzinvtervalle für mehrere Parameter (simultan) angeben Bei k Tests zum Niveau α stößt man (unter der Nullhypothese) auf folgendes Problem: P (mindestens ein Test verwirft) k P (Der i-te Test verwirft) k α i=1 Durch multiple Tests verändert sich das Signifikanzniveau (analog für Konfidenzbereiche) 39 46

Multiples Testen: Lösung Bonferroni Korrektur des Signifikanzniveaus. Bei k Tests müssen die einzelnen Tests zu α k angesetzt werden Von vorneherein festlegen, welche Hypothesen getestet werden sollen Studienprotokoll! Alternativ p-wert für jeden Test mit k multiplizieren Bei Regression kann man mit Konfidenzbereichen durch die F -Verteilung und Projektionen bessere Ergebnisse erreichen (Methode von Scheffé) 40 46

p-werte 41 46

Misinterpretation p-werte werden in vielen Publikationen als Indikator für Signifikanz verwendet Interpretation von p-werte ist schwierig! Falls möglich: Konfidenzintervall mit angeben Kurzer Auszug aus [Goodman] 42 46

Szenario Vergleich zweier Behandlungen / Verfahren Interesse an Unterschied zwischen diesen ist Differenz signifikant? Falls Verteilung der Differenz unter H 0 bekannt (normalverteilt, t-verteilt): 0.4 0.3 0.2 0.1 0.0 2 0 2 Abbildung: p-wert einer Beobachtung (schattiert) 43 46

Fehlinterpretationen Falls p = 0.05, so ist die Nullhypothese nur mit Wahrscheinlichkeit 5% wahr Macht keinen Sinn, da p-wert nur unter Nullhypothese definiert ist Falls p 0.05, so gibt es keinen Unterschied zwischen den Behandlungen Es könnten zu wenig Daten gesammelt sein oder ein sehr kleiner Effekt vorliegen Falls p < 0.05 ist ein relevanter Effekt vorhanden Der Effekt könnte sehr klein sein p = 0.05 heißt, dass man Daten beobachtet hat, die unter der Nullhypothese nur in 5% der Fälle auftritt p-wert ist definiert als die Wahrscheinlichkeit einen mindestens so extreme Beobachtung zu machen 44 46

Literatur Steven Goodman. A dirty dozen: twelve p-value misconceptions. In Seminars in hematology, volume 45, pages 135 140. Elsevier. 45 46