Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests



Ähnliche Dokumente
Statistik II für Betriebswirte Vorlesung 2

9. Schätzen und Testen bei unbekannter Varianz

Tutorial: Homogenitätstest

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Eine Einführung in R: Statistische Tests

Ein möglicher Unterrichtsgang

Willkommen zur Vorlesung Statistik (Master)

Überblick über die Verfahren für Ordinaldaten

Überblick über die Tests

Einfache statistische Auswertungen mit dem Programm SPSS

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Grundlagen der Inferenzstatistik

Einfache Varianzanalyse für abhängige

Statistik II für Betriebswirte Vorlesung 3

Die Optimalität von Randomisationstests

Willkommen zur Vorlesung Statistik

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Klausur Nr. 1. Wahrscheinlichkeitsrechnung. Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt.

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Stichprobenauslegung. für stetige und binäre Datentypen

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

R ist freie Software und kann von der Website.

9. StatistischeTests. 9.1 Konzeption

Statistische Thermodynamik I Lösungen zur Serie 1

Statistische Auswertung:

Statistik für Studenten der Sportwissenschaften SS 2008

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Varianzanalyse (ANOVA: analysis of variance)

Felix Klug SS Tutorium Deskriptive Statistik

Beurteilung der biometrischen Verhältnisse in einem Bestand. Dr. Richard Herrmann, Köln

Varianzanalyse ANOVA

Business Value Launch 2006

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

QM: Prüfen -1- KN

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

q = 1 p = k k k = 0, 1,..., = [ ] = 0.678

Stochastische Eingangsprüfung,

Zusammenhänge zwischen metrischen Merkmalen

Beispiel Zusammengesetzte Zufallsvariablen

Binäre abhängige Variablen

Mathematische und statistische Methoden II

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Der Provider möchte möglichst vermeiden, dass die Werbekampagne auf Grund des Testergebnisses irrtümlich unterlassen wird.

1.3 Die Beurteilung von Testleistungen

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

W-Rechnung und Statistik für Ingenieure Übung 11

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Primzahlen und RSA-Verschlüsselung

4. Erstellen von Klassen

a n auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

5. Schließende Statistik Einführung

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Statistik im Versicherungs- und Finanzwesen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Korrelation (II) Korrelation und Kausalität

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Kugel-Fächer-Modell. 1fach. 3fach. Für die Einzelkugel gibt es 3 Möglichkeiten. 6fach. 3! Möglichkeiten

Kontingenzkoeffizient (nach Pearson)

Zeichen bei Zahlen entschlüsseln

Übungsaufgaben zu Kapitel 5. Aufgabe 101. Inhaltsverzeichnis:


Forschungsstatistik I

Uli Greßler. Qualitätsmanagement. Überwachung der Produkt- und Prozessqualität. Arbeitsheft. 2. Auflage. Bestellnummer 04796

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum)

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Webergänzung zu Kapitel 10

Data Mining: Einige Grundlagen aus der Stochastik

Informationsblatt Induktionsbeweis

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses.

Lineare Gleichungssysteme

Wir arbeiten mit Zufallszahlen

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Biostatistik, Winter 2011/12

Statistische Datenauswertung. Andreas Stoll Kantonsschule Olten

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140

Auswertung mit dem Statistikprogramm SPSS:

13.5 Der zentrale Grenzwertsatz

Rente = laufende Zahlungen, die in regelmäßigen Zeitabschnitten (periodisch) wiederkehren Rentenperiode = Zeitabstand zwischen zwei Rentenzahlungen

Aufgabenblatt 3: Rechenbeispiel zu Stiglitz/Weiss (AER 1981)

Transkript:

Beispiel: Sonntagsfrage Vier Wochen vor der österreichischen Nationalratswahl 1999 wurde 499 Haushalten die Sonntagsfrage gestellt: Falls nächsten Sonntag Wahlen wären, welche Partei würden Sie wählen? Einführung in die induktive Statistik Friedrich Leisch Institut für Statistik Ludwig-Maximilians-Universität München SS 2009, Statistische Signifikanztests SPÖ ÖVP FPÖ Grüne LIF Sonst Umfrage 38% 24% 25% 6% 4% 3% Wahl 33.15% 26.91% 26.91% 7.4% 3.65% 1.98% Frage 1: War das Ergebnis für die SPÖ überraschend? Frage 2: Mit welcher Wahrscheinlichkeit mußte das LIF damit rechnen, den Wiedereinzug ins Parlament nicht zu schaffen? Mit welcher Wahrscheinlichkeit die Grünen? Frage 3: War das Gesamtergebnis überraschend? Friedrich Leisch, Induktive Statistik 2009 1 Statistische Tests Statistische Tests Beim Beantworten der Frage 1 mit Hilfe von Konfidenzintervallen haben wir nachgesehen, ob der z-wert in einem 95% bzw. 99% KI liegt: Frage 2: mit welcher Wahrscheinlichkeit ist der Parameter kleiner als eine vorgegebene Schranke? Aus 4% wurden t = 1.88 für die Grünen bzw. t = 0 für die Liberalen. 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4 3 2 1 0 1 2 3 3 2 1 0 1 2 3 Friedrich Leisch, Induktive Statistik 2009 2 Friedrich Leisch, Induktive Statistik 2009 3

Statistische Tests Statistische Tests In beiden Fällen haben wir versucht bei gegebener Stichprobe eine Hypothese zu überprüfen und mit einer Alternative zu vergleichen: 1. Hypothese: Trotz Umfragewerten von 38% bekommt die SPÖ nur 33.15%. Alternative: Bei 38% in der Umfrage ist 33.15% kein wahrscheinliches Resultat für die SPÖ. 2. Hypothese: Die Grünen bzw. Liberalen bekommen (mindestens) 4%. Alternative: Die Grünen bzw. Liberalen bekommen weniger als 4%. Alle klassischen statistischen Tests basieren auf diesem Grundprinzip: 1. Es wird eine sogenannte Nullhypothese H 0 und eine Alternative H 1 gebildet. 2. Mittels einer Teststatistik wird berechnet, wie wahrscheinlich die interessierende Eigenschaft der Stichprobe unter der Nullhypothese ist. Bildung eines Konfidenzintervalls für die Teststatistik (unter der Nullhypothese), Reduktion des Entscheidungsproblems auf den Wert einer einzigen Zahl. 3. Falls die Teststatistik außerhalb des Konfidenzintervalls liegt, wird die Nullhypothese verworfen (zu unwahrscheinlich gegeben die Stichprobe). 4. Die Art der verwendeten Teststatistik bestimmt, welche Eigenschaft der Verteilung untersucht wird (Lokation, Streuung,... ). Friedrich Leisch, Induktive Statistik 2009 4 Friedrich Leisch, Induktive Statistik 2009 5 Statistische Tests Design von Experimenten Fehler 1. Art: Die Nullhypothese stimmt, aber der Test verwirft sie (=Größe oder Signifikanzniveau α des Tests). Fehler 2. Art: Die Alternative stimmt, aber der Test akzeptiert die Nullhypothese. Realität Testresultat Nullhypothese Alternative Nullhypothese 1 Größe Fehler 2. Art Alternative Fehler 1. Art Macht Optimaler Test: Maximale Macht bei gegebener Größe, gleichzeitige Reduktion beider Fehlerarten nicht mehr möglich. Bei der Planung von Experimenten, die mit Hilfe statistischer Tests ausgewertet werden sollen, spielt die Güte des Tests eine wesentliche Rolle: 1. Wahl des Testverfahrens (z.b. Gauß-Test) 2. Nullhypothese und Alternative festlegen 3. Wahl des Signifikanzniveaus α, typische Werte für α sind 0.05, 0.03, oder 0.01. Die Gewichtung der beiden Fehlerarten hängt meist von der Anwendung ab. Falls die Alternative auch als Punkthypothese formuliert wird, kann die notwendige Stichprobengröße n für eine gewünschte Macht berechnet werden (z.b. aus Gütefunktion ablesbar). Friedrich Leisch, Induktive Statistik 2009 6 Friedrich Leisch, Induktive Statistik 2009 7

Gauß-Test Gegeben sei eine normalverteilte Stichprobe, die Varianz σ 2 ist bekannt. Mittelwert und Varianz der Normalverteilung Nullhypothese: Erwartungswert µ = µ 0 Alternative: Erwartungswert µ µ 0 Die Teststatistik z = ˆµ µ 0 σ/ n, ˆµ = x = 1 n x i n i=1 ist standardnormalverteilt, falls die Nullhypothese stimmt. Ablehnung der Nullhypothese falls z zu groß. Z.B. für α = 0.05 lehnen wir H 0 ab, falls z > z 0.975 = 1.96. Anmerkung: Der Test kann wegen des zentralen Grenzwertsatzes auch für hinreichend große nicht normalverteilte Stichproben verwendet werden. Friedrich Leisch, Induktive Statistik 2009 9 Gauß-Test für Proportionen Gauß-Test (approximativer Binomialtest) Gegeben sei eine binomialverteilte Stichprobe. Da die Varianz σ 2 = π(1 π) unter der Nullhypothese bekannt ist, können wir bei hinreichend großem n den Gauß-Test für Hypothesen über die Trefferwahrscheinlichkeit π verwenden. Nullhypothese: π = π 0 Alternative: π π 0 Die Teststatistik z = ˆπ π 0 N(0, 1) π 0 (1 π 0 )/n ist für hinreichend großes n standardnormalverteilt. 0.0 0.1 0.2 0.3 0.4 3 2 1 0 1 2 3 Friedrich Leisch, Induktive Statistik 2009 10 Friedrich Leisch, Induktive Statistik 2009 11

Gauß-Test: Fortsetzung Frage 1 Einseitige Gauß-Tests Korrekt formuliert muß der Test für Frage 1 lauten: Nullhypothese: π = 33.15% Alternative: π 33.15% In manchen Fällen hat man entweder eine Vermutung über die Richtung der Abweichung von der Nullhypothese oder eine Richtung ist irrelevant. Dann wird ein sogenannter einseitiger Test formuliert (der größere Macht gegen die Alternative hat): ˆπ π z = 0 π 0 (1 π 0 )/n = 0.38 0.3315 0.3315(1 0.3315)/499 2.30 Wir verwenden also die theoretische Varianz unter der Null statt der Stichprobenvarianz. Das Resultat verändert sich nicht wesentlich (Ablehnung der Null bei α = 0.05, Annahme bei α = 0.01). Nullhypothese: µ = µ 0 Alternative 1: µ < µ 0 Alternative 2: µ > µ 0 Die Teststatistik z = ˆµ µ 0 σ/ n, ˆµ = x = 1 n x i n i=1 bleibt gleich, wird aber mit einem einseitigen Konfidenzintervall verglichen. Friedrich Leisch, Induktive Statistik 2009 12 Friedrich Leisch, Induktive Statistik 2009 13 Ein- & zweiseitige Gauß-Tests Gauß-Test: Fortsetzung Frage 2 Korrekt formuliert muß der Test für Frage 2 lauten: H 1 : µ µ 0 0.0 0.1 0.2 0.3 0.4 3 2 1 0 1 2 3 Nullhypothese: π = 4% Alternative: π < 4% ˆπ z G = G π 0 π 0 (1 π 0 )/n = 0.06 0.04 0.04(1 0.04)/499 2.28 H 1 : µ < µ 0 0.0 0.1 0.2 0.3 0.4 3 2 1 0 1 2 3 ˆπ z L = L π 0 π 0 (1 π 0 )/n = 0.04 0.04 0.04(1 0.04)/499 = 0 In beiden Fällen können wir also den Verbleib im Parlament nicht ausschließen. Achtung: Nullhypothese und Alternative werden nicht symmetrisch behandelt!!! Friedrich Leisch, Induktive Statistik 2009 14 Friedrich Leisch, Induktive Statistik 2009 15

Einseitige Gauß-Tests Kritische Werte Was passiert bei einem einseitigen Test der Form Nullhypothese: µ = µ 0 Alternative: µ < µ 0 wenn in Wahrheit µ > µ 0 ist? Es wird (mit großer Wahrscheinlichkeit) die Nullhypothese angenommen. Größere Macht hat einen Preis, der Test hat eine blinden Fleck bekommen. Einseitige Tests sind das häufigste Beispiel für Tests, wo die Alternative keine sogenannte Omnibus-Alternative ( alles außer der Null ) ist. Jeder Test kann nur zwischen Null und Alternative unterscheiden, wenn die Wahrheit außerhalb dieser beiden Bereiche liegt, ist das Ergebnis unbestimmt, d.h., man kann noch nicht einmal die Wahrscheinlichkeit dafür angeben. Der sogenannte kritische Wert eines Tests ist das Quantil der Verteilung der Teststatistik, mit dem die beobachtete Teststatistik bei gegebenem α verglichen werden muß. Für Gauß-Tests sind dies Quantile der Standardnormalverteilung: Alternative Ablehnung Nullhypothese µ µ 0 z > z 1 α/2 µ < µ 0 z < z α µ > µ 0 z > z 1 α Anmerkung: Für symmetrische Verteilungen wie die Normalverteilung gilt z α = z 1 α und in Tabellen finden sich oft nur die 1 α-quantile. Der Bereich, in dem die Nullhypothese verworfen wird, heißt auch Ablehnungsbereich des Tests. Friedrich Leisch, Induktive Statistik 2009 16 Friedrich Leisch, Induktive Statistik 2009 17 p-werte p-werte An Frage 1 (SPÖ) haben wir gesehen, daß das Signifikanzniveau α starken Einfluß auf den Ausgang des Tests haben kann, falls die Teststatistik z im Grenzbereich liegt: Für α = 0.05 hätten wir H 0 verworfen, für α = 0.01 akzeptiert. Eine alternative Möglichkeit besteht darin, sich direkt die Wahrscheinlichkeit der Teststatistik unter der Nullhypothese zu betrachten. Exakt formuliert: Als p-wert eines Tests wird die Wahrscheinlichkeit bezeichnet, unter der Nullhypothese die vorliegende Stichprobe oder eine noch unwahrscheinlichere zu beobachten. 0.0 0.1 0.2 0.3 0.4 3 2 1 0 1 2 3 Die Nullhypothese wird abgelehnt, wenn der p-wert sehr klein ist (0.05, 0.03,... ). Bsp SPÖ: z = 2.30 Friedrich Leisch, Induktive Statistik 2009 18 Friedrich Leisch, Induktive Statistik 2009 19

p-werte Güte von Tests 0.0 0.1 0.2 0.3 0.4 3 2 1 0 1 2 3 Nach Konstruktion gilt bei Tests mit Signifikanz α P (Fehler 1.Art) = P (H 0 ablehnen H 0 richtig) α Die Güte des Tests definiert sich also primär über die Wahrscheinlichkeit für den Fehler 2.Art: P (Fehler 2.Art) = P (H 0 nicht ablehnen H 1 richtig) = 1 P (H 0 ablehnen H 1 richtig) Bsp SPÖ: p = 2 (1 Φ( z )) = 2 (1 Φ(2.30)) 0.0214 Friedrich Leisch, Induktive Statistik 2009 20 Friedrich Leisch, Induktive Statistik 2009 21 Güte von Tests Güte von Tests Gütefunktion g(µ) fasst P (Fehler 1.Art) und P (Fehler 2.Art) in einer Funktion zusammen: g(µ) = P (H 0 ablehnen µ) mit µ der unbekannte wahre Parameter. Es gilt: Beispiel: Mittelwert einer normalverteilten Stichprobe (Gauß-Test) X N(µ, σ 2 /n) Z = X ( ) µ 0 µ µ0 σ/ n N σ/ n, 1 Einseitiger Test: H 0 : µ µ 0 H 1 : µ > µ 0 α = P (Fehler 1.Art) = g(µ 0 ) β = P (Fehler 2.Art) = 1 g(µ), µ µ 0 g(µ) = P (H 0 ablehnen µ) = = P (Z z 1 α µ) = ( = 1 Φ z 1 α µ µ ) 0 σ/ n Friedrich Leisch, Induktive Statistik 2009 22 Friedrich Leisch, Induktive Statistik 2009 23

Güte von Tests Güte von Tests g(µ) 0.0 0.2 0.4 0.6 0.8 1.0 H 0 H 1 α β n = 10 α = 0.1 σ 2 = 1 g(µ) 0.0 0.2 0.4 0.6 0.8 1.0 H 0 H 1 n = 50 n = 20 n = 10000 n = 10 α = 0.1 σ 2 = 1 0.5 0.0 0.5 1.0 1.5 0.5 0.0 0.5 1.0 1.5 µ µ 0 µ µ 0 Friedrich Leisch, Induktive Statistik 2009 24 Friedrich Leisch, Induktive Statistik 2009 25 Güte von Tests Güte von Tests Beispiel: Mittelwert einer normalverteilten Stichprobe (Gauß-Test) X N(µ, σ 2 /n) Z = X ( ) µ 0 µ µ0 σ/ n N σ/ n, 1 Zweiseitiger Test: H 0 : µ = µ 0 H 1 : µ µ 0 g(µ) = P (H 0 ablehnen µ) = = P ( Z z 1 α/2 µ) = ( = Φ z 1 α/2 + µ µ ) ( 0 σ/ + Φ z n 1 α/2 µ µ ) 0 σ/ n g(µ) 0.0 0.2 0.4 0.6 0.8 1.0 β α n = 10 α = 0.1 σ 2 = 1 1.5 1.0 0.5 0.0 0.5 1.0 1.5 µ µ 0 Friedrich Leisch, Induktive Statistik 2009 26 Friedrich Leisch, Induktive Statistik 2009 27

Güte von Tests t-test g(µ) 0.0 0.2 0.4 0.6 0.8 1.0 n = 10 n = 20 n = 50 n = 10000 α = 0.1 σ 2 = 1 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Gegeben sei eine normalverteilte Stichprobe, die Varianz σ 2 ist jedoch nicht bekannt und muß durch ˆσ 2 geschätzt werden. Nullhypothese: Erwartungswert µ = µ 0 Alternative: Erwartungswert µ µ 0 Die Teststatistik t = ˆµ µ 0 ˆσ/ n ˆµ = x = 1 n x i, ˆσ 2 = 1 n (x i x) 2 n i=1 n 1 i=1 ist t-verteilt mit n 1 Freiheitsgraden. µ µ 0 Friedrich Leisch, Induktive Statistik 2009 28 Friedrich Leisch, Induktive Statistik 2009 29 t-test t-test Bei wachsenden Freiheitsgraden konvergiert die t-verteilung gegen die N(0,1), da die Varianz immer besser geschätzt werden kann: 0.0 0.1 0.2 0.3 0.4 N(0,1) t, df=5 t, df=10 3 2 1 0 1 2 3 Verwendung einer t-tabelle: Ganz analog zur Normalverteilungstabelle, allerdings müssen die Freiheitsgrade noch zusätzlich berücksichtigt werden. Bei zweiseitigem Test müssen Quantile zum Niveau 1 α/2 verwendet werden, z.b., bei α = 0.05 Quantile für 0.975. df 0.95 0.975 1 6.314 12.706 2 2.920 4.303 3 2.353 3.182 4 2.132 2.776 5 2.015 2.571 6 1.943 2.447 7 1.895 2.365 8 1.860 2.306 9 1.833 2.262 10. 1.812. 2.228. Friedrich Leisch, Induktive Statistik 2009 30 Friedrich Leisch, Induktive Statistik 2009 31

t-test t-test: zwei Stichproben Beispiel 1a: Einer Lieferung Dioden mit gewünschtem Durchlaßwiderstand von 100mΩ wird eine zufällige Stichprobe der Größe 10 entnommen und vermessen: Gegeben seien zwei unabhängige normalverteilte Stichproben X und Y vom Umfang n x und n y, deren Varianzen σ 2 x und σ 2 y nicht bekannt sind. 114.62 110.10 106.31 99.30 107.28 108.35 113.64 117.92 130.15 102.74 Wir erhalten ˆµ = 111.04, ˆσ = 8.71 und somit t = 4.0066 bei 9 Freiheitsgraden. Wir verwerfen daher die Nullhypothese: der kritische Wert aus der Tabelle beträgt 2.262 bei α = 0.05, der p-wert des Tests ist 0.00308. Der mittlere Durchlaßwiderstand entspricht mit großer Wahrscheinlichkeit nicht den Herstellerangaben. Nullhypothese: Differenz der Erwartungswerte µ x µ y = µ 0 Alternative: Differenz der Erwartungswerte µ x µ y µ 0 Die Teststatistik t = (ˆµ x ˆµ y ) µ 0 ˆσ ist t-verteilt, wobei die genaue Form des Varianzschätzers ˆσ 2 und die Freiheitsgrade df noch davon abhängen, ob die Varianzen σ 2 x und σ 2 y als gleich angenommen werden dürfen. Friedrich Leisch, Induktive Statistik 2009 32 Friedrich Leisch, Induktive Statistik 2009 33 t-test: zwei Stichproben t-test: zwei Stichproben Varianzen gleich: Varianzen ungleich: ˆσ 2 = (n x + n y )[(n x 1)ˆσ 2 x + (n y 1)ˆσ 2 y ] n x n y (n x + n y 2) df = n x + n y 2 ˆσ 2 = ˆσ2 x n x + ˆσ2 y n y df = (ˆσ 2 x/n x + ˆσ 2 y /n y ) 2 ˆσ 4 x/[n 2 x (n x 1)] + ˆσ 4 y /[n 2 y (n y 1)] Beispiel 1b: Wir haben zwei Lieferungen A und B von Dioden und wollen wissen, ob der Durchlaßwiderstand der beiden Lieferungen ident ist (µ 0 = 0). Jeder Lieferung wird eine Stichprobe vom Umfang 10 entnommen und vermessen: A: 114.62 110.10 106.31 99.30 107.28 108.35 113.64 117.92 130.15 102.74 B: 101.77 109.86 131.41 105.29 104.49 118.62 108.60 139.09 113.72 114.91 Wir erhalten ˆµ A = 111.04, ˆσ A = 8.71, ˆµ B = 114.77 und ˆσ B = 12.06. Unter der Annahme gleicher Varianzen ergibt sich t = 0.7934 bei 18 Freiheitsgraden. Die Nullhypothese wird angenommen: der entsprechende kritische Wert aus der t-tabelle ist 2.100922, der p- Wert des Tests ist 0.4379. Die beiden Lieferungen haben mit großer Wahrscheinlichkeit denselben mittleren Durchlaßwiderstand. Friedrich Leisch, Induktive Statistik 2009 34 Friedrich Leisch, Induktive Statistik 2009 35

t-test: verbundene Stichproben t-test: verbundene Stichproben Gegeben sei eine Stichprobe {(x 1, y 1 ),... (x n, y n )} aus abhängigen Paaren (X, Y ) normalverteilter Größen, deren Varianz unbekannt ist. Für die Hilfsvariable z = x y haben wir die Stichprobe {z 1 = x 1 y 1,..., z n = x n y n }, diese dürfen wir als unabhängig identisch normalverteilt betrachten. Für Hypothesen über den Mittelwert der Differenz von X und Y können wir den normalen t-test auf die neue Stichprobe Z anwenden. Nullhypothese: Erwartungswert der Differenzen µ z = µ 0 Alternative: Erwartungswert der Differenzen µ z µ 0 Die Teststatistik t = ˆµ z µ 0 ˆσ/ n ˆµ z = z = 1 n z i, ˆσ z 2 = 1 n (z i z) 2 n i=1 n 1 i=1 ist t-verteilt mit n 1 Freiheitsgraden. Friedrich Leisch, Induktive Statistik 2009 36 Friedrich Leisch, Induktive Statistik 2009 37 t-test: verbundene Stichproben F -Test: Vergleich von Varianzen Beispiel 2: In einem Betrieb werden die Reißlasten von Drähten mit einer Maschine A untersucht. Da der Bedarf an solchen Untersuchungen steigt, wird eine weitere Zerreißmaschine B angeschafft. Um die Gleichwertigkeit der beiden Maschinen zu prüfen, werden 12 Drahtproben geteilt und jede Hälfte an einer Maschine getestet. Es ergeben sich die Reißlast- Messungen von A: 35 46 34 27 37 59 52 61 21 31 37 27 B: 39 51 32 23 41 53 51 55 19 36 37 26 Z: -4-5 2 4-4 6 1 6 2-5 0 1 mit einer mittleren Differenz von ˆµ z = 0.33 bei ˆσ z = 4.03. Wir erhalten t = 0.2865 bei 11 Freiheitsgraden und akzeptieren die Nullhypothese (p = 0.7798). Gegeben seien zwei unabhängige normalverteilte Stichproben X und Y vom Umfang n x und n y, deren Mittelwerte und Varianzen nicht bekannt sind. Nullhypothese: σ 2 x = σ 2 y Alternative: σ 2 x σ 2 y Wir nehmen an, daß ˆσ x 2 > ˆσ y 2 ist (sonst Umbenennung). Dann hat die Teststatistik F = ˆσ2 x ˆσ 2 y eine F -Verteilung mit n x 1 und n y 1 Freiheitsgraden. Die Maschinen haben gleichwertige mittlere Reißlast-Messungen. Friedrich Leisch, Induktive Statistik 2009 38 Friedrich Leisch, Induktive Statistik 2009 39

F -Test: Vergleich von Varianzen Beispiel 1c: Haben die beiden Dioden-Lieferungen dieselbe Varianz? Wir hatten geschätzte Standardabweichungen von ˆσ A = 8.71 und ˆσ B = 12.06 und bilden damit die Teststatistik F = ˆσ2 B ˆσ A 2 = 12.062 8.71 2 = 1.918239 Der kritische Wert der F-Verteilung mit 9 und 9 Freiheitsgraden liegt bei 4.025994, wir nehmen daher die Nullhypothese an (p = 0.346), obwohl die Varianz der Stichprobe B fast doppelt so groß wie die der Stichprobe A ist. Nichtparametrische Tests Friedrich Leisch, Induktive Statistik 2009 40 Vorzeichen-Test Vorzeichen-Test Annahmen: X 1,..., X n unabhängige Wiederholungen, X besitzt stetige Verteilungsfunktion Hypothesen: (a) H 0 : x med = δ 0 H 1 : x med δ 0 (b) H 0 : x med δ 0 H 1 : x med < δ 0 (c) H 0 : x med δ 0 H 1 : x med > δ 0 Teststatistik: A = Anzahl der Stichprobenvariablen mit einem Wert kleiner als δ 0 Verteilung unter x med = δ 0 : B(n, 0.5), für n 25 approximativ N(0.5n, 0.25n) Ablehnungsbereiche: Für n 25 wie beim approximativen Binomialtest mit π 0 = 0.5. Für n < 25 exakter Binomialtest nötig. Keine Annahmen über Verteilungstyp notwendig; nur: stetige Verteilungsfunktion. Deshalb: verteilungsfreier bzw. nonparametrischer Test Unter x med = δ 0 gilt P (X i < δ 0 ) = 0.5; A B(n, 0.5). D.h.: Vorzeichen-Test ist spezieller Binomialtest auf π 0 = 0.5. Falls X normalverteilt: Effizienzverlust, d.h. geringere Güte als Student-Test Friedrich Leisch, Induktive Statistik 2009 42 Friedrich Leisch, Induktive Statistik 2009 43

Wilcoxon-Vorzeichen-Rang-Test Wilcoxon-Vorzeichen-Rang-Test Annahmen: X 1,..., X n unabhängig und identisch verteilt wie X. X metrisch skaliert und symmetrisch verteilt. Verteilungsfunktion stetig. Hypothesen: (a) H 0 : x med = δ 0 H 1 : x med δ 0 (b) H 0 : x med δ 0 H 1 : x med < δ 0 (c) H 0 : x med δ 0 H 1 : x med > δ 0 Teststatistik: W = n rg D i Z i i=1 1 D mit D i = X i δ 0, Z i = i > 0 0 D i < 0. Für n > 20 ist W approximativ verteilt nach N ( n(n+1) 4, n(n+1)(2n+1) ) 24. Ablehnungsbereich: (a) W < w α/2 oder W > w 1 α/2 (b) W < w α (c) W > w 1 α, wobei w α das tabellierte α-quantil der Verteilung von W ist. Friedrich Leisch, Induktive Statistik 2009 44 Friedrich Leisch, Induktive Statistik 2009 45 Wilcoxon-Vorzeichen-Rang-Test Wilcoxon-Vorzeichen-Rang-Test Keine Annahmen über Verteilungstyp notwendig; nur: stetige und symmetrische Verteilungsfunktion. Deshalb: verteilungsfreier/nonparametrischer Test. Wegen Symmetrie: x med = E(X). Hypothesenpaare (a), (b), (c) identisch zum Gauß- und Student- Test Alternative zum Student-Test; keine Normalverteilungsannahme notwendig. Zur Teststatistik W : 1. Berechne die Differenzen D i = X i δ 0, i = 1,..., n. 2. Bilde die zugehörigen betragsmäßigen Differenzen D 1,..., D n. 3. Ordne diesen betragsmäßigen Differenzen Ränge zu, d.h. der kleinste Betrag erhält den Rang 1, der zweitkleinste Betrag den Rang 2, usw.. Bezeichnet rg D i den Rang von D i, ergibt sich die Teststatistik als die Summe n 1 wenn D W = rg D i Z i mit Z i = i > 0 i=1 0 wenn D i < 0. W stellt damit die Summe über alle Ränge dar, die zu Beobachtungen gehören, für die X i > δ 0, d.h. D i > 0 gilt. Friedrich Leisch, Induktive Statistik 2009 46 Friedrich Leisch, Induktive Statistik 2009 47

Wilcoxon-Vorzeichen-Rang-Test Wilcoxon-Vorzeichen-Rang-Test Bei Bindungen (ties): Durchschnittsränge vergeben. Idee der Teststatistik: Unter x med = δ 0 (wegen symmetrischer Verteilung) Summe der Ränge mit D i > 0 Summe der Ränge mit D i < 0 E(W ) = (rg(d 1 ) +... + rg(d n ))/2 = (1 +... + n)/2 = n(n+1) 4 Ist x med < δ 0 bzw. x med > δ 0 : Anzahl der i mit X i > δ 0 bzw. X i > δ 0 wird kleiner. Verteilung von W unter x med = δ 0 hängt nicht von der wahren Verteilung von X ab: verteilungsfreier Test. Exakte Herleitung für endliches n schwierig. Tabellen für Quantile bzw. Normalverteilungsapproximation Geringer Effizienzverlust gegenüber Student-Test, falls X tatsächlich normalverteilt. Friedrich Leisch, Induktive Statistik 2009 48 Friedrich Leisch, Induktive Statistik 2009 49 Wilcoxon-Rangsummen-Test Wilcoxon-Rangsummen-Test Verallgemeinerung des Vorzeichen-Rang-Tests für den Vergleich der Mediane zweier Stichproben. Annahme: Verteilungsfunktionen F und G von X bzw. Y haben gleiche Form, sind aber möglicherweise um ein Stück gegeneinander verschoben. Idee: Unter H 0 : x med = y med sind F und G identisch, d.h. x - und y - Werte kommen aus der gleichen Verteilung. Bilde gepoolte Stichprobe X 1,..., X n, Y 1,..., Y m und zugehörige Ränge rg(x 1 ),..., rg(y m ) (Bei Bindungen: Durchschnittsränge vergeben.) Annahmen: X 1,..., X n unabhängig und identisch verteilt wie X Y 1,..., Y m unabhängig und identisch verteilt wie Y X 1,..., X n und Y 1,..., Y m unabhängig X und Y besitzen stetige Verteilungsfunktion F bzw. G, Verteilung von X Y ist symmetrisch. Hypothesen: (a) H 0 : x med = y med vs. H 1 : x med y med (b) H 0 : x med y med vs. H 1 : x med < y med (c) H 0 : x med y med vs. H 1 : x med > y med Teststatistik: T W = Summe der Ränge, die zu x -Werten gehören. Falls F G: T W zu groß und/oder zu klein. Friedrich Leisch, Induktive Statistik 2009 50 Friedrich Leisch, Induktive Statistik 2009 51

Wilcoxon-Rangsummen-Test Teststatistik: n T W = rg(x i ) i=1 Ablehnungsbereiche: (a) T W < w α/2 (n, m) oder T W > w 1 α/2 (n, m) (b) T W < w α (n, m) (c) T W > w 1 α (n, m) wobei w α das tabellierte α-quantil der Verteilung von T W ist. Der χ 2 -Test Für m > 25 oder n > 25 ist die Teststatistik approximativ ( ) n(n + m + 1) nm(n + m + 1) N, 2 12 verteilt, sonst Tabelle. Friedrich Leisch, Induktive Statistik 2009 52 Der χ 2 -Test χ 2 -Test: Eine Stichprobe Der χ 2 -Test ist sehr flexibel und wird in vielen Bereichen eingesetzt: Immer wenn beobachtete diskrete Ereignisse mit theoretischen Wahrscheinlichkeiten verglichen werden sollen, kann nach dem Prinzip X 2 = (beobachtet erwartet) 2 erwartet verfahren werden. Nach einer Einteilung in Klassen (wie in einem Histogramm) kann er auch zum Vergleich kontinuierlicher Größen verwendet werden. Sind X 1,..., X k unabhängig standardnormalverteilt, so ist χ 2 -verteilt mit k Freiheitsgraden. χ 2 = X 2 1 + X2 2 +... + X2 k (χ 2 -Anpassungstest) Stichprobe der Größe n einer Variablen mit k Merkmalen, beobachte Häufigkeiten h 1,..., h k. Test ob wahre Wahrscheinlichkeiten gleich π 1,..., π k : X 2 k (h = i nπ i ) 2 i=1 nπ i Falls die π i vorgegeben sind (oder aus anderen Daten ermittelt wurden), hat man k 1 Freiheitsgrade. Wurden die π i mittels Maximum Likelihood geschätzt und dabei r Parameter verwendet, so hat man nur mehr k r 1 Freiheitsgrade. Friedrich Leisch, Induktive Statistik 2009 54 Friedrich Leisch, Induktive Statistik 2009 55

Beispiel: Zufallszahlen Beispiel: Sonntagsfrage Ein Computerprogramm soll gleichverteilte Zufallszahlen erzeugen, und zwar die natürlichen Zahlen 0 bis 9. Der Programmierer erhält nach einem Testlauf von 10000 Versuchen folgende Häufigkeiten: 0 1 2 3 4 5 6 7 8 9 956 998 1043 1059 968 985 1087 1042 967 895 X 2 (956 1000)2 (895 1000)2 = +... + = 29.966 1000 1000 ergibt bei 9 Freiheitsgraden p = 0.0004446, das Programm funktioniert mit großer Wahrscheinlichkeit nicht. Vier Wochen vor der Nationalratswahl 1999 wurde 499 Haushalten die Sonntagsfrage gestellt: Falls nächsten Sonntag Wahlen wären, welche Partei würden Sie wählen? SPÖ ÖVP FPÖ Grüne LIF Sonst Umfrage 38% 24% 25% 6% 4% 3% Wahl 33.15% 26.91% 26.91% 7.4% 3.65% 1.98% Umfrage 190 120 125 30 20 14 Erwartet 165.41 134.28 134.28 36.92 18.21 9.88 Frage 3: War das Gesamtergebnis überraschend? X 2 (190 165.41)2 (14 9.88)2 = +... + = 9.0053 165.41 9.88 ergibt bei 5 Freiheitsgraden p = 0.1089. Friedrich Leisch, Induktive Statistik 2009 56 Friedrich Leisch, Induktive Statistik 2009 57 χ 2 -Homogenitätstest χ 2 -Homogenitätstest: Bsp Ziel: Test auf Gleichheit der Verteilungen von zwei oder mehr Variablen X 1, X 2,..., X k. Meist: X i Merkmal X in i-ter Population oder unter i-ter Versuchsbedingung. X jeweils entweder kategorial mit m Kategorien oder klassiert in m Klassen. Merkmalsausprägungen 1... m 1 h 11... h 1m n 1 2 h 21... Population.. h 2m. n 2. k h k1... h km n k h 1... h m Beispiel: Kreditwürdigkeit X 1 Kontostand (m = 3) bei guten Krediten (n 1 = 700) X 2 Kontostand bei Problemkrediten (n 2 = 300) Kreditwürdigkeit Konto nein gut mittel unproblematisch 139 348 213 700 Problem 135 46 119 300 274 394 332 1000 Friedrich Leisch, Induktive Statistik 2009 58 Friedrich Leisch, Induktive Statistik 2009 59

χ 2 -Homogenitätstest χ 2 -Homogenitätstest Definition: χ 2 -Homogenitätstest für k Stichproben Idee: Unter H 0 : P (X 1 = j) =... = P (X k = j) für j = 1,..., m sind die Verteilungen identisch. h j n Schätzer für P (X i = j). Da h ij B(n i, P (X i = j)) und E(h ij ) = n i P (X i = j) h ij = n i h j n erwartete Häufigkeit von h ij unter H 0 Teststatistik χ 2 vergleicht h ij und h ij für alle i, j. Annahmen: Unabhängige Stichprobenziehung in den k Populationen Hypothesen: H 0 : P (X 1 = j) = = P (X k = j), j = 1,..., m H 1 : P (X i1 = j) P (X i2 = j) für mindestens ein Tupel (i 1, i 2, j) Teststatistik: χ 2 = k m i=1 j=1 ( ) 2 h ij n i h j n n i h j n Verteilung unter H 0 : approximativ χ 2 ((k 1)(m 1)) Ablehnungsbereich: χ 2 > χ 2 1 α ((k 1)(m 1)) Friedrich Leisch, Induktive Statistik 2009 60 Friedrich Leisch, Induktive Statistik 2009 61 χ 2 -Homogenitätstest: Bsp Tabelle der zu erwartenden Häufigkeiten h ij Kreditwürdigkeit Konto nein gut mittel unproblematisch 191.80 275.80 232.40 700 Problem 82.20 118.20 99.60 300 274 394 332 1000 Zusammenhangsanalyse χ 2 = 116.851 > χ 2 0.95 (2) = 5.99 H 0 ablehnen Friedrich Leisch, Induktive Statistik 2009 62

Zusammenhangsanalyse Zusammenhangsanalyse Gegeben: Paare (X i, Y i ), i = 1,..., n, i.i.d. wie (X, Y ) Möglichkeiten: 1. X und Y kategorisch (oder metrisch und klassiert): Test auf Unabhängigkeit 2. X und Y metrisch: Test auf Korrelation 3. X metrisch und Y kategorisch: Verallgemeinerung t-test bzw. Wilcoxon-Rangsummentest für mehr als 2 Gruppen Varianzanalyse, Kruskal-Wallis-Test Beispiel: Sonntagsfrage CDU/CSU SPD FDP Grüne Rest Männer 144 153 17 26 95 435 Frauen 200 145 30 50 71 496 insgesamt 344 298 47 76 166 931 Frage: Geschlecht und Parteipräferenz abhängig? Zusammenhangsanalyse in 1. und 2. unterstellt keine Wirkungsrichtung, d.h. X und Y werden symmetrisch behandelt. Friedrich Leisch, Induktive Statistik 2009 64 Friedrich Leisch, Induktive Statistik 2009 65 χ 2 -Unabhängigkeitstest χ 2 -Unabhängigkeitstest Gegeben: Stichprobenvariablen (X i, Y i ), i = 1,..., n Hypothesen: H 0 :P (X = i, Y = j) = P (X = i) P (Y = j) für alle i, j H 1 :P (X = i, Y = j) P (X = i) P (Y = j) für mind. ein Paar (i, j) Y 1... m 1 h 11... h 1m h 1 X.... k h k1... h km h k h 1... h m n Teststatistik: χ 2 k m = i=1 j=1 unter H 0 1 X. k Y 1... m n... h1 h 1 h1 h m n h 1... hk h 1 n... h 1... h m n (h ij h ij ) 2 h ij mit h ij = h i h j n hk h m n h k Beispiel: Sonntagsfrage Berechnung von χ 2 analog zur deskriptiven Statistik: χ 2 = 20.065 (k 1)(m 1) = 1 4 = 4 χ 2 0.95 (4) = 9.488 20.065 > 9.488 H 0 bei α = 5% ablehnen, d.h. signifikanter Zusammenhang zwischen Geschlecht und Parteipräferenz. Ablehnungsbereich: χ 2 > χ 2 1 α ((k 1) (m 1)) Friedrich Leisch, Induktive Statistik 2009 66 Friedrich Leisch, Induktive Statistik 2009 67

Korrelationstest Annahmen: Unabhängige gemeinsam normalverteilte Stichprobenvariablen (X i, Y i ), i = 1,..., n (sonst Rangkorrelation, komplizierter). Hypothesen: (a) H 0 : ρ XY = 0 vs. H 1 : ρ XY 0 (b) H 0 : ρ XY 0 vs. H 1 : ρ XY < 0 (c) H 0 : ρ XY 0 vs. H 1 : ρ XY > 0 Regelkarten und wiederholte Tests Teststatistik: T = r XY n 2 1 rxy 2 Ablehnungsbereiche: (a) T > t 1 α 2 (n 2) (b) T < t 1 α (n 2) (c) T > t 1 α (n 2) Friedrich Leisch, Induktive Statistik 2009 68 Beispiel: Fertigungsüberwachung Kritische Werte Beispiel 4: Bei der Fertigung von Bildröhren soll der Kathodenstrom überwacht werden. Bei ungestörter Fertigung ist der Kathodenstrom normalverteilt mit µ = 25mA und σ = 1mA. In regelmäßigen Abständen wird eine Röhre entnommen und vermessen. Wegen der Normalverteilungsannahme sollten die gemessenen Kathodenströme mit 95% Wahrscheinlichkeit im Intervall 25 ± 1.96, 99% Wahrscheinlichkeit im Intervall 25 ± 2.57 liegen. Zur einfachen Handhabung derartiger Tests werden sogenannte Qualitätsregelkarten eingesetzt. Friedrich Leisch, Induktive Statistik 2009 70 Friedrich Leisch, Induktive Statistik 2009 71

Regelkarte Regelkarte 22 23 24 25 26 27 28 22 23 24 25 26 27 28 0 10 20 30 40 Index 0 10 20 30 40 Index Friedrich Leisch, Induktive Statistik 2009 72 Friedrich Leisch, Induktive Statistik 2009 73 Regelkarte Wiederholte Tests 22 23 24 25 26 27 28 Wie groß ist die Wahrscheinlichkeit, daß zwei aufeinander folgende Werte im blauen Bereich liegen? Im Beispiel mit µ = 25mA und σ = 1mA: P{ X t 25 > 1.96, X t+1 25 > 1.96} = P{ X t 25 > 1.96}P{ X t+1 25 > 1.96} = (1 0.95)(1 0.95) = 0.05 2 = 0.0025 Drei aufeinanderfolgende Beobachtungen sollten nur mehr alle 8000 Messungen im blauen Bereich liegen: 0 10 20 30 40 0.05 3 = 0.000125 Index Friedrich Leisch, Induktive Statistik 2009 74 Friedrich Leisch, Induktive Statistik 2009 75

Wiederholte Tests Wiederholte Tests Ganz analog dazu wird auch wiederholtes Anwenden eines t-tests oder χ 2 -Tests irgendwann zu einem Fehler 1. Art führen. Falls k Tests gemeinsam eine Größe von α haben sollen, müssen wir das Niveau α der einzelnen Tests korrigieren. α = 1 (1 α) k ( = 1 1 ( k) α ( k + ) α 2...) 1 2 1 1 + k α = k α Beispiel 1d: Getrennte t-tests der beiden Dioden-Lieferungen A und B auf einen Mittelwert von 100 ergeben p-werte von 0.003080 für A und 0.003780. Zur Bonferroni-Korrektur multiplizieren wir die p-werte einfach mit k = 2 und erhalten korrigierte p-werte von 0.00616 und 0.00756. Die Nullhypothese wird also auch nach der Korrektur für multiples Testen in beiden Fällen verworfen. Bonferroni-Korrektur: α = α/k Beispiel: Falls 4 Tests gemeinsam ein Niveau von α = 0.05 haben sollen, müssen die kritischen Werte zum Niveau α = 0.0125 verwendet werden. Friedrich Leisch, Induktive Statistik 2009 76 Friedrich Leisch, Induktive Statistik 2009 77