Die Optimalität von Randomisationstests



Ähnliche Dokumente
Melanie Kaspar, Prof. Dr. B. Grabowski 1

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Tutorial: Homogenitätstest

Primzahlen und RSA-Verschlüsselung

Statistik II für Betriebswirte Vorlesung 2

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Beweisbar sichere Verschlüsselung

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

7 Rechnen mit Polynomen

R ist freie Software und kann von der Website.

Pädagogik. Melanie Schewtschenko. Eingewöhnung und Übergang in die Kinderkrippe. Warum ist die Beteiligung der Eltern so wichtig?

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Data Mining: Einige Grundlagen aus der Stochastik

Korrelation (II) Korrelation und Kausalität

1 Mathematische Grundlagen

QM: Prüfen -1- KN

Der Provider möchte möglichst vermeiden, dass die Werbekampagne auf Grund des Testergebnisses irrtümlich unterlassen wird.

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Statistische Auswertung:

Musterlösungen zur Linearen Algebra II Blatt 5

2. Mathematik Olympiade 2. Stufe (Kreisolympiade) Klasse 7 Saison 1962/1963 Aufgaben und Lösungen

Informationsblatt Induktionsbeweis

1.3 Die Beurteilung von Testleistungen

Erfahrungen mit Hartz IV- Empfängern

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1

Simulation LIF5000. Abbildung 1

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

FRAGEBOGEN ANWENDUNG DES ECOPROWINE SELBSTBEWERTUNG-TOOLS

Korrigenda Handbuch der Bewertung

BONUS MALUS SYSTEME UND MARKOV KETTEN

Einfache Varianzanalyse für abhängige

Die reellen Lösungen der kubischen Gleichung

Einführung in die Algebra

Das Mathematik-Abitur im Saarland

Klausur Nr. 1. Wahrscheinlichkeitsrechnung. Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt.

Statuten in leichter Sprache

Willkommen zur Vorlesung Statistik

Deutliche Mehrheit der Bevölkerung für aktive Sterbehilfe

9. Schätzen und Testen bei unbekannter Varianz

Diana Lange. GENERATIVE GESTALTUNG Arten des Zufalls

Was ist das Budget für Arbeit?

4.4 AnonymeMärkteunddasGleichgewichtder"vollständigen Konkurrenz"

Netzwerkversion PVG.view

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Info zum Zusammenhang von Auflösung und Genauigkeit

2.1 Präsentieren wozu eigentlich?

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Anleitung über den Umgang mit Schildern

Versetzungsregeln in Bayern

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Bewertung des Blattes

Synchronisations- Assistent

WS 2008/09. Diskrete Strukturen

Wie ist das Wissen von Jugendlichen über Verhütungsmethoden?

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Lausanne, den XX yyyyy Sehr geehrte Frau/ Herr,

Wichtiges Thema: Ihre private Rente und der viel zu wenig beachtete - Rentenfaktor

Professionelle Seminare im Bereich MS-Office

SWOT Analyse zur Unterstützung des Projektmonitorings

1 topologisches Sortieren

Print2CAD 2017, 8th Generation. Netzwerkversionen

Fachschaft Mathematik und Informatik (FIM) LA I VORKURS. Herbstsemester gehalten von Harald Baum

Hauptprüfung Abiturprüfung 2015 (ohne CAS) Baden-Württemberg

Pflegeberichtseintrag erfassen. Inhalt. Frage: Antwort: 1. Voraussetzungen. Wie können (Pflege-) Berichtseinträge mit Vivendi Mobil erfasst werden?

Kulturelle Evolution 12

Finanzierung: Übungsserie III Innenfinanzierung

Überblick über die Tests

q = 1 p = k k k = 0, 1,..., = [ ] = 0.678

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Zeichen bei Zahlen entschlüsseln

Informationen für Enteignungsbetroffene

Minimale Darstellungen, Kommutator- und Fixräume, projektive Geometrie

Die Ergebnisse dazu haben wir in der beiliegenden Arbeit zusammengestellt.

Kompetitive Analysen von Online-Algorithmen

Paper Computer Science Experiment. Computation (NP-Vollständigkeit) Steinerbäume

Gezielt über Folien hinweg springen

Schleswig-Holstein Kernfach Mathematik

Lineare Gleichungssysteme

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Der Kälteanlagenbauer

Inhalt. Einführung in das Gesellschaftsrecht

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Festigkeit von FDM-3D-Druckteilen

Professor Dr. Peter Krebs

Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung

Speicher in der Cloud

Softwareentwicklungspraktikum Sommersemester Grobentwurf

Dokumentation zum Projekt Multimediale Lehre Fluidmechanik an der Technischen Universität Graz

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Bericht über die Untersuchung zur Erblichkeit von Herzerkrankungen beim PON

4. Das neue Recht der GmbH ein Überblick

AutoCAD Dienstprogramm zur Lizenzübertragung

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

FAQ Spielvorbereitung Startspieler: Wer ist Startspieler?

Transkript:

Die Optimalität von Randomisationstests Diplomarbeit Elena Regourd Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf Düsseldorf im Dezember 2001 Betreuung: Prof. Dr. A. Janssen

Inhaltsverzeichnis 1 Einleitung 1 2 Grundlagen 5 2.1 Einige Ergebnisse der Maßtheorie.................. 5 2.2 Exponentialfamilien.......................... 7 2.3 Suffizienz, Vollständigkeit und Minimalsuffizienz.......... 8 3 Bedingte Tests 12 3.1 Reduktion auf bedingte Testprobleme................ 12 3.2 Konstruktion bedingter Tests.................... 13 3.3 Optimale bedingte Tests....................... 15 3.4 Zusammenhang zwischen bedingten und unbedingten Tests.... 17 4 Randomisationstests 19 4.1 Struktur der Randomisationstests.................. 19 4.2 Optimale Randomisationstests in Exponentialfamilien....... 28 4.3 Orthogonale Projektion durch die bedingte Erwartung...... 42 5 Reduktion durch Invarianz bei Testproblemen 48 5.1 Allgemeine Theorie.......................... 48 5.2 Rangtests............................... 53 6 Gegenüberstellung von Randomisations- und Rangtests 58 Literaturverzeichnis 60 i

Kapitel 1 Einleitung Die Geschichte der Randomisationstests begann in den 30-er Jahren mit dem Vorschlag von Fisher (1934) und Pitman (1937, 1938) Permutationsverfahren zur Durchführung statistischer Entscheidungen heranzuziehen. Die sogenannten Permutationstests erlauben das Testen nichtparametrischer Hypothesen. Der kritische Wert wird bestimmt, indem man den Wert der Teststatistik der beobachtenden Daten mit den anderen Werten der Teststatistik vergleicht, die durch das Permutieren der Beobachtungen entstehen. Die Struktur solcher Tests zeigt das folgende Beispiel. Beispiel: 2-Stichproben-Problem. Seien X 1,..., X n1 unabhängige identisch verteilte (i.i.d.) Zufallsvariablen mit der Verteilungsfunktion F, und X n1 +1,..., X n i.i.d. Zufallsvariablen mit der Verteilungsfunktion G, wobei n 1 1 und n n 1 =: n 2 1. Wir setzen voraus, dass die Verteilungsfunktionen der beiden Stichproben F und G auf R definiert, aber unbekannt sind. Die Nullhypothese des 2-Stichproben-Problems impliziert die identische Verteilung der beiden Stichproben: H : F = G, d.h. P X i = P X 1 i = 2,..., n. Sei X := (X 1,..., X n ) der n-tupel der gegebenen Zufallsvariablen, und bezeichne X π := (X π(1),..., X π(n) ) den n-tupel, der durch das Permutieren der Koordinaten von X entsteht, wobei π ein Element der Permutationsgruppe S n ist. Da es n! mögliche Permutationen gibt, ergeben sich n! Werte X π, π S n. Unter der 1

Einleitung 2 Nullhypothese ist P X = P Xπ π S n. Sei T eine reellwertige Teststatistik (in diesem Fall kann für T die Differenz der arithmetischen Mitteln der beiden Gruppen gewählt werden, T := 1 n 1 n1 i=1 X i 1 n 2 n i=n 1 +1 X i) und x := (x 1,..., x n ) der Realisierungsvektor von X. Man betrachtet die Menge der Werte von T, die durch Permutation der Beobachtungen entstehen, {T (x π ) : π S n }, ordnet deren Elemente der Größe nach an T 1... T n! und bestimmt zu einem gegebenen Signifikanzniveau α (0 < α < 1) die natürlichen Zahlen m 1 und m 2, so dass gilt: m 1 < (n!)(1 α) m 2, T m1 1 < T m1 =... = T m2 1 < T m2. Unter der Nullhypothese ist T gleichverteilt auf der Menge {T (x π ) : π S n }. Der Permutationstest für dieses 2-Stichproben-Problem hat die Form: 1 T (x) T m2 ϕ(t (x)) := γ = m 2 1 (1 α)(n!) m 2 m 1, falls T (x) = T m1 0 T (x) T m1 1 und erfüllt E H (ϕ(t (x))) = P (T (x) T m2 ) + γ P (T (x) = T m1 ) = 1 m 2 1 + γ m2 m 1 = α. n! n! Das Beispiel zeigt, wie man einen Test für das 2-Stichproben Problem aufbauen kann, ohne die zugrundeliegenden Verteilungen zu kennen. Unter der Nullhypothese sind die Randverteilungen bezüglich der Permutationsgruppe invariant, daher auch der Name Permutationstest. Bei den Randomisationstests werden auch andere endliche Invarianzgruppen betrachtet, z.b. Vorzeichenwechsel für symmetrische Gruppen. Die Angabe der allgemeinen Struktur der Randomisationstests durchlief mehrere Phasen. In den 40-er Jahren haben einige Mathematiker, darunter Scheffé (1943), Lehmann und Stein (1949), die Randomisationstests als ähnliche α-niveau Tests mit S(α)- Struktur charakterisiert (Lehmann, E.L. und Stein, C. [14, Lemma 1]). Seit den 50-er Jahren behandelt man Randomisationstests im Zusammenhang

Einleitung 3 mit den beschränkt vollständigen, suffizienten Statistiken als Tests mit Neyman- Struktur, die auch bedingte Tests genannt werden. Wir werden sehen, dass in dem obigen Beispiel die Orderstatistik die bezüglich der Nullhypothese suffiziente und vollständige Statistik ist. Die Wahl der unter der Nullhypothese suffizienten Statistik steht im engen Zusammenhang zu der Invarianzgruppe, diese werden wir später mit G bezeichnen. Man versucht G möglichst groß zu wählen, damit die Familie der Verteilungen unter der Nullhypothese möglichst vollständig ist. Einen weiteren nichtparametrischen Verfahren zur Durchführung statistischer Entscheidungen bieten die Rangtests. Sie werden benutzt, falls keine ausgezeichnete Messskala für die beobachteten Daten vorliegt. Die Verwendung der Realisierungen selbst kann nicht gerechtfertig werden. Aus diesem Gund geht man zu den Rängen über. Eine mathematische Begründung für die Rangtests kann durch die Invarianztheorie gegeben werden. Dabei betrachtet man ebenfalls Invarianzgruppen, welche im Gegensatz zu den Randomisationstests nicht notwendig endlich sind. Permutations- und Randomisationstests kann man einerseits zwischen klassischen parametrischen Verfahren z.b. t-tests und den Rangtests einordnen. Sie lassen wesentlich größere Verteilungsklassen zu als die parametrischen Verfahren und verwenden dabei die erzielten Werte, wodurch ein durch Übergang verursachter Güteverlust vermieden wird. Andererseits wird bei den Randomisationstests im Gegensatz zu den Rangtests nicht vorausgesetzt, dass die Verteilungsfunktionen stetig sind. Der Vorteil der Randomisationstests ist, dass sie sowohl auf parametrische als auch auf nichtparametrische Hypothesen anwendbar sind. Ein t-test kann auch als ein Randomisationstest betrachtet werden, wenn der kritische Wert wie in dem obigen Beispiel mithilfe der Randomisation ausgerechnet wurde. Die vorliegende Arbeit geht auf die Optimalität der Randomisationstests ein. Dieses Thema wurden schon in Lehmann und Stein (1949) behandelt. Sie geben einen besten Test für die Hypothese der Invarianz gegen eine einfache Alternative an, welcher die Dichtefunktion der Alternative als Teststatistik hat und S(α)-Struktur besitzt, siehe Lehmann, E.L. und Stein, C. [14, Theorem 2]. Bell und Sen (1984) stellen die Struktur der Randomisationstests mithilfe einer

Einleitung 4 maximalinvarianten und einer minimalsuffizienten Statistik dar. Sei behaupten, dass ein ausschließlich von einer maximalinvarianten Statistik abhängender Test verteilungsfrei unter der Nullhypothese ist, siehe Bell, C.B. und Sen, P.K. [5, S.5]. Eine Version der Maximalinvarianten ist eine durch eine B-Pitmanfunktion h erzeugte Permutationsstatistik R(h(X)) = π S n 1 (h(x) h(xπ)). Durch die Anwendung des Neyman-Pearson-Lemmas kann man einen besten verteilungsfreien Test zum Niveau α gegen eine einfachen Alternative angeben, welcher auf der durch die B-Pitmanfunktion h erzeugte Permutationsstatistik R(h(X)) basiert, siehe Bell, C.B. und Donoghue, J.[4, Theorem 4.1] oder Bell, C.B. und Sen, P.K.[5, Theorem 5.1]. Auf B-Pitmanfunktionen soll in dieser Arbeit nicht näher eingegangen werden. Wir behandeln Randomisationstests, die als bedingte Tests mit einer mithilfe der endlichen Transformationsgruppe G definierten suffizienten Statistik angesehen werden. Unter bestimmten Voraussetzungen an die zugrundeliegende Verteilungsklasse, nämlich beim Vorliegen einer Exponentialfamilie, lassen sich die optimalen Randomisationstests in einer recht einfachen Form darstellen, wie wir in Kapitel 4 sowohl in allgemeiner Form als auch anhand geläufiger Testprobleme sehen werden. Die Theorie der Randomisationstests baut auf der Theorie der bedingten Tests auf, die im Kapitel 3 behandelt wird. Zum Schluß wird die Invarianztheorie mit der Anwendung auf Rangtests dargestellt und mit Randomisationstests verglichen.