Multiplizitätskorrektur bei Variablenselektion

Ähnliche Dokumente
Statistische Entscheidungstheorie

Statistik: Klassisch oder Bayes

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Vorlesung Wissensentdeckung

Varianzkomponentenschätzung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Statistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II

6.2 Lineare Regression

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Frequentisten und Bayesianer. Volker Tresp

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016

Clusteranalyse: Gauß sche Mischmodelle

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Lineare Regression und Varianzanalyse

Statistische Methoden

Bayesianische FDR (Teil 1)

10.5 Maximum-Likelihood Klassifikation (I)

Regressionsmodelle mit Anwendungen in der Versicherungs- und Finanzwirtschaft Probeklausur Wintersemester 2017/

2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme)

Seminar in Statistik - FS Nonparametric Bayes. Handout verfasst von. Ivo Francioni und Philippe Muller

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Vorlesung: Statistik II für Wirtschaftswissenschaft

(Reine) Bayes-Punktschätzung

Die Regressionsanalyse

Computergestützte Datenanalyse in der Kern- und Teilchenphysik

Das Bayes'sche Prinzip

Lineare Modelle in R: Zweiweg-Varianzanalyse und Kovarianzanalyse

Bayessche Lineare Regression

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

Satz von der totalen Wahrscheinlichkeit

BZQ II: Stochastikpraktikum

Kapitel 4: Merkmalszusammenhänge

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Vorlesung: Multivariate Statistik für Psychologen

Vorlesung: Statistik II für Wirtschaftswissenschaft

4.2 Methoden um Tests zu finden: Likelihood Quotienten Tests (LRT) Falls X 1,..., X n iid aus f(x θ), so gilt für die Likelihood Funktion

Statistik für Ingenieure und Naturwissenschaftler

(a)... ein Spieler eine Entscheidung treffen muss... (b)... der andere Spieler (Experte) über private...

Statistik I für Betriebswirte Vorlesung 3

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

1 Diskriminanzanalyse

Informationen zur KLAUSUR am

1 Gemischte Lineare Modelle

Statistik I für Betriebswirte Vorlesung 4

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

7. Hypothesentests. Ausgangssituation erneut: ZV X repräsentiere einen Zufallsvorgang. X habe die unbekannte VF F X (x)

Lineare Regression 1 Seminar für Statistik

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Wie liest man Konfidenzintervalle? Teil II. Premiu m

Statistics, Data Analysis, and Simulation SS 2017

Statistics, Data Analysis, and Simulation SS 2015

Goethe-Universität Frankfurt

2 Alle Standardabweichungen σ i sind bekannt, bzw. die Kovarianzmatrix der Daten ist bekannt: Minimieren der χ 2 - Funktion.

Mathematische Statistik Aufgaben zum Üben. Schätzer

Auswertung und Lösung

Bayesianische FDR (Teil2)

5 Noethersche Ringe und Moduln

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!!

Vorhersage von Protein-Funktionen. Patrick Pfeffer

Kapitel XI - Operationscharakteristik und Gütefunktion

Punktschätzer Optimalitätskonzepte

Die Funktion f wird als Regressionsfunktion bezeichnet.

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

3.1 Sukzessive Minima und reduzierte Basen: Resultate

Bayesianische Netzwerke - Lernen und Inferenz

Verfeinerungen des Bayesianischen Nash Gleichgewichts

Kapitel 5: Einfaktorielle Varianzanalyse

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Punktetabelle (wird von den Korrektoren beschriftet)

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

ε δ Definition der Stetigkeit.

LS-Schätzer. SSE(β) = (y µ) t (y µ) = y t y 2β t X t y + β t X t Xβ. Minimiere SSE(β) bzgl. β: Minimum definiert durch

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

Hamilton-Jacobi-Theorie

Exponentialabbildung für Matrizen und Systeme von Differentialgleichungen

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Zusatzmaterial zu Kapitel 6

Mathematik für Naturwissenschaftler II SS 2010

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

EGRESSIONSANALYSE AVID BUCHATZ NIVERSITÄT ZU KÖLN

Stochastik-Praktikum

Data Mining & Machine Learning Dipl.-Inf. Christoph Carl Kling

BAYES SCHE STATISTIK

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Kapitel 5: Einfaktorielle Varianzanalyse

Einführung in die Maximum Likelihood Methodik

Mixed Effects Models: Wachstumskurven

HMMs und der Viterbi-Algorithmus

Landau-Theorie. Seminar zur Theorie der Teilchen und Felder. Daniel Schröer

ReduSoft Ltd. Kurzbeschreibungen zu einigen Modulen, die im Programm

Transkript:

Multiplizitätskorrektur bei Variablenselektion Seminar: Multiples Testen Dozent: Prof. Dr. T. Dickhaus Referent: Maximilian Mönch - 22.11.2010 -

Überblick 1) Einleitung 2) Multiplizitätskorrektur 3) Median probability model 4) Optimalität bzgl. Vorhersage 5) Fazit 6) Literatur

1) Einleitung - Problem der Variablenselektion - Lineares Modell in der Regressionsanalyse: Aufgabe: Wähle aus {1,...,m} k Zahlen und belasse im Modell. Aufgefasst als multiples Testproblem: Teste Hypothesensystem

2) Multiplizitätskorrektur Wann treten Multiplizitätsprobleme auf? Diese Problematik tritt auf, wenn verhältnismäßig viele Variablen in das Modell aufgenommen werden. So erhöht sich die Irrtumswahrscheinlichkeit des multiplen Tests Veranschaulichung: Sei Seien ein multipler Test für ein zweiparametriges Modell. stoch. unabhängig. Weiterhin sei: Daraus ergibt sich:

2) Multiplizitätskorrektur Im Rahmen der Suche nach bester Vorhersage wird die a posteriori Wahrscheinlichkeit betrachtet: Wobei die likelihood von Y, mit a priori-dichte der Modellparameter, ist. Durch die Abhängigkeit der likelihood von der a priori Wahrscheinlichkeit für die Modellparameter, ist demnach ein besonderes Augenmerk auf die Wahl dieser zu legen. Nach Scott und Berger (2010) ermöglichen der empirische und vollständige Bayes- Ansatz eine automatische Multiplizitätskorrektur.

2) Multiplizitätskorrektur - empirischer Ansatz - Annahme:, Daraus folgt für die a priori Wahrscheinlichkeit, dass Modell vorliegt: Ansatz ist es nun, p mittels Maximum Likelihood Methode zu schätzen (George und Foster (2000)): Nun wählt man das Modell mit der maximalen a posteriori Wahrscheinlichkeit

2) Multiplizitätskorrektur - empirischer Ansatz - Die Multiplizitätskorrektur erfolgt hierbei folgenderrmaßen: Angenommen, wir haben k wahre Parameter. Dann folgt aus Grund: Das heißt, dass Modelle mit einer hohen Anzahl an Variablen unwahrscheinlich sind, wenn es darum geht, das Modell mit der höchsten a posteriori Wahrscheinlichkeit zu wählen.

2) Multiplizitätskorrektur - vollst. Bayes-Ansatz - Annahme: Für die Wahrscheinlichkeit, dass Modell gilt dann: vorliegt, Im Spezialfall a=b=1, d.h. Parameter p ist gleichverteilt, vereinfacht sich die a priori Wahrscheinlichkeit:

2) Multiplizitätskorrektur - vollst. Bayes-Ansatz - Das heißt, die für die a posteriori Wahrscheinlichkeit, die es zu maximieren gilt, gilt dann: Auch wenn der Parameter p nicht mehr direkt vorhanden ist, so erfolgt dennoch eine Multiplizitätskorrektur. Denn offensichtlich gilt bei fester Anzahl wahrer Parameter und wachsendem m, dass die a posteriori Wahrscheinlichkeit gegen 0 konvergiert.

2) Multiplizitätskorrektur - Nachteil des empir. Bayes Ansatz - Trotz Konvergenz der empirischen Bayes-Lösung gegen den wahren Parameter, hilft der Ansatz nicht immer, das optimale Vorhersagemodell zu finden:

3) Median probability model Ziel: Finden einer Theorie eines optimalen Vorhersagemodells Barbieri und Berger (2004) wiesen nach, dass dies das sogenannte Median probability model ist.

3) Median probability model Formal lässt sich das Modell wie folgt ausdrücken:

3) Median probability model Existenz: Es muss gewährleistet sein, dass die Menge der somit gewählten Kovariate zu der Menge der betrachteten Modelle und somit zum Hypothesensystem H gehört.

3) Median probability model Dies ist gewährleistet, wenn: Was ist ein graphisches Modell?

4) Optimalität - Theorie zum besten Vorhersagemodell - Nach dem Bayesianischen Ansatz müsste das Modell mit der höchsten a posteriori Wahrscheinlichkeit die beste Datenprädiktion ermöglichen. Doch das ist nicht immer der Fall, da diese Wahrscheinlichkeiten oft sehr klein sind. Barbieri und Berger (2004) nutzten die a posteriori Inklusionswahrscheinlichkeiten, eine Summation der a posteriori Wahrscheinlichkeiten, um das zuvor genannte Median probability model zu definieren. Dieses weist die gewünschte beste Prädiktion auf.

4) Optimalität - Theorie zum besten Vorhersagemodell - Betrachten die Kovarianzmatrix Ist Q Diagonalmatrix, so erfüllen die a posteriori Mittelwerte mit Beste Vorhersage bedeutet auch, das quadratische Risiko zu minimieren. In diesem Fall gilt:

4) Optimalität - Theorie zum besten Vorhersagemodell - Fall 1: Es wird nur eine Auswahl an Modellen betrachtet

4) Optimalität - Theorie zum besten Vorhersagemodell - Fall 2: Es werden alle möglichen Modelle betrachtet:

4) Optimalität - Theorie zum besten Vorhersagemodell - Bemerkung: 1) Viele a priori Wahrscheinlichkeiten erfüllen die Bedingung im Korollar. Jeffreys Vorschlag (1961), dass die Wahrscheinlichkeit für die Modellordnung j ungefähr 1/j sein kann, erfüllt diese Bedingung allerdings nicht. 2) Ist allen Modellen ein Intercept gemein, so wird die zugehörige a priori Wahrscheinlichkeit gleich 1 gesetzt.

4) Optimalität - Anwendungsbeispiel - ANOVA: 2-Faktor-Modell Sei Kurz:

4) Optimalität - Anwendungsbeispiel - Mit der Designmatrix folgt für die Kovarianzmatrix: Wir können also die obige Theorie anwenden.

4) Optimalität - Anwendungsbeispiel - Fall 1: Fall 2: Annahme: Interaktion nur dann möglich, wenn beide Haupteffekte vorhanden sind. Dieses Modell besitzt graphische Modellstruktur. In beiden Fällen bietet das Median probability model die beste Datenvorhersage.

5) Fazit Es werden starke Bedingungen an das Median probability model gestellt, damit es eine optimale Vorhersage ermöglicht. Daher hilft dieses Modell nicht immer. Beispiel: Modelle mit Intercept sowie das Nullmodell. und einer Prädiktorenvariable Nehme als a priori Wahrscheinlichkeit 1/(k+1) für Modellordnung. Weiterhin seien alle Kovariate hoch miteinander sowie mit y korelliert. Damit ist die a posteriori Wahrscheinlichkeit für das Nullmodell fast gleich 0 und die für die anderen Modelle stimmen mit den a posteriori Inklusionswahrscheinlichkeiten überein. Diese sind aber kleiner als ½ und damit ist das beste Vorhersagemodell das Nullmodell.

6) Literatur Scott, James G., Berger, James O. (2010). Bayes and empirical-bayes multiplicity adjustment in the variable-selection problem, The Annals of Statistics Barbieri, Maria M., Berger, James O.(2004). Optimal predictive model selection. The Annals of Statistics, Vol. 32, 870-897