Post Data Inferenz. Ein Überblick über Verfahren aus frequentistischer Sichtweise

Transkript

1 1/23 Post Data Inferenz Ein Überblick über Verfahren aus frequentistischer Sichtweise Betreuung: Marco Cattaneo Referent: Paul Fink München, 14. Januar 2011

2 2/23 Gliederung 1 2 Relevante Teilmengenn Induzierte Partitionen Kleinste Partition 3 4 5

3 Warum frequentistische Post Data-Inferenz? 3/23 Frequentistische Inferenz ist Pre Data Inferenz (Betrachtung Long Run Verhalten von relativen Häufigkeiten) Verfahren können für Anwender unplausible Ergebnisse liefern Nach Beobachtung der Daten verlieren z.b. Konfidenzintervalle Charackter der Zufälligkeit Alle Zufälligkeit liegt in Beobachtungen und nicht im unbekannten Parameter = Keine Wahrscheinlichkeitsaussagen mehr möglich Lösungsvorschlag: Frequentistische Post Data Infernez mit konditionalen Verfahren

4 Warum frequentistische Post Data-Inferenz? 3/23 Frequentistische Inferenz ist Pre Data Inferenz (Betrachtung Long Run Verhalten von relativen Häufigkeiten) Verfahren können für Anwender unplausible Ergebnisse liefern Nach Beobachtung der Daten verlieren z.b. Konfidenzintervalle Charackter der Zufälligkeit Alle Zufälligkeit liegt in Beobachtungen und nicht im unbekannten Parameter = Keine Wahrscheinlichkeitsaussagen mehr möglich Lösungsvorschlag: Frequentistische Post Data Infernez mit konditionalen Verfahren

5 Konfidenzintervall bei Gleichverteilung 4/23 Sei X 1, X 2,..., X 10 iid U(θ 1 2, θ ) 90% Konfidenzintervall für θ ist dann: ( x(10) + x (1) C U (x) = , x (10) + x (1) + 1 ) , Datensituation 1: x (1) = 0.01 und x (10) = 0.99 = C U (x) = (0.397, 0.603) Nach Konstruktion ist P(θ C U (x)) = 1 = Konfidenzintervall zu pessimistisch

6 5/23 Datensituation 2: x (1) = 0.49 und x (10) = 0.51 = C U (x) = (0.397, 0.603) Gleiches theoretisches Konfidenzintervall aber deutlich unsicherer, ob θ C U (x). 90% Konfidenzintervall als Kennzahl ungeeigent um Überdeckungswahrscheinlichkeit für konkrete Daten anzugeben Ansatz nach Fisher und Kiefer: Bedingen auf Teilmengen des Stichprobenraums

7 5/23 Datensituation 2: x (1) = 0.49 und x (10) = 0.51 = C U (x) = (0.397, 0.603) Gleiches theoretisches Konfidenzintervall aber deutlich unsicherer, ob θ C U (x). 90% Konfidenzintervall als Kennzahl ungeeigent um Überdeckungswahrscheinlichkeit für konkrete Daten anzugeben Ansatz nach Fisher und Kiefer: Bedingen auf Teilmengen des Stichprobenraums

8 6/23 Konzept Relevante Teilmengenn Induzierte Partitionen Kleinste Partition Idee nach Fisher: Aufteilung des Datenraums und Bedingen von Überdeckungswahrscheinlichkeiten bei Konfidenzintervallen darauf γ(x) ist geeignete Kennzahl der Konfidenz Relevante Teilmenge A für Konfidenzprozedur C(x), γ(x) wenn oder für alle θ und ein ε > 0 gilt P θ (θ C(X ) X A) γ > ε P θ (θ C(X ) X A) γ < ε

9 Vor-/ Nachteile Relevante Teilmengenn Induzierte Partitionen Kleinste Partition Vorteil: Verbesserung der Konfidenzaussage gegenüber Pre Data Situation Nachteile: Relevanten Teilmengen existieren nicht für jede Konfidenzprozedur Es können mehrere relevante Teilmengen existieren (Auswahl beliebig) Auffindung unter Umständen sehr aufwendig Interpretation: Schätzer der unteren Schranke der wahren Überdeckungswahrscheinlichkeit Schätzer der auf A bedingten Überdeckungswahrscheinlichkeit 7/23

12 8/23 Konzept und Beispiel Relevante Teilmengenn Induzierte Partitionen Kleinste Partition Verwendung von Partitionen, die durch Statistik induziert werden: Ergänzende Statistiken (engl.: ancillary statistics) Beispiel: Gleichverteilung wie im ersten Beispiel Suffiziente Statisik für θ: ( X (10) + X (1), X (10) X (1) ) Betrachtung von { X (10) X (1) } als Partition: { ( ) 1 10 } α P θ θ C(X ) X(10) X (1) = min 1 ( ), 1 X (10) X (1) Daraus lässt sich ε für Vorliegen von relevanter Teilmenge bestimmen

13 9/23 Vor-/ Nachteile Relevante Teilmengenn Induzierte Partitionen Kleinste Partition Vorteile: Einschränkung der Beliebigkeit gegenüber allg. relevanten Teilmengen Schnelle Konstruktion Nachteile: Induzierung von verschiedene Partitionen bei anderen ergänzende Statistiken zur gleichen Prozedur Ergänzende Statistik kann von Nuisance Parameter abhängen

14 9/23 Vor-/ Nachteile Relevante Teilmengenn Induzierte Partitionen Kleinste Partition Vorteile: Einschränkung der Beliebigkeit gegenüber allg. relevanten Teilmengen Schnelle Konstruktion Nachteile: Induzierung von verschiedene Partitionen bei anderen ergänzende Statistiken zur gleichen Prozedur Ergänzende Statistik kann von Nuisance Parameter abhängen

15 10/23 Konzept Relevante Teilmengenn Induzierte Partitionen Kleinste Partition Kleinstes Reference Set bei Vorliegen von Daten: {X = x} Überdeckungswahrscheinlichkeit als Indikatorfunktion: P 0 (θ C(X ) X = x) = P 0 (θ C(x)) = I (θ C(x)). Schätzung und Vergleich dieser Indikatorfunktion über Verlust-/ und Risikofunktionen Goutis und Casella empfehlen die quadratische Verlustfunktion mit zugehöriger Risikofunktion L 2 (θ, γ) = (I (θ C(x)) γ(x)) 2, R(θ, γ) = E θ (I (θ C(X )) γ(x )) 2

16 11/23 Vor-/ Nachteile Relevante Teilmengenn Induzierte Partitionen Kleinste Partition Vorteile: Nicht abhängig von einer künstlichen der Partition Konstruktion von besseren Post Data Schätzern für Konfidenz als 1 α Bei Anwendung von Bayes Regel Schätzer interpretierbar als Posteriori Schätzung mit flacher Priori Nachteile: Pre Data Dominanzrelation bleibt nicht erhalten Bessere Post Data Schätzung, die 1 α dominiert, aufwendig

17 11/23 Vor-/ Nachteile Relevante Teilmengenn Induzierte Partitionen Kleinste Partition Vorteile: Nicht abhängig von einer künstlichen der Partition Konstruktion von besseren Post Data Schätzern für Konfidenz als 1 α Bei Anwendung von Bayes Regel Schätzer interpretierbar als Posteriori Schätzung mit flacher Priori Nachteile: Pre Data Dominanzrelation bleibt nicht erhalten Bessere Post Data Schätzung, die 1 α dominiert, aufwendig

18 Beispiel nach Kiefer I 12/23 Sei X N(θ, 1) und das zugehörige Testproblem: H 0 : θ = 1 vs. H 1 : θ = 1 Betrachtung von symmetrischem Neyman Pearson Test (α = β) Ablehnung von H 0 wenn X 0 mit α = 0.16 Pre Data Konfidenz für richtige Entscheidung ist 0.16 für alle x > 0 Intuitiv spricht x = 5 mehr für Plausibilität von H 0 als x = 0.5 Mit klassischer Testtheorie diese Intuition weder quantifizierbar noch gültig

19 13/23 Lösungsansätze Betrachtung von sind keine adäquate Lösung: Bedingter Fehler 1.Art P 1 (X 0 X A) kann alle Werte zwischen 0 und 1 annehmen für geeigentes A Quantifizierung von intuitiver Plausibilität kein Problem von Bedingen, sondern von Berechnung einer Kennzahl für erreichte Konfidenz Goutis und Casella: Quantifizierung durch Zurückführung auf Schätzung von Indikatorfunktion

20 14/23 Vereinfachung des Testproblems: H 0 : θ Θ 0 vs. H 1 : θ / Θ 0 mit Beobachtung von X = x und X F (x θ) Der Ablehnbereich von H 0 sei R Fehler 1. Art (Pre Data-Version) P(X R θ Θ 0 ) = P θ (X R)I (θ Θ 0 ) Fehler 1. Art (Post Data-Version) P(X R θ Θ 0 ) = I (x R)I (θ Θ 0 ) x, R bekannt = Schätzung von I (θ Θ 0 )

21 15/23 Schätzung Schätzung der Indikatorfunktion mit Verlustfunktionen vom Typ L k (θ, φ) = I (θ Θ 0 ) φ(x) k, k = 1, 2,..., Für k = 1 optimale Entscheidungsregeln in Form einer 0 1 Regel Das Risiko entspricht den Fehlern 1. bzw 2. Art Nachteil: Verlustfunktion lässt nur Entscheidungsregeln zu, die Pre Data Wahrscheinlichkeiten der Fehler entsprechen

22 Schätzung bei k = 2 16/23 Optimale Bayes Regeln ergeben Posteriori Wahrscheinlichkeiten Datengestützte Wahrscheinlichkeitsaussagen möglich (p Werte) Scheinbar nur Aussagen über Plausibilität von H 0 möglich, nicht über Kiefer: analog zu Konfidenzintervallen und Schätzung von bedingter Konfidenz betrachten

23 Beispiel nach Kiefer II 17/23 Bisherige Partition des Stichprobenraums: {(, 0], (0, )} Annahme: x > 1 entspricht starkem Hinweis für Ablehnung der jeweiligen Hypothese Entscheidungsregel unverändert: Ablehnung von H 0 falls X 0 Neue Partition: {(, 1), [ 1, 0], (0, 1], (1, )} Bedingte Berechnung der Konfidenz: P ±1 ( Richtige Entscheidung x 1) bzw. P ±1 ( Richtige Entscheidung x > 1).

24 Beispiel nach Kiefer III 18/23 Für x = 5 ergibt die bedingte Konfidenz P 1 (X > 0 x > 1) = 0.96, aber für x = 0.5 nur P 1 (X > 0 x 1) = 0.71 Prinzipiell beliebige Partitionierung des Stichprobenraumes möglich Aber: Änderung in Partitonierung führt zu anderen Werten der bedingten Konfidenz Goutis und Casella: Schätzung der äquivalent zu Schätzung von I (θ Θ)

25 19/23 Schwachstellen Folgende Fragen zeigen Schwachstellen der frequentistischen Post Data Inferenz durch konditionale Verfahren Existenz von relevanten Teilmengen? Nicht immer Existenz gesichert Welche Partitonierung ist zu wählen? Auswahl dem Anwender überlassen Welches Verfahren liefert ein Ergebnis? ergänzende Statistiken liefern mehrere

28 Kritik von J. Berger 20/23 Konditionale Sichtweise als eigenständiger Zweig (wie Kiefer) Aber Rechtfertigung der Verfahren als valide frequentistische Verfahren (zeigen auch Goutis und Casella) Hauptkritikpunkte: Frequentistisch konditionale Methoden verletzen starkes Likelihood Prinzip Frequentistische Vorgehensweisen verletzen Prinzip der Stoppzeit Seine Schlussfolgerungen: Vorgehensweisen nicht allgemein valide Keine frequentistische Rechtfertigung für konditionale Ansätze (frequentistischen Post Data Analyse)

29 21/23 Vielen Dank für Ihre Aufmerksamkeit

30 22/23 I Basu, D. (1964), Recovery of ancillary information, Sankhyā Ser. A 26, Berger, James ( 1985), The frequentist viewpoint and conditioning, in Proceedings of the Berkeley conference in honor of Jerzy Neyman and Jack Kiefer, Vol. I (Berkeley, Calif., 1983), Wadsworth Statist./Probab. Ser., Wadsworth, Belmont, CA, pp Efron, B ( 1978), Controversies in Foundations of Statistics, American Mathematical monthly 85(4), George, Edward I. and George Casella ( 1994), An empirical Bayes confidence report, Statist. Sinica 4(2), Goutis, C and G Casella ( 1995), Frequentist Post-Data Inference, International Statistical Review 63(3),

31 23/23 II Kiefer, J. ( 1977), Conditional confidence statements and confidence estimators, J. Amer. Statist. Assoc. 72(360, part 1), With comments by George A. Barnard, Lawrence D. Brown, Robert J. Buehler, Arthur P. Dempster, Oscar Kempthorne, Dennis V. Lindley and J. Wolfowitz and a rejoinder by the author. Lu, K. L. and James O. Berger ( 1989), Estimation of normal means: frequentist estimation of loss, Ann. Statist. 17(2), Robert, Christian and George Casella ( 1994), Improved confidence statements for the usual multivariate normal confidence set, in Statistical decision theory and related topics, V (West Lafayette, IN, 1992), Springer, New York, pp