Statistics, Data Analysis, and Simulation SS 2015

Mainz, 2. Juli 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler <distler@uni-mainz.de>

Konjugierte Prior Konjugierte Prior werden meist verwendet, falls nur beschränkt Information vorhanden ist. Eine Familie F von Wahrscheinlichkeitsverteilungen auf dem Parameterraum θ heisst konjugiert für eine Likelihoodfunktion f (x θ), falls π F die a posteriori Verteilung π(θ x) auch zu F gehört. Statistische Schlussfolgerungen sind bei Verwendung von konjugierten Prior besonders einfach und oftmals ohne explizite Integration berechenbar. Beispiele: Binomialverteilung Betaverteilung Poisson Gammaverteilung Normalverteilung (Mittelwert) Normalverteilung Normalverteilung (Std. Abw.) Inverse χ 2 -Verteilung

Vergleich von Schätzern für Poisson Parameter Bayesian Schätzer können überlegene Eigenschaften besitzen, obwohl sie nur in Ausnahmefällen erwartungstreu sind. Für den mittleren quadratischen Fehler eines Schätzers gilt: MS(ˆµ) = bias 2 (ˆµ) + var(ˆµ) Der frequentist Schätzer für Poisson Parameter ist: ˆµ f = yi Dieser ist unverzerrt und daher ist der mittleren quadratischen Fehler gleich der Varianz: n MS(ˆµ f ) = µ n

Vergleich von Schätzern für Poisson Parameter Wird ein Gamma(p, b)-prior verwendet, dann ergibt sich für den Posterior Gamma(p, b ). Bias und Varianz sind dann: [ ] p + yi bias(ˆµ B ) = E[ˆµ B ] µ = E µ b + n = p bµ b + n ( ) 1 2 var(ˆµ B ) = var(yi ) b + n nµ = (b + n) 2

Vergleich von Schätzern für Poisson Parameter Beispiel: Es geht um die Anzahl von Schokoladen-Stückchen bei sechs zufällig ausgewählten chocolate chip cookies. Wir wissen, dass die Anzahl von Schokoladen-Stückchen bei einem einzelnen Keks Poisson verteilt ist und wollen den Parameter µ schätzen. Der frequentist Schätzer für den Poisson Parameter ˆµ f = ŷ ist unverzerrt und es folgt für den mittleren quadratischen Fehler: MS(ˆµ f ) = µ 6 Wir wissen, dass µ nahe bei 2 liegen sollte. Für den Bayes Schätzer verwenden wir einen gamma(2, 1) Prior, mit einem Erwartungswert und einer Varianz von 2: MS(ˆµ B ) = ( ) 2 µ 2 + 6µ 1 + 6 (1 + 6) 2

Vergleich von Schätzern für Poisson Parameter 0.9 0.8 Frequentist Bayes Mean squared error MS(µ) 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 Poisson parameter µ Im Mittel liegt der Bayes Schätzer näher am wahren Wert als der frequentist Schätzer im Bereich [0.7... 5]. Das ist auch der Bereich, in dem wir glauben, dass der wahre Wert liegt.

Bayes-Theorem für den Mittelwert einer Gauß-Verteilung Arnie, Barb und Chuck wollen die mittlere Länge von einjährigen Regenbogenforellen in einem nahegelegenen Fluss schätzen. Studien in anderen Regionen haben ergeben, dass die Länge der Forellen normalverteilt ist, mit einer Standardabweichung von 2 cm. Arnie entscheidet sich für einen normalverteilten Prior mit einem Mittelwert von 30 cm. Er glaubt außerdem (3σ), dass die Forellen nicht kleiner als 18 cm und nicht größer als 42 cm. Die Standardabweichung für seinen Prior ist daher 4 cm. Barb weiß nichts über Forellen und wählt daher einen flachen Prior. Chucks Prior hat eine Trapezform: g C (µ) = (µ 18)/6 für 18 < µ 24 1 für 24 < µ 40 (46 µ)/6 für 40 < µ < 46 0 sonst

Update Regeln für Gauß-Prior Eine Stichprobe y 1,..., y n wurde einer Normalverteilung N (µ, σ 2 ) entnommen. Mittelwert µ gilt es zu bestimmen, Varianz σ 2 wird als bekannt angenommen. Als Prior verwenden wir eine Normalverteilung N (m, s 2 ). Wir benutzen die Likelihood des Stichprobenmittelwerts. ŷ ist normalverteilt mit Mittelwert µ und Varianz σ 2 /n. Für den Kehrwert der Varianz des Posterior gilt: 1 (s ) 2 = 1 s 2 + n σ 2 = σ2 + n s 2 σ 2 s 2 Der Mittelwert des Posterior ergibt sich aus der gewichteten Summe der Prior- und Stichprobenmittelwerte: m = 1/s 2 n/σ 2 + 1/s 2 m + n/σ 2 n/σ 2 + 1/s 2 ŷ

Update Regeln für Gauß-Prior Für den gleichverteilten Prior (dieser ist im Fall der Gauß-Verteilung auch der Jeffreys Prior) wird einfach der Kehrwert der Varianz 1/s 2 = 0 gesetzt. Damit gilt: (s ) 2 = σ2 n, m = ŷ Die äquivalente Stichprobengröße ergibt sich aus: s 2 = σ2 n eq

Bayes-Theorem für den Mittelwert einer Gauß-Verteilung Arnie, Barb und Chuck fischen 12 einjährige Regenbogenforellen aus dem Fluss und bestimmen eine mittlere Länge von 32 cm.

press any key

Bayes-Theorem für die Standardabweichung einer Gauß-Verteilung Aroha, Bernardo und Carlos sind drei Statistiker, die bei einer Molkerei angestellt sind. Sie sollen die Standardabweichung des Gewichts der 1 kg Milchpulverpakete bestimmen, die die Produktion verlassen. Die drei Angestellten wissen, dass das Gewicht der Pakete normalverteilt normal(µ, σ 2 ) ist, wobei µ in der Produktion fest auf 1015 g eingestellt ist. Aroha wählt einen gleichverteilten Prior für die Standardabweichung. Bernardo entscheidet sich für den Jeffreys Prior. Carlos hingegen ist der Überzeugung, dass der Median der Verteilung von σ den Wert 0,5 haben sollte.

Inverse Chi-Quadrat Verteilung Die inverse Chi-Quadrat Verteilung ist die Verteilung einer Zufallsvariablen, deren Kehrwert eine Chi-Quadrat Verteilung hat. Mittelwert: Varianz: f 1 (x; ν) = 2 ν/2 Γ(ν/2) x ν/2 1 e 1/(2x) 1 ν 2 für ν > 2 2 (ν 2) 2 (ν 4) für ν > 4

Skalierte inverse Chi-Quadrat Verteilung Die skalierte inverse Chi-Quadrat Verteilung ist die Verteilung einer Zufallsvariablen x = 1/s 2, wo s 2 das Stichprobenmittel von ν unabhängigen normalverteilten Zufallsvariablen ist, die einen Mittelwert von 0 und eine inverse Varianz 1/σ 2 = τ 2 haben. S = ν τ 2 Mittelwert: Varianz: f (x; S, ν) = (S/2)ν/2 Γ(ν/2) x ν/2 1 e S/(2x) S ν 2 für ν > 2 2S 2 (ν 2) 2 (ν 4) für ν > 4