Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg Dr. Stan Lai und Prof. Markus Schumacher Physikalisches Institut Westbau 2 OG Raum 008 Telefonnummer 07621 203 8408 (SL) / 7612 (MS) E-Mail: Stan.Lai@physik.uni-freiburg.de Markus.Schumacher@physik.uni-freiburg.de http://terascale.physik.uni-freiburg.de/lehre/ws_1213/statmethoden_ws1213

Kapitel 5 Grundlagen der Parameterschätzung

Grundgesamtheit, Stichprobe, Statistik, Schätzer Betrachte ZV x mit WDF oft abhängig von Parametern Grundgesamtheit = Menge möglicher Ergebnisse beschrieben durch f(x) Stichprobe vom Umfang n = Satz von n unabhängigen Messungen der Zv x Ziel: Ableitung von Eigenschaften von f(x) aus der Stichprobe Statistik: beliebige Funktion der Stichprobenwerte der ZV Schätzer: Statistik um Eigenschaften der WDF zu bestimmen a) Form der WDF unbekannt à Schätzwerte für Erwartungswert, Varianz, b) Form der WDF bekannt à Schätzwerte für Parameter Schätzer = Funktioneller Zusammenhang, Schätzwert = numerischer Wert beide werden mit Hut ^ beschrieben

Gemeinsame WDF der Stichprobe Betrachte n Beobachtungen der ZV x: x 1,..., x n, wobei x der WDF f (x; θ) folgt. Unter den Annahmen: 1) Messungen sind unabhängig 2) WDF/Grundgesamtheit ändert sich zwischen Beobachtung nicht folgt die gemeinsame WDF der Stichprobe: Achtung! Ist nicht immer erfüllt in der Praxis! Gegenbeispiele: - Lotterie (Ziehen von Kugeln ohne zurücklegen) - Längenmessung von Stab bei Temperaturschwankungen

Die Likelihoodfunktion Das Ergebnis eines Experimente (Satz von Messungen) sei eine Menge von Zahlen x, und die gemeinsame WDF der Stichprobe ist eine Funktion/Statistik, welche von den Parametern der WDF θ: abhängt: Nun werte diese Funktion mit den Werten der Stichprobe aus und betrachte sie als Funktion der Parameter: (x konstant) Likelihoodfunktion Im Falle von unabhängigen, identischen Messungen gilt: (x i konstant) S. Lai u. M. Schumacher Statistische Methoden. der Datenanalyse; Kapitel 4 WiSe 2012/2013

Schätzer für den Erwartungswert µ von f(x) Mögliche Schätzer für den Erwartungswert der WDF der Grundgesamtheit µ = x = 1 n n i=1 x i den Mittelwert der Stichprobe µ = 1 10 10 i=1 x i den Mittelwert der ersten 10 Punkte der Stichprobe µ = 1 n 1 n i=1 x i n/(n 1) mal den Mittelwert der Stichprobe µ =42 µ =(min(x i )+max(x i ))/2 Mittelwert des größten und kleinsten Wertes µ =MedianderStichprobe Fragen: - welcher Schätzer ist gut, der Beste? - welche Kriterien sollte ein guter Schätzer erfüllen? - wie findet man den optimalen Schätzer für ein Problem?

Eigenschaften von Schätzern Wenn mir das Experiment (aus m Messungen bestehend) oft wiederholen. Würden die Schätzwerte einer WDF folgen: bester große Varianz nicht erwartungstreu Wir wollen kleinen (oder Null) Bias (systematischen. Fehler): Mittelwert der wiederholten Messungen sollte = wahren Wert sein Und wir wollen kleine Varianz (statistischer Fehler): kleiner Bias und keine Varianz sind i.a. gegenläufige Kriterien

Eigenschaften von Schätzern Aus der Informationstheorie lässt sich zeigen, dass es eine untere Schranke für die Varianz eines Schätzers für einen Parameter gibt ( [ˆθ] 1+ b ) 2 ( θ [ˆθ] ( ) 1+ b ) 2 ( θ V [ ]. E 2 log L [ ] V [ ( ) log L 2 ]. [ ] θ 2 E [ [ θ ] maler Varianz (SMV), di Schranke Minimaler Varianz (SMV) ramér-frechet-ungleichung bezeichne Rao-Cramér-Frechet-Ungleichung ( ) [ ( ) ] ( log L 2 Information nach R.A Fisher: I(θ) E = E θ [ ] [ ] je größer die Information, desto kleiner der statistische Fehler. Mittelwert der wiederholten Messungen sollte = wahren Wert sein [ 2 log L θ 2 e Information nach R. A. Fisher. Je größer ]

Konsistenz Kriterien für gute Schätzer θ (n) n θ. ine Wahrsch für jedes ε > 0gilt Verzerrung (Bias) b (n) = E[θ (n) ] θ. lim P ( θ (n) θ > ε) =0. n möglichst keinen Bias d.h. Schätzer ist erwartungstreu. Konsistente Schätzer mit endlicher Varianz sind asymptotisch (nà unendlich) erwartungstreu Effizienz Robustheit Effizienz [θ(n) ] = V SMV [θ(n)] Effizienz sollte nahe an 1 sein. Varianz des Schätzers ist unabhängig von der WDF der Grundgesamtheit

Ein Schätzer für den Erwartungswert Parameter: Schätzer: ( Stichprobenmittelwert ) Man kann zeigen: ist konsistent ist erwartungstreu ist effizient für Gauss-WDF (aber nicht für alle WDFs) Der Fehler auf den Schätzer für den Erwartungswert ist gegeben durch

Arith. Mittelwert für Gauss-WDF Die log-likelihood-funktion lautet: log L = n ( ( 1 log exp (x i µ) 2 )) i=1 2πσ 2 2σ 2 = ( n log σ ) n (x i µ) 2 2π ( ) 2σ 2 log L 2 log L µ 2 = n σ 2 i=1 Die Schranke minimaler Varianz ergibt sich zu: SMV = E 1 [ ] = σ2 2 log L n = V [x] n θ 2 = V [x] D.h. der Schätzer hat eine Effizienz von 100%

Vergleich von 2 Schätzern für den Erwartungswert Gauss-WDF Gleichverteilung robust µ =(min(x i )+max(x i ))/2 effizienter für Gleichverteilung

Robustheit: truncated mean Gaussische WDf Breit-Wigner WDF Ungefähr gleiche Varianz in Wertebereich Aufgabe: gute Schätzer finden für den Symmetriepunkt der Verteilung ( x=0 ) Arithmetischer Mittelwert? Lineare y-achse Log y-achse

Robustheit: truncated mean Stichprobe von 101 Zufallszahlen xi von jeder PDF. Breit Wigner: sehr grosse Werte x i führt zu großen Werte für arithmetischen Mittelwert <x i >. 100 000 Stichproben ==> WDF für arithmetischen Mittelwert, <x i > Breit Wigner: viel größere Varianz als für Gauß wegen Stichproben mit großen ( links Einzelwerten x i (siehe unten,

Robustheit: truncated mean Stichprobe von 101 Zufallszahlen x i von jeder PDF. Breit Wigner: sehr grosse Werte x i führt zu grosse Werte für aritmetische Mittlewert <x i >. Verbesserte Schätzer für Symmetriepunkt für Breit Wigner: 10% grösste und kleinste Werte für x_i ignorieren, dann <x i > berechnen (Englisch: ( mean truncated ==> viel kleinere Varianz für <x i > für Breit Wigner

Robustheit: truncated mean WDF für aritmetische Mittelwert, <x i > WDF für aritmetische Mittelwert, <x i > NORMAL 10% größte und kleinste Werte ignoriert Vorher Nachher

Robustheit: truncated mean S. Lai u. M. Schumacher Statistische Methoden. der Datenanalyse; Kapitel 6 WiSe 2012/2013

Robustheit: truncated mean truncated Mittelwert kann den Fehler auf den Schätzer verbessern. Hängt von Menge des Abschneidens und WDF ab.

Ein Schätzer für die Varianz Parameter: Schätzer: ( Stichprobenvarianz ) Man kann zeigen: ist konsistent (mit und ohne Besselkorrektur (n/n-1) ) erwartungstreu (ohne n/n-1 Korrektur nur asymptotisch erwartungstreu) Der Fehler auf den Schätzer für die Varianz ist gegeben durch

oder: Ein Schätzer für die Varianz V [σ 2 S] = V = [ 1 n 1 V [x] 2 (n 1) 2 V ] n (x i x) 2 i=1 [ n i=1 ] (x i x) 2 V [x] eit einer Gaußverteilung folgt, dann folgt [ ] [ ] Wenn Grundgesamtheit einer Gauss-WDF folgt, dann folgt der Ausdruck in der eckigen Klammer einer Chi-Quadrat-WDF mit n-1 FG, Deren Varianz 2(n-1) ist. t erhalten wir V [σs 2 2V [x]2 ]= (n 1) für gaußverteilte Grundgesamtheit.

Ein Schätzer für die Kovarianz Ein konsistenter und erwartungstreuer Schätzer für die Koarianzen ist: V xy = 1 n 1 n (x i x)(y i y) = n (xy x y) n 1 i=1 man als Schätzer für den Korrelationskoeffizienten Schätzer für die Korrelationskoeffizienten sind : ρ = V xy xy x y = σ S,x σ ( ) S,y ( x 2 )( x )(y 2 ) 2 y 2 Für 2-dimensionale Gauss-WDF gilt: )( ) E[ρ] = ρ ρ(1 ρ2 ) 2n + O(n 2 ) V [ρ] = 1 n (1 ρ2 ) 2 + O(n 2 ) d.h. nur asymptotisch unverzerrt, obwohl O V xy, σ S,x, σ S,y erwartungstreu sind.