Stochastik-Praktikum Deskriptive Statistik Peter Frentrup Humboldt-Universität zu Berlin 7. November 2017 (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 1 / 27
Übersicht 1 Kenngrößen 2 Visualisierungen 3 Beispiel: Median vs. Mean 4 Beispiele mit Datensätzen (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 2 / 27
Kenngrößen univariater Verteilungen Endlichdimensionale Kenngrößen: Mittelwert E[X ] Median 1 2 (F 1 (0.5) + F 1 (0.5 )) Quantile Q α = F 1 (a) = inf{x F (x) α} für α (0, 1) Varianz und Standardabweichung σ 2 = Var(X ) bzw. σ = Var(X ) allgemeiner: (un-)zentrierte Momente E[X k ] bzw. E[(X EX ) k ] für k N Schiefe (skewness) E[(X EX ) 3 ]/σ 3, Wölbung (kurtosis) E[(X EX ) 4 ]/σ 4,... (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 3 / 27
Kenngrößen univariater Verteilungen Die unendlich-dimensionalen Kenngrößen (kumulative) Verteilungsfunktion F (x) = P[X x], x R charakteristische Funktion ϕ(t) = E[exp(itX )] beschreiben univariate Verteilungen vollständig. (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 4 / 27
Kenngrößen für Stichproben Typischerweise auf eine von zwei Weisen berechnet: wie zuvor, bloß bezüglich der empirischen Verteilung 1 n n 1 δ x i der Stichprobe, ggf. modifiziert zu einem erwartungstreuem Schätzer der entsprechenden Kenngröße der zugrundeliegenden theoretischen Verteilung. (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 5 / 27
Kenngrößen für Stichproben Beispiele Mittelwert x = 1 n n i=1 Varianz s 2 = 1 n 1 Schiefe 1 n x i n (x i x) 2 (erwartungstreu) i=1 n (x i x) 2 (nicht erwartungstreu) i=1 n (n 1)(n 2) n ( xi x ) 3 (erwartungstreu) i=1 Median aus der Ordnungsstatistik... s (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 6 / 27
Kenngrößen multivariater Verteilungen Mittelwert und Median (Vektoren) gemischte (zentrierte) Momente Kovarianzmatrix (alle zentrierten Momente der Ordnung 2) gemeinsame charakteristische Funktion oder Verteilungsfunktion Randverteilungen und Copula der gemeinsamen Verteilung Letztere beschreiben Verteilung eindeutig. (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 7 / 27
Übersicht 1 Kenngrößen 2 Visualisierungen 3 Beispiel: Median vs. Mean 4 Beispiele mit Datensätzen (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 8 / 27
Visualisierungen... von uni- bzw. multivariaten Verteilungen/Stichproben in R d : Dichtefunktion bzw Histogramm (skaliert auf PDF-Form) Regressionsgeraden, -polynome,... Quantil/Quantil-Plots (QQ-Plots) Scatterplot, Copula-Scatterplot Für Beispielcode siehe auch multinorm.py (Folien aus Block 1) (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 9 / 27
Visualisierungen... von uni- oder multivariaten kategorialen Datenstichproben: Kuchendiagramm Balkendiagramme... Kontingenztafeln Beispiele: Studienfächer, Nationalitäten, Geschlecht,... (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 10 / 27
Übersicht 1 Kenngrößen 2 Visualisierungen 3 Beispiel: Median vs. Mean 4 Beispiele mit Datensätzen (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 11 / 27
Beispiel: Median vs. Mean Untersuche Verteilung von Mean und Median für Stichprobe von je 50 Elementen von X N (0, 1), Y = X 5 import numpy as np f o r k i n range ( 0, 5 ) : p r i n t ( Experiment %d : % k ) X = np. random. normal ( s i z e =50) Y = X 5 p r i n t ( [ [ np. mean (X), np. median (X ) ], [ np. mean (Y), np. median (Y ) ] ] ) Beobachtung? Erklärung?? Visualisieren Sie, z.b. mit numpy.histogram + matplotlib.pyplot.bar, matplotlib.pyplot.boxplot, scipy.stats.probplot,... (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 12 / 27
Übersicht 1 Kenngrößen 2 Visualisierungen 3 Beispiel: Median vs. Mean 4 Beispiele mit Datensätzen (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 13 / 27
Univariate Daten Michelsons Lichtgeschwindigkeits-Daten Lichtgeschwindigkeit c s + 299 000 km/s. A. A. Michelson Nr. Wert s Durchlauf Experiment 1 850 1 1 2 740 2 1 3 900 3 1 4 1070 4 1 5 930 5 1 6 850 6 1 7 950 7 1.... 98 800 18 5 99 810 19 5 100 870 20 5 (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 14 / 27
Interpretation der Daten Nr. Wert s Durchlauf Experiment 1 850 1 1 2 740 2 1 3 900 3 1 4 1070 4 1.... Erste Spalte: Fortlaufende Nummer der Messungen (1-100) Zweite Spalte: (Gemessene Geschwindigkeit - 299 000) in km/s Dritte Spalte: Fortlaufende Nummer in der Messreihe (1-20) Vierte Spalte: Nummer der Messreihe (1-5) (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 15 / 27
Einlesen der Daten m i c h e l s o n = np. l o a d t x t ( m i c h e l s o n. dat, s k i p r o w s =1) ( number, speed, run, e x p e r i m e n t ) = m i c h e l s o n. T # o d e r a l t e r n a t i v : number = m i c h e l s o n [ :, 0 ] speed = m i c h e l s o n [ :, 1 ] run = m i c h e l s o n [ :, 2 ] e x p e r i m e n t = m i c h e l s o n [ :, 3 ] (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 16 / 27
Auswahl der ersten Messreihe i n d i c e s = e x p e r i m e n t == 1 s = speed [ i n d i c e s ] (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 17 / 27
Statistische Kenngrößen (Arithmetischer) Mittelwert x = n i=1 x i: >>> np. mean ( s ) 9 0 9. 0 Standardabweichung (erwartungstreu) (1/(n 1)) i (x i x) 2 : >>> np. s t d ( s, ddof =1) 104. 926039114 Median med(x) = x ((n+1)/2) : >>> np. median ( s ) 940 Mittel absoluter Abweichungen zum Median MAD = n 1 i x i med(x) : >>> np. mean ( np. a b s o l u t e ( s np. median ( s ) ) ) 7 9. 0 Achtung: MAD auch median absolute deviation : med ( ( x i med(x) ) i ) sowie andere mean absolute deviation s: n 1 i x i x (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 18 / 27
Der Box Whisker Plot >>> matplotlib.pyplot.boxplot(s) 1000 900 800 700 1 (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 19 / 27
Box-Plots der verschiedenen Messreihen p l t. f i g u r e ( ) p l t. b o x p l o t ( [ speed [ e x p e r i m e n t==i ] f o r i i n [ 1, 2, 3, 4, 5 ] ] ) p l t. x l a b e l ( Experiment ) p l t. y l a b e l ( Speed 299000 ) 1000 Speed - 299000 900 800 700 600 1 2 3 4 5 Experiment (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 20 / 27
Vergleich verschiedener Messreihen QQ-Plot von Quantilen 1-ter Messreihe gegen Quantile einer N (0, 1)-Verteilung 1100 QQ-Plot 1. Messreihe gegen Normalverteilung 1000 Ordered Values 900 800 700 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0 Theoretical quantiles (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 21 / 27
Vergleich verschiedener Messreihen QQ-Plot von Quantilen 1-ter Messreihe gegen Quantile 2-ter Messreihe 1100 QQ-Plot 1. Messreihe gegen 2. Messreihe 1000 1. Messreihe 900 800 700 750 800 850 900 950 2. Messreihe (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 22 / 27
Multivariate Daten Mietspiegel Daten Einlesen der Daten m i e t e = np. g e n f r o m t x t ( miete03p. c s v, d e l i m i t e r= \ t, s k i p h e a d e r =1) # TODO: b e s s e r e Namen (GKM, QMKM, QM, Zi, BJ, B, L, best, WW, ZH, BK, BA, KUE) = m i e t e. T (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 23 / 27
Abgeleitete Variablen Hier: Klassfizierung von Baujahr und Quadratmeterzahl # E i n s o r t i e r e n i n Baujahr K l a s s e 1 6 BJKL = 1 + ( BJ > 1918) + ( BJ > 1948) + ( BJ > 1965) \ + ( BJ > 1977) + ( BJ > 1983) # E i n s o r t i e r e n i n G r o e s s e n k l a s s e 1 3 QMKL = 1 + (QM > 50) + (QM > 80) (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 24 / 27
Zusammenhänge zwischen Variablen Darstellung linearer Zusammengänge : Regressionsgraden ## R e g r e s s i o n s g e r a d e p = np. p o l y 1 d ( np. p o l y f i t (QM, GKM, 1 ) ) x = [ 0, 2 0 0 ] y = p ( x ) p l t. p l o t ( x, y,. r ) p l t. show ( ) (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 25 / 27
lineare Zusammenhänge Regressionsgrade, (mittlere QM-Miete±1Std)*QM, QMKL-weise... Kaltmiete 2000 1750 1500 1250 1000 750 500 250 0 0 25 50 75 100 125 150 175 200 Quadratmeter (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 26 / 27
Visualisierung von Kontingenztafeln Miete Wohnlage Kontingenztafel der QM- u BJ-Klassen bestimmen und mit matplotlib. pyplot. bar() aufbauen... 600 500 400 300 200 100 0 1 2 3 4 5 6 (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 27 / 27