Stochastik-Praktikum

Ähnliche Dokumente
Stochastik Praktikum Zufallszahlen und deskriptive Statistik

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

Beschreibende Statistik Eindimensionale Daten

Statistik II: Grundlagen und Definitionen der Statistik

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

1.6 Der Vorzeichentest

7.2 Moment und Varianz

Bitte am PC mit Windows anmelden!

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Methoden der Statistik Kapitel 2: Deskriptive Statistik

Abiturvorbereitung Stochastik. neue friedländer gesamtschule Klasse 12 GB Holger Wuschke B.Sc.

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.)

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

Kapitel VI - Lage- und Streuungsparameter

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

Copula Funktionen. Eine Einführung. Nils Friewald

Sozialwissenschaftliche Datenanalyse mit R

Empirische Verteilungsfunktion

3. Deskriptive Statistik


Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Grundlagen der Probabilistik

Univariates Datenmaterial

Mittelwert und Standardabweichung

I. Deskriptive Statistik 1

Mathematische und statistische Methoden I

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

- Beschreibung der Stichprobe(n-Häufigkeitsverteilung) <- Ermittlung deskriptiver Maßzahlen (Mittelungsmaße, Variationsmaße, Formparameter)

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

Hydrologie und Flussgebietsmanagement

Inhaltsverzeichnis. 2 Kurzbeschreibung von SPSS Der SPSS-Dateneditor Statistische Analysen mit SPSS DieDaten...

Eine zweidimensionale Stichprobe

Statistik und Wahrscheinlichkeitsrechnung

STATISTISCHE MUSTERANALYSE - DARSTELLUNGSVORSCHLAG

10. Die Normalverteilungsannahme

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

1. Übungsblatt zu Wahrscheinlichkeitsrechnung und Statistik in den Ingenieurswissenschaften

Prüfungstutorat: Angewandte Methoden der Politikwissenschaft. Polito Seminar Carl Schweinitz

PROC UNIVARIATE. Starten Sie die Programmzeilen aus dem Beispiel, zeigt SAS im Output-Fenster die Informationen auf der Rückseite:

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

Zufallsvariablen [random variable]

Brückenkurs Statistik für Wirtschaftswissenschaften

Seminar im Wintersemester 2010/2011: Quantitative und implementierte Methoden der Marktrisikobewertung

Kapitel 1 Beschreibende Statistik

Statistik II Übung 1: Einfache lineare Regression

Statistik für Ökonomen

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Mögliche Fragen für mündliche Prüfung aus Statistik und Wahrscheinlichkeitstheorie von Prof. Dutter

Inhaltsverzeichnis. Teil I Einführung

I. Zahlen, Rechenregeln & Kombinatorik

Kenngrößen von Zufallsvariablen

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Test auf den Erwartungswert

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

Vorlesung Wirtschaftsstatistik 2 (FK ) Wiederholungen deskriptive Statistik und Einleitung Normalverteilungsverfahren. Dipl.-Ing.

Wolf-Gert Matthäus, Jörg Schulze. Statistik mit Excel. Beschreibende Statistik für jedermann. 3./ überarbeitete und erweiterte Auflage.

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung

Teil: lineare Regression

Probeklausur Statistik Lösungshinweise

11. Nichtparametrische Tests

Einführung in die (induktive) Statistik

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

Übungsblatt 9. f(x) = e x, für 0 x

Kapitel V - Erwartungstreue Schätzfunktionen

Tabellarische und graphie Darstellung von univariaten Daten

Wahrscheinlichkeitstheorie und Statistik vom

Willkommen zur Vorlesung Statistik (Master)

Deskriptive Statistik

Beide Verteilungen der Zeiten sind leicht schief. Der Quartilsabstand für Zeiten zum Surfen ist kleiner als der zum Fernsehen.

1 Dichte- und Verteilungsfunktion

Statistik und Wahrscheinlichkeitsrechnung

diskrete und kontinuierliche Verteilungen

2.1 Gemeinsame-, Rand- und bedingte Verteilungen

Statistics, Data Analysis, and Simulation SS 2015

Statistik, Geostatistik

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Stochastik und Statistik

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität

Statistik. Jan Müller

Übungsaufgaben zu Kapitel 2 und 3

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

Über den Autor 7. Teil Beschreibende Statistik 29

8. Stetige Zufallsvariablen

Evaluation der Normalverteilungsannahme

Statistik und Wahrscheinlichkeitsrechnung

Box. Mathematik ZU DEN KERNCURRICULUM-LERNBEREICHEN:

Einführung in die computergestützte Datenanalyse

Angewandte Statistik 3. Semester

Transkript:

Stochastik-Praktikum Deskriptive Statistik Peter Frentrup Humboldt-Universität zu Berlin 7. November 2017 (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 1 / 27

Übersicht 1 Kenngrößen 2 Visualisierungen 3 Beispiel: Median vs. Mean 4 Beispiele mit Datensätzen (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 2 / 27

Kenngrößen univariater Verteilungen Endlichdimensionale Kenngrößen: Mittelwert E[X ] Median 1 2 (F 1 (0.5) + F 1 (0.5 )) Quantile Q α = F 1 (a) = inf{x F (x) α} für α (0, 1) Varianz und Standardabweichung σ 2 = Var(X ) bzw. σ = Var(X ) allgemeiner: (un-)zentrierte Momente E[X k ] bzw. E[(X EX ) k ] für k N Schiefe (skewness) E[(X EX ) 3 ]/σ 3, Wölbung (kurtosis) E[(X EX ) 4 ]/σ 4,... (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 3 / 27

Kenngrößen univariater Verteilungen Die unendlich-dimensionalen Kenngrößen (kumulative) Verteilungsfunktion F (x) = P[X x], x R charakteristische Funktion ϕ(t) = E[exp(itX )] beschreiben univariate Verteilungen vollständig. (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 4 / 27

Kenngrößen für Stichproben Typischerweise auf eine von zwei Weisen berechnet: wie zuvor, bloß bezüglich der empirischen Verteilung 1 n n 1 δ x i der Stichprobe, ggf. modifiziert zu einem erwartungstreuem Schätzer der entsprechenden Kenngröße der zugrundeliegenden theoretischen Verteilung. (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 5 / 27

Kenngrößen für Stichproben Beispiele Mittelwert x = 1 n n i=1 Varianz s 2 = 1 n 1 Schiefe 1 n x i n (x i x) 2 (erwartungstreu) i=1 n (x i x) 2 (nicht erwartungstreu) i=1 n (n 1)(n 2) n ( xi x ) 3 (erwartungstreu) i=1 Median aus der Ordnungsstatistik... s (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 6 / 27

Kenngrößen multivariater Verteilungen Mittelwert und Median (Vektoren) gemischte (zentrierte) Momente Kovarianzmatrix (alle zentrierten Momente der Ordnung 2) gemeinsame charakteristische Funktion oder Verteilungsfunktion Randverteilungen und Copula der gemeinsamen Verteilung Letztere beschreiben Verteilung eindeutig. (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 7 / 27

Übersicht 1 Kenngrößen 2 Visualisierungen 3 Beispiel: Median vs. Mean 4 Beispiele mit Datensätzen (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 8 / 27

Visualisierungen... von uni- bzw. multivariaten Verteilungen/Stichproben in R d : Dichtefunktion bzw Histogramm (skaliert auf PDF-Form) Regressionsgeraden, -polynome,... Quantil/Quantil-Plots (QQ-Plots) Scatterplot, Copula-Scatterplot Für Beispielcode siehe auch multinorm.py (Folien aus Block 1) (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 9 / 27

Visualisierungen... von uni- oder multivariaten kategorialen Datenstichproben: Kuchendiagramm Balkendiagramme... Kontingenztafeln Beispiele: Studienfächer, Nationalitäten, Geschlecht,... (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 10 / 27

Übersicht 1 Kenngrößen 2 Visualisierungen 3 Beispiel: Median vs. Mean 4 Beispiele mit Datensätzen (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 11 / 27

Beispiel: Median vs. Mean Untersuche Verteilung von Mean und Median für Stichprobe von je 50 Elementen von X N (0, 1), Y = X 5 import numpy as np f o r k i n range ( 0, 5 ) : p r i n t ( Experiment %d : % k ) X = np. random. normal ( s i z e =50) Y = X 5 p r i n t ( [ [ np. mean (X), np. median (X ) ], [ np. mean (Y), np. median (Y ) ] ] ) Beobachtung? Erklärung?? Visualisieren Sie, z.b. mit numpy.histogram + matplotlib.pyplot.bar, matplotlib.pyplot.boxplot, scipy.stats.probplot,... (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 12 / 27

Übersicht 1 Kenngrößen 2 Visualisierungen 3 Beispiel: Median vs. Mean 4 Beispiele mit Datensätzen (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 13 / 27

Univariate Daten Michelsons Lichtgeschwindigkeits-Daten Lichtgeschwindigkeit c s + 299 000 km/s. A. A. Michelson Nr. Wert s Durchlauf Experiment 1 850 1 1 2 740 2 1 3 900 3 1 4 1070 4 1 5 930 5 1 6 850 6 1 7 950 7 1.... 98 800 18 5 99 810 19 5 100 870 20 5 (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 14 / 27

Interpretation der Daten Nr. Wert s Durchlauf Experiment 1 850 1 1 2 740 2 1 3 900 3 1 4 1070 4 1.... Erste Spalte: Fortlaufende Nummer der Messungen (1-100) Zweite Spalte: (Gemessene Geschwindigkeit - 299 000) in km/s Dritte Spalte: Fortlaufende Nummer in der Messreihe (1-20) Vierte Spalte: Nummer der Messreihe (1-5) (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 15 / 27

Einlesen der Daten m i c h e l s o n = np. l o a d t x t ( m i c h e l s o n. dat, s k i p r o w s =1) ( number, speed, run, e x p e r i m e n t ) = m i c h e l s o n. T # o d e r a l t e r n a t i v : number = m i c h e l s o n [ :, 0 ] speed = m i c h e l s o n [ :, 1 ] run = m i c h e l s o n [ :, 2 ] e x p e r i m e n t = m i c h e l s o n [ :, 3 ] (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 16 / 27

Auswahl der ersten Messreihe i n d i c e s = e x p e r i m e n t == 1 s = speed [ i n d i c e s ] (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 17 / 27

Statistische Kenngrößen (Arithmetischer) Mittelwert x = n i=1 x i: >>> np. mean ( s ) 9 0 9. 0 Standardabweichung (erwartungstreu) (1/(n 1)) i (x i x) 2 : >>> np. s t d ( s, ddof =1) 104. 926039114 Median med(x) = x ((n+1)/2) : >>> np. median ( s ) 940 Mittel absoluter Abweichungen zum Median MAD = n 1 i x i med(x) : >>> np. mean ( np. a b s o l u t e ( s np. median ( s ) ) ) 7 9. 0 Achtung: MAD auch median absolute deviation : med ( ( x i med(x) ) i ) sowie andere mean absolute deviation s: n 1 i x i x (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 18 / 27

Der Box Whisker Plot >>> matplotlib.pyplot.boxplot(s) 1000 900 800 700 1 (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 19 / 27

Box-Plots der verschiedenen Messreihen p l t. f i g u r e ( ) p l t. b o x p l o t ( [ speed [ e x p e r i m e n t==i ] f o r i i n [ 1, 2, 3, 4, 5 ] ] ) p l t. x l a b e l ( Experiment ) p l t. y l a b e l ( Speed 299000 ) 1000 Speed - 299000 900 800 700 600 1 2 3 4 5 Experiment (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 20 / 27

Vergleich verschiedener Messreihen QQ-Plot von Quantilen 1-ter Messreihe gegen Quantile einer N (0, 1)-Verteilung 1100 QQ-Plot 1. Messreihe gegen Normalverteilung 1000 Ordered Values 900 800 700 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0 Theoretical quantiles (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 21 / 27

Vergleich verschiedener Messreihen QQ-Plot von Quantilen 1-ter Messreihe gegen Quantile 2-ter Messreihe 1100 QQ-Plot 1. Messreihe gegen 2. Messreihe 1000 1. Messreihe 900 800 700 750 800 850 900 950 2. Messreihe (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 22 / 27

Multivariate Daten Mietspiegel Daten Einlesen der Daten m i e t e = np. g e n f r o m t x t ( miete03p. c s v, d e l i m i t e r= \ t, s k i p h e a d e r =1) # TODO: b e s s e r e Namen (GKM, QMKM, QM, Zi, BJ, B, L, best, WW, ZH, BK, BA, KUE) = m i e t e. T (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 23 / 27

Abgeleitete Variablen Hier: Klassfizierung von Baujahr und Quadratmeterzahl # E i n s o r t i e r e n i n Baujahr K l a s s e 1 6 BJKL = 1 + ( BJ > 1918) + ( BJ > 1948) + ( BJ > 1965) \ + ( BJ > 1977) + ( BJ > 1983) # E i n s o r t i e r e n i n G r o e s s e n k l a s s e 1 3 QMKL = 1 + (QM > 50) + (QM > 80) (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 24 / 27

Zusammenhänge zwischen Variablen Darstellung linearer Zusammengänge : Regressionsgraden ## R e g r e s s i o n s g e r a d e p = np. p o l y 1 d ( np. p o l y f i t (QM, GKM, 1 ) ) x = [ 0, 2 0 0 ] y = p ( x ) p l t. p l o t ( x, y,. r ) p l t. show ( ) (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 25 / 27

lineare Zusammenhänge Regressionsgrade, (mittlere QM-Miete±1Std)*QM, QMKL-weise... Kaltmiete 2000 1750 1500 1250 1000 750 500 250 0 0 25 50 75 100 125 150 175 200 Quadratmeter (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 26 / 27

Visualisierung von Kontingenztafeln Miete Wohnlage Kontingenztafel der QM- u BJ-Klassen bestimmen und mit matplotlib. pyplot. bar() aufbauen... 600 500 400 300 200 100 0 1 2 3 4 5 6 (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 27 / 27