Methoden der Statistik Kapitel 2: Deskriptive Statistik

Größe: px
Ab Seite anzeigen:

Download "Methoden der Statistik Kapitel 2: Deskriptive Statistik"

Transkript

1 Methoden der Statistik Kapitel 2: Deskriptive Statistik Thorsten Dickhaus Humboldt-Universität zu Berlin Wintersemester 2011/2012

2 Übersicht Univariate Merkmale 1 Abschnitt 2.1: Univariate Merkmale 2 Abschnitt 2.2:

3 Übersicht Univariate Merkmale 1 Abschnitt 2.1: Univariate Merkmale 2 Abschnitt 2.2:

4 Univariate Daten: Michelson s Lichtgeschwindigkeits-Daten

5 Interpretation der Daten Erste Spalte : Fortlaufende Nummer der Messungen (1-100) Zweite Spalte : (Gemessene Geschwindigkeit ) in km/s Dritte Spalte : Fortlaufende Nummer in der Messreihe (1-20) Vierte Spalte : Nummer der Messreihe (1-5)....

6 Einlesen der Daten > l< read. table ( " l i g h t s p e e d. dat " ) > s t r ( l ) data. frame : 100 obs. of 4 v a r i a b l e s : $ V1 : i n t $ V2 : i n t $ V3 : i n t $ V4 : i n t > a t t r i b u t e s ( l ) > dim ( l ) [ 1 ] > is. matrix ( l ) [ 1 ] FALSE > is. l i s t ( l ) [ 1 ] TRUE > mode( l ) [ 1 ] " l i s t " > speed< l $V2

7 Variablen Univariate Merkmale > names( l ) [ 1 ] "V1" "V2" "V3" "V4" > names( l )< c ( "No", " Speed ", "ExNo", " Ex " ) > attach ( l ) The f o l l o w i n g o b j e c t ( s ) are masked from l ( p o s i t i o n 3 ) : Ex ExNo No Speed > ex1< subset ( l, Ex==1) > s< ex1$speed

8 Statistische Kenngrößen (Arithmetischer) Mittelwert x = n 1 n i=1 x i: > mean( s ) [ 1 ] 909 Standardabweichung (1/(n 1)) i (x i x) 2 : > sd ( s ) [ 1 ] Median med = x [(n+1)/2] : > median ( s ) [ 1 ] 940 Median absoluter Abweichungen MAD = n 1 i x i med(x) : > mad( s ) [ 1 ]

9 Statistische Kenngrößen Schiefe (skewness): v(x) = E [ (X EX) 3] Var(X) 3 /2. Die Schiefe einer empirischen Verteilung: v e (x) = n 1 i (x i x) 3 ( n 1 i (x i x) 2) 3/2 > skew< function ( x ) { + skewness < ( ( sqrt ( length ( x ) ) + sum( ( x mean( x ) ) ^ 3 ) ) / (sum( ( x mean( x ) ) ^ 2 ) ) ^ ( 3 / 2 ) ) + return ( skewness ) } > skew ( s ) [ 1 ]

10 Die summary Funktion > summary( ex1 ) No Speed ExNo Ex Min. : 1.00 Min. : 650 Min. : 1.00 Min. : 1 1 s t Qu. : s t Qu. : s t Qu. : s t Qu. : 1 Median : Median : 940 Median : Median : 1 Mean : Mean : 909 Mean : Mean : 1 3 rd Qu. : rd Qu. : rd Qu. : rd Qu. : 1 Max. :20.00 Max. :1070 Max. :20.00 Max. :1

11 Der Box Whisker Plot >boxplot(s)

12 R Code: Herausnehmen von Ausreißern > s t r i m< s [ which ( s >700) ] > summary( s t r i m ) Min. 1st Qu. Median Mean 3rd Qu. Max

13 Vergleich der Messreihen > boxplot ( l $Speed~ l $Ex )

14 Empirische Verteilungsfunktion Seien X 1,..., X n reellwertige iid. Zufallsvariablen mit X 1 F und X = (X 1,..., X n ) t. ˆF n (t) := #{x i x i t, i {1,..., n}} n = n i=1 1 n 1 (,t](x i ). Satz von Glivenko Cantelli liefert fast sichere gleichmäßige Konvergenz: lim ˆF n (t) F(t) = 0 P F f.s. sup n t R > ecdf ( er ) E m p i r i c a l CDF Call : ecdf ( er ) # er : e r u p t i o n s of a g e y s i r

15

16 Diskrete Merkmale, Stabdiagramme Die empirische Verteilungsfunktion ist eine rechtsseitig stetige, monoton wachsende Treppenfunktion, die an den Beobachtungspunkten springt. Ist X 1 diskret verteilt, so ist L(X 1 ) festgelegt durch seine Wahrscheinlichkeitsfunktion, also durch die Angabe der Werte P F (X 1 = k), k supp(x 1 ). Auf der beschreibenden Ebene (empirisches Maß) führt das zu Stabdiagrammen der relativen Häufigkeiten der beobachteten Werte.

17 # Stabdiagramm und empirische V e r t e i l u n g s f u n k t i o n simanz = 5000; werte < rbinom ( n=simanz, size =10, prob =0. 15) plot ( ecdf ( werte ), col= blue, main= Computersimulation : B i n o m i a l v e r t e i l u n g ) lines ( sort ( unique ( werte ) ), table ( werte ) / simanz, type= h, col= red, lwd =2)

18 Stetiges Merkmal Modellannahme: X 1,..., X n reellwertige iid. Zufallsvariablen, deren Verteilung die Dichte f bezüglich des Lebesgue Maßes besitzt. Datenbeispiel: 272 beobachtete Ausbrüche des Old Faithful Geysirs im Yellowstone National Park mit Eruptionsdauer sowie der Wartezeit bis zum nächsten Ausbruch > data ( f a i t h f u l ) > er< f a i t h f u l $ e r u p t i o n s

19 Histogramm Schätzer Das Histogramm ist ein stückweise konstanter Dichteschätzer. Vorgehen: Wähle Intervalle ( Klassen, englisch: bins) I k I k = (a k 1, a k ], k {1,..., K } n k := #{x i I k, i {1,..., n}} ˆfhist (x) = n k n Im Falle gleicher Intervalllängen mit a k a k 1 h k {1,..., K }: 1 a k a k 1 1 {Ik }(x) ˆfhist (x) = n k nh 1 {I k }(x)

20 > hist(er, freq=false,col="grey")

21 Nachteil des Histogramm Schätzers: Schätzer hängt von der Wahl der Klassen Längen und des Startwertes a 0 ab!

22 Gleitendes Histogramm Durch den gleitenden Histogramm Schätzer ˆfGH (x) := ˆF n (x + h) ˆF n (x h) = #{x i x i (x h, x + h]} 2h 2hn = 1 n ( ) x xi K R mit K R (t) = (1/2)1 nh h [ 1,1] (t), i=1 bei dem jede Beobachtung Mittelpunkt eines bins ist, lässt sich das Startwertproblem lösen.

23

24 Kernfunktionen Univariate Merkmale Definition Eine Funktion K : R R heißt Kern, falls gilt: 1 K(x)dx = 1, K(x) 0 x R, K(x) = K( x) Regularitätsbedingungen: 2 sup x R K(x) = M < 3 x K(x) 0 für x 0, x 2 K(x)dx =: k 2 <

25 Kernfunktionen: Beispiele Beispiele für Kernfunktionen: Rechteckskern Dreieckskern K(x) = [ 1,1](x), K(x) = (1 x )1 [ 1,1] (x), Gaußkern K(x) = 1 2π exp( x 2 /2), Bisquarekern K(x) = (1 x 2 ) 2 1 [ 1,1] (x), Epanechnikovkern K(x) = 3 4 (1 x 2 )1 [ 1,1] (x).

26 Grafische Darstellung verschiedener Kernfunktionen

27 Univariater Kerndichteschätzer Definition Sei K : R R ein Kern. ˆfn (t) = 1 nh n ( ) t xi K = h i=1 1 h K ( ) t x ˆF n (dx) h heißt (univariater) Kerndichteschätzer mit Bandweite h und Kern K. Mit K(t) := t K(x)dx lässt sich auch F(t) schätzen durch ( ) t x K ˆF n (dx) = 1 h n n i=1 ( ) t xi K. h

28 Gauß Kernschätzer (n = 5)

29 Gauß Kernschätzer (n = 9)

30 Gauß Kernschätzer (n = 50)

31

32 Kernschätzung: Feinkalibrierung Entscheidende Schwierigkeit: Wahl der Bandweite! h zu groß oversmoothing lokale Extrema werden nicht erkannt, zu glatt h zu klein undersmoothing lokale Moden, Schätzer ist hairy

33 Bias Univariate Merkmale Satz Wenn K : R R ein Kern ist, der die oben genannten Regularitätsbedingungen erfüllt, und f C 2 (R), so gilt: E f [ˆf n (x)] f (x) = h2 2 f (x) x 2 K(x)dx + O(h 2 ).

34 Bias Univariate Merkmale Beweis über Taylor Entwicklung von f : f (x ht) = f (x) htf (x) + h2 t 2 2 f (x) + O(h 2 t 2 ) ( ) 1 x y E f [ˆf n (x)] f (x) = h K f (y)dy f (x) h = hf (x) yk(y)dy + }{{} h 2 f (x) 2 =0 = h2 f (x) k 2 + O(h 2 t 2 ). 2 y 2 K(y)dy +O(h 2 t 2 ) } {{ } =k 2

35 Varianz Univariate Merkmale Satz Wenn K : R R ein Kern ist, der die oben genannten Regularitätsbedingungen erfüllt, und f C(R), so gilt: ) Var f (ˆfn (x) = 1 nh f (x) ( K 2 (y)dy + O n 1 h 1).

36 Varianz Univariate Merkmale Beweis: ) Var (ˆfn (x) = 1 n 2 h 2 = 1 nh 2 = 1 nh n i=1 = 1 nh f (x) ( ( x xi Var K K 2 ( x y h )) h ) f (y)dy 1 n ( ) 2 E[ˆf n (x)] ( K 2 (y)f (x yh)dy n 1 E[ˆf n (x)] ( K 2 (y)dy + O n 1 h 1). ) 2

37 Mean Squared Error: Bias Varianz Zerlegung [ ) ] 2 E f (ˆfn (x) f (x) = Bias(ˆf n (x h)) 2 + Var(ˆf n (x h)) ( f = h 4 ) (x) 2 2 k nh f (x) K 2 (y)dy + O (h 4 + n 1 h 1) Trade Off zwischen Bias und Varianz möglich! Anmerkung: Bias hängt nicht explizit vom Stichprobenumfang n ab. Für Konsistenz muss indes h h(n) 0 und nh für n gelten!

38 Optimaler Kern Univariate Merkmale Minimierung des MISE bezüglich h ergibt optimale Bandweite: ( K 2 (y)dy )1 /5 h opt = ( n 1 /5 k 1 /5 2 (f (y)) dy) 2 1/5. (1) Setzt man h opt in den MISE ein, erhält man ( MISE 5 ( 4/5 ) ( k 2 /5 (f 4 2 K (y)dy) 2 (y) ) ) 1/5 2 dy. Minimal für Epanechnikov Kern: K e (x) = (1 x 2 5 ) 1 [ 5,5] (x).

39 Optimaler Kern Univariate Merkmale Setzt man h opt in den MISE ein, erhält man ( MISE 5 ( 4/5 ) ( k 2 /5 (f 4 2 K (y)dy) 2 (y) ) ) 1/5 2 dy. Minimal für Epanechnikov Kern: K e (x) = (1 x 2 5 ) 1 [ 5,5] (x). Effizienz eff (K) für K K e und n gegeben: Zahl eff (K) löst Gleichung MISE(n, K) = MISE(n eff (K), K e ). Gauß Kern: Effizienz von ca. 0.95, Rechteck Kern: Effizienz von ca

40 Übersicht Univariate Merkmale 1 Abschnitt 2.1: Univariate Merkmale 2 Abschnitt 2.2:

41 Multivariate Daten: Mietspiegel Daten > miete< read. table ( f i l e = " miete03. asc ", header=true) > s t r ( miete ) data. frame : 2053 obs. of 16 v a r i a b l e s : $ GKM : num $ QMKM : num $ QM : i n t $ Zi : i n t $ BJ : num $ B : i n t $ L : i n t $ best : i n t $ WW : i n t $ ZH : i n t $ BK : i n t $ BA : i n t $ KUE : i n t

42 Abgeleitete Variablen Hier: Klassierung von Baujahr und Quadratmeterzahl > miete$bjkl< 1 ( BJ<=1918)+2 ( BJ<=1948) ( BJ>1919)+3 ( BJ<=1965) ( BJ>1948)+4 ( BJ<=1977) ( BJ>1965)+5 ( BJ<=1983) ( BJ>1977)+6 ( BJ>1983) > miete$qmkl< 1 (QM<=50)+2 (QM>50) (QM<=80)+3 (QM>80)

43 Zwei diskrete Merkmale: Kontingenztafeln Mögliche Werte für Merkmal 1: a 1, a 2,..., a k Mögliche Werte für Merkmal 2: b 1, b 2,..., b l Beobachtung x: Matrix der absoluten Häufigkeiten aller Kombinationen (a i, b j ), 1 i k, 1 j l in der Stichprobe vom Umfang n Darstellung als Kontingenztafel (auch: (k l)-feldertafel): b 1 b 2... b l a 1 x 11 x x 1l n 1. a 2 x 21 x x 2l n a k x k1 x k2... x kl n k. n.1 n.2... n.l n

44 Randhäufigkeiten, marginale Verteilungen Der Vektor n = (n 1., n 2.,..., n k., n.1, n.2,..., n.l ) N k+l heißt Vektor der (empirischen) Randhäufigkeiten. Die (emprirische) diskrete Verteilung, die durch die Randhäufigkeiten eines Merkmals gegeben ist, bezeichnet man als Randverteilung oder auch marginale Verteilung dieses Merkmals. > h< numeric ( 6 ) > for ( i i n 1 : 6 ) { + h [ i ]< length ( which ( BJKL== i ) ) } > names( h )< c ( " vor 1918 ", " ", " ", " ", + " ", " Neubau " ) > pie ( h, col=rainbow ( 6 ) ) > barplot ( h, col=heat. colors ( 6 ), density =100)

45 Grafische Darstellung von Randverteilungen

46 Grafische Darstellung bivariater diskreter Verteilungen R Code: assocplot und mosaicplot > par ( mfrow=c ( 1, 2 ) ) > mosaicplot ( table ( BJKL,QMKL), col=true) > assocplot ( table ( BJKL,QMKL) ) > miete$qmkmkl< 1 (QMKM<=8)+2 (QMKM>8) (QMKM<=10) +3 (QMKM>10) (QMKM<=12)+4 (QMKM>12) > mosaicplot ( table (QMKMKL, L ), col=true) > assocplot ( table (QMKMKL, L ) )

47 Baujahr Wohnungsgröße

48 Miete Wohnlage

49 Multivariate stetige Verteilungen Modell: X 1,..., X n R p i. i. d. f. Definition (p-dimensionaler Kern) Eine Funktion K : R p R mit Regularitätsbedingungen: R p K(y)dy = 1 und K ist radialsymmetrische Wahrscheinlichkeitsdichte Beschränkter Träger oder zumindest x K(x) 0 für x 0

50 p-dim. Kernfunktionen, Kerndichteschätzer Beispiele: uniformer Kern K(x) = 1 v p für x T x 1, Gaußkern K(x) = 1 (2π) p /2 exp ( 1 2 xt x ), Epanechnikovkern Definition Sei K : R p R ein Kern. ˆfn (x) = 1 nh p K(x) = 1+p/2 v p (1 x T x), x T x 1. n ( x Xi K h i=1 ), x R p heißt multivariater Kerndichteschätzer mit Bandweite h und Kern K.

51 Bandweitenwahl Bias und Varianz: ) Bias h (ˆfn (x) = h2 f (x) 2 ) Var h (ˆfn (x) = 1 nh p y 2 1 K(y)dy + O(h2 ), ( K 2 (y)dy + O n 1 h p). Minimierung des MISE: (h opt ) p+4 = p K 2 ( (y)dy ( n y 2 1 K(y)dy ) 2 ) ( f (y)) 2 dy.

52 Darstellung zweidimensionaler Kernfunktionen Gaußkern und Epanechnikovkern mit p = 2

53 Verschiedene Bandweiten in unterschiedliche Richtungen Allgemeiner als in obiger Definition kann man den multivariaten Kerndichteschätzer mit einer Bandweitenmatrix H definieren: ˆfn (x) = 1 ( ) n H K H 1/2 (x X 1 /2 i ), x R p. Zuvor: H = h1 p, wobei 1 p die p dimensionale Einheitsmatrix bezeichnet In R: Diagonalmatrix H angebbar.

54 R Code: Zweidimensionale Kerndichteschätzung > l i b r a r y (MASS) > l i b r a r y ( KernSmooth ) > data ( f a i t h f u l ) > x< f a i t h f u l $ e r u p t i o n s > y< f a i t h f u l $ w a i t i n g > par ( mfrow=c ( 2, 2 ), pty="m" ) > plot ( y, x, ylab=" e r u p t i o n ", xlab=" w a i t i n g " ) # S c a t t e r p l o t, S t r e u b i l d > z< kde2d ( x, y, lims=c (0,6,35,100)) > zz< bkde2d ( f a i t h f u l, range. x= l i s t ( c ( 0, 6 ), c ( 3 5, ) ), + bandwidth=c (bw. SJ ( x ),bw. SJ ( y ) ) ) > image ( z, xlab=" e r u p t i o n ", ylab=" w a i t i n g " ) > image ( zz$ fhat, xlab=" e r u p t i o n ", ylab=" w a i t i n g " ) #Heat Maps > persp ( z, col= " s l a t e g r e y ", t h e t a =35, xlim=c ( 0, 6 ), y lim=c (35,100), + t i c k t y p e = " d e t a i l e d ", xlab=" e r u p t i o n ", ylab=" w a i t i n g ", zlab=" " )

55 Zweidimensionale Kerndichteschätzung

56 Kontur-Plots, 3D-Plots > contour ( zz$x1, zz$x2, zz$ f h a t ) > persp ( zz$x1, zz$x2, zz$fhat, col= " slategrey ", + t h e t a =35, xlim=c ( 0, 6 ), y lim=c (35,100), + t i c k t y p e = " d e t a i l e d ", xlab=" e r u p t i o n ", + ylab=" w a i t i n g ", zlab=" " )

57 Zusammenhänge zwischen stetigen Variablen > plot (QM,GKM) > abline ( 0,mean(QMKM), col= " blue " ) > abline ( 0,mean(QMKM)+sd (QMKM), col= " red ", l t y =4) > abline ( 0,mean(QMKM) sd (QMKM), col= " red ", l t y =4) > z< tapply (QMKM,QMKL, mean) > segments (0,0,50, z [ 1 ] 50, col= " green ", lwd =2, l t y =2) > segments(50,50 z [ 2 ], 8 0, z [ 2 ] 80, col= " l i g h t g r e e n ", lwd =3, l t y =2) > segments(80,80 z [ 3 ], 2 0 0, z [ 3 ] 200, col= " darkgreen ", lwd =2, l t y =2) > lines (QM, f i t t e d ( lm (GKM~QM) ), col= " yellow " ) Funktion lm in R: Lineares Modell (Regressionsrechnung)!

58

Grafische Darstellung bivariater Daten: Handwerkszeug der deskriptiven Statistik

Grafische Darstellung bivariater Daten: Handwerkszeug der deskriptiven Statistik Grafische Darstellung bivariater Daten: Handwerkszeug der deskriptiven Statistik Beuth Hochschule für Technik 31. Oktober 2012 Multivariate Daten: Mietspiegel Daten > miete < read. table ( f i l e = "

Mehr

Stochastik Praktikum Zufallszahlen und deskriptive Statistik

Stochastik Praktikum Zufallszahlen und deskriptive Statistik Stochastik Praktikum Zufallszahlen und deskriptive Statistik Thorsten Dickhaus Humboldt-Universität zu Berlin 04.10.2010 Übersicht Erzeugung von Zufallszahlen 1 Erzeugung von Zufallszahlen 2 3 Übersicht

Mehr

Stochastik-Praktikum

Stochastik-Praktikum Stochastik-Praktikum Deskriptive Statistik Peter Frentrup Humboldt-Universität zu Berlin 7. November 2017 (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 7. November 2017 1 / 27 Übersicht

Mehr

Der Mittelwert (arithmetisches Mittel)

Der Mittelwert (arithmetisches Mittel) Der Mittelwert (arithmetisches Mittel) x = 1 n n x i bekanntestes Lagemaß instabil gegen extreme Werte geeignet für intervallskalierte Daten Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut

Mehr

Eine Einführung in R: Dichten und Verteilungsfunktionen

Eine Einführung in R: Dichten und Verteilungsfunktionen Eine Einführung in R: Dichten und Verteilungsfunktionen Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 25. November 2009 Bernd

Mehr

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele Woche 5: Deskriptive Statistik Teil VII Patric Müller Deskriptive Statistik ETHZ WBL 17/19, 22.05.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit

Mehr

Teil IV Deskriptive Statistik

Teil IV Deskriptive Statistik Woche 5: Deskriptive Statistik Teil IV Deskriptive Statistik WBL 15/17, 18.05.2015 Alain Hauser Berner Fachhochschule, Technik und Informatik Berner Fachhochschule Haute école spécialisée

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

4 Absolutstetige Verteilungen und Zufallsvariablen 215/1

4 Absolutstetige Verteilungen und Zufallsvariablen 215/1 4 Absolutstetige Verteilungen und Zufallsvariablen 215/1 23. Bemerkung Integralbegriffe für Funktionen f : R d R (i) Lebesgue-Integral (Vorlesung Analysis IV). Spezialfall: (ii) Uneigentliches Riemann-Integral

Mehr

Univariate explorative Datenanalyse in R

Univariate explorative Datenanalyse in R Univariate explorative Datenanalyse in R Achim Zeileis, Regina Tüchler 2006-10-03 1 Ein metrisches Merkmal Wir laden den Datensatz: R> load("statlab.rda") und machen die Variablen direkt verfügbar: R>

Mehr

Verfahren für metrische Variable

Verfahren für metrische Variable Verfahren für metrische Variable Grafische Methoden Histogramm Mittelwertsplot Boxplot Lagemaße Mittelwert, Median, Quantile Streuungsmaße Standardabweichung, Interquartilsabstand Lagemaße und Streumaße

Mehr

3. Deskriptive Statistik

3. Deskriptive Statistik 3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro Objekt wird ein Merkmal durch Messung / Befragung/ Beobachtung erhoben. Resultat ist jeweils ein Wert (Merkmalsausprägung) x i : - Gewicht

Mehr

Kreisdiagramm, Tortendiagramm

Kreisdiagramm, Tortendiagramm Kreisdiagramm, Tortendiagramm Darstellung der relativen (absoluten) Häufigkeiten als Fläche eines Kreises Anwendung: Nominale Merkmale Ordinale Merkmale (Problem: Ordnung nicht korrekt wiedergegeben) Gruppierte

Mehr

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar Statistische Methoden in der Physik Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik Deskriptive Statistik: Ziele Daten zusammenfassen durch numerische Kennzahlen. Grafische Darstellung der Daten. Quelle: Ursus Wehrli, Kunst aufräumen 1 Modell vs. Daten Bis jetzt

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

Deskriptive Statistik. (basierend auf Slides von Lukas Meier) Deskriptive Statistik (basierend auf Slides von Lukas Meier) Deskriptive Statistik: Ziele Daten zusammenfassen durch numerische Kennzahlen. Grafische Darstellung der Daten. Quelle: Ursus Wehrli, Kunst

Mehr

Bivariate explorative Datenanalyse in R

Bivariate explorative Datenanalyse in R Bivariate explorative Datenanalyse in R Achim Zeileis, Regina Tüchler 2006-10-09 In der LV Statistik 1 haben wir auch den Zusammenhang von 2 Variablen untersucht. Hier werden die dazugehörenden R-Befehle

Mehr

Stochastik-Praktikum

Stochastik-Praktikum Stochastik-Praktikum Zufallszahlen und Monte Carlo Peter Frentrup Humboldt-Universität zu Berlin 17. Oktober 2017 (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 17. Oktober 2017 1 / 23

Mehr

5 Exkurs: Deskriptive Statistik

5 Exkurs: Deskriptive Statistik 5 EXKURS: DESKRIPTIVE STATISTIK 6 5 Ekurs: Deskriptive Statistik Wir wollen zuletzt noch kurz auf die deskriptive Statistik eingehen. In der Statistik betrachtet man für eine natürliche Zahl n N eine Stichprobe

Mehr

Kapitel 6. Verteilungsparameter. 6.1 Der Erwartungswert Diskrete Zufallsvariablen

Kapitel 6. Verteilungsparameter. 6.1 Der Erwartungswert Diskrete Zufallsvariablen Kapitel 6 Verteilungsparameter Wie bei einem Merkmal wollen wir nun die Lage und die Streuung der Verteilung einer diskreten Zufallsvariablen durch geeignete Maßzahlen beschreiben. Beginnen wir mit Maßzahlen

Mehr

Statistik I für Betriebswirte Vorlesung 4

Statistik I für Betriebswirte Vorlesung 4 Statistik I für Betriebswirte Vorlesung 4 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 25. April 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

Arbeitsbuch zur deskriptiven und induktiven Statistik

Arbeitsbuch zur deskriptiven und induktiven Statistik Helge Toutenburg Michael Schomaker Malte Wißmann Christian Heumann Arbeitsbuch zur deskriptiven und induktiven Statistik Zweite, aktualisierte und erweiterte Auflage 4ü Springer Inhaltsverzeichnis 1. Grundlagen

Mehr

Übersicht Statistik-Funktionen. Statistische Software (R) Nützliche Funktionen. Nützliche Funktionen

Übersicht Statistik-Funktionen. Statistische Software (R) Nützliche Funktionen. Nützliche Funktionen Übersicht Statistik-Funktionen Statistische Software (R) Paul Fink, M.Sc. Institut für Statistik Ludwig-Maximilians-Universität München Pseudo Zufallszahlen, Dichten, Verteilungsfunktionen, etc. Funktion

Mehr

Bivariate explorative Datenanalyse in R

Bivariate explorative Datenanalyse in R Bivariate explorative Datenanalyse in R Achim Zeileis 2009-02-20 1 Zwei metrische Merk Zunächst einmal wird wieder der BBBClub Datensatz geladen und der Bequemlichkeit halber auch attached. R> load("bbbclub.rda")

Mehr

Übungen zur Vorlesung. Statistik 2

Übungen zur Vorlesung. Statistik 2 Institut für Stochastik WS 2007/2008 Universität Karlsruhe JProf. Dr. H. Holzmann Blatt 11 Dipl.-Math. oec. D. Engel Übungen zur Vorlesung Statistik 2 Aufgabe 40 (R-Aufgabe, keine Abgabe) In dieser Aufgabe

Mehr

2. Deskriptive Statistik

2. Deskriptive Statistik Philipps-Universitat Marburg 2.1 Stichproben und Datentypen Untersuchungseinheiten: mogliche, statistisch zu erfassende Einheiten je Untersuchungseinheit: ein oder mehrere Merkmale oder Variablen beobachten

Mehr

13 Grenzwertsätze Das Gesetz der großen Zahlen

13 Grenzwertsätze Das Gesetz der großen Zahlen 13 Grenzwertsätze 13.1 Das Gesetz der großen Zahlen Der Erwartungswert einer zufälligen Variablen X ist in der Praxis meist nicht bekannt. Um ihn zu bestimmen, sammelt man Beobachtungen X 1,X 2,...,X n

Mehr

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Oktober 2018 Prof. Dr. Hans-Jörg

Mehr

Univariate explorative Datenanalyse in R

Univariate explorative Datenanalyse in R Univariate explorative Datenanalyse in R Achim Zeileis 2009-02-20 1 Grundlegende Befehle Zunächst laden wir den Datensatz (siehe auch Daten.pdf ) BBBClub R> load("bbbclub.rda") das den "data.frame" BBBClub

Mehr

Empirische Verteilungsfunktion

Empirische Verteilungsfunktion Empirische Verteilungsfunktion H(x) := Anzahl der Werte x ist. Deskriptive

Mehr

Statistik für Ingenieure Vorlesung 3

Statistik für Ingenieure Vorlesung 3 Statistik für Ingenieure Vorlesung 3 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 14. November 2017 3. Zufallsgrößen 3.1 Zufallsgrößen und ihre Verteilung Häufig sind

Mehr

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit 3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit Lernziele dieses Kapitels: Mehrdimensionale Zufallsvariablen (Zufallsvektoren) (Verteilung, Kenngrößen) Abhängigkeitsstrukturen Multivariate

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen... Inhaltsverzeichnis I Grundbegriffe 1 1 Wahrscheinlichkeitsräume......................... 1 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit........... 7 3 Reellwertige Zufallsvariablen........................

Mehr

Wahrscheinlichkeitsrechnung und Statistik

Wahrscheinlichkeitsrechnung und Statistik 10. Vorlesung - 2018 Grundbegriffe der Statistik statistische Einheiten = Objekte an denen interessierende Größen erfaßt werden z.b. Bevölkerung einer Stadt; Schüler einer bestimmten Schule; Patienten

Mehr

Zentraler Grenzwertsatz

Zentraler Grenzwertsatz Statistik 2 für SoziologInnen Zentraler Grenzwertsatz Univ.Prof. Dr. Marcus Hudec Statistik für SoziologInnen 1 Zentraler Grenzwertsatz Inhalte Themen dieses Kapitels sind: Der zentrale Grenzwertsatz und

Mehr

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch. Zentraler Grenzwertsatz Die Normalverteilung verdankt ihre universelle theoretische und praktische Bedeutung dem zentralen Grenzwertsatz. Unabhängig von der konkreten k Ausgangsverteilung konvergiert die

Mehr

Multivariate Zufallsvariablen

Multivariate Zufallsvariablen Kapitel 7 Multivariate Zufallsvariablen 7.1 Diskrete Zufallsvariablen Bisher haben wir immer nur eine Zufallsvariable betrachtet. Bei vielen Anwendungen sind aber mehrere Zufallsvariablen von Interesse.

Mehr

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch. Zentraler Grenzwertsatz Die Normalverteilung verdankt ihre universelle theoretische und praktische Bedeutung dem zentralen Grenzwertsatz. Unabhängig von der konkreten k Ausgangsverteilung konvergiert nämlich

Mehr

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei in folgender Tabelle wiedergegeben: Ausprägung Anzahl

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei in folgender Tabelle wiedergegeben: Ausprägung Anzahl Aufgabe 10 Deskriptiv: Lageparameter Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei in folgender Tabelle wiedergegeben: Ausprägung 1 2 3 4 7 Anzahl 4 4 6 4 2 a) Bestimmen Sie das

Mehr

1 Multivariate Zufallsvariablen

1 Multivariate Zufallsvariablen 1 Multivariate Zufallsvariablen 1.1 Multivariate Verteilungen Definition 1.1. Zufallsvariable, Zufallsvektor (ZV) Sei Ω die Ergebnismenge eines Zufallsexperiments. Eine (univariate oder eindimensionale)

Mehr

Statistik I für Betriebswirte Vorlesung 3

Statistik I für Betriebswirte Vorlesung 3 Statistik I für Betriebswirte Vorlesung 3 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 15. April 2019 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 3 Version: 1. April

Mehr

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit

Mehr

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19 Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, 2016 6:34 P.M. Page 11 Inhaltsverzeichnis Über die Übersetzerin 9 Einleitung 19 Was Sie hier finden werden 19 Wie dieses Arbeitsbuch aufgebaut ist

Mehr

1.5 Erwartungswert und Varianz

1.5 Erwartungswert und Varianz Ziel: Charakterisiere Verteilungen von Zufallsvariablen durch Kenngrößen (in Analogie zu Lage- und Streuungsmaßen der deskriptiven Statistik). Insbesondere: a) durchschnittlicher Wert Erwartungswert, z.b.

Mehr

8 Verteilungsfunktionen und Dichten

8 Verteilungsfunktionen und Dichten 8 Verteilungsfunktionen und Dichten 8.1 Satz und Definition (Dichten) Eine Funktion f : R R heißt Dichtefunktion, kurz Dichte, wenn sie (Riemann-) integrierbar ist mit f(t) 0 für alle t R und Setzt man

Mehr

Wahrscheinlichkeit und Statistik: Zusammenfassung

Wahrscheinlichkeit und Statistik: Zusammenfassung HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1

Mehr

Zentraler Grenzwertsatz

Zentraler Grenzwertsatz Statistik 2 für SoziologInnen Zentraler Grenzwertsatz Univ.Prof. Dr. Marcus Hudec Statistik für SoziologInnen 1 Zentraler Grenzwertsatz Inhalte Themen dieses Kapitels sind: Der zentrale Grenzwertsatz und

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik Analyse und Modellierung von Daten von Prof. Dr. Rainer Schlittgen Universität Hamburg 12., korrigierte Auflage Oldenbourg Verlag München Inhaltsverzeichnis 1 Statistische Daten

Mehr

1. Grundbegri e der Stochastik

1. Grundbegri e der Stochastik Wiederholung von Grundwissen der Stochastik. Grundbegri e der Stochastik Menge der Ereignisse. Die Elemente! der Menge heißen Elementarereignisse und sind unzerlegbare Ereignisse. Das Ereignis A tritt

Mehr

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale 1. Grundlagen... 1 1.1 Grundgesamtheit und Untersuchungseinheit................ 1 1.2 Merkmal oder statistische Variable........................ 2 1.3 Datenerhebung.........................................

Mehr

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig) ETWR Teil B 2 Ziele Bisher (eindimensionale, mehrdimensionale) Zufallsvariablen besprochen Lageparameter von Zufallsvariablen besprochen Übertragung des gelernten auf diskrete Verteilungen Ziel des Kapitels

Mehr

Statistik für Ökonomen

Statistik für Ökonomen Wolfgang Kohn Riza Öztürk Statistik für Ökonomen Datenanalyse mit R und SPSS tfü. Springer Inhaltsverzeichnis Teil I Einführung 1 Kleine Einführung in R 3 1.1 Installieren und Starten von R 3 1.2 R-Befehle

Mehr

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Hypothesentests. 5 Regression

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Hypothesentests. 5 Regression 0 Einführung 1 Wahrscheinlichkeitsrechnung 2 Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Hypothesentests 5 Regression Zufallsgrößen Ergebnisse von Zufallsexperimenten werden als Zahlen

Mehr

Zufallsvariablen [random variable]

Zufallsvariablen [random variable] Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden

Mehr

7.4 Charakteristische Funktionen

7.4 Charakteristische Funktionen 7.4 Charakteristische Funktionen Def. 25 Sei X Zufallsvariable mit Verteilungsfunktion F X und Dichte f X (falls X stetig) oder Wkt.funktion p i (falls X diskret). Die Funktion φ X (t) := Ee itx = eitx

Mehr

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:

Mehr

1. Grundbegri e der Stochastik

1. Grundbegri e der Stochastik . Grundbegri e der Stochastik Raum der Ereignisse. Die einelementigen Teilmengen f!g heißen auch Elementarereignisse. Das Ereignis A tritt ein, wenn ein! A eintritt. A ist ein geeignetes System von Teilmengen

Mehr

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt Universität Basel Wirtschaftswissenschaftliches Zentrum Zufallsvariablen Dr. Thomas Zehrt Inhalt: 1. Einführung 2. Zufallsvariablen 3. Diskrete Zufallsvariablen 4. Stetige Zufallsvariablen 5. Erwartungswert

Mehr

Beispiel 4 (Einige weitere Aufgaben)

Beispiel 4 (Einige weitere Aufgaben) 1 Beispiel 4 (Einige weitere Aufgaben) Aufgabe 1 Bestimmen Sie für die folgenden Zweierstichproben, d. h. Stichproben, die jeweils aus zwei Beobachtungen bestehen, a) den Durchschnitt x b) die mittlere

Mehr

Statistics, Data Analysis, and Simulation SS 2017

Statistics, Data Analysis, and Simulation SS 2017 Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Mainz, 4. Mai 2017 Dr. Michael O. Distler

Mehr

Statistik I für Betriebswirte Vorlesung 9

Statistik I für Betriebswirte Vorlesung 9 Statistik I für Betriebswirte Vorlesung 9 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik Vorlesung am 8. Juni 2017 im Audi-Max (AUD-1001) Dr. Andreas Wünsche Statistik I für Betriebswirte

Mehr

Teil VI. Gemeinsame Verteilungen. Lernziele. Beispiel: Zwei Würfel. Gemeinsame Verteilung

Teil VI. Gemeinsame Verteilungen. Lernziele. Beispiel: Zwei Würfel. Gemeinsame Verteilung Zusammenfassung: diskrete und stetige Verteilungen Woche 4: Verteilungen Patric Müller diskret Wahrscheinlichkeitsverteilung p() stetig Wahrscheinlichkeitsdichte f ()

Mehr

1 Einleitung und Grundlagen 1

1 Einleitung und Grundlagen 1 Inhaltsverzeichnis Vorwort vii 1 Einleitung und Grundlagen 1 1.1 Einführende Beispiele 1 1.2 Statistischer Prozess 2 1.3 Grundlagen 2 1.4 Unterscheidung von Merkmalen 3 1.4.1 Skalenniveaus 3 1.4.2 Stetige

Mehr

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion Kapitel 1 Stetige Zufallsvariablen 1.1. Dichtefunktion und Verteilungsfunktion stetig Verteilungsfunktion Trägermenge T, also die Menge der möglichen Realisationen, ist durch ein Intervall gegeben Häufig

Mehr

1. Übungsblatt zu Wahrscheinlichkeitsrechnung und Statistik in den Ingenieurswissenschaften

1. Übungsblatt zu Wahrscheinlichkeitsrechnung und Statistik in den Ingenieurswissenschaften 1. Übungsblatt zu Aufgabe 1: In R können die Logarithmen zu verschiedenen Basen mit der Funktion log berechnet werden, wobei im Argument base die Basis festgelegt wird. Plotten Sie die Logarithmusfunktion

Mehr

Reelle Zufallsvariablen

Reelle Zufallsvariablen Kapitel 3 eelle Zufallsvariablen 3. Verteilungsfunktionen esultat aus der Maßtheorie: Zwischen der Menge aller W-Maße auf B, nennen wir sie W B ), und der Menge aller Verteilungsfunktionen auf, nennen

Mehr

Erwartungswert und Varianz von Zufallsvariablen

Erwartungswert und Varianz von Zufallsvariablen Kapitel 7 Erwartungswert und Varianz von Zufallsvariablen Im Folgenden sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Der Erwartungswert von X ist ein Lebesgue-Integral (allerdings allgemeiner als in Analysis

Mehr