Statistik Workshop. 12. und 14. Januar Prof. Dr. Stefan Etschberger. Outline

Größe: px
Ab Seite anzeigen:

Download "Statistik Workshop. 12. und 14. Januar 2015. Prof. Dr. Stefan Etschberger. Outline"

Transkript

1 Workshop Mini-Einführung und Auffrischung zu einigen Teilen der angewandten. und 4. Prof. Dr. Stefan Etschberger Outline : Einführung Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio Deskriptive 3 Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen 4 Induktive 5 Datenanalyse Einleitung Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse Datenanalyse: Prozess Material. Deskriptive 4. Induktive

2 Material zur Vorlesung Kursmaterial: Handout der Folien Literatur: Alle Folien inklusive Anmerkungen (am Abend) Beispieldaten Alle Auswertungen als R-Datei Material. Deskriptive 4. Induktive Bamberg, Günter, Franz Baur und Michael Krapp (0).. 6. Aufl. München: Oldenbourg Verlag. ISBN: Dalgaard, Peter (00). Introductory Statistics with R. New York: Springer. Fahrmeir, Ludwig, Rita Künstler, Iris Pigeot und Gerhard Tutz (009). : Der Weg zur Datenanalyse. 7. Aufl. Berlin, Heidelberg: Springer. ISBN: Dalgaard (00)Fahrmeir u. a. (009) Bamberg u. a. (0) 3 Datenbasis Fragebogen Umfrage Sommersemester 04 Bitte beantworten Sie folgende Fragen vollständig und füllen Sie jeweils nur eine beliebige Spalte leserlich aus. Ihr Alter (in Jahren) Ihre Größe (in cm) Ihr Geschlecht (m/w) Wie alt ist (bzw. wäre) Ihr Vater heute? Wie alt ist (bzw. wäre) Ihre Mutter heute? Größe Ihres Vaters (cm) Größe Ihrer Mutter (cm) Wie viele Geschwister haben Sie? Wunschfarbe für Ihr nächstes Smartphone; mögliche Auswahl: (si)lber, (sc)hwarz, (w)eiß, (g)elb, (b)lau, (r)ot Ausgaben für Ihre mobile Kommunikation (egal wer bezahlt hat) in den vergangenen Monaten inkl. Hardware (Smartphone, Zubehör), Software (Apps), Vertrag Wie viele Paar Schuhe besitzen Sie? Ausgaben für Ihre Schuhe (egal wer bezahlt hat) in den letzten Monaten Ihre Note in der Matheklausur Waren Sie mir Ihrer Leistung in Mathe zufrieden? Antworten: (s)ehr zufrieden, (z)ufrieden, (g)eht so, (n)icht zufrieden

3 : Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung : Einführung Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio Bedeutungen des Begriffs Statistische Methoden Zusammenstellung von Zahlen Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive W-theorie Deskriptive Induktive 9

4 Einfaches Beispiel Beispiel Beschäftigte werden nach der Entfernung zum Arbeitsplatz (in km) befragt. Antworten: 4,,, 3, 5, 4, 0, 4, 6, 6, 0, 6 deskriptiv: Durchschnittliche Entfernung: 7,5 Klassenbildung: Klasse [0; 5) [5; 5) [5; 30) Häufigkeit 5 5 Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive induktiv: Schätze die mittlere Entfernung aller Beschäftigten. Prüfe, ob die mittlere Entfernung geringer als 0 km ist. 0 Merkmale Merkmalsträger: Untersuchte statistische Einheit Merkmal: Interessierende Eigenschaft des Merkmalträgers (Merkmals-)Ausprägung: Konkret beobachteter Wert des Merkmals Grundgesamtheit: Menge aller relevanten Merkmalsträger Typen von Merkmalen: a) qualitativ quantitativ qualitativ: z.b. Geschlecht quantitativ: z.b. Schuhgröße Qualitative Merkmale sind quantifizierbar (z.b.: weiblich, männlich 0) b) diskret stetig diskret: Abzählbar viele unterschiedliche Ausprägungen stetig: Alle Zwischenwerte realisierbar Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive

5 Skalenniveaus Nominalskala: Zahlen haben nur Bezeichnungsfunktion z.b. Artikelnummern Ordinalskala: zusätzlich Rangbildung möglich z.b. Schulnoten Differenzen sind aber nicht interpretierbar! Addition usw. ist unzulässig. Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive Kardinalskala: zusätzlich Differenzbildung sinnvoll z.b. Gewinn Noch feinere Unterscheidung in: Absolutskala, Verhältnisskala, Intervallskala Skalendegression und Skalenprogression Ziel der Skalierung: Gegebene Information angemessen abbilden, möglichst ohne Über- bzw. Unterschätzungen Es gilt: Grundsätzlich können alle Merkmale nominal skaliert werden. Grundsätzlich kann jedes metrische Merkmal ordinal skaliert werden. Das nennt man Skalendegression. Dabei: Informationsverlust Aber: Nominale Merkmale dürfen nicht ordinal- oder metrisch skaliert werden. Ordinale Merkmale dürfen nicht metrisch skaliert werden. Das nennt nennt man Skalenprogression. Dabei: Interpretation von mehr Informationen in die Merkmale, als inhaltlich vertretbar. (Gefahr der Fehlinterpretation) Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 3

6 Etschberger Was ist R und warum soll man es benutzen? R ist ein freies Softwarepaket zu und Datenanalyse Fehler durch R ist sehr mächtig und weit verbreitet in Wissenschaft und Industrie (sogar von mehr Leuten benutzt als z.b. SPSS) Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio Ursprung von R: 993 an der Universität Auckland von Ross Ihaka and Robert Gentleman entwickelt. Deskriptive 4. Induktive Seitdem: Viele Leute haben R verbessert mit tausenden von Paketen für viele Anwendungen Nachteil (auf den ersten Blick): Kein point und click tool source: Großer Vorteil (auf den zweiten Blick): Kein point und click tool graphics source: 4 Whas ist RStudio? RStudio ist ein Integrated Development Environment (IDE) um R leichter benutzen zu können. Gibt s für OSX, Linux und Windows Ist auch frei Etschberger Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive Trotzdem: Sie müssen Kommandos schreiben Aber: RStudio unterstützt Sie dabei Download: RStudio.com 5

7 Erste Schritte RStudio Kennenlernen Code Console Workspace History Files Plots Packages Help Auto- Completion Data Import Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 6 Daten einlesen und Struktur anschauen # Arbeitsverzeichnis setzen (alternativ über Menü) setwd("c:/ste/work/vorlesungen/04ws_doktorandenworkshop/05_0 Workshop") # Daten einlesen aus einer csv-datei (Excel) MyData = read.csv(file="../daten/umfrage_hsa_04_03.csv", header=true) # inspect structure of data str(mydata) ## 'data.frame': 05 obs. of 0 variables: ## $ Alter : int ## $ Geschlecht : Factor w/ levels "Frau","Mann":... ## $ AlterV : int ## $ AlterM : int ## $ Geschwister: int ## $ Farbe : Factor w/ 6 levels "blau","gelb",..: ## $ AusgSchuhe : int ## $ AnzSchuhe : int ## $ AusgKomm : num ## $ MatheZufr : Ord.factor w/ 4 levels "nicht"<"geht so"<..: Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 7

8 Erste Zeilen der Datentabelle # Erste Zeilen in Datentabelle head(mydata, 6) ## Alter Geschlecht AlterV AlterM Geschwister Farbe AusgSchuhe AnzSchuhe AusgKomm MatheZufr ## Frau 54 5 weiss nicht ## 0 Frau weiss sehr ## 3 9 Frau schwarz sehr ## 4 0 Frau schwarz sehr ## 5 0 Frau weiss sehr ## 6 4 Mann 54 5 schwarz geht so # lege MyData als den "Standard"-Datensatz fest attach(mydata) Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive # Wie Viele Objekte gibt's im Datensatz? nrow(mydata) ## [] 05 # Wie Viele Merkmale? ncol(mydata) ## [] 0 8 Daten kennenlernen # Auswahl spezieller Objekte und Merkmale über [Zeile, Spalte] MyData[:3, :5] ## Geschlecht AlterV AlterM Geschwister ## Frau 54 5 ## Frau ## 3 Frau # Auswahl von Objekten über logische Ausdrücke head(geschlecht=="frau" & Alter<9, 30) ## [] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE ## [7] FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE # Einsetzen in Klammern und Ausgabe von Alter des Studenten, seines Vaters und seiner Mutter MyData[Geschlecht=="Frau" & Alter<9, # Objektauswahl c("alter", "AlterM", "AlterV") # Welche Merkmale anzeigen? ] Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive ## Alter AlterM AlterV ## ## ## ## ## ## ## ## ##

9 Daten kennenlernen # Zeige die Männer, die mehr als 000 Euro für Schuhe # und Mobilfunk zusammen ausgegeben haben MyData[Geschlecht=="Mann" & AusgSchuhe + AusgKomm > 000, c("alter", "Geschwister", "Farbe", "AusgSchuhe", "AusgKomm")] ## Alter Geschwister Farbe AusgSchuhe AusgKomm ## 0 weiss ## 5 0 rot ## 6 0 schwarz ## 40 0 silber ## 87 0 blau ## schwarz ## 46 4 schwarz ## 77 9 schwarz ## 78 3 schwarz ## schwarz Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 0 : Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung Deskriptive

10 Häufigkeitsverteilungen Auswertungsmethoden für eindimensionales Datenmaterial Merkmal X wird an n Merkmalsträgern beobachtet Urliste (x,..., x n ) Im Beispiel: x = 4, x =,..., x = 6 Urlisten sind oft unübersichtlich, z.b.:. Deskriptive ## [] ## [49] 7 5 Dann zweckmäßig: Häufigkeitsverteilungen 4. Induktive Ausprägung (sortiert) a j absolute Häufigkeit h(a j ) = h j kumulierte abs. H. H(a j ) = j h(a i ) relative Häufigkeit f(a j ) = h(a j )/n j kumulierte rel. H. F(a j ) = f(a i ) Graphische Darstellungen ➊ Balkendiagramm table(x) ## x ## ## barplot(table(x), col="azure") (Höhe proportional zu Häufigkeit) ➋ Kreissektorendiagramm Winkel: w j = 360 f(a j ) pie(table(x)) z.b. w = = 7, w 7 = = 57,6 5 (Fläche proportional zu Häufigkeit) Deskriptive 4. Induktive 4

11 Graphische Darstellungen ➌ Histogramm für klassierte Daten Fläche proportional zu Häufigkeit: Höhe j Breite j = c h(a j ) Höhe j = c h(a j) Breite j Im Beispiel mit c = : Klasse [0; 5) [5; 5) [5; 30] h(a j ) 5 5 Breite j Höhe j 4 90 histdata <- c(0,,,3,4, 5,6,7,0,4, 5,30) truehist(histdata, breaks=c(0, 4.999, 4.999, 30), col="azure", ylab='') histdata. Deskriptive 4. Induktive 7 Lageparameter Modus x Mod : häufigster Wert Beispiel: a j 4 h(a j ) 4 3 Sinnvoll bei allen Skalenniveaus. Median x Med : mittlerer Wert, d.h. } x Mod =. Urliste aufsteigend sortieren: x x x n. Dann. Deskriptive 4. Induktive { = x n+, falls n ungerade x Med [x n ; x n +], falls n gerade (meist x Med = (x n + x n +)) Im Beispiel oben:,,,,,,, 4 x Med [; ], z.b. x Med =,5 Sinnvoll ab ordinalem Skalenniveau. 3

12 Lageparameter () Arithmetisches Mittel x: Durchschnitt, d.h. Im Beispiel: x = n n x i = n x = 8 ( } {{ } 4 k a j h(a j ) j= } {{ } 3 Sinnvoll nur bei kardinalem Skalenniveau. Bei klassierten Daten: + 4 }{{} 4 ) =,75. Deskriptive 4. Induktive Im Beispiel: x = n Klassenmitte Klassenhäufigkeit x = (, ,5 ) = 8,96 7,5 = x 3 Streuungsparameter Voraussetzung: kardinale Werte x,..., x n Beispiel: a) x i b) x i Spannweite: SP = max Im Beispiel: i x i min i x i } je x = 000 a) SP = = 00 b) SP = = Deskriptive 4. Induktive Mittlere quadratische Abweichung: s = n n (x i x) = n x i x n } {{ } Verschiebungssatz 34

13 Streuungsparameter () Mittlere quadratische Abweichung im Beispiel: a) s = 3 ( ) = 3 ( ) 000 = 666,67 b) s = 3 ( ) = 3 ( ) 000 = Standardabweichung: s = s Im Beispiel: a) s = 666,67 = 40,8 b) s = = 88,43. Deskriptive 4. Induktive Variationskoeffizient: V = Im Beispiel: a) V = 40,8 000 = 0,0 ( = %) b) V = 88, =,4 ( = 4 %) s x (maßstabsunabhängig) 35 als Grafik: Boxplot Graphische Darstellung von Box: Oberer/Unterer Rand: 3. bzw.. Quartil, Linie in Mitte: Median Whiskers: Länge: Max./Min Wert, aber beschränkt durch das,5-fache des Quartilsabstands (falls größter/kleinster Wert größeren/kleineren Abstand von Box: Länge Whiskers durch größten/kleinsten Wert innerhalb dieser Schranken) Ausreißer: Alle Objekte außerhalb der Whisker-Grenzen boxplot(anzschuhe ~ Geschlecht, col=c("mistyrose", "lightblue"), data=mydata, main="") Frau Mann Wieviel Paar Schuhe besitzen Sie?. Deskriptive 4. Induktive 37

14 Dateninspektion: Überblick über alle Variablen summary(mydata) ## Alter Geschlecht AlterV AlterM Geschwister Farbe ## Min. :8.00 Frau:34 Min. :38.00 Min. :37.0 Min. :0.000 blau : ## st Qu.:0.00 Mann: 7 st Qu.:50.00 st Qu.:48.0 st Qu.:.000 gelb : 4 ## Median :.00 Median :54.00 Median :5.0 Median :.000 rot :3 ## Mean :. Mean :53.95 Mean :5.5 Mean :.473 schwarz:97 ## 3rd Qu.:3.00 3rd Qu.: rd Qu.:54.0 3rd Qu.:.000 silber :7 ## Max. :36.00 Max. :77.00 Max. :68.0 Max. :9.000 weiss :63 ## AusgSchuhe AnzSchuhe AusgKomm MatheZufr ## Min. : 0.0 Min. :.00 Min. : 30.0 nicht :68 ## st Qu.: 50.0 st Qu.:0.00 st Qu.: 50.0 geht so :47 ## Median : 50.0 Median :0.00 Median : zufrieden:43 ## Mean : 96.6 Mean :.58 Mean : 49.4 sehr :6 ## 3rd Qu.: rd Qu.: rd Qu.: NA's : ## Max. :000.0 Max. :80.00 Max. : Deskriptive 4. Induktive 38 Dateninspektion Boxplots for(attribute in c("alter", "AlterV", "AlterM", "Geschwister", "AusgSchuhe", "AusgKomm")) { data=mydata[, attribute] boxplot(data, # all rows, column of attribute col="lightblue", # fill color lwd=3, # line width cex=, # character size oma=c(,,,) ) text(0.7,max(data), attribute, srt=90, adj=) }. Deskriptive Alter AlterV AlterM Geschwister AusgSchuhe AusgKomm 4. Induktive 39

15 smaße Gegeben: kardinale Werte 0 x x x n Achtung! Die Werte müssen aufsteigend sortiert werden! Lorenzkurve: Wieviel Prozent der Merkmalssumme entfällt auf die x Prozent kleinsten Merkmalsträger? Beispiel: Die 90 % ärmsten besitzen 0 % des Gesamtvermögens. Streckenzug: (0,0), (u, v ),..., (u n, v n ) = (,) mit. Deskriptive 4. Induktive v k = Anteil der k kleinsten MM-Träger an der MM-Summe = k x i n x i u k = Anteil der k kleinsten an der Gesamtzahl der MM-Träger = k n 40 Lorenzkurve: Beispiel Markt mit fünf Unternehmen; Umsätze: 6, 3,,, 3 (Mio. ) 5 n = 5, x k = 5 k= v k. Deskriptive k x k p k 5 v k 5 u k u k 4. Induktive 4

16 Lorenzkurve Knickstellen: Bei i-tem Merkmalsträger x i+ > x i Empirische Verteilungsfunktion liefert Knickstellen: a j 3 6 h(a j ) f(a j ) 5 F(a j ) 5 Vergleich von Lorenzkurven: Deskriptive 4. Induktive Gleichverteilung extreme stärker konzentriert als schwer vergleichbar 4 Lorenzkurve: Beispiel Bevölkerungsanteil gegen BSP Bangladesch Brasilien Deutschland Ungarn USA,0 0,8. Deskriptive (Stand 000) Anteil am BSP 0,6 0,4 4. Induktive 0, 0, 0,4 0,6 0,8 Anteil der Bevölkerung,0 43

17 Gini-Koeffizient Numerisches Maß der : Gini-Koeffizient G G = Aus den Daten: G = Fläche zwischen 45 -Linie und L Fläche unter 45 -Linie n i x i (n + ) n x i n n = x i n i p i (n + ) n = wobei p i = x i n x i. Deskriptive 4. Induktive Problem: G max = n n Normierter Gini-Koeffizient: G = n n G [0; ] 44 Gini-Koeffizient: Beispiel Beispiel: i 3 4 x i 5 0 p i Deskriptive G = ( ) (4 + ) 4 = 0,55 4. Induktive Mit G max = 4 4 = 0,75 folgt G = 4 4 0,55 = 0,7 45

18 smaße: Beispiel Armutsbericht der Bundesregierung 008 Verteilung der Bruttoeinkommen in Preisen von 000 aus unselbständiger Arbeit der Arbeitnehmer/-innen insgesamt Anteil am Einkommen,0 0,8 0,6 0,4 0,. Deskriptive 0, 0,4 0,6 0,8,0 Anteil der Bevölkerung 4. Induktive Arithmetisches Mittel Median Gini-Koeffizient 0,433 0,44 0,448 0, Lorenzkurve mit R require(ineq) # inequality Paket Lorenz = Lc(AusgSchuhe) plot(lorenz, xlab="", ylab="", main="") # Standard plot plot(c(0,), c(0,), type="n", # bisschen netter panel.first=grid(lwd=.5, col=rgb(0,0,0,/)), xlab="", main="", ylab="") polygon(lorenz$p, Lorenz$L, density=-, col=rgb(0,0,,/4), lwd=) Deskriptive 4. Induktive Gini(AusgSchuhe) # Gini-Koeffizient ## []

19 Weitere smaße skoeffizient: n CR g = Anteil, der auf die g größten entfällt = p i = v n g i=n g+ Herfindahl-Index: H = n p i ( [ n ; ]) Es gilt: H = n (V + ) bzw. V = n H Exponentialindex: E = n p p i i ( [ n ; ] ) wobei 0 0 =. Deskriptive 4. Induktive Im Beispiel mit x = (,,, 5): CR = 7 0 = 0,85 ( ) ( ) 5 H = + + = 0, ( ) ( ) E = = 0, Auswertungsmethoden für zweidimensionale Daten Zweidimensionale Urliste Urliste vom Umfang n zu zwei Merkmalen X und Y: (x, y ), (x, y ),..., (x n, y n ) Kontingenztabelle: Sinnvoll bei wenigen Ausprägungen bzw. bei klassierten Daten. Ausprägungen von Y Ausprägungen von X b b... b l. Deskriptive 4. Induktive a h h... h l a h h... h l.... a k h k h k... h kl 49

20 Kontingenztabelle Unterscheide: Gemeinsame : h ij = h(a i, b j ) Randhäufigkeiten: l h i = h ij und h j = j= Bedingte (relative) : k h ij. Deskriptive 4. Induktive f (a i b j ) = h ij h i h j und f (b j a i ) = h ij 50 Beispiel: 400 unfallbeteiligte Autoinsassen: leicht verletzt schwer verletzt tot (= b ) (= b ) (= b 3 ) angegurtet (= a ) (= h ) (= h ) (= h 3 ) (= h ) nicht angegurtet (= a ) (= h ) (= h ) (= h 3 ) (= h ) (= h ) (= h ) (= h 3 ) (= n). Deskriptive 4. Induktive f (b 3 a ) = 4 40 = 0, f (a b 3 ) = 4 0 = 0,4 (0 % der nicht angegurteten starben.) (40 % der Todesopfer waren nicht angegurtet.) 5

21 Streuungsdiagramm Streuungsdiagramm sinnvoll bei vielen verschiedenen Ausprägungen (z.b. stetige Merkmale) Alle (x i, y i ) sowie ( x, ȳ) in Koordinatensystem eintragen. Beispiel: i x i y i y 3 x = 5 5 = 5 ȳ = 8 5 = 5,6 x x y. Deskriptive 4. Induktive 5 Beispiel Streuungsdiagramm. Deskriptive 4. Induktive (Datenquelle: Fahrmeir u. a. (009)) 53

22 Beispiel Streuungsdiagramm mieten <- read.table('../../_data/mietenmuenchen.csv', header=true, sep='\t', check.names=true, fill=true, na.strings=c('','')) x <- cbind(nettomieten=mieten$nm, Wohnflaeche=mieten$wfl) library("geneplotter") ## from BioConductor smoothscatter(x, nrpoints=inf, colramp=colorramppalette(brewer.pal(9,"ylorrd")), bandwidth=c(30,3)) Wohnflaeche Deskriptive 4. Induktive Nettomieten 54 Beispiel Streuungsdiagramm x = cbind("age of father"=alterv, "Age of mother"=alterm) require("geneplotter") ## from BioConductor smoothscatter(x, colramp=colorramppalette(brewer.pal(9,"ylorrd")) ) Age of mother Deskriptive 4. Induktive Age of father 55

23 Visualisiere Paare require(ggally) ggpairs(mydata[, -c(5, 6, 0)], colour='geschlecht', alpha=0.4) 35 Cor : 0.4 Cor : Cor : Cor : 0.05 Cor : Alter Frau: Mann: Frau: Mann: 0.33 Frau: Mann: 0.9 Frau: Mann: Frau: 0.08 Mann: Frau. Deskriptive Geschlecht Mann AlterV Cor : 0.73 Frau: 0.79 Mann: AlterM Cor : Frau: Mann: 0.4 Cor : Frau: 0.06 Mann: Cor : Frau: Mann: Cor : Frau: 0.06 Mann: Cor : 0.08 Frau: 0.08 Mann: Cor : Frau: Mann: Induktive AusgSchuhe Cor : Frau: 0.37 Cor : 0.9 Frau: Mann: AnzSchuhe Mann: Cor : 0.05 Frau: Mann: AusgKomm Bagplot: Boxplot in Dimensionen require(aplpack) bagplot(alterv, AlterM, xlab="alter des Vaters", ylab="alter der Mutter") Alter der Mutter Deskriptive 4. Induktive Alter des Vaters 57

24 Bubbleplot: 3 metrische Variablen require(desctools) PlotBubble(AlterM, AlterV, AusgSchuhe/400, col=setalpha("deeppink4",0.3), border=setalpha("darkblue",0.3), xlab="alter der Mutter", ylab="alter des Vaters", panel.first=grid(), main=""). Deskriptive Alter des Vaters Induktive Alter der Mutter Größe der Blasen: Ausgaben für Schuhe 58 srechnung Frage: Wie stark ist der Zusammenhang zwischen X und Y? Dazu: skoeffizienten Verschiedene Varianten: Wahl abhängig vom Skalenniveau von X und Y:. Deskriptive Skalierung von Y Skalierung von X kardinal ordinal nominal kardinal 4. Induktive ordinal Bravais-Pearson- skoeffizient Rangkorrelationskoeffizient von Spearman nominal Kontingenzkoeffizient 59

25 skoeffizient von Bravais und Pearson Bravais-Pearson-skoeffizient Voraussetzung: X, Y kardinalskaliert n (x i x)(y i ȳ) n x i y i n xȳ r = = [ ; +] n (x i x) n n n (y i ȳ) x i n x y i nȳ Deskriptive 4. Induktive Bravais-Pearson-skoeffizient Im Beispiel: i x i y i x i y i x i y i x = 5/5 = 5 ȳ = 8/5 = 5,6. Deskriptive 4. Induktive r = , ,6 = 0,703 (deutliche positive ) 6

26 Rangkorrelationskoeffizient von Spearman Voraussetzungen: X, Y (mindestens) ordinalskaliert, Ränge eindeutig (keine Doppelbelegung von Rängen) Vorgehensweise: ➀ Rangnummern R i (X) bzw. R i (Y) mit R ( ) i Wert usw. ➁ Berechne r SP = 6 n (R i R i) (n ) n (n + ) = bei größtem [ ; +]. Deskriptive 4. Induktive Hinweise: r SP = + wird erreicht bei R i = R i r SP = wird erreicht bei R i = n + R i i =,..., n i =,..., n 6 Rangkorrelationskoeffizient von Spearman Im Beispiel: x i R i y i R i Deskriptive 4. Induktive r SP = 6 [(5 4) + (3 5) + (4 3) + ( ) + ( ) ] (5 ) 5 (5 + ) = 0,6 63

27 Kontingenzkoeffizient Gegeben: Kontingenztabelle mit k Zeilen und l Spalten (vgl. hier) Vorgehensweise: ➀ Ergänze Randhäufigkeiten h i = l h ij und h j = j= ➁ Berechne theoretische ➂ Berechne χ = h ij = h i h j n k l j= (h ij h ij ) h ij k h ij χ hängt von n ab! (h ij h ij χ χ ). Deskriptive 4. Induktive 64 Kontingenzkoeffizient ➃ Kontingenzkoeffizient: wobei K max = χ K = n + χ [0; K max ] M M ➄ Normierter Kontingenzkoeffizient: mit M = min{k, l}. Deskriptive 4. Induktive K = K K max [0; ] K = + bei Kenntnis von x i kann y i erschlossen werden u.u. 65

28 Kontingenzkoeffizient Beispiel X : Staatsangehörigkeit (d,a) Y : Geschlecht (m,w) wobei h = h ij m w h i h ij m w d d 4 36 a a 6 4 h j = 4 usw.. Deskriptive 4. Induktive χ = (30 4) + (30 36) + (0 6) + (30 4) = 6, K = 6,5 00+6,5 = 0,45; M = min{,} = ; K max = K = 0,45 0,707 = 0,3430 = 0, Graphische Repräsentation von Kontingenztabellen Beispiel Autounfälle Verletzung leicht schwer tödlich angegurtet nicht angegurtet Sicherheit Gurt leicht schwer tödlich < 4 4: :0 0: :4 >4. Deskriptive 4. Induktive Kein Standardized Residuals: Verletzungen Mosaikplot Autounfälle 67

29 Ausgangsdaten Bundesliga 008/009 Gegeben: Daten zu den 8 Vereinen der ersten Bundesliga in der Saison 008/09 Merkmale: Vereinssetat für Saison (nur direkte Gehälter und Spielergehälter) und Ergebnispunkte in Tabelle am Ende der Saison Etat Punkte FC Bayern VfL Wolfsburg SV Werder Bremen FC Schalke VfB Stuttgart Hamburger SV 35 6 Bayer 04 Leverkusen Bor. Dortmund 3 59 Hertha BSC Berlin FC Köln 8 39 Bor. Mönchengladbach 7 3 TSG Hoffenheim 6 55 Eintracht Frankfurt 5 33 Hannover Energie Cottbus 3 30 VfL Bochum 7 3 Karlsruher SC 7 9 Arminia Bielefeld 5 8 (Quelle: Welt). Deskriptive 4. Induktive 7 Darstellung der Daten in Streuplot Bundesliga 008/09 Punkte VfB Stuttgart Hertha BSC Berlin Hamburger SV Bor. Dortmund TSG Hoffenheim Hannover 96. FC Köln Eintracht Frankfurt VfL Bochum Bor. Mönchengladbach Energie Cottbus Karlsruher SC Arminia Bielefeld FC Schalke 04 Bayer 04 Leverkusen SV Werder Bremen VfL Wolfsburg FC Bayern. Deskriptive 4. Induktive Etat [Mio. Euro] 7

30 Trend als lineares Modell Kann man die Tabellenpunkte näherungsweise über einfache Funktion in Abhängigkeit des Vereinsetats darstellen? Allgemein: Darstellung einer Variablen Y als Funktion von X: Dabei: y = f(x) X heißt Regressor bzw. unabhängige Variable Y heißt Regressand bzw. abhängige Variable Wichtiger (und einfachster) Spezialfall: f beschreibt einen linearen Trend:. Deskriptive 4. Induktive y = a + b x Dabei anhand der Daten zu schätzen: a (Achsenabschnitt) und b (Steigung) Schätzung von a und b: 73 Fehlerquadratsumme Pro Datenpunkt gilt mit Regressionsmodell: y i = a + bx i + ɛ i Dabei: ɛ i ist jeweils Fehler (der Grundgesamtheit), mit e i = y i (â + ˆbx i ): Abweichung (Residuen) zwischen gegebenen Daten der Stichprobe und durch Modell geschätzten Werten Modell gut wenn alle Residuen e i zusammen möglichst klein Einfache Summe aber nicht möglich, denn e i positiv oder negativ. Deskriptive 4. Induktive Deswegen: Summe der Quadrate von e i Prinzip der kleinsten Quadrate: Wähle a und b so, dass Q(a, b) = n [y i (a + bx i )] min 74

31 Beste Lösung Beste und eindeutige Lösung: ˆb = = n (x i x)(y i ȳ) n (x i x) n x i y i n xȳ n x i n x â = ȳ ˆb x. Deskriptive 4. Induktive Regressionsgerade: ŷ = â + ˆb x 75 Bundesligabeispiel Berechnung eines linearen Modells der Bundesligadaten dabei: Punkte ˆ= y und Etat ˆ= x: x 33,83 y 46,89 x i 509 xi y i 3474 n ,83 46,89 ˆb = ,83 0,634 â = 46,89 ˆb 33,83 5,443 Modell: ŷ = 5, ,634 x Punkte Einkommen Prognosewert für Etat = 30: ŷ(30) = 5, , ,463. Deskriptive 4. Induktive 76

32 Varianz und Information Varianz der Daten in abhängiger Variablen y i als Repräsentant des Informationsgehalts Ein Bruchteil davon kann in Modellwerten ŷ i abgebildet werden Deskriptive 4. Induktive 0 0 points model Empirische Varianz (mittlere quadratische Abweichung) für rot bzw. grün ergibt jeweils 8 8 (y i y) 00,77 bzw. 8 8 (ŷ i y) 0,78 77 Determinationskoeffizient Gütemaß für die Regression: Determinationskoeffizient (Bestimmtheitskoeffizient): R = n (ŷ i ȳ) = n (y i ȳ) n ŷ i nȳ = r n [0; ] y i nȳ Mögliche Interpretation von R : Durch die Regression erklärter Anteil der Varianz R = 0 wird erreicht wenn X, Y unkorreliert R = wird erreicht wenn ŷ i = y i i (alle Punkte auf Regressionsgerade) Im (Bundesliga-)Beispiel:. Deskriptive 4. Induktive R = 8 (ŷ i y) 8 (y i y) 0,78 00,77 5,9 % 78

33 Regression: 4 eindimensionale Beispiele Berühmte Daten aus den 970er Jahren: i x i x i x 3i x 4i y i y i y 3i y 4i ,04 9,4 7,46 6, ,95 8,4 6,77 5, ,58 8,74,74 7, ,8 8,77 7, 8, ,33 9,6 7,8 8, ,96 8,0 8,84 7, ,4 6,3 6,08 5, ,6 3,0 5,39, ,84 9,3 8,5 5, ,8 7,6 6,4 7, ,68 4,74 5,73 6,89. Deskriptive 4. Induktive (Quelle: Anscombe (973)) 79 Beispieldaten meineregression = lm(alterm ~ AlterV) meineregression plot(alterv, AlterM, xlab="alter des Vaters", ylab="alter der Mutter") abline(meineregression) Alter der Mutter ## ## Call: ## lm(formula = AlterM ~ AlterV) ## ## Coefficients: ## (Intercept) AlterV ## Deskriptive 4. Induktive Alter des Vaters 8

34 Cook s Distanz PLUS Oft Kritisch: Einzelne Punkte, die Modell stark beeinflussen Idee: Was würde sich ändern, wenn solche Punkte weggelassen würden? Cook-Distanz: Misst den Effekt eines gelöschten Objekts Formel für ein lineares Modell mit einem unabh. Merkmal: D i = n (ŷ j ŷ j(ohne i) ) j= MSE. Deskriptive 4. Induktive Dabei bedeutet: ŷ j : Prognosewert des kompletten Modells für das j-te Objekt ŷ j(ohne i) : Prognosewert des Modells ohne Objekt i für das j-te Objekt MSE = n (ŷ i y i ) : Normierender Term (Schätzwert für Fehlerstreuung) 83 Ausreißer? PLUS Anscombe-Daten: Regressionsmodell Nr. 3 Darstellung der Cook-Distanz neben Punkten Faustformel: Werte über sollten genau untersucht werden.39. Deskriptive y Induktive x3 84

35 Residualanalyse Oft aufschlussreich: Verteilung der Residuen e i Verbreitet: Graphische Darstellungen der Residuen Z.B.: e i über ŷ i y Residuals Deskriptive x Fitted values Residuals vs Fitted 4. Induktive y Residuals x Fitted values 85 Residualanalyse Wichtige Eigenschaften der Residuenverteilung Möglichst keine systematischen Muster Alter der Mutter Keine Änderung der Varianz in Abhängigkeit von ŷ i (Homoskedastizität) Nötig für inferentielle Analysen: Näherungsweise Normalverteilung der Residuen (q-q-plots) Residuals Deskriptive 4. Induktive Alter des Vaters Fitted values 86

36 Kausalität versus Exkurs: Kausalität vs. Meist wichtig für sinnvolle Regressionsanalysen: Kausale Verbindung zwischen unabhängigem und abhängigem Merkmal Sonst bei Änderung der unabhängigen Variablen keine sinnvollen Prognosen möglich Oft: Latente Variablen im Hintergrund. Deskriptive 4. Induktive 87 : Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung 3 Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen

37 : Anzahl von Kombinationen bei Auswahl -mal Würfeln, das heißt Auswahl von k = aus n = 6 Zahlen. mit WH, mit RF: alle Möglichkeiten, 6 = 36 ohne WH, mit RF: Diagonale entfällt, 6! 36 6 = 30 = 6 5 = (6 )! (,) (,) (,3) (,4) (,5) (,6) (,) (,) (,3) (,4) (,5) (,6) (3,) (3,) (3,3) (3,4) (3,5) (3,6) (4,) (4,) (4,3) (4,4) (4,5) (4,6) (5,) (5,) (5,3) (5,4) (5,5) (5,6) (6,) (6,) (6,3) (6,4) (6,5) (6,6) ohne WH, ohne RF: Hälfte des letzten Ergebnisses: 30 6! = 5 = 4!! = ( 6) mit WH, ohne RF: Letztes Ergebnis plus Diagonale, = = ( 7). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Auswahl von k aus n Dingen mit Reihenfolge ohne Reihenfolge mit Wiederholung ohne Wiederholung n k n! (n k)! ( ) ( ) n + k n k k 89 Zufallsvorgänge, Ereignisse und Wahrscheinlichkeiten Zufallsvorgang: Geschehen mit ungewissem Ausgang, z.b. Münzwurf Elementarereignis ω: Ein möglicher Ausgang, z.b. Kopf Elementarereignisse schließen sich gegenseitig aus ( Kopf oder Zahl )! Ergebnismenge Ω: Menge aller ω Beispiel: Werfen zweier Würfel: (,) (,) (,6) (,) (,) (,6) Ω : (6,) (6,) (6,6). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Ω = {(x, x ) : x, x {,...,6}} 90

38 Ereignisse und Wahrscheinlichkeiten Ereignis A: Folgeerscheinung eines Elementarereignisses Formal: A Ω Ereignisse schließen sich nicht gegenseitig aus! Beispiel: Werfen zweier Würfel: Ereignis verbal formal A Augensumme = 4 {(,3), (,), (3,)} B Erste Zahl = {(,), (,),..., (,6)}. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Wahrscheinlichkeit P(A): Chance für das Eintreten von A Laplace-Wahrscheinlichkeit: P(A) = A Ω = Anzahl der für A günstigen Fälle Anzahl aller möglichen Fälle 9 Laplace Wahrscheinlichkeit und Urnenmodell Beispiel: Werfen zweier Würfel: Augensumme = 4 : A = {(,3), (,), (3,)} Ω = 36, A = 3 P(A) = 3 36 = = 0,083 Urnenmodell: Ziehe n Objekte aus einer Menge mit N Objekten Anzahl Möglichkeiten: mit Zurücklegen: N n ohne Zurücklegen: N (N ) (N (n )) = N! (N n)!. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Beispiel: Wie groß ist die Wahrscheinlichkeit, aus einem gut gemischten 3-er Kartenblatt bei viermaligem Ziehen vier Asse zu bekommen? a) Ziehen mit Zurücklegen, b) Ziehen ohne Zurücklegen 9

39 Rechenregeln für Wahrscheinlichkeiten Wichtige Rechenregeln:. P(A). P( ) = 0 3. A B P(A) P(B) 4. P(Ā) = P(A) 5. P(A B) = P(A) + P(B) P(A B) A A B B C. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Beispiel: P( Augenzahl 5 ) = P( Augenzahl = 6 ) = 6 = Beispiel Gegenereignis Der Fall Sally Clark Sally Clarks Söhne Christopher und Harry sterben 996 und 997 beide kurz nach der Geburt an plötzlichem Kindstod. Kinderarzt: Wahrscheinlich Mord, da maliger plötzlicher Kindstod sehr unwahrscheinlich! (ohne konkrete Hinweise) Gerichtliche Untersuchung Hauptargument der Anklage gestützt durch Gerichtsgutachter Sir Roy Meadow (renommierter Facharzt für Kinderheilkunde): Wahrscheinlichkeit für plötzlichen Kindstod ist :8500, d.h. Wahrscheinlichkeit für maliges Auftreten in einer Familie ( ) p = : Urteil: Doppelmord; Strafe: mal lebenslang; Inhaftierung von Sally Clark 999. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 94

40 Bedingte Wahrscheinlichkeiten Wahrscheinlichkeit von A hängt von anderem Ereignis B ab. (B kann zeitlich vor A liegen, muss aber nicht!) Beispiel: Wahrscheinlichkeit für note hängt von Mathenote ab. Formal: Im Venndiagramm: P(A B) = P(A B) P(B). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive B A Ω 96 Unabhängigkeit von Ereignissen A, B unabhängig: Eintreten von A liefert keine Information über P(B). Formal: P(A B) = P(A) Bei Unabhängigkeit ist äquivalent dazu: Dann gilt: P(A B) = P(A) P(B) P(A B) = P(A) + P(B) P(A) P(B) Beispiel: Werfen zweier Würfel: } A : " erster Würfel gleich 6" B : " zweiter Würfel gleich 6" P(A B) = = P(A B) P(B) 36 6 = P(A) = 6. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 97

41 Zufallsvariablen Zufallsvariablen und Verteilungen Beschreibung von Ereignissen durch reelle Zahlen Formal: Zufallsvariable ist Abbildung von Ereignisraum in reelle Zahlen: X : Ω R Nach Durchführung des Zufallsvorgangs: Realisation: x = X(ω). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Vor Durchführung des Zufallsvorgangs: Wertebereich: X(Ω) = {x : x = X(ω), ω Ω} Beispiel: Würfeln, X: Augenzahl, X(Ω) = {,,...,6}, x = 4 (z.b.) P(X = 4) = 6, P(X 3) = 3 6 = 98 Verteilungsfunktion Zuweisung von Wahrscheinlichkeiten zu Realisationen Formal: F(x) = P(X x) Eigenschaften der Verteilungsfunktion: F(x) [0; ] Definitionsbereich: R mit F( ) = 0, F( ) = monoton wachsend, d.h. x < x F(x ) F(x ) Es gilt: P(a < X b) = F(b) F(a). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive F(x) 0, x Beispiel einer Verteilungsfunktion 99

42 Diskrete Zufallsvariablen X heißt diskret, wenn X(Ω) = {x, x,... } endlich ist. Wahrscheinlichkeitsfunktion dann: f(x) = P(X = x) Beispiel: Münze mal werfen; X: Anzahl " Kopf" (Z, Z) (Z, K), (K, Z) (K, K) x i 0 f(x i ) 4 4 0, falls x < 0 4 F(x) =, falls 0 x < 3 4, falls x <, falls x. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 0,5 f(x) 0,75 F(x) 0, ,5 0, Binomialverteilung Wiederholter Zufallsvorgang n Durchführungen (jeweils unabhängig) Pro Durchführung: A oder Zurücklegen) Schreibe: X i = Ā mit P(A) = p ( = Ziehen mit {, falls A bei i-ter Durchführung eintritt 0, falls Ā bei i-ter Durchführung eintritt. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Dann gibt X = an, wie oft A eintritt. n X i Gesucht: Wahrscheinlichkeitsfunktion von X 0

43 Binomialverteilung Herleitung: ) P(X i = ) = P(A) = p, P(X i = 0) = P(Ā) = p n ) x i = x entspricht " x mal Ereignis A und n x mal Ā" Wahrscheinlichkeit (bei Unabhängigkeit): p x ( p) n x ( n 3) Aber: Reihenfolge irrelevant! Anzahl Anordnungen: x) Wahrscheinlichkeitsfunktion der Binomialverteilung: ( n p f(x) = x) x ( p) n x, falls x {0,,..., n} 0, sonst. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Kurzschreibweise: X B(n; p) X ist binomialverteilt mit Parametern n und p Tabellen zeigen meist F(x) für f(x) gilt: f(x) = F(x) F(x ) 0 X B(n, 0.5), Tabelle der Binomialverteilung F(x) = P(X x) x\n x\n Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 03

44 Binomialverteilung: Beispiel Beispiel Aus einem 3-er Kartenblatt wird 3-mal eine Karte mit Zurücklegen gezogen. Wie wahrscheinlich ist es, -mal Herz zu ziehen? X i = X = n {, falls i-te Karte Herz 0, sonst X i B(; 8 3 ) X i = X + X + X 3 X B(3; 4 ). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Mithilfe der Wahrscheinlichkeitsfunktion: ( 3 P(X = ) = f() = 0,5 ) 0,75 = 0,406 Mithilfe der Tabelle (n = 3): P(X = ) = F() F() = 0,9844 0,8438 = 0, Binomialverteilung: Wahrscheinlichkeitsfunktion X B(3, 4 ) Binomial Vtlg. mit n=3 p=0.5. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive p x 05

45 Binomialverteilung: Wahrscheinlichkeitsfunktion Binomial Vtlg. mit n=0 p=0.5 Binomial Vtlg. mit n=00 p= p p Deskriptive x x Zufallsvariablen und Verteilungen 4. Induktive Binomial Vtlg. mit n=30 p=0.5 Binomial Vtlg. mit n=500 p= p p x x 06 Hypergeometrische Verteilung n-faches Ziehen ohne Zurücklegen aus N Objekten, davon M markiert. X = Anzahl gezogener Objekte mit Markierung heißt hypergeometrisch verteilt mit den Parametern N, M, n. Kurzschreibweise: X Hyp(N; M; n) Wahrscheinlichkeitsfunktion: ( )( ) M N M x n x (, falls x möglich f(x) = N n) 0, sonst. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Ist n N 0, so gilt: Hyp(N; M; n) B(n; M N ) 07

46 Beispiel: Hypergeometrische Verteilung Aus einem 3-Kartenblatt wird 3-mal eine Karte ohne Zurücklegen gezogen. Wie wahrscheinlich ist es, -mal " Herz" zu ziehen? D.h.: N = 3, M = 8, n = 3, x =. ( ) ( ) ( ) ( ) P(X = ) = f() = ( ) = ( ) = = 9! 8! 3! 4 3! 6!! = 0,355 8!! 6! 4 3! 3! 9! = = = 55. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Dabei wurde verwendet: ( n n! = und k) k!(n k)! ( n ) = n. 08 Hypergeometrische Verteilung Beispiel: x Treffer im Lotto 6 aus 49 X Hyp(49, 6, 6) x P(X = x) (in %) Wahrscheinlichkeit Deskriptive Zufallsvariablen und Verteilungen 4. Induktive x 09

47 Poisson-Verteilung Approximation für B(n; p) und Hyp(N; M; n) Geeignet, wenn p klein ( 0,), n groß ( 50) und np 0. Verteilung der seltenen Ereignisse (z.b. Anzahl 6-er pro Lottoausspielung) X ist poissonverteilt mit Parameter λ: X P(λ) Wahrscheinlichkeitsfunktion: λ x f(x) = x! e λ, falls x = 0,,,... 0, sonst. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive F(x) in Tabelle Überblick: Approximation Hyp(N; M; n) p = M N B(n; p) λ = np = n M N P(λ) 0 Poissonverteilung: X P(λ), Tabelle der Verteilungsfunktionen x\λ Deskriptive Zufallsvariablen und Verteilungen 4. Induktive x\λ

48 Poisson-Verteilung: Beispiel Beispiel X B(0 000; 0,0003); In Tabelle der Binomialverteilung nicht vertafelt! Approximation: p = 0,0003 < 0, n = > 50 B(0 000; 0,0003) P(3) np = 3 < 0 Mithilfe der Wahrscheinlichkeitsfunktion:. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive P(X = 5) = 35 5! e 3 = 0,00888 Mithilfe der Tabelle der Poissonverteilung: P(X = 5) = F(5) F(4) = 0,96 0,853 = 0,008 Exakter Wert: P(X = 5) = 0,00839 Poisson- versus Binomialverteilung: Vergleich 0.4 n=5 p= n=0 p=0.4 p Verteilung Binomial Poisson p Verteilung Binomial Poisson. Deskriptive x x Zufallsvariablen und Verteilungen 4. Induktive 0.0 n=00 p= n=000 p= p 0.0 Verteilung Binomial Poisson p 0.0 Verteilung Binomial Poisson x x 3

49 Stetige Zufallsvariablen X heißt stetig, wenn F(x) stetig ist. 3 f(t) F(x) = x f(t)dt Dann existiert ein f(t) mit: F(x) = x f(t) dt f(x) heißt Dichtefunktion von X. Dann: P(a < X < b) = P(a X < b) = P(a < X b) = P(a X b) x 3 t f(x) x x. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive = b a f(x) dx = F(b) F(a) a b x 4 Dichtefunktion Eigenschaften der Dichtefunktion f(x) 0 für alle x R Wegen F( ) = muss stets gelten: f(x) dx = P(X = x) = 0 für alle x R f(x) > ist möglich für x R ist F(x) differenzierbar F (x) = f(x). Intervallgrenzen spielen keine Rolle:. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive P(X [a; b]) = P(X (a; b]) = P(X [a; b)) = P(X (a; b)) = F(b) F(a) 5

50 Dichtefunktion: Beispiel Beispiel Verteilungsfunktion: x 0 f(x) = f(t) dt = F(x) = 0, falls x < 0, falls 0 x 0 0, falls x > 0 0 x 0 [ ] x t 0 dt = 0 0 0, falls x < 0, falls 0 x 0, falls x > 0 x 0 = x 0. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 6 Gleichverteilung Eine Zufallsvariable X mit f(x) = b a, falls a x b 0, sonst heißt gleichverteilt im Intervall [a; b]. f(x). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive b a a b x 7

51 Gleichverteilung Verteilungsfunktion der Gleichverteilung: F(x) = 0, falls x < a x a b a, falls a x b, falls x > b. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Beispiel: X gleichverteilt in [; 0] P( X ) = F() F() = 0 0 = 0 = 0 9 = 0,563 8 Normalverteilung Eine Zufallsvariable X mit einer Dichtefunktion f(x) = (x µ) σ π e σ. Deskriptive und σ > 0 heißt normalverteilt. f(x) N(; 3 ) Zufallsvariablen und Verteilungen 4. Induktive 0,5 N(0; ) N(; ) N(; ) x Kurzschreibweise: X N(µ; σ) 9

52 Normalverteilung: Gaußkurve Normalverteilung C.F. Gauß. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 0 Verteilungsfunktion Φ der Standardnormalverteilung Dabei bedeutet Φ(x) zum Beispiel: Φ(,3) = Φ(, + 0,03) = 0,9834. Diesen Wert findet man in der Zeile mit x =, und der Spalte mit x = 0,03. x \x Deskriptive Zufallsvariablen und Verteilungen 4. Induktive

53 Eigenschaften der Normalverteilung Dichte ist symmetrisch zu µ: f(µ x) = f(µ + x) µ ist Lage-, σ ist Streuungsparameter Standardnormalverteilung: N(0; ) mit Verteilungsfunktion Φ(x) ( Tabelle 3) Kenntnis von Φ(x), µ und σ genügt, denn: X N(µ; σ) X µ σ N(0; ) ( ) x µ F(x) = Φ σ. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Tabelle enthält nur positive x: Deswegen Φ( x) = Φ(x) Normalverteilung: Beispiel Beispiel: Projektdauer X N(39; ). Wahrscheinlichkeit für Projektdauer zwischen 37 und 4 Wochen? Lösung: P(37 X 4) = F(4) F(37) = Φ ( ) ( 4 39 Φ ) = Φ() Φ( ) = Φ() [ Φ()] = Φ() = 0,843 = 0,686. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 3

54 Lageparameter a) Modus x Mod : f(x Mod ) f(x) für alle x (i.a. nicht eindeutig, z.b. Gleichverteilung) Beispiele: Normalverteilung: x Mod = µ Diskrete Verteilung mit: x 0 f(x) 4 4 } x Mod =. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive b) Median x Med : F(x Med ) = bzw. kleinstes x mit F(x) > Beispiele: Normalverteilung: x Med = µ Diskrete Verteilung oben: F(0) = 4 <, F() = 3 4 > x Med = 4 Lageparameter: Fraktile c) α-fraktil x α : F(x α ) = α (für stetige Verteilungen) Beispiel: X N(0; ), Y N(3; ) Hinweise: x 0,975 =,96 (Tab. 3) x 0,05 = x 0,975 =,96 y 0,05 = x 0,05 +3 = 0,9. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive x Med = x 0,5 Wenn x α nicht vertafelt Interpolation: x α x a + (x b x a ) α a b a mit a : größte vertafelte Zahl < α b : kleinste vertafelte Zahl > α Beispiel: X N(0; ); x 0,6 0,5 + (0,6 0,5) 0,533 0,6 0,5987 0,606 0,5987 = 5

55 Lageparameter: Erwartungswert d) Erwartungswert E(X) bzw. µ: x i f(x i ), i E(X) = xf(x) dx, falls X diskret falls X stetig. Deskriptive Zufallsvariablen und Verteilungen Beispiel: Diskrete Verteilung mit x 0 f(x) 4 4 E(X) = = Beispiel: Für eine exponentialverteilte Zufallsvariable X mit der Dichte { λ e λx für x 0 f(x) = folgt 0 sonst [ E(X) = x f(x)dx = λ x e λx dx = λ 0 λ xe λx 0 = xe λx λ e λx = 0 0 ( 0 ) = λ λ ( λ ) ] e λx dx 4. Induktive 6 Rechenregeln für den Erwartungswert Ist f symmetrisch bzgl. a, so gilt E(X) = a Beispiel: f der Gleichverteilung symmetrisch a+b bzgl. E(X) = a+b Lineare Transformation: Summenbildung: E(a + bx) = a + b E(X). Deskriptive Zufallsvariablen und Verteilungen ( n ) E X i = n E(X i ) 4. Induktive Beispiel: X gleichverteilt in [0; 0], Y N(; ); Z = X + 5Y E(Z) = E(X+5Y) = E(X)+E(5Y) = E(X)+5 E(Y) = = 0 Unabhängigkeit: X, Y unabhängig E(X Y) = E(X) E(Y) 7

56 Streuungsparameter Varianz Var(X) bzw. σ : [x i E(X)] f(x i ), wenn X diskret Var(X) = E([X E(X)] i ) = [x E(X)] f(x) dx, wenn X stetig Standardabweichung Sta(X) bzw. σ: Beispiel: Diskrete Verteilung x 0 f(x) 4 4 : Sta(X) = Var(X). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Var(X) = (0 ) 4 + ( ) + ( ) 4 = Beispiel: Für eine exponentialverteilte Zufallsvariable X (Dichte siehe Erwartungswert) folgt Var(X) = (x E(X))f(x)dx = λ 0 ( x λ ) e λx dx ( = e λx x + x λ ( ) ) λ λ x λ + λ 0 ( = 0 0 ( ) ) λ = λ 8 Rechenregeln für die Varianz Verschiebungssatz: Var(X) = E(X ) [E(X)] Beispiel: Diskrete Verteilung x 0 f(x) 4 E(X ) = = 3 E(X ) [E(X)] = 3 = = Var(X) 4 :. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Lineare Transformation: Var(a + bx) = b Var(X) Summenbildung gilt nur, wenn die X i unabhängig! Dann: ( n ) Var X i = n Var(X i ) 9

57 Erwartungswerte und Varianzen wichtiger Verteilungen Verteilung von X E(X) Var(X) Binomialverteilung B(n; p) np np( p) Hypergeometrische Verteilung mit den Parametern N, M, n n M N Poisson-Verteilung P(λ) λ λ Gleichverteilung in [a; b] mit a < b a + b n M N N M N (b a) N n N. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Normalverteilung N(µ; σ) µ σ 30 Anwendung: Ungleichung von Tschebyschow Für beliebige Zufallsvariablen X und ε > 0 gilt die Ungleichung von Tschebyschow: Beispiele: P ( X E[X] ε ) Var[X] ε X ist gleichverteilt mit Parametern a, b und ε = (a b), 3 also E[X] = (a + b) und Var[X] = (a b). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive P ( X (a + b) 3 (a b)) (a b) 3 (a b) = 3 /4 X B(00; 0,) und ε = 0 damit: E[X] = 00 0, = 0 und Var[X] = 00 0, ( 0,) = 6 P ( X 0 0 ) 6 0 = 0,6 3

58 Kovarianz und Kovarianz: Cov(X, Y) skoeffizient: ρ(x, Y) = = E[(X E(X))(Y E(Y))] = E(X Y) E(X) E(Y) (Verschiebungssatz) Cov(X, Y) Var(X) Var(Y). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Bemerkungen: ρ ist r nachgebildet ρ [ ; ] ρ = Y = a + bx (mit b 0) ρ = 0 X, Y unkorreliert Varianz einer Summe zweier ZV: Var(X + Y) = Var(X) + Var(Y) + Cov(X, Y) 3 : Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung 4 Induktive

59 der induktiven Beispiel Vollerhebung of unmöglich, Deshalb: Beobachte Teilgesamtheit und schließe auf Grundgesamtheit Warensendung von 000 Stück; darunter M Stück Ausschuss. M ist unbekannt. Zufällige Entnahme von n = 30 Stück ( Stichprobe ). Darunter Stück Ausschuss. Denkbare Zielsetzungen: Schätze M durch eine Zahl (z.b = 66,67) Schätze ein Intervall für M (z.b. M [58; 84]) Teste die Hypothese, dass M > 50 ist.. Deskriptive 4. Induktive 34 Grundbegriffe Grundgesamtheit (G): Menge aller relevanten Merkmalsträger. Verteilung von G: F(x) = P(X x) = Wahrscheinlichkeit, dass ein Merkmalsträger ausgewählt wird, der beim untersuchten Merkmal maximal die Ausprägung x aufweist. Uneingeschränkte (reine) Zufallsauswahl: Jedes Element von G hat die selbe Chance, ausgewählt zu werden. Stichprobenumfang (n): Anzahl der Merkmalsträger in der Stichprobe. Einfache Stichprobe: Uneingeschränkte Zufallsauswahl und unabhängige Ziehung. Alle Stichprobenvariablen X,..., X n sind iid. Stichprobenergebnis: n-tupel der Realisationen der Stichprobenvariablen, (x,..., x n ).. Deskriptive 4. Induktive 35

60 Wichtige Stichprobenfunktionen Gegeben: Einfache Stichprobe X,..., X n, mit E(X i ) = µ, Var(X i ) = σ Beliebige Verteilung, Stichprobenfunktion V Bezeichnung E(V) Var(V) n X i Merkmalssumme nµ nσ X = n n X i Stichprobenmittel µ X µ n Gauß- 0 σ n n n n mittlere quadratische (X i µ) Abweichung bezüglich µ mittlere quadratische (X i X) Abweichung S = n S = S σ n n (X i X) Stichprobenvarianz σ Stichproben- Standardabweichung n σ σ n. Deskriptive 4. Induktive X µ n S t- 36 Auswirkungen der Stichprobengröße Ziehen von Stichproben (jeweils vom Umfang n) und Berechnung der Stichprobenmittel (Verteilung: zwei überlagerte Gleichverteilungen):. Deskriptive 4. Induktive 37

61 Auswirkungen der Stichprobengröße. Deskriptive 4. Induktive 38 Auswirkungen der Stichprobengröße. Deskriptive 4. Induktive 39

62 Testverteilungen Chi-Quadrat-Verteilung Sind X,..., X n iid N(0; )-verteilte Zufallsvariablen, so wird die Verteilung von n Z = als Chi-Quadrat-Verteilung mit n Freiheitsgraden bezeichnet. f(x) X i. Deskriptive 4. Induktive 0, 0, x Kurzschreibweise: Z χ (n) Beispiel: χ (30): x 0,975 = 46,98 40 Quantilstabelle der χ -Verteilung mit n Freiheitsgraden α\n Deskriptive 4. Induktive α\n

63 Testverteilungen: t-verteilung Ist X N(0; ), Z χ (n), X, Z unabhängig, so wird die Verteilung von T = X n Z als t-verteilung mit n Freiheitsgraden bezeichnet. f(x) William Sealy Gosset Deskriptive 4. Induktive 0, 0, x 3 3 Kurzschreibweise: T t(n) Beispiel: t(0) x 0,6 = 0,60, x 0,5 = 0, x 0, = x 0,9 =,37 4 Quantilstabelle der t-verteilung mit n Freiheitsgraden α\n Deskriptive 4. Induktive 43

64 t-verteilung vs. Normalverteilung Dichtefunktion t-verteilung mit (blau), 3 (grün) und 0 (lila) Freiheitsgraden Standardnormalverteilung (rot). Deskriptive 4. Induktive 44 Ein unbekannter Parameter ϑ der Verteilung von G soll auf Basis einer Stichprobe geschätzt werden. Zum Beispiel: σ von N(0; σ) Schätzwert: ˆϑ Vorgehen: Verwendung einer Schätzfunktion ˆΘ = g(x,..., X n ) Beachte: Der Schätzwert ˆϑ ist die Realisierung der ZV (!) ˆΘ. Frage: Welche Stichprobenfunktion ist zur Schätzung geeignet? Kriterien für die Beurteilung/Konstruktion von Schätzfunktionen! Im Folgenden: Vorliegen einer einfachen Stichprobe, d.h. X,..., X n iid.. Deskriptive 4. Induktive 45

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg : Gliederung 1 Einführung 2 Deskriptive Statistik

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Zufallsvorgänge, Ereignisse und Wahrscheinlichkeiten Zufallsvorgang: Geschehen mit ungewissem

Mehr

Teil I Beschreibende Statistik 29

Teil I Beschreibende Statistik 29 Vorwort zur 2. Auflage 15 Vorwort 15 Kapitel 0 Einführung 19 0.1 Methoden und Aufgaben der Statistik............................. 20 0.2 Ablauf statistischer Untersuchungen..............................

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Klausur Statistik Lösungshinweise

Klausur Statistik Lösungshinweise Klausur Statistik Lösungshinweise Prüfungsdatum: 1. Juli 2015 Prüfer: Etschberger, Heiden, Jansen Studiengang: IM und BW Aufgabe 1 14 Punkte Ein Freund von Ihnen hat über einen Teil seiner Daten, die er

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten

Mehr

Einführung in die Statistik mit EXCEL und SPSS

Einführung in die Statistik mit EXCEL und SPSS Christine Duller Einführung in die Statistik mit EXCEL und SPSS Ein anwendungsorientiertes Lehr- und Arbeitsbuch Zweite, überarbeitete Auflage Mit 71 Abbildungen und 26 Tabellen Physica-Verlag Ein Unternehmen

Mehr

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall Wahrscheinlichkeitstheorie Was will die Sozialwissenschaft damit? Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall Auch im Alltagsleben arbeiten wir mit Wahrscheinlichkeiten, besteigen

Mehr

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik: . Einführung und statistische Grundbegriffe Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik: Quantitative Information Graphische oder tabellarische Darstellung von Datenmaterial

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Statistische Auswertung der Daten von Blatt 13

Statistische Auswertung der Daten von Blatt 13 Statistische Auswertung der Daten von Blatt 13 Problemstellung 1 Graphische Darstellung der Daten 1 Diskussion der Normalverteilung 3 Mittelwerte und deren Konfidenzbereiche 3 Signifikanz der Behandlung

Mehr

Teil I: Deskriptive Statistik

Teil I: Deskriptive Statistik Teil I: Deskriptive Statistik 2 Grundbegriffe 2.1 Merkmal und Stichprobe 2.2 Skalenniveau von Merkmalen 2.3 Geordnete Stichproben und Ränge 2.1 Merkmal und Stichprobe An (geeignet ausgewählten) Untersuchungseinheiten

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt

Mehr

Statistik I für Betriebswirte Vorlesung 2

Statistik I für Betriebswirte Vorlesung 2 Statistik I für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 16. April 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 2 1 ii) empirische

Mehr

Statistik II für Betriebswirte Vorlesung 2

Statistik II für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander

Mehr

Zufallsgrößen. Vorlesung Statistik für KW 29.04.2008 Helmut Küchenhoff

Zufallsgrößen. Vorlesung Statistik für KW 29.04.2008 Helmut Küchenhoff Zufallsgrößen 2.5 Zufallsgrößen 2.5.1 Verteilungsfunktion einer Zufallsgröße 2.5.2 Wahrscheinlichkeits- und Dichtefunktion Wahrscheinlichkeitsfunktion einer diskreten Zufallsgröße Dichtefunktion einer

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

Aufgabe 1 10 ECTS. y i x j gering mittel hoch n i Hausrat 200 25 0 225 KFZ 0 10 75 85 Unfall 20 35 90 145 Reiserücktritt 40 5 0 45 n j 260 75 165 500

Aufgabe 1 10 ECTS. y i x j gering mittel hoch n i Hausrat 200 25 0 225 KFZ 0 10 75 85 Unfall 20 35 90 145 Reiserücktritt 40 5 0 45 n j 260 75 165 500 Aufgabe 1 Für die Securance-Versicherung liegen Ihnen die gemeinsamen absoluten Häugkeiten der Merkmale X: Schadenshöhe und Y : Versicherungsart für die letzten 500 gemeldeten Schäden vor. 1. Interpretieren

Mehr

Physica-Lehrbuch. Ein anwendungsorientiertes Lehr- und Arbeitsbuch. von Christine Duller

Physica-Lehrbuch. Ein anwendungsorientiertes Lehr- und Arbeitsbuch. von Christine Duller Physica-Lehrbuch Einführung in die Statistik mit EXCEL und SPSS Ein anwendungsorientiertes Lehr- und Arbeitsbuch von Christine Duller Neuausgabe Einführung in die Statistik mit EXCEL und SPSS Duller schnell

Mehr

Datenanalyse mit Excel. Wintersemester 2013/14

Datenanalyse mit Excel. Wintersemester 2013/14 Datenanalyse mit Excel 1 KORRELATIONRECHNUNG 2 Korrelationsrechnung Ziel der Korrelationsrechnung besteht im bivariaten Fall darin, die Stärke des Zusammenhangs zwischen zwei interessierenden statistischen

Mehr

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8 . Aufgabe: Für zwei verschiedene Aktien wurde der relative Kurszuwachs (in % beobachtet. Aus den jeweils 20 Quartaldaten ergaben sich die folgenden Box-Plots. Box-and-Whisker Plot Aktie Aktie 2-0,2 0,8,8

Mehr

Bundesliga-Spielplan für den VfB Stuttgart (fett) p pdf-datei by http://vfb-fansite.npage.de/ Erster Spieltag (15. bis 16. August)

Bundesliga-Spielplan für den VfB Stuttgart (fett) p pdf-datei by http://vfb-fansite.npage.de/ Erster Spieltag (15. bis 16. August) Bundesliga-Spielplan für den VfB Stuttgart (fett) p pdf-datei by http://vfb-fansite.npage.de/ Erster Spieltag (15. bis 16. August) Bayern München - Hamburger SV (Freitag, 20.30 Uhr) Schalke 04 - Hannover

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Statistische Thermodynamik I Lösungen zur Serie 1

Statistische Thermodynamik I Lösungen zur Serie 1 Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen

Mehr

Teil II: Einführung in die Statistik

Teil II: Einführung in die Statistik Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu

Mehr

Formelsammlung und Glossar zum Kurs Statistik (Kurs 33209) mit Konzeptpapier Stand: 18. März 2011

Formelsammlung und Glossar zum Kurs Statistik (Kurs 33209) mit Konzeptpapier Stand: 18. März 2011 Formelsammlung und Glossar zum Kurs Statistik (Kurs 33209) mit Konzeptpapier Stand: 18. März 2011 S. 34 35: Anmerkungen und Ergänzungen für Studierende im BSc Psychologie c 2011 FernUniversität in Hagen,

Mehr

Faustformeln / Zusammenhänge a) Binomialverteilung als Poissonverteilung:

Faustformeln / Zusammenhänge a) Binomialverteilung als Poissonverteilung: Faustformeln / Zusammenhänge a) Binomialverteilung als Poissonverteilung: k ( np) np B( n, p; k) Poi( np, k) e k! falls gilt: p

Mehr

Statistik I für Betriebswirte Vorlesung 5

Statistik I für Betriebswirte Vorlesung 5 Statistik I für Betriebswirte Vorlesung 5 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 07. Mai 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 5 1 Klassische Wahrscheinlichkeitsdefinition

Mehr

13.5 Der zentrale Grenzwertsatz

13.5 Der zentrale Grenzwertsatz 13.5 Der zentrale Grenzwertsatz Satz 56 (Der Zentrale Grenzwertsatz Es seien X 1,...,X n (n N unabhängige, identisch verteilte zufällige Variablen mit µ := EX i ; σ 2 := VarX i. Wir definieren für alle

Mehr

Übungen zur Mathematik für Pharmazeuten

Übungen zur Mathematik für Pharmazeuten Blatt 1 Aufgabe 1. Wir betrachten den Ereignisraum Ω = {(i,j) 1 i,j 6} zum Zufallsexperiment des zweimaligem Würfelns. Sei A Ω das Ereignis Pasch, und B Ω das Ereignis, daß der erste Wurf eine gerade Augenzahl

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/31 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

P( X µ c) Var(X) c 2. mit. In der Übung wurde eine alternative, äquivalente Formulierung verwendet: P( X µ < c) 1 Var(X)

P( X µ c) Var(X) c 2. mit. In der Übung wurde eine alternative, äquivalente Formulierung verwendet: P( X µ < c) 1 Var(X) Ich habe eine Frage zur Tschebyschew Ungleichung. In der Aufgabe 4 des Übungsblattes 3 benötigt man ja die Ungleichung. In diesem Falle war der Bereich (0, 20) symmetrisch um den Erwartungswert µ = 5.

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik [descriptive statistics] Ziel der deskriptiven (beschreibenden) Statistik einschließlich der explorativen Datenanalyse [exploratory data analysis] ist zunächst die übersichtliche

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/35 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

$ % + 0 sonst. " p für X =1 $

$ % + 0 sonst.  p für X =1 $ 31 617 Spezielle Verteilungen 6171 Bernoulli Verteilung Wir beschreiben zunächst drei diskrete Verteilungen und beginnen mit einem Zufallsexperiment, indem wir uns für das Eintreffen eines bestimmten Ereignisses

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Einführung in statistische Testmethoden

Einführung in statistische Testmethoden Einführung in statistische Testmethoden und die Bearbeitung von Messdaten mit Excel 1. Beispielhafte Einführung in den Gebrauch von Testmethoden 2. Typen von Messwerten, Verteilungen 3. Mittelwert, Varianz,

Mehr

, dt. $+ f(x) = , - + < x < +, " > 0. " 2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) =

, dt. $+ f(x) = , - + < x < +,  > 0.  2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) = 38 6..7.4 Normalverteilung Die Gauß-Verteilung oder Normal-Verteilung ist eine stetige Verteilung, d.h. ihre Zufallsvariablen können beliebige reelle Zahlenwerte annehmen. Wir definieren sie durch die

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Ein möglicher Unterrichtsgang

Ein möglicher Unterrichtsgang Ein möglicher Unterrichtsgang. Wiederholung: Bernoulli Experiment und Binomialverteilung Da der sichere Umgang mit der Binomialverteilung, auch der Umgang mit dem GTR und den Diagrammen, eine notwendige

Mehr

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen 4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Einfache statistische Auswertungen mit dem TI-Nspire

Einfache statistische Auswertungen mit dem TI-Nspire 1. Neues Dokument und darin eine neue Seite anlegen Als Typ 6: Lists & Spreadsheet wählen. Darin die Messwerte in einer Spalte erfassen. Dies ergibt die Urliste. Wenn mehrere Messwerte vorliegen, die diejenigen,

Mehr

9. StatistischeTests. 9.1 Konzeption

9. StatistischeTests. 9.1 Konzeption 9. StatistischeTests 9.1 Konzeption Statistische Tests dienen zur Überprüfung von Hypothesen über einen Parameter der Grundgesamtheit (bei einem Ein-Stichproben-Test) oder über die Verteilung einer Zufallsvariablen

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum)

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum) Skriptum zur Veranstaltung Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik 1. Version (mehr Draft als Skriptum) Anmerkungen, Aufzeigen von Tippfehlern und konstruktive Kritik erwünscht!!!

Mehr

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses.

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses. XI. Binomialverteilung ================================================================== 11.1 Definitionen -----------------------------------------------------------------------------------------------------------------

Mehr

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.1 Schätzer für Lage- und Skalenparameter und Verteilungsmodellwahl Lageparameter (l(x + a) = l(x) + a): Erwartungswert EX Median von X

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Beispiele zur UE Wirtschaftsstatistik 1 bei Nagel

Beispiele zur UE Wirtschaftsstatistik 1 bei Nagel Beispiele zur UE Wirtschaftsstatistik 1 bei Nagel 1 Ereignisse und Wahrscheinlichkeiten 1. Ein Würfel wird zweimal geworfen, der Stichprobenraum Ω ist Ihnen nicht neu. Versuchen Sie, den Stichprobenraum

Mehr

q = 1 p = 0.8 0.2 k 0.8 10 k k = 0, 1,..., 10 1 1 0.8 2 + 10 0.2 0.8 + 10 9 1 2 0.22 1 = 0.8 8 [0.64 + 1.6 + 1.8] = 0.678

q = 1 p = 0.8 0.2 k 0.8 10 k k = 0, 1,..., 10 1 1 0.8 2 + 10 0.2 0.8 + 10 9 1 2 0.22 1 = 0.8 8 [0.64 + 1.6 + 1.8] = 0.678 Lösungsvorschläge zu Blatt 8 X binomialverteilt mit p = 0. und n = 10: a PX = = 10 q = 1 p = 0.8 0. 0.8 10 = 0, 1,..., 10 PX = PX = 0 + PX = 1 + PX = 10 10 = 0. 0 0.8 10 + 0. 1 0.8 9 + 0 1 10 = 0.8 8 [

Mehr

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests Beispiel: Sonntagsfrage Vier Wochen vor der österreichischen Nationalratswahl 1999 wurde 499 Haushalten die Sonntagsfrage gestellt: Falls nächsten Sonntag Wahlen wären, welche Partei würden Sie wählen?

Mehr

Prüfung zu Modul 26 (BA Bw) bzw. 10 (BA IB) (Wirtschaftsstatistik)

Prüfung zu Modul 26 (BA Bw) bzw. 10 (BA IB) (Wirtschaftsstatistik) 2 3 Klausur-Nr = Sitzplatz-Nr Prüfung zu Modul 26 (BA Bw) bzw. 10 (BA IB) (Wirtschaftsstatistik) Klausurteil 1: Beschreibende Statistik BeStat-1 (7 ) n = 400 Personen wurden gefragt, wie viele Stück eines

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007 Wirtschaftswissenschaftliches Prüfungsamt DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 006/07 8.0.007 Lösung Prof. Dr. R Friedmann / Dr. R. Hauser Hinweise für die Klausurteilnehmer

Mehr

Prüfung zu Modul 26 (BA Bw) bzw. 10 (BA IB) (Wirtschaftsstatistik)

Prüfung zu Modul 26 (BA Bw) bzw. 10 (BA IB) (Wirtschaftsstatistik) 2 Klausur-Nr = Sitzplatz-Nr Prüfung zu Modul 26 (BA Bw) bzw. 10 (BA IB) (Wirtschaftsstatistik) Klausurteil 1: Beschreibende Statistik Name, Vorname:... verteilung Teil 1: Beschreibende Statistik Aufgaben

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE Statistik mit Excel für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE INHALTS- VERZEICHNIS Vorwort 13 Schreiben Sie uns! 15 1 Statistische Untersuchungen 17 Wozu Statistik? 18

Mehr

Statistik am PC. Lösungen mit Excel. Bearbeitet von Michael Monka, Werner Voß, Nadine M. Schöneck

Statistik am PC. Lösungen mit Excel. Bearbeitet von Michael Monka, Werner Voß, Nadine M. Schöneck Statistik am PC Lösungen mit Excel Bearbeitet von Michael Monka, Werner Voß, Nadine M. Schöneck 5., aktualisierte und erweiterte Auflage 2008. Buch. XVI, 528 S. Hardcover ISBN 978 3 446 41555 3 Format

Mehr

1. Spieltag. 2. Spieltag. 3. Spieltag. 4. Spieltag

1. Spieltag. 2. Spieltag. 3. Spieltag. 4. Spieltag 1. Spieltag 07.08.2009 20:30 VfL Wolfsburg VfB Stuttgart 2 0 08.08.2009 15:30 Borussia Dortmund 1. FC Köln 1 0 08.08.2009 15:30 1. FC Nürnberg Schalke 04 1 2 09.08.2009 15:30 SC Freiburg Hamburger SV 1

Mehr

i x k k=1 i u i x i v i 1 0,2 24 24 0,08 2 0,4 30 54 0,18 3 0,6 54 108 0,36 4 0,8 72 180 0,60 5 1,0 120 300 1,00 2,22 G = 1 + 1 n 2 n i=1

i x k k=1 i u i x i v i 1 0,2 24 24 0,08 2 0,4 30 54 0,18 3 0,6 54 108 0,36 4 0,8 72 180 0,60 5 1,0 120 300 1,00 2,22 G = 1 + 1 n 2 n i=1 1. Aufgabe: Der E-Commerce-Umsatz (in Millionen Euro) der fünf größten Online- Shopping-Clubs liegt wie folgt vor: Club Nr. Umsatz 1 120 2 72 3 54 4 30 5 24 a) Bestimmen Sie den Ginikoeffizienten. b) Zeichnen

Mehr

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.) ue biostatistik: nichtparametrische testverfahren / ergänzung 1/6 h. Lettner / physik Statistische Testverfahren Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Mehr

Grundlagen der Inferenzstatistik

Grundlagen der Inferenzstatistik Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,

Mehr

Einführung in die statistische Datenanalyse I

Einführung in die statistische Datenanalyse I Einführung in die statistische Datenanalyse I Inhaltsverzeichnis 1. EINFÜHRUNG IN THEORIEGELEITETES WISSENSCHAFTLICHES ARBEITEN 2 2. KRITIERIEN ZUR AUSWAHL STATISTISCH METHODISCHER VERFAHREN 2 3. UNIVARIATE

Mehr

Datenaufbereitung, Grafische Datenanalyse

Datenaufbereitung, Grafische Datenanalyse Datenaufbereitung, Grafische Datenanalyse R-Übung 2 Statistik III für Nebenfachstudierende LMU WS 2013/14 David Rügamer 6. & 13. November 2013 Nach einer Vorlage von Toni Hilger (WS 11/12) und Arne Kaldhusdal

Mehr

Prüfen von Mittelwertsunterschieden: t-test

Prüfen von Mittelwertsunterschieden: t-test Prüfen von Mittelwertsunterschieden: t-test Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) t-test

Mehr

Einführung in die Geostatistik (2) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.

Einführung in die Geostatistik (2) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam. Einführung in die Geostatistik () Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.de Gliederung Allgemeine Statistik. Deskriptive Statistik. Wahrscheinlichkeitstheorie.3

Mehr

Kapitel VI - Lage- und Streuungsparameter

Kapitel VI - Lage- und Streuungsparameter Universität Karlsruhe (TH) Institut für Statistik und Mathematische Wirtschaftstheorie Wahrscheinlichkeitstheorie Kapitel VI - Lage- und Streuungsparameter Markus Höchstötter Lehrstuhl für Statistik, Ökonometrie

Mehr

Wörterbuch Statistik. Für Statistiker und solche, die es werden wollen oder müssen. die wichtigsten Begriffe mit Formeln

Wörterbuch Statistik. Für Statistiker und solche, die es werden wollen oder müssen. die wichtigsten Begriffe mit Formeln Für Statistiker und solche, die es werden wollen oder müssen Prof. Dr. Bianca Krol Prof. Dr. Karsten Lübke Wörterbuch Statistik die wichtigsten Begriffe mit Formeln Liebe Studierende, Anfang Mai 2011 hat

Mehr

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Melanie Kaspar, Prof. Dr. B. Grabowski 1 7. Hypothesentests Ausgangssituation: Man muss sich zwischen 2 Möglichkeiten (=Hypothesen) entscheiden. Diese Entscheidung soll mit Hilfe von Beobachtungen ( Stichprobe ) getroffen werden. Die Hypothesen

Mehr

Studiendesign/ Evaluierungsdesign

Studiendesign/ Evaluierungsdesign Jennifer Ziegert Studiendesign/ Evaluierungsdesign Praxisprojekt: Nutzerorientierte Evaluierung von Visualisierungen in Daffodil mittels Eyetracker Warum Studien /Evaluierungsdesign Das Design einer Untersuchung

Mehr

RUPRECHTS-KARLS-UNIVERSITÄT HEIDELBERG

RUPRECHTS-KARLS-UNIVERSITÄT HEIDELBERG Die Poisson-Verteilung Jianmin Lu RUPRECHTS-KARLS-UNIVERSITÄT HEIDELBERG Ausarbeitung zum Vortrag im Seminar Stochastik (Wintersemester 2008/09, Leitung PD Dr. Gudrun Thäter) Zusammenfassung: In der Wahrscheinlichkeitstheorie

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

4. Erstellen von Klassen

4. Erstellen von Klassen Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

1 Verteilungen und ihre Darstellung

1 Verteilungen und ihre Darstellung GKC Statistische Grundlagen für die Korpuslinguistik Kapitel 2: Univariate Deskription von Daten 8.11.2004 Univariate (= eindimensionale) Daten bestehen aus Beobachtungen eines einzelnen Merkmals. 1 Verteilungen

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Grundlagen der Datenanalyse am Beispiel von SPSS

Grundlagen der Datenanalyse am Beispiel von SPSS Grundlagen der Datenanalyse am Beispiel von SPSS Einführung Dipl. - Psych. Fabian Hölzenbein hoelzenbein@psychologie.uni-freiburg.de Einführung Organisatorisches Was ist Empirie? Was ist Statistik? Dateneingabe

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Nichtparametrische statistische Verfahren

Nichtparametrische statistische Verfahren Nichtparametrische statistische Verfahren (im Wesentlichen Analyse von Abhängigkeiten) Kategorien von nichtparametrischen Methoden Beispiel für Rangsummentests: Wilcoxon-Test / U-Test Varianzanalysen 1-faktorielle

Mehr

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE. Markt+Technik

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE. Markt+Technik Statistik mit Excel für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE Markt+Technik Vorwort Schreiben Sie uns! 13 15 Statistische Untersuchungen 17 Wozu Statistik? 18 Wirtschaftliche

Mehr

Grundlagen der Wirtschaftsmathematik

Grundlagen der Wirtschaftsmathematik Prof. Dr. Jochen Schwarze Überarbeitung: Prof. Dr. Hermann Singer Dipl.-Stat. Anja Bittner Grundlagen der Wirtschaftsmathematik und Statistik Teil Statistik, Glossar Das Werk ist urheberrechtlich geschützt.

Mehr

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3 I Einführung in STATISTICA 1 1 Erste Schritte in STATISTICA 3 2 Datenhaltung in STATISTICA 11 2.1 Die unterschiedlichen Dateitypen in STATISTICA....... 11 2.2 Import von Daten......... 12 2.3 Export von

Mehr