Statistik Workshop. 12. und 14. Januar Prof. Dr. Stefan Etschberger. Outline

Größe: px
Ab Seite anzeigen:

Download "Statistik Workshop. 12. und 14. Januar 2015. Prof. Dr. Stefan Etschberger. Outline"

Transkript

1 Workshop Mini-Einführung und Auffrischung zu einigen Teilen der angewandten. und 4. Prof. Dr. Stefan Etschberger Outline : Einführung Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio Deskriptive 3 Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen 4 Induktive 5 Datenanalyse Einleitung Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse Datenanalyse: Prozess Material. Deskriptive 4. Induktive

2 Material zur Vorlesung Kursmaterial: Handout der Folien Literatur: Alle Folien inklusive Anmerkungen (am Abend) Beispieldaten Alle Auswertungen als R-Datei Material. Deskriptive 4. Induktive Bamberg, Günter, Franz Baur und Michael Krapp (0).. 6. Aufl. München: Oldenbourg Verlag. ISBN: Dalgaard, Peter (00). Introductory Statistics with R. New York: Springer. Fahrmeir, Ludwig, Rita Künstler, Iris Pigeot und Gerhard Tutz (009). : Der Weg zur Datenanalyse. 7. Aufl. Berlin, Heidelberg: Springer. ISBN: Dalgaard (00)Fahrmeir u. a. (009) Bamberg u. a. (0) 3 Datenbasis Fragebogen Umfrage Sommersemester 04 Bitte beantworten Sie folgende Fragen vollständig und füllen Sie jeweils nur eine beliebige Spalte leserlich aus. Ihr Alter (in Jahren) Ihre Größe (in cm) Ihr Geschlecht (m/w) Wie alt ist (bzw. wäre) Ihr Vater heute? Wie alt ist (bzw. wäre) Ihre Mutter heute? Größe Ihres Vaters (cm) Größe Ihrer Mutter (cm) Wie viele Geschwister haben Sie? Wunschfarbe für Ihr nächstes Smartphone; mögliche Auswahl: (si)lber, (sc)hwarz, (w)eiß, (g)elb, (b)lau, (r)ot Ausgaben für Ihre mobile Kommunikation (egal wer bezahlt hat) in den vergangenen Monaten inkl. Hardware (Smartphone, Zubehör), Software (Apps), Vertrag Wie viele Paar Schuhe besitzen Sie? Ausgaben für Ihre Schuhe (egal wer bezahlt hat) in den letzten Monaten Ihre Note in der Matheklausur Waren Sie mir Ihrer Leistung in Mathe zufrieden? Antworten: (s)ehr zufrieden, (z)ufrieden, (g)eht so, (n)icht zufrieden

3 : Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung : Einführung Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio Bedeutungen des Begriffs Statistische Methoden Zusammenstellung von Zahlen Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive W-theorie Deskriptive Induktive 9

4 Einfaches Beispiel Beispiel Beschäftigte werden nach der Entfernung zum Arbeitsplatz (in km) befragt. Antworten: 4,,, 3, 5, 4, 0, 4, 6, 6, 0, 6 deskriptiv: Durchschnittliche Entfernung: 7,5 Klassenbildung: Klasse [0; 5) [5; 5) [5; 30) Häufigkeit 5 5 Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive induktiv: Schätze die mittlere Entfernung aller Beschäftigten. Prüfe, ob die mittlere Entfernung geringer als 0 km ist. 0 Merkmale Merkmalsträger: Untersuchte statistische Einheit Merkmal: Interessierende Eigenschaft des Merkmalträgers (Merkmals-)Ausprägung: Konkret beobachteter Wert des Merkmals Grundgesamtheit: Menge aller relevanten Merkmalsträger Typen von Merkmalen: a) qualitativ quantitativ qualitativ: z.b. Geschlecht quantitativ: z.b. Schuhgröße Qualitative Merkmale sind quantifizierbar (z.b.: weiblich, männlich 0) b) diskret stetig diskret: Abzählbar viele unterschiedliche Ausprägungen stetig: Alle Zwischenwerte realisierbar Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive

5 Skalenniveaus Nominalskala: Zahlen haben nur Bezeichnungsfunktion z.b. Artikelnummern Ordinalskala: zusätzlich Rangbildung möglich z.b. Schulnoten Differenzen sind aber nicht interpretierbar! Addition usw. ist unzulässig. Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive Kardinalskala: zusätzlich Differenzbildung sinnvoll z.b. Gewinn Noch feinere Unterscheidung in: Absolutskala, Verhältnisskala, Intervallskala Skalendegression und Skalenprogression Ziel der Skalierung: Gegebene Information angemessen abbilden, möglichst ohne Über- bzw. Unterschätzungen Es gilt: Grundsätzlich können alle Merkmale nominal skaliert werden. Grundsätzlich kann jedes metrische Merkmal ordinal skaliert werden. Das nennt man Skalendegression. Dabei: Informationsverlust Aber: Nominale Merkmale dürfen nicht ordinal- oder metrisch skaliert werden. Ordinale Merkmale dürfen nicht metrisch skaliert werden. Das nennt nennt man Skalenprogression. Dabei: Interpretation von mehr Informationen in die Merkmale, als inhaltlich vertretbar. (Gefahr der Fehlinterpretation) Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 3

6 Etschberger Was ist R und warum soll man es benutzen? R ist ein freies Softwarepaket zu und Datenanalyse Fehler durch R ist sehr mächtig und weit verbreitet in Wissenschaft und Industrie (sogar von mehr Leuten benutzt als z.b. SPSS) Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio Ursprung von R: 993 an der Universität Auckland von Ross Ihaka and Robert Gentleman entwickelt. Deskriptive 4. Induktive Seitdem: Viele Leute haben R verbessert mit tausenden von Paketen für viele Anwendungen Nachteil (auf den ersten Blick): Kein point und click tool source: Großer Vorteil (auf den zweiten Blick): Kein point und click tool graphics source: 4 Whas ist RStudio? RStudio ist ein Integrated Development Environment (IDE) um R leichter benutzen zu können. Gibt s für OSX, Linux und Windows Ist auch frei Etschberger Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive Trotzdem: Sie müssen Kommandos schreiben Aber: RStudio unterstützt Sie dabei Download: RStudio.com 5

7 Erste Schritte RStudio Kennenlernen Code Console Workspace History Files Plots Packages Help Auto- Completion Data Import Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 6 Daten einlesen und Struktur anschauen # Arbeitsverzeichnis setzen (alternativ über Menü) setwd("c:/ste/work/vorlesungen/04ws_doktorandenworkshop/05_0 Workshop") # Daten einlesen aus einer csv-datei (Excel) MyData = read.csv(file="../daten/umfrage_hsa_04_03.csv", header=true) # inspect structure of data str(mydata) ## 'data.frame': 05 obs. of 0 variables: ## $ Alter : int ## $ Geschlecht : Factor w/ levels "Frau","Mann":... ## $ AlterV : int ## $ AlterM : int ## $ Geschwister: int ## $ Farbe : Factor w/ 6 levels "blau","gelb",..: ## $ AusgSchuhe : int ## $ AnzSchuhe : int ## $ AusgKomm : num ## $ MatheZufr : Ord.factor w/ 4 levels "nicht"<"geht so"<..: Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 7

8 Erste Zeilen der Datentabelle # Erste Zeilen in Datentabelle head(mydata, 6) ## Alter Geschlecht AlterV AlterM Geschwister Farbe AusgSchuhe AnzSchuhe AusgKomm MatheZufr ## Frau 54 5 weiss nicht ## 0 Frau weiss sehr ## 3 9 Frau schwarz sehr ## 4 0 Frau schwarz sehr ## 5 0 Frau weiss sehr ## 6 4 Mann 54 5 schwarz geht so # lege MyData als den "Standard"-Datensatz fest attach(mydata) Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive # Wie Viele Objekte gibt's im Datensatz? nrow(mydata) ## [] 05 # Wie Viele Merkmale? ncol(mydata) ## [] 0 8 Daten kennenlernen # Auswahl spezieller Objekte und Merkmale über [Zeile, Spalte] MyData[:3, :5] ## Geschlecht AlterV AlterM Geschwister ## Frau 54 5 ## Frau ## 3 Frau # Auswahl von Objekten über logische Ausdrücke head(geschlecht=="frau" & Alter<9, 30) ## [] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE ## [7] FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE # Einsetzen in Klammern und Ausgabe von Alter des Studenten, seines Vaters und seiner Mutter MyData[Geschlecht=="Frau" & Alter<9, # Objektauswahl c("alter", "AlterM", "AlterV") # Welche Merkmale anzeigen? ] Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive ## Alter AlterM AlterV ## ## ## ## ## ## ## ## ##

9 Daten kennenlernen # Zeige die Männer, die mehr als 000 Euro für Schuhe # und Mobilfunk zusammen ausgegeben haben MyData[Geschlecht=="Mann" & AusgSchuhe + AusgKomm > 000, c("alter", "Geschwister", "Farbe", "AusgSchuhe", "AusgKomm")] ## Alter Geschwister Farbe AusgSchuhe AusgKomm ## 0 weiss ## 5 0 rot ## 6 0 schwarz ## 40 0 silber ## 87 0 blau ## schwarz ## 46 4 schwarz ## 77 9 schwarz ## 78 3 schwarz ## schwarz Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 0 : Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung Deskriptive

10 Häufigkeitsverteilungen Auswertungsmethoden für eindimensionales Datenmaterial Merkmal X wird an n Merkmalsträgern beobachtet Urliste (x,..., x n ) Im Beispiel: x = 4, x =,..., x = 6 Urlisten sind oft unübersichtlich, z.b.:. Deskriptive ## [] ## [49] 7 5 Dann zweckmäßig: Häufigkeitsverteilungen 4. Induktive Ausprägung (sortiert) a j absolute Häufigkeit h(a j ) = h j kumulierte abs. H. H(a j ) = j h(a i ) relative Häufigkeit f(a j ) = h(a j )/n j kumulierte rel. H. F(a j ) = f(a i ) Graphische Darstellungen ➊ Balkendiagramm table(x) ## x ## ## barplot(table(x), col="azure") (Höhe proportional zu Häufigkeit) ➋ Kreissektorendiagramm Winkel: w j = 360 f(a j ) pie(table(x)) z.b. w = = 7, w 7 = = 57,6 5 (Fläche proportional zu Häufigkeit) Deskriptive 4. Induktive 4

11 Graphische Darstellungen ➌ Histogramm für klassierte Daten Fläche proportional zu Häufigkeit: Höhe j Breite j = c h(a j ) Höhe j = c h(a j) Breite j Im Beispiel mit c = : Klasse [0; 5) [5; 5) [5; 30] h(a j ) 5 5 Breite j Höhe j 4 90 histdata <- c(0,,,3,4, 5,6,7,0,4, 5,30) truehist(histdata, breaks=c(0, 4.999, 4.999, 30), col="azure", ylab='') histdata. Deskriptive 4. Induktive 7 Lageparameter Modus x Mod : häufigster Wert Beispiel: a j 4 h(a j ) 4 3 Sinnvoll bei allen Skalenniveaus. Median x Med : mittlerer Wert, d.h. } x Mod =. Urliste aufsteigend sortieren: x x x n. Dann. Deskriptive 4. Induktive { = x n+, falls n ungerade x Med [x n ; x n +], falls n gerade (meist x Med = (x n + x n +)) Im Beispiel oben:,,,,,,, 4 x Med [; ], z.b. x Med =,5 Sinnvoll ab ordinalem Skalenniveau. 3

12 Lageparameter () Arithmetisches Mittel x: Durchschnitt, d.h. Im Beispiel: x = n n x i = n x = 8 ( } {{ } 4 k a j h(a j ) j= } {{ } 3 Sinnvoll nur bei kardinalem Skalenniveau. Bei klassierten Daten: + 4 }{{} 4 ) =,75. Deskriptive 4. Induktive Im Beispiel: x = n Klassenmitte Klassenhäufigkeit x = (, ,5 ) = 8,96 7,5 = x 3 Streuungsparameter Voraussetzung: kardinale Werte x,..., x n Beispiel: a) x i b) x i Spannweite: SP = max Im Beispiel: i x i min i x i } je x = 000 a) SP = = 00 b) SP = = Deskriptive 4. Induktive Mittlere quadratische Abweichung: s = n n (x i x) = n x i x n } {{ } Verschiebungssatz 34

13 Streuungsparameter () Mittlere quadratische Abweichung im Beispiel: a) s = 3 ( ) = 3 ( ) 000 = 666,67 b) s = 3 ( ) = 3 ( ) 000 = Standardabweichung: s = s Im Beispiel: a) s = 666,67 = 40,8 b) s = = 88,43. Deskriptive 4. Induktive Variationskoeffizient: V = Im Beispiel: a) V = 40,8 000 = 0,0 ( = %) b) V = 88, =,4 ( = 4 %) s x (maßstabsunabhängig) 35 als Grafik: Boxplot Graphische Darstellung von Box: Oberer/Unterer Rand: 3. bzw.. Quartil, Linie in Mitte: Median Whiskers: Länge: Max./Min Wert, aber beschränkt durch das,5-fache des Quartilsabstands (falls größter/kleinster Wert größeren/kleineren Abstand von Box: Länge Whiskers durch größten/kleinsten Wert innerhalb dieser Schranken) Ausreißer: Alle Objekte außerhalb der Whisker-Grenzen boxplot(anzschuhe ~ Geschlecht, col=c("mistyrose", "lightblue"), data=mydata, main="") Frau Mann Wieviel Paar Schuhe besitzen Sie?. Deskriptive 4. Induktive 37

14 Dateninspektion: Überblick über alle Variablen summary(mydata) ## Alter Geschlecht AlterV AlterM Geschwister Farbe ## Min. :8.00 Frau:34 Min. :38.00 Min. :37.0 Min. :0.000 blau : ## st Qu.:0.00 Mann: 7 st Qu.:50.00 st Qu.:48.0 st Qu.:.000 gelb : 4 ## Median :.00 Median :54.00 Median :5.0 Median :.000 rot :3 ## Mean :. Mean :53.95 Mean :5.5 Mean :.473 schwarz:97 ## 3rd Qu.:3.00 3rd Qu.: rd Qu.:54.0 3rd Qu.:.000 silber :7 ## Max. :36.00 Max. :77.00 Max. :68.0 Max. :9.000 weiss :63 ## AusgSchuhe AnzSchuhe AusgKomm MatheZufr ## Min. : 0.0 Min. :.00 Min. : 30.0 nicht :68 ## st Qu.: 50.0 st Qu.:0.00 st Qu.: 50.0 geht so :47 ## Median : 50.0 Median :0.00 Median : zufrieden:43 ## Mean : 96.6 Mean :.58 Mean : 49.4 sehr :6 ## 3rd Qu.: rd Qu.: rd Qu.: NA's : ## Max. :000.0 Max. :80.00 Max. : Deskriptive 4. Induktive 38 Dateninspektion Boxplots for(attribute in c("alter", "AlterV", "AlterM", "Geschwister", "AusgSchuhe", "AusgKomm")) { data=mydata[, attribute] boxplot(data, # all rows, column of attribute col="lightblue", # fill color lwd=3, # line width cex=, # character size oma=c(,,,) ) text(0.7,max(data), attribute, srt=90, adj=) }. Deskriptive Alter AlterV AlterM Geschwister AusgSchuhe AusgKomm 4. Induktive 39

15 smaße Gegeben: kardinale Werte 0 x x x n Achtung! Die Werte müssen aufsteigend sortiert werden! Lorenzkurve: Wieviel Prozent der Merkmalssumme entfällt auf die x Prozent kleinsten Merkmalsträger? Beispiel: Die 90 % ärmsten besitzen 0 % des Gesamtvermögens. Streckenzug: (0,0), (u, v ),..., (u n, v n ) = (,) mit. Deskriptive 4. Induktive v k = Anteil der k kleinsten MM-Träger an der MM-Summe = k x i n x i u k = Anteil der k kleinsten an der Gesamtzahl der MM-Träger = k n 40 Lorenzkurve: Beispiel Markt mit fünf Unternehmen; Umsätze: 6, 3,,, 3 (Mio. ) 5 n = 5, x k = 5 k= v k. Deskriptive k x k p k 5 v k 5 u k u k 4. Induktive 4

16 Lorenzkurve Knickstellen: Bei i-tem Merkmalsträger x i+ > x i Empirische Verteilungsfunktion liefert Knickstellen: a j 3 6 h(a j ) f(a j ) 5 F(a j ) 5 Vergleich von Lorenzkurven: Deskriptive 4. Induktive Gleichverteilung extreme stärker konzentriert als schwer vergleichbar 4 Lorenzkurve: Beispiel Bevölkerungsanteil gegen BSP Bangladesch Brasilien Deutschland Ungarn USA,0 0,8. Deskriptive (Stand 000) Anteil am BSP 0,6 0,4 4. Induktive 0, 0, 0,4 0,6 0,8 Anteil der Bevölkerung,0 43

17 Gini-Koeffizient Numerisches Maß der : Gini-Koeffizient G G = Aus den Daten: G = Fläche zwischen 45 -Linie und L Fläche unter 45 -Linie n i x i (n + ) n x i n n = x i n i p i (n + ) n = wobei p i = x i n x i. Deskriptive 4. Induktive Problem: G max = n n Normierter Gini-Koeffizient: G = n n G [0; ] 44 Gini-Koeffizient: Beispiel Beispiel: i 3 4 x i 5 0 p i Deskriptive G = ( ) (4 + ) 4 = 0,55 4. Induktive Mit G max = 4 4 = 0,75 folgt G = 4 4 0,55 = 0,7 45

18 smaße: Beispiel Armutsbericht der Bundesregierung 008 Verteilung der Bruttoeinkommen in Preisen von 000 aus unselbständiger Arbeit der Arbeitnehmer/-innen insgesamt Anteil am Einkommen,0 0,8 0,6 0,4 0,. Deskriptive 0, 0,4 0,6 0,8,0 Anteil der Bevölkerung 4. Induktive Arithmetisches Mittel Median Gini-Koeffizient 0,433 0,44 0,448 0, Lorenzkurve mit R require(ineq) # inequality Paket Lorenz = Lc(AusgSchuhe) plot(lorenz, xlab="", ylab="", main="") # Standard plot plot(c(0,), c(0,), type="n", # bisschen netter panel.first=grid(lwd=.5, col=rgb(0,0,0,/)), xlab="", main="", ylab="") polygon(lorenz$p, Lorenz$L, density=-, col=rgb(0,0,,/4), lwd=) Deskriptive 4. Induktive Gini(AusgSchuhe) # Gini-Koeffizient ## []

19 Weitere smaße skoeffizient: n CR g = Anteil, der auf die g größten entfällt = p i = v n g i=n g+ Herfindahl-Index: H = n p i ( [ n ; ]) Es gilt: H = n (V + ) bzw. V = n H Exponentialindex: E = n p p i i ( [ n ; ] ) wobei 0 0 =. Deskriptive 4. Induktive Im Beispiel mit x = (,,, 5): CR = 7 0 = 0,85 ( ) ( ) 5 H = + + = 0, ( ) ( ) E = = 0, Auswertungsmethoden für zweidimensionale Daten Zweidimensionale Urliste Urliste vom Umfang n zu zwei Merkmalen X und Y: (x, y ), (x, y ),..., (x n, y n ) Kontingenztabelle: Sinnvoll bei wenigen Ausprägungen bzw. bei klassierten Daten. Ausprägungen von Y Ausprägungen von X b b... b l. Deskriptive 4. Induktive a h h... h l a h h... h l.... a k h k h k... h kl 49

20 Kontingenztabelle Unterscheide: Gemeinsame : h ij = h(a i, b j ) Randhäufigkeiten: l h i = h ij und h j = j= Bedingte (relative) : k h ij. Deskriptive 4. Induktive f (a i b j ) = h ij h i h j und f (b j a i ) = h ij 50 Beispiel: 400 unfallbeteiligte Autoinsassen: leicht verletzt schwer verletzt tot (= b ) (= b ) (= b 3 ) angegurtet (= a ) (= h ) (= h ) (= h 3 ) (= h ) nicht angegurtet (= a ) (= h ) (= h ) (= h 3 ) (= h ) (= h ) (= h ) (= h 3 ) (= n). Deskriptive 4. Induktive f (b 3 a ) = 4 40 = 0, f (a b 3 ) = 4 0 = 0,4 (0 % der nicht angegurteten starben.) (40 % der Todesopfer waren nicht angegurtet.) 5

21 Streuungsdiagramm Streuungsdiagramm sinnvoll bei vielen verschiedenen Ausprägungen (z.b. stetige Merkmale) Alle (x i, y i ) sowie ( x, ȳ) in Koordinatensystem eintragen. Beispiel: i x i y i y 3 x = 5 5 = 5 ȳ = 8 5 = 5,6 x x y. Deskriptive 4. Induktive 5 Beispiel Streuungsdiagramm. Deskriptive 4. Induktive (Datenquelle: Fahrmeir u. a. (009)) 53

22 Beispiel Streuungsdiagramm mieten <- read.table('../../_data/mietenmuenchen.csv', header=true, sep='\t', check.names=true, fill=true, na.strings=c('','')) x <- cbind(nettomieten=mieten$nm, Wohnflaeche=mieten$wfl) library("geneplotter") ## from BioConductor smoothscatter(x, nrpoints=inf, colramp=colorramppalette(brewer.pal(9,"ylorrd")), bandwidth=c(30,3)) Wohnflaeche Deskriptive 4. Induktive Nettomieten 54 Beispiel Streuungsdiagramm x = cbind("age of father"=alterv, "Age of mother"=alterm) require("geneplotter") ## from BioConductor smoothscatter(x, colramp=colorramppalette(brewer.pal(9,"ylorrd")) ) Age of mother Deskriptive 4. Induktive Age of father 55

23 Visualisiere Paare require(ggally) ggpairs(mydata[, -c(5, 6, 0)], colour='geschlecht', alpha=0.4) 35 Cor : 0.4 Cor : Cor : Cor : 0.05 Cor : Alter Frau: Mann: Frau: Mann: 0.33 Frau: Mann: 0.9 Frau: Mann: Frau: 0.08 Mann: Frau. Deskriptive Geschlecht Mann AlterV Cor : 0.73 Frau: 0.79 Mann: AlterM Cor : Frau: Mann: 0.4 Cor : Frau: 0.06 Mann: Cor : Frau: Mann: Cor : Frau: 0.06 Mann: Cor : 0.08 Frau: 0.08 Mann: Cor : Frau: Mann: Induktive AusgSchuhe Cor : Frau: 0.37 Cor : 0.9 Frau: Mann: AnzSchuhe Mann: Cor : 0.05 Frau: Mann: AusgKomm Bagplot: Boxplot in Dimensionen require(aplpack) bagplot(alterv, AlterM, xlab="alter des Vaters", ylab="alter der Mutter") Alter der Mutter Deskriptive 4. Induktive Alter des Vaters 57

24 Bubbleplot: 3 metrische Variablen require(desctools) PlotBubble(AlterM, AlterV, AusgSchuhe/400, col=setalpha("deeppink4",0.3), border=setalpha("darkblue",0.3), xlab="alter der Mutter", ylab="alter des Vaters", panel.first=grid(), main=""). Deskriptive Alter des Vaters Induktive Alter der Mutter Größe der Blasen: Ausgaben für Schuhe 58 srechnung Frage: Wie stark ist der Zusammenhang zwischen X und Y? Dazu: skoeffizienten Verschiedene Varianten: Wahl abhängig vom Skalenniveau von X und Y:. Deskriptive Skalierung von Y Skalierung von X kardinal ordinal nominal kardinal 4. Induktive ordinal Bravais-Pearson- skoeffizient Rangkorrelationskoeffizient von Spearman nominal Kontingenzkoeffizient 59

25 skoeffizient von Bravais und Pearson Bravais-Pearson-skoeffizient Voraussetzung: X, Y kardinalskaliert n (x i x)(y i ȳ) n x i y i n xȳ r = = [ ; +] n (x i x) n n n (y i ȳ) x i n x y i nȳ Deskriptive 4. Induktive Bravais-Pearson-skoeffizient Im Beispiel: i x i y i x i y i x i y i x = 5/5 = 5 ȳ = 8/5 = 5,6. Deskriptive 4. Induktive r = , ,6 = 0,703 (deutliche positive ) 6

26 Rangkorrelationskoeffizient von Spearman Voraussetzungen: X, Y (mindestens) ordinalskaliert, Ränge eindeutig (keine Doppelbelegung von Rängen) Vorgehensweise: ➀ Rangnummern R i (X) bzw. R i (Y) mit R ( ) i Wert usw. ➁ Berechne r SP = 6 n (R i R i) (n ) n (n + ) = bei größtem [ ; +]. Deskriptive 4. Induktive Hinweise: r SP = + wird erreicht bei R i = R i r SP = wird erreicht bei R i = n + R i i =,..., n i =,..., n 6 Rangkorrelationskoeffizient von Spearman Im Beispiel: x i R i y i R i Deskriptive 4. Induktive r SP = 6 [(5 4) + (3 5) + (4 3) + ( ) + ( ) ] (5 ) 5 (5 + ) = 0,6 63

27 Kontingenzkoeffizient Gegeben: Kontingenztabelle mit k Zeilen und l Spalten (vgl. hier) Vorgehensweise: ➀ Ergänze Randhäufigkeiten h i = l h ij und h j = j= ➁ Berechne theoretische ➂ Berechne χ = h ij = h i h j n k l j= (h ij h ij ) h ij k h ij χ hängt von n ab! (h ij h ij χ χ ). Deskriptive 4. Induktive 64 Kontingenzkoeffizient ➃ Kontingenzkoeffizient: wobei K max = χ K = n + χ [0; K max ] M M ➄ Normierter Kontingenzkoeffizient: mit M = min{k, l}. Deskriptive 4. Induktive K = K K max [0; ] K = + bei Kenntnis von x i kann y i erschlossen werden u.u. 65

28 Kontingenzkoeffizient Beispiel X : Staatsangehörigkeit (d,a) Y : Geschlecht (m,w) wobei h = h ij m w h i h ij m w d d 4 36 a a 6 4 h j = 4 usw.. Deskriptive 4. Induktive χ = (30 4) + (30 36) + (0 6) + (30 4) = 6, K = 6,5 00+6,5 = 0,45; M = min{,} = ; K max = K = 0,45 0,707 = 0,3430 = 0, Graphische Repräsentation von Kontingenztabellen Beispiel Autounfälle Verletzung leicht schwer tödlich angegurtet nicht angegurtet Sicherheit Gurt leicht schwer tödlich < 4 4: :0 0: :4 >4. Deskriptive 4. Induktive Kein Standardized Residuals: Verletzungen Mosaikplot Autounfälle 67

29 Ausgangsdaten Bundesliga 008/009 Gegeben: Daten zu den 8 Vereinen der ersten Bundesliga in der Saison 008/09 Merkmale: Vereinssetat für Saison (nur direkte Gehälter und Spielergehälter) und Ergebnispunkte in Tabelle am Ende der Saison Etat Punkte FC Bayern VfL Wolfsburg SV Werder Bremen FC Schalke VfB Stuttgart Hamburger SV 35 6 Bayer 04 Leverkusen Bor. Dortmund 3 59 Hertha BSC Berlin FC Köln 8 39 Bor. Mönchengladbach 7 3 TSG Hoffenheim 6 55 Eintracht Frankfurt 5 33 Hannover Energie Cottbus 3 30 VfL Bochum 7 3 Karlsruher SC 7 9 Arminia Bielefeld 5 8 (Quelle: Welt). Deskriptive 4. Induktive 7 Darstellung der Daten in Streuplot Bundesliga 008/09 Punkte VfB Stuttgart Hertha BSC Berlin Hamburger SV Bor. Dortmund TSG Hoffenheim Hannover 96. FC Köln Eintracht Frankfurt VfL Bochum Bor. Mönchengladbach Energie Cottbus Karlsruher SC Arminia Bielefeld FC Schalke 04 Bayer 04 Leverkusen SV Werder Bremen VfL Wolfsburg FC Bayern. Deskriptive 4. Induktive Etat [Mio. Euro] 7

30 Trend als lineares Modell Kann man die Tabellenpunkte näherungsweise über einfache Funktion in Abhängigkeit des Vereinsetats darstellen? Allgemein: Darstellung einer Variablen Y als Funktion von X: Dabei: y = f(x) X heißt Regressor bzw. unabhängige Variable Y heißt Regressand bzw. abhängige Variable Wichtiger (und einfachster) Spezialfall: f beschreibt einen linearen Trend:. Deskriptive 4. Induktive y = a + b x Dabei anhand der Daten zu schätzen: a (Achsenabschnitt) und b (Steigung) Schätzung von a und b: 73 Fehlerquadratsumme Pro Datenpunkt gilt mit Regressionsmodell: y i = a + bx i + ɛ i Dabei: ɛ i ist jeweils Fehler (der Grundgesamtheit), mit e i = y i (â + ˆbx i ): Abweichung (Residuen) zwischen gegebenen Daten der Stichprobe und durch Modell geschätzten Werten Modell gut wenn alle Residuen e i zusammen möglichst klein Einfache Summe aber nicht möglich, denn e i positiv oder negativ. Deskriptive 4. Induktive Deswegen: Summe der Quadrate von e i Prinzip der kleinsten Quadrate: Wähle a und b so, dass Q(a, b) = n [y i (a + bx i )] min 74

31 Beste Lösung Beste und eindeutige Lösung: ˆb = = n (x i x)(y i ȳ) n (x i x) n x i y i n xȳ n x i n x â = ȳ ˆb x. Deskriptive 4. Induktive Regressionsgerade: ŷ = â + ˆb x 75 Bundesligabeispiel Berechnung eines linearen Modells der Bundesligadaten dabei: Punkte ˆ= y und Etat ˆ= x: x 33,83 y 46,89 x i 509 xi y i 3474 n ,83 46,89 ˆb = ,83 0,634 â = 46,89 ˆb 33,83 5,443 Modell: ŷ = 5, ,634 x Punkte Einkommen Prognosewert für Etat = 30: ŷ(30) = 5, , ,463. Deskriptive 4. Induktive 76

32 Varianz und Information Varianz der Daten in abhängiger Variablen y i als Repräsentant des Informationsgehalts Ein Bruchteil davon kann in Modellwerten ŷ i abgebildet werden Deskriptive 4. Induktive 0 0 points model Empirische Varianz (mittlere quadratische Abweichung) für rot bzw. grün ergibt jeweils 8 8 (y i y) 00,77 bzw. 8 8 (ŷ i y) 0,78 77 Determinationskoeffizient Gütemaß für die Regression: Determinationskoeffizient (Bestimmtheitskoeffizient): R = n (ŷ i ȳ) = n (y i ȳ) n ŷ i nȳ = r n [0; ] y i nȳ Mögliche Interpretation von R : Durch die Regression erklärter Anteil der Varianz R = 0 wird erreicht wenn X, Y unkorreliert R = wird erreicht wenn ŷ i = y i i (alle Punkte auf Regressionsgerade) Im (Bundesliga-)Beispiel:. Deskriptive 4. Induktive R = 8 (ŷ i y) 8 (y i y) 0,78 00,77 5,9 % 78

33 Regression: 4 eindimensionale Beispiele Berühmte Daten aus den 970er Jahren: i x i x i x 3i x 4i y i y i y 3i y 4i ,04 9,4 7,46 6, ,95 8,4 6,77 5, ,58 8,74,74 7, ,8 8,77 7, 8, ,33 9,6 7,8 8, ,96 8,0 8,84 7, ,4 6,3 6,08 5, ,6 3,0 5,39, ,84 9,3 8,5 5, ,8 7,6 6,4 7, ,68 4,74 5,73 6,89. Deskriptive 4. Induktive (Quelle: Anscombe (973)) 79 Beispieldaten meineregression = lm(alterm ~ AlterV) meineregression plot(alterv, AlterM, xlab="alter des Vaters", ylab="alter der Mutter") abline(meineregression) Alter der Mutter ## ## Call: ## lm(formula = AlterM ~ AlterV) ## ## Coefficients: ## (Intercept) AlterV ## Deskriptive 4. Induktive Alter des Vaters 8

34 Cook s Distanz PLUS Oft Kritisch: Einzelne Punkte, die Modell stark beeinflussen Idee: Was würde sich ändern, wenn solche Punkte weggelassen würden? Cook-Distanz: Misst den Effekt eines gelöschten Objekts Formel für ein lineares Modell mit einem unabh. Merkmal: D i = n (ŷ j ŷ j(ohne i) ) j= MSE. Deskriptive 4. Induktive Dabei bedeutet: ŷ j : Prognosewert des kompletten Modells für das j-te Objekt ŷ j(ohne i) : Prognosewert des Modells ohne Objekt i für das j-te Objekt MSE = n (ŷ i y i ) : Normierender Term (Schätzwert für Fehlerstreuung) 83 Ausreißer? PLUS Anscombe-Daten: Regressionsmodell Nr. 3 Darstellung der Cook-Distanz neben Punkten Faustformel: Werte über sollten genau untersucht werden.39. Deskriptive y Induktive x3 84

35 Residualanalyse Oft aufschlussreich: Verteilung der Residuen e i Verbreitet: Graphische Darstellungen der Residuen Z.B.: e i über ŷ i y Residuals Deskriptive x Fitted values Residuals vs Fitted 4. Induktive y Residuals x Fitted values 85 Residualanalyse Wichtige Eigenschaften der Residuenverteilung Möglichst keine systematischen Muster Alter der Mutter Keine Änderung der Varianz in Abhängigkeit von ŷ i (Homoskedastizität) Nötig für inferentielle Analysen: Näherungsweise Normalverteilung der Residuen (q-q-plots) Residuals Deskriptive 4. Induktive Alter des Vaters Fitted values 86

36 Kausalität versus Exkurs: Kausalität vs. Meist wichtig für sinnvolle Regressionsanalysen: Kausale Verbindung zwischen unabhängigem und abhängigem Merkmal Sonst bei Änderung der unabhängigen Variablen keine sinnvollen Prognosen möglich Oft: Latente Variablen im Hintergrund. Deskriptive 4. Induktive 87 : Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung 3 Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen

37 : Anzahl von Kombinationen bei Auswahl -mal Würfeln, das heißt Auswahl von k = aus n = 6 Zahlen. mit WH, mit RF: alle Möglichkeiten, 6 = 36 ohne WH, mit RF: Diagonale entfällt, 6! 36 6 = 30 = 6 5 = (6 )! (,) (,) (,3) (,4) (,5) (,6) (,) (,) (,3) (,4) (,5) (,6) (3,) (3,) (3,3) (3,4) (3,5) (3,6) (4,) (4,) (4,3) (4,4) (4,5) (4,6) (5,) (5,) (5,3) (5,4) (5,5) (5,6) (6,) (6,) (6,3) (6,4) (6,5) (6,6) ohne WH, ohne RF: Hälfte des letzten Ergebnisses: 30 6! = 5 = 4!! = ( 6) mit WH, ohne RF: Letztes Ergebnis plus Diagonale, = = ( 7). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Auswahl von k aus n Dingen mit Reihenfolge ohne Reihenfolge mit Wiederholung ohne Wiederholung n k n! (n k)! ( ) ( ) n + k n k k 89 Zufallsvorgänge, Ereignisse und Wahrscheinlichkeiten Zufallsvorgang: Geschehen mit ungewissem Ausgang, z.b. Münzwurf Elementarereignis ω: Ein möglicher Ausgang, z.b. Kopf Elementarereignisse schließen sich gegenseitig aus ( Kopf oder Zahl )! Ergebnismenge Ω: Menge aller ω Beispiel: Werfen zweier Würfel: (,) (,) (,6) (,) (,) (,6) Ω : (6,) (6,) (6,6). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Ω = {(x, x ) : x, x {,...,6}} 90

38 Ereignisse und Wahrscheinlichkeiten Ereignis A: Folgeerscheinung eines Elementarereignisses Formal: A Ω Ereignisse schließen sich nicht gegenseitig aus! Beispiel: Werfen zweier Würfel: Ereignis verbal formal A Augensumme = 4 {(,3), (,), (3,)} B Erste Zahl = {(,), (,),..., (,6)}. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Wahrscheinlichkeit P(A): Chance für das Eintreten von A Laplace-Wahrscheinlichkeit: P(A) = A Ω = Anzahl der für A günstigen Fälle Anzahl aller möglichen Fälle 9 Laplace Wahrscheinlichkeit und Urnenmodell Beispiel: Werfen zweier Würfel: Augensumme = 4 : A = {(,3), (,), (3,)} Ω = 36, A = 3 P(A) = 3 36 = = 0,083 Urnenmodell: Ziehe n Objekte aus einer Menge mit N Objekten Anzahl Möglichkeiten: mit Zurücklegen: N n ohne Zurücklegen: N (N ) (N (n )) = N! (N n)!. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Beispiel: Wie groß ist die Wahrscheinlichkeit, aus einem gut gemischten 3-er Kartenblatt bei viermaligem Ziehen vier Asse zu bekommen? a) Ziehen mit Zurücklegen, b) Ziehen ohne Zurücklegen 9

39 Rechenregeln für Wahrscheinlichkeiten Wichtige Rechenregeln:. P(A). P( ) = 0 3. A B P(A) P(B) 4. P(Ā) = P(A) 5. P(A B) = P(A) + P(B) P(A B) A A B B C. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Beispiel: P( Augenzahl 5 ) = P( Augenzahl = 6 ) = 6 = Beispiel Gegenereignis Der Fall Sally Clark Sally Clarks Söhne Christopher und Harry sterben 996 und 997 beide kurz nach der Geburt an plötzlichem Kindstod. Kinderarzt: Wahrscheinlich Mord, da maliger plötzlicher Kindstod sehr unwahrscheinlich! (ohne konkrete Hinweise) Gerichtliche Untersuchung Hauptargument der Anklage gestützt durch Gerichtsgutachter Sir Roy Meadow (renommierter Facharzt für Kinderheilkunde): Wahrscheinlichkeit für plötzlichen Kindstod ist :8500, d.h. Wahrscheinlichkeit für maliges Auftreten in einer Familie ( ) p = : Urteil: Doppelmord; Strafe: mal lebenslang; Inhaftierung von Sally Clark 999. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 94

40 Bedingte Wahrscheinlichkeiten Wahrscheinlichkeit von A hängt von anderem Ereignis B ab. (B kann zeitlich vor A liegen, muss aber nicht!) Beispiel: Wahrscheinlichkeit für note hängt von Mathenote ab. Formal: Im Venndiagramm: P(A B) = P(A B) P(B). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive B A Ω 96 Unabhängigkeit von Ereignissen A, B unabhängig: Eintreten von A liefert keine Information über P(B). Formal: P(A B) = P(A) Bei Unabhängigkeit ist äquivalent dazu: Dann gilt: P(A B) = P(A) P(B) P(A B) = P(A) + P(B) P(A) P(B) Beispiel: Werfen zweier Würfel: } A : " erster Würfel gleich 6" B : " zweiter Würfel gleich 6" P(A B) = = P(A B) P(B) 36 6 = P(A) = 6. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 97

41 Zufallsvariablen Zufallsvariablen und Verteilungen Beschreibung von Ereignissen durch reelle Zahlen Formal: Zufallsvariable ist Abbildung von Ereignisraum in reelle Zahlen: X : Ω R Nach Durchführung des Zufallsvorgangs: Realisation: x = X(ω). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Vor Durchführung des Zufallsvorgangs: Wertebereich: X(Ω) = {x : x = X(ω), ω Ω} Beispiel: Würfeln, X: Augenzahl, X(Ω) = {,,...,6}, x = 4 (z.b.) P(X = 4) = 6, P(X 3) = 3 6 = 98 Verteilungsfunktion Zuweisung von Wahrscheinlichkeiten zu Realisationen Formal: F(x) = P(X x) Eigenschaften der Verteilungsfunktion: F(x) [0; ] Definitionsbereich: R mit F( ) = 0, F( ) = monoton wachsend, d.h. x < x F(x ) F(x ) Es gilt: P(a < X b) = F(b) F(a). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive F(x) 0, x Beispiel einer Verteilungsfunktion 99

42 Diskrete Zufallsvariablen X heißt diskret, wenn X(Ω) = {x, x,... } endlich ist. Wahrscheinlichkeitsfunktion dann: f(x) = P(X = x) Beispiel: Münze mal werfen; X: Anzahl " Kopf" (Z, Z) (Z, K), (K, Z) (K, K) x i 0 f(x i ) 4 4 0, falls x < 0 4 F(x) =, falls 0 x < 3 4, falls x <, falls x. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 0,5 f(x) 0,75 F(x) 0, ,5 0, Binomialverteilung Wiederholter Zufallsvorgang n Durchführungen (jeweils unabhängig) Pro Durchführung: A oder Zurücklegen) Schreibe: X i = Ā mit P(A) = p ( = Ziehen mit {, falls A bei i-ter Durchführung eintritt 0, falls Ā bei i-ter Durchführung eintritt. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Dann gibt X = an, wie oft A eintritt. n X i Gesucht: Wahrscheinlichkeitsfunktion von X 0

43 Binomialverteilung Herleitung: ) P(X i = ) = P(A) = p, P(X i = 0) = P(Ā) = p n ) x i = x entspricht " x mal Ereignis A und n x mal Ā" Wahrscheinlichkeit (bei Unabhängigkeit): p x ( p) n x ( n 3) Aber: Reihenfolge irrelevant! Anzahl Anordnungen: x) Wahrscheinlichkeitsfunktion der Binomialverteilung: ( n p f(x) = x) x ( p) n x, falls x {0,,..., n} 0, sonst. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Kurzschreibweise: X B(n; p) X ist binomialverteilt mit Parametern n und p Tabellen zeigen meist F(x) für f(x) gilt: f(x) = F(x) F(x ) 0 X B(n, 0.5), Tabelle der Binomialverteilung F(x) = P(X x) x\n x\n Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 03

44 Binomialverteilung: Beispiel Beispiel Aus einem 3-er Kartenblatt wird 3-mal eine Karte mit Zurücklegen gezogen. Wie wahrscheinlich ist es, -mal Herz zu ziehen? X i = X = n {, falls i-te Karte Herz 0, sonst X i B(; 8 3 ) X i = X + X + X 3 X B(3; 4 ). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Mithilfe der Wahrscheinlichkeitsfunktion: ( 3 P(X = ) = f() = 0,5 ) 0,75 = 0,406 Mithilfe der Tabelle (n = 3): P(X = ) = F() F() = 0,9844 0,8438 = 0, Binomialverteilung: Wahrscheinlichkeitsfunktion X B(3, 4 ) Binomial Vtlg. mit n=3 p=0.5. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive p x 05

45 Binomialverteilung: Wahrscheinlichkeitsfunktion Binomial Vtlg. mit n=0 p=0.5 Binomial Vtlg. mit n=00 p= p p Deskriptive x x Zufallsvariablen und Verteilungen 4. Induktive Binomial Vtlg. mit n=30 p=0.5 Binomial Vtlg. mit n=500 p= p p x x 06 Hypergeometrische Verteilung n-faches Ziehen ohne Zurücklegen aus N Objekten, davon M markiert. X = Anzahl gezogener Objekte mit Markierung heißt hypergeometrisch verteilt mit den Parametern N, M, n. Kurzschreibweise: X Hyp(N; M; n) Wahrscheinlichkeitsfunktion: ( )( ) M N M x n x (, falls x möglich f(x) = N n) 0, sonst. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Ist n N 0, so gilt: Hyp(N; M; n) B(n; M N ) 07

46 Beispiel: Hypergeometrische Verteilung Aus einem 3-Kartenblatt wird 3-mal eine Karte ohne Zurücklegen gezogen. Wie wahrscheinlich ist es, -mal " Herz" zu ziehen? D.h.: N = 3, M = 8, n = 3, x =. ( ) ( ) ( ) ( ) P(X = ) = f() = ( ) = ( ) = = 9! 8! 3! 4 3! 6!! = 0,355 8!! 6! 4 3! 3! 9! = = = 55. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Dabei wurde verwendet: ( n n! = und k) k!(n k)! ( n ) = n. 08 Hypergeometrische Verteilung Beispiel: x Treffer im Lotto 6 aus 49 X Hyp(49, 6, 6) x P(X = x) (in %) Wahrscheinlichkeit Deskriptive Zufallsvariablen und Verteilungen 4. Induktive x 09

47 Poisson-Verteilung Approximation für B(n; p) und Hyp(N; M; n) Geeignet, wenn p klein ( 0,), n groß ( 50) und np 0. Verteilung der seltenen Ereignisse (z.b. Anzahl 6-er pro Lottoausspielung) X ist poissonverteilt mit Parameter λ: X P(λ) Wahrscheinlichkeitsfunktion: λ x f(x) = x! e λ, falls x = 0,,,... 0, sonst. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive F(x) in Tabelle Überblick: Approximation Hyp(N; M; n) p = M N B(n; p) λ = np = n M N P(λ) 0 Poissonverteilung: X P(λ), Tabelle der Verteilungsfunktionen x\λ Deskriptive Zufallsvariablen und Verteilungen 4. Induktive x\λ

48 Poisson-Verteilung: Beispiel Beispiel X B(0 000; 0,0003); In Tabelle der Binomialverteilung nicht vertafelt! Approximation: p = 0,0003 < 0, n = > 50 B(0 000; 0,0003) P(3) np = 3 < 0 Mithilfe der Wahrscheinlichkeitsfunktion:. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive P(X = 5) = 35 5! e 3 = 0,00888 Mithilfe der Tabelle der Poissonverteilung: P(X = 5) = F(5) F(4) = 0,96 0,853 = 0,008 Exakter Wert: P(X = 5) = 0,00839 Poisson- versus Binomialverteilung: Vergleich 0.4 n=5 p= n=0 p=0.4 p Verteilung Binomial Poisson p Verteilung Binomial Poisson. Deskriptive x x Zufallsvariablen und Verteilungen 4. Induktive 0.0 n=00 p= n=000 p= p 0.0 Verteilung Binomial Poisson p 0.0 Verteilung Binomial Poisson x x 3

49 Stetige Zufallsvariablen X heißt stetig, wenn F(x) stetig ist. 3 f(t) F(x) = x f(t)dt Dann existiert ein f(t) mit: F(x) = x f(t) dt f(x) heißt Dichtefunktion von X. Dann: P(a < X < b) = P(a X < b) = P(a < X b) = P(a X b) x 3 t f(x) x x. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive = b a f(x) dx = F(b) F(a) a b x 4 Dichtefunktion Eigenschaften der Dichtefunktion f(x) 0 für alle x R Wegen F( ) = muss stets gelten: f(x) dx = P(X = x) = 0 für alle x R f(x) > ist möglich für x R ist F(x) differenzierbar F (x) = f(x). Intervallgrenzen spielen keine Rolle:. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive P(X [a; b]) = P(X (a; b]) = P(X [a; b)) = P(X (a; b)) = F(b) F(a) 5

50 Dichtefunktion: Beispiel Beispiel Verteilungsfunktion: x 0 f(x) = f(t) dt = F(x) = 0, falls x < 0, falls 0 x 0 0, falls x > 0 0 x 0 [ ] x t 0 dt = 0 0 0, falls x < 0, falls 0 x 0, falls x > 0 x 0 = x 0. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 6 Gleichverteilung Eine Zufallsvariable X mit f(x) = b a, falls a x b 0, sonst heißt gleichverteilt im Intervall [a; b]. f(x). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive b a a b x 7

51 Gleichverteilung Verteilungsfunktion der Gleichverteilung: F(x) = 0, falls x < a x a b a, falls a x b, falls x > b. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Beispiel: X gleichverteilt in [; 0] P( X ) = F() F() = 0 0 = 0 = 0 9 = 0,563 8 Normalverteilung Eine Zufallsvariable X mit einer Dichtefunktion f(x) = (x µ) σ π e σ. Deskriptive und σ > 0 heißt normalverteilt. f(x) N(; 3 ) Zufallsvariablen und Verteilungen 4. Induktive 0,5 N(0; ) N(; ) N(; ) x Kurzschreibweise: X N(µ; σ) 9

52 Normalverteilung: Gaußkurve Normalverteilung C.F. Gauß. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 0 Verteilungsfunktion Φ der Standardnormalverteilung Dabei bedeutet Φ(x) zum Beispiel: Φ(,3) = Φ(, + 0,03) = 0,9834. Diesen Wert findet man in der Zeile mit x =, und der Spalte mit x = 0,03. x \x Deskriptive Zufallsvariablen und Verteilungen 4. Induktive

53 Eigenschaften der Normalverteilung Dichte ist symmetrisch zu µ: f(µ x) = f(µ + x) µ ist Lage-, σ ist Streuungsparameter Standardnormalverteilung: N(0; ) mit Verteilungsfunktion Φ(x) ( Tabelle 3) Kenntnis von Φ(x), µ und σ genügt, denn: X N(µ; σ) X µ σ N(0; ) ( ) x µ F(x) = Φ σ. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Tabelle enthält nur positive x: Deswegen Φ( x) = Φ(x) Normalverteilung: Beispiel Beispiel: Projektdauer X N(39; ). Wahrscheinlichkeit für Projektdauer zwischen 37 und 4 Wochen? Lösung: P(37 X 4) = F(4) F(37) = Φ ( ) ( 4 39 Φ ) = Φ() Φ( ) = Φ() [ Φ()] = Φ() = 0,843 = 0,686. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 3

54 Lageparameter a) Modus x Mod : f(x Mod ) f(x) für alle x (i.a. nicht eindeutig, z.b. Gleichverteilung) Beispiele: Normalverteilung: x Mod = µ Diskrete Verteilung mit: x 0 f(x) 4 4 } x Mod =. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive b) Median x Med : F(x Med ) = bzw. kleinstes x mit F(x) > Beispiele: Normalverteilung: x Med = µ Diskrete Verteilung oben: F(0) = 4 <, F() = 3 4 > x Med = 4 Lageparameter: Fraktile c) α-fraktil x α : F(x α ) = α (für stetige Verteilungen) Beispiel: X N(0; ), Y N(3; ) Hinweise: x 0,975 =,96 (Tab. 3) x 0,05 = x 0,975 =,96 y 0,05 = x 0,05 +3 = 0,9. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive x Med = x 0,5 Wenn x α nicht vertafelt Interpolation: x α x a + (x b x a ) α a b a mit a : größte vertafelte Zahl < α b : kleinste vertafelte Zahl > α Beispiel: X N(0; ); x 0,6 0,5 + (0,6 0,5) 0,533 0,6 0,5987 0,606 0,5987 = 5

55 Lageparameter: Erwartungswert d) Erwartungswert E(X) bzw. µ: x i f(x i ), i E(X) = xf(x) dx, falls X diskret falls X stetig. Deskriptive Zufallsvariablen und Verteilungen Beispiel: Diskrete Verteilung mit x 0 f(x) 4 4 E(X) = = Beispiel: Für eine exponentialverteilte Zufallsvariable X mit der Dichte { λ e λx für x 0 f(x) = folgt 0 sonst [ E(X) = x f(x)dx = λ x e λx dx = λ 0 λ xe λx 0 = xe λx λ e λx = 0 0 ( 0 ) = λ λ ( λ ) ] e λx dx 4. Induktive 6 Rechenregeln für den Erwartungswert Ist f symmetrisch bzgl. a, so gilt E(X) = a Beispiel: f der Gleichverteilung symmetrisch a+b bzgl. E(X) = a+b Lineare Transformation: Summenbildung: E(a + bx) = a + b E(X). Deskriptive Zufallsvariablen und Verteilungen ( n ) E X i = n E(X i ) 4. Induktive Beispiel: X gleichverteilt in [0; 0], Y N(; ); Z = X + 5Y E(Z) = E(X+5Y) = E(X)+E(5Y) = E(X)+5 E(Y) = = 0 Unabhängigkeit: X, Y unabhängig E(X Y) = E(X) E(Y) 7

56 Streuungsparameter Varianz Var(X) bzw. σ : [x i E(X)] f(x i ), wenn X diskret Var(X) = E([X E(X)] i ) = [x E(X)] f(x) dx, wenn X stetig Standardabweichung Sta(X) bzw. σ: Beispiel: Diskrete Verteilung x 0 f(x) 4 4 : Sta(X) = Var(X). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Var(X) = (0 ) 4 + ( ) + ( ) 4 = Beispiel: Für eine exponentialverteilte Zufallsvariable X (Dichte siehe Erwartungswert) folgt Var(X) = (x E(X))f(x)dx = λ 0 ( x λ ) e λx dx ( = e λx x + x λ ( ) ) λ λ x λ + λ 0 ( = 0 0 ( ) ) λ = λ 8 Rechenregeln für die Varianz Verschiebungssatz: Var(X) = E(X ) [E(X)] Beispiel: Diskrete Verteilung x 0 f(x) 4 E(X ) = = 3 E(X ) [E(X)] = 3 = = Var(X) 4 :. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Lineare Transformation: Var(a + bx) = b Var(X) Summenbildung gilt nur, wenn die X i unabhängig! Dann: ( n ) Var X i = n Var(X i ) 9

57 Erwartungswerte und Varianzen wichtiger Verteilungen Verteilung von X E(X) Var(X) Binomialverteilung B(n; p) np np( p) Hypergeometrische Verteilung mit den Parametern N, M, n n M N Poisson-Verteilung P(λ) λ λ Gleichverteilung in [a; b] mit a < b a + b n M N N M N (b a) N n N. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Normalverteilung N(µ; σ) µ σ 30 Anwendung: Ungleichung von Tschebyschow Für beliebige Zufallsvariablen X und ε > 0 gilt die Ungleichung von Tschebyschow: Beispiele: P ( X E[X] ε ) Var[X] ε X ist gleichverteilt mit Parametern a, b und ε = (a b), 3 also E[X] = (a + b) und Var[X] = (a b). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive P ( X (a + b) 3 (a b)) (a b) 3 (a b) = 3 /4 X B(00; 0,) und ε = 0 damit: E[X] = 00 0, = 0 und Var[X] = 00 0, ( 0,) = 6 P ( X 0 0 ) 6 0 = 0,6 3

58 Kovarianz und Kovarianz: Cov(X, Y) skoeffizient: ρ(x, Y) = = E[(X E(X))(Y E(Y))] = E(X Y) E(X) E(Y) (Verschiebungssatz) Cov(X, Y) Var(X) Var(Y). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Bemerkungen: ρ ist r nachgebildet ρ [ ; ] ρ = Y = a + bx (mit b 0) ρ = 0 X, Y unkorreliert Varianz einer Summe zweier ZV: Var(X + Y) = Var(X) + Var(Y) + Cov(X, Y) 3 : Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung 4 Induktive

59 der induktiven Beispiel Vollerhebung of unmöglich, Deshalb: Beobachte Teilgesamtheit und schließe auf Grundgesamtheit Warensendung von 000 Stück; darunter M Stück Ausschuss. M ist unbekannt. Zufällige Entnahme von n = 30 Stück ( Stichprobe ). Darunter Stück Ausschuss. Denkbare Zielsetzungen: Schätze M durch eine Zahl (z.b = 66,67) Schätze ein Intervall für M (z.b. M [58; 84]) Teste die Hypothese, dass M > 50 ist.. Deskriptive 4. Induktive 34 Grundbegriffe Grundgesamtheit (G): Menge aller relevanten Merkmalsträger. Verteilung von G: F(x) = P(X x) = Wahrscheinlichkeit, dass ein Merkmalsträger ausgewählt wird, der beim untersuchten Merkmal maximal die Ausprägung x aufweist. Uneingeschränkte (reine) Zufallsauswahl: Jedes Element von G hat die selbe Chance, ausgewählt zu werden. Stichprobenumfang (n): Anzahl der Merkmalsträger in der Stichprobe. Einfache Stichprobe: Uneingeschränkte Zufallsauswahl und unabhängige Ziehung. Alle Stichprobenvariablen X,..., X n sind iid. Stichprobenergebnis: n-tupel der Realisationen der Stichprobenvariablen, (x,..., x n ).. Deskriptive 4. Induktive 35

60 Wichtige Stichprobenfunktionen Gegeben: Einfache Stichprobe X,..., X n, mit E(X i ) = µ, Var(X i ) = σ Beliebige Verteilung, Stichprobenfunktion V Bezeichnung E(V) Var(V) n X i Merkmalssumme nµ nσ X = n n X i Stichprobenmittel µ X µ n Gauß- 0 σ n n n n mittlere quadratische (X i µ) Abweichung bezüglich µ mittlere quadratische (X i X) Abweichung S = n S = S σ n n (X i X) Stichprobenvarianz σ Stichproben- Standardabweichung n σ σ n. Deskriptive 4. Induktive X µ n S t- 36 Auswirkungen der Stichprobengröße Ziehen von Stichproben (jeweils vom Umfang n) und Berechnung der Stichprobenmittel (Verteilung: zwei überlagerte Gleichverteilungen):. Deskriptive 4. Induktive 37

61 Auswirkungen der Stichprobengröße. Deskriptive 4. Induktive 38 Auswirkungen der Stichprobengröße. Deskriptive 4. Induktive 39

62 Testverteilungen Chi-Quadrat-Verteilung Sind X,..., X n iid N(0; )-verteilte Zufallsvariablen, so wird die Verteilung von n Z = als Chi-Quadrat-Verteilung mit n Freiheitsgraden bezeichnet. f(x) X i. Deskriptive 4. Induktive 0, 0, x Kurzschreibweise: Z χ (n) Beispiel: χ (30): x 0,975 = 46,98 40 Quantilstabelle der χ -Verteilung mit n Freiheitsgraden α\n Deskriptive 4. Induktive α\n

63 Testverteilungen: t-verteilung Ist X N(0; ), Z χ (n), X, Z unabhängig, so wird die Verteilung von T = X n Z als t-verteilung mit n Freiheitsgraden bezeichnet. f(x) William Sealy Gosset Deskriptive 4. Induktive 0, 0, x 3 3 Kurzschreibweise: T t(n) Beispiel: t(0) x 0,6 = 0,60, x 0,5 = 0, x 0, = x 0,9 =,37 4 Quantilstabelle der t-verteilung mit n Freiheitsgraden α\n Deskriptive 4. Induktive 43

64 t-verteilung vs. Normalverteilung Dichtefunktion t-verteilung mit (blau), 3 (grün) und 0 (lila) Freiheitsgraden Standardnormalverteilung (rot). Deskriptive 4. Induktive 44 Ein unbekannter Parameter ϑ der Verteilung von G soll auf Basis einer Stichprobe geschätzt werden. Zum Beispiel: σ von N(0; σ) Schätzwert: ˆϑ Vorgehen: Verwendung einer Schätzfunktion ˆΘ = g(x,..., X n ) Beachte: Der Schätzwert ˆϑ ist die Realisierung der ZV (!) ˆΘ. Frage: Welche Stichprobenfunktion ist zur Schätzung geeignet? Kriterien für die Beurteilung/Konstruktion von Schätzfunktionen! Im Folgenden: Vorliegen einer einfachen Stichprobe, d.h. X,..., X n iid.. Deskriptive 4. Induktive 45

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg : Gliederung 1 Einführung 2 Deskriptive Statistik

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Ausgangsdaten Bundesliga 2008/2009 Gegeben: Daten zu den 18 Vereinen der ersten Bundesliga

Mehr

Wirtschaftsmathematik

Wirtschaftsmathematik Einführung in einige Teilbereiche der Wintersemester 206 Prof. Dr. Stefan Etschberger HSA Unabhängigkeit von Ereignissen A, B unabhängig: Eintreten von A liefert keine Information über P(B). Formal: P(A

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management für Betriebswirtschaft und internationales Management Sommersemester 2015 Prof. Dr. Stefan Etschberger Hochschule Augsburg Testverteilungen Chi-Quadrat-Verteilung Sind X 1,..., X n iid N(0; 1)-verteilte

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Streuungsparameter Varianz Var(X) bzw. σ 2 : [x i E(X)] 2 f(x i ), wenn X diskret Var(X)

Mehr

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens in einige Teilbereiche der für Studierende des Wirtschaftsingenieurwesens Sommersemester 2013 Hochschule Augsburg Graphische Repräsentation von Kontingenztabellen Beispiel Autounfälle Verletzung leicht

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2016 Prof. Dr. Stefan Etschberger Hochschule Augsburg Einstichproben-t-Test und approximativer Gaußtest

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management für Betriebswirtschaft und internationales Management Sommersemester 2015 Prof. Dr. Stefan Etschberger Hochschule Augsburg Normalverteilung Eine Zufallsvariable X mit einer Dichtefunktion und σ > 0 heißt

Mehr

Statistik Workshop. 12. und 14. Januar Prof. Dr. Stefan Etschberger HSA

Statistik Workshop. 12. und 14. Januar Prof. Dr. Stefan Etschberger HSA Workshop Mini-Einführung und Auffrischung zu einigen Teilen der angewandten 12. und 14. Prof. Dr. Stefan Etschberger HSA Outline 1 : Einführung Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe

Mehr

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Stefan Etschberger für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2017 Rechenregeln für den Erwartungswert Ist f symmetrisch bzgl. a, so gilt E(X)

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 16 Prof. Dr. Stefan Etschberger Hochschule Augsburg Outline 1 : Einführung Berühmte Leute zur Wie

Mehr

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens in einige Teilbereiche der für Studierende des Wirtschaftsingenieurwesens Sommersemester 2014 Hochschule Augsburg : Gliederung 1 Finanzmathematik 2 Lineare Programme 3 Differentialgleichungen 4 Statistik:

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Kontingenzkoeffizient Beispiel X : Staatsangehörigkeit (d,a) Y : Geschlecht (m,w) wobei

Mehr

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg Lageparameter: Erwartungswert d) Erwartungswert

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management für Betriebswirtschaft und internationales Management Sommersemester 15 Prof. Dr. Stefan Etschberger Hochschule Augsburg Lorenzkurve Knickstellen: Bei i-tem Merkmalsträger x i+1 > x i Empirische Verteilungsfunktion

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA : Table of Contents 1 Statistik: Einführung 2 Deskriptive Statistik 3 Wahrscheinlichkeitstheorie

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Stefan Etschberger für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 207 Streuungsparameter Voraussetzung: kardinale Werte x,..., x n Beispiel: a)

Mehr

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Stefan Etschberger für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 07 Gini-Koeffizient Numerisches Maß der : Gini-Koeffizient G Aus den Daten: G

Mehr

Wirtschaftsmathematik

Wirtschaftsmathematik Einführung in einige Teilbereiche der Wintersemester 2016 Prof. Dr. Stefan Etschberger HSA Lageparameter "Sollen wir das arithmetische Mittel als durchschnittliche Körpergröße nehmen und den Gegner erschrecken,

Mehr

Teil I Beschreibende Statistik 29

Teil I Beschreibende Statistik 29 Vorwort zur 2. Auflage 15 Vorwort 15 Kapitel 0 Einführung 19 0.1 Methoden und Aufgaben der Statistik............................. 20 0.2 Ablauf statistischer Untersuchungen..............................

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2016 Prof. Dr. Stefan Etschberger Hochschule Augsburg Zufallsvariablen Beschreibung von Ereignissen

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management für Betriebswirtschaft und internationales Management Sommersemester 2015 Prof. Dr. Stefan Etschberger Hochschule Augsburg Preismesszahl: Misst Preisveränderung eines einzelnen Gutes: Preis zum Zeitpunkt

Mehr

Statistik II für Betriebswirte Vorlesung 2

Statistik II für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander

Mehr

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Stefan Etschberger für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2017 Normalverteilung Eine Zufallsvariable X mit einer Dichtefunktion f(x) =

Mehr

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Stefan Etschberger für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2017 Beispieldaten meineregression = lm(alterm ~ AlterV) meineregression plot(alterv,

Mehr

Statistische Thermodynamik I Lösungen zur Serie 1

Statistische Thermodynamik I Lösungen zur Serie 1 Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2016 Prof. Dr. Stefan Etschberger Hochschule Augsburg Weitere smaße skoeffizient: CR g = Anteil,

Mehr

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Stefan Etschberger für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2017 Zufallsvorgänge, Ereignisse und Wahrscheinlichkeiten Zufallsvorgang: Geschehen

Mehr

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8 . Aufgabe: Für zwei verschiedene Aktien wurde der relative Kurszuwachs (in % beobachtet. Aus den jeweils 20 Quartaldaten ergaben sich die folgenden Box-Plots. Box-and-Whisker Plot Aktie Aktie 2-0,2 0,8,8

Mehr

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Stefan Etschberger für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2017 Kontingenzkoeffizient Gegeben: Kontingenztabelle mit k Zeilen und l Spalten

Mehr

Statistik I für Betriebswirte Vorlesung 5

Statistik I für Betriebswirte Vorlesung 5 Statistik I für Betriebswirte Vorlesung 5 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 07. Mai 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 5 1 Klassische Wahrscheinlichkeitsdefinition

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2016 Prof. Dr. Stefan Etschberger Hochschule Augsburg Zufallsvorgänge, Ereignisse und Wahrscheinlichkeiten

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen 4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Zufallsvorgänge, Ereignisse und Wahrscheinlichkeiten Zufallsvorgang: Geschehen mit ungewissem

Mehr

q = 1 p = 0.8 0.2 k 0.8 10 k k = 0, 1,..., 10 1 1 0.8 2 + 10 0.2 0.8 + 10 9 1 2 0.22 1 = 0.8 8 [0.64 + 1.6 + 1.8] = 0.678

q = 1 p = 0.8 0.2 k 0.8 10 k k = 0, 1,..., 10 1 1 0.8 2 + 10 0.2 0.8 + 10 9 1 2 0.22 1 = 0.8 8 [0.64 + 1.6 + 1.8] = 0.678 Lösungsvorschläge zu Blatt 8 X binomialverteilt mit p = 0. und n = 10: a PX = = 10 q = 1 p = 0.8 0. 0.8 10 = 0, 1,..., 10 PX = PX = 0 + PX = 1 + PX = 10 10 = 0. 0 0.8 10 + 0. 1 0.8 9 + 0 1 10 = 0.8 8 [

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2016 Prof. Dr. Stefan Etschberger Hochschule Augsburg Graphische Repräsentation von Kontingenztabellen

Mehr

Grundlagen der Inferenzstatistik

Grundlagen der Inferenzstatistik Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2016 Prof. Dr. Stefan Etschberger Hochschule Augsburg Daten einlesen und Struktur anschauen # Arbeitsverzeichnis

Mehr

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg Unabhängigkeit von Ereignissen A, B unabhängig:

Mehr

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 03 Hochschule Augsburg : Gliederung Einführung Deskriptive Statistik 3 Wahrscheinlichkeitstheorie

Mehr

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall Wahrscheinlichkeitstheorie Was will die Sozialwissenschaft damit? Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall Auch im Alltagsleben arbeiten wir mit Wahrscheinlichkeiten, besteigen

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Melanie Kaspar, Prof. Dr. B. Grabowski 1 7. Hypothesentests Ausgangssituation: Man muss sich zwischen 2 Möglichkeiten (=Hypothesen) entscheiden. Diese Entscheidung soll mit Hilfe von Beobachtungen ( Stichprobe ) getroffen werden. Die Hypothesen

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Zufallsgrößen. Vorlesung Statistik für KW 29.04.2008 Helmut Küchenhoff

Zufallsgrößen. Vorlesung Statistik für KW 29.04.2008 Helmut Küchenhoff Zufallsgrößen 2.5 Zufallsgrößen 2.5.1 Verteilungsfunktion einer Zufallsgröße 2.5.2 Wahrscheinlichkeits- und Dichtefunktion Wahrscheinlichkeitsfunktion einer diskreten Zufallsgröße Dichtefunktion einer

Mehr

Ein möglicher Unterrichtsgang

Ein möglicher Unterrichtsgang Ein möglicher Unterrichtsgang. Wiederholung: Bernoulli Experiment und Binomialverteilung Da der sichere Umgang mit der Binomialverteilung, auch der Umgang mit dem GTR und den Diagrammen, eine notwendige

Mehr

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses.

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses. XI. Binomialverteilung ================================================================== 11.1 Definitionen -----------------------------------------------------------------------------------------------------------------

Mehr

Grundlagen der Datenanalyse am Beispiel von SPSS

Grundlagen der Datenanalyse am Beispiel von SPSS Grundlagen der Datenanalyse am Beispiel von SPSS Einführung Dipl. - Psych. Fabian Hölzenbein hoelzenbein@psychologie.uni-freiburg.de Einführung Organisatorisches Was ist Empirie? Was ist Statistik? Dateneingabe

Mehr

i x k k=1 i u i x i v i 1 0,2 24 24 0,08 2 0,4 30 54 0,18 3 0,6 54 108 0,36 4 0,8 72 180 0,60 5 1,0 120 300 1,00 2,22 G = 1 + 1 n 2 n i=1

i x k k=1 i u i x i v i 1 0,2 24 24 0,08 2 0,4 30 54 0,18 3 0,6 54 108 0,36 4 0,8 72 180 0,60 5 1,0 120 300 1,00 2,22 G = 1 + 1 n 2 n i=1 1. Aufgabe: Der E-Commerce-Umsatz (in Millionen Euro) der fünf größten Online- Shopping-Clubs liegt wie folgt vor: Club Nr. Umsatz 1 120 2 72 3 54 4 30 5 24 a) Bestimmen Sie den Ginikoeffizienten. b) Zeichnen

Mehr

4. Erstellen von Klassen

4. Erstellen von Klassen Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl

Mehr

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Aufgabe 1: Grundzüge der Wahrscheinlichkeitsrechnung 19 P. Als Manager eines großen

Mehr

R ist freie Software und kann von der Website. www.r-project.org

R ist freie Software und kann von der Website. www.r-project.org R R ist freie Software und kann von der Website heruntergeladen werden. www.r-project.org Nach dem Herunterladen und der Installation von R kann man R durch Doppelklicken auf das R-Symbol starten. R wird

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!. 040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Klausur Statistik Lösungshinweise

Klausur Statistik Lösungshinweise Klausur Statistik Lösungshinweise Prüfungsdatum: 1. Juli 2015 Prüfer: Etschberger, Heiden, Jansen Studiengang: IM und BW Aufgabe 1 14 Punkte Ein Freund von Ihnen hat über einen Teil seiner Daten, die er

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik: . Einführung und statistische Grundbegriffe Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik: Quantitative Information Graphische oder tabellarische Darstellung von Datenmaterial

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Einfache statistische Auswertungen mit dem TI-Nspire

Einfache statistische Auswertungen mit dem TI-Nspire 1. Neues Dokument und darin eine neue Seite anlegen Als Typ 6: Lists & Spreadsheet wählen. Darin die Messwerte in einer Spalte erfassen. Dies ergibt die Urliste. Wenn mehrere Messwerte vorliegen, die diejenigen,

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg Preisindizes Preismesszahl: Misst Preisveränderung

Mehr

Überblick über die Verfahren für Ordinaldaten

Überblick über die Verfahren für Ordinaldaten Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE Statistik mit Excel für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE INHALTS- VERZEICHNIS Vorwort 13 Schreiben Sie uns! 15 1 Statistische Untersuchungen 17 Wozu Statistik? 18

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management für Betriebswirtschaft und internationales Management Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg Streuungsparameter Etschberger SS Voraussetzung: kardinale Werte x,..., x n Beispiel:

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Korrelation (II) Korrelation und Kausalität

Korrelation (II) Korrelation und Kausalität Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen

Mehr

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE. Markt+Technik

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE. Markt+Technik Statistik mit Excel für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE Markt+Technik Vorwort Schreiben Sie uns! 13 15 Statistische Untersuchungen 17 Wozu Statistik? 18 Wirtschaftliche

Mehr

Einführung in statistische Analysen

Einführung in statistische Analysen Einführung in statistische Analysen Andreas Thams Econ Boot Camp 2008 Wozu braucht man Statistik? Statistik begegnet uns jeden Tag... Weihnachten macht Deutschen Einkaufslaune. Im Advent überkommt die

Mehr

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben

Mehr

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen Universität Karlsruhe (TH) Forschungsuniversität gegründet 825 Wilcoxon-Rangsummentest oder Mann-Whitney U-Test Motivation In Experimenten ist die Datenmenge oft klein Daten sind nicht normalverteilt Dann

Mehr

Überblick über die Tests

Überblick über die Tests Anhang A Überblick über die Tests A.1 Ein-Stichproben-Tests A.1.1 Tests auf Verteilungsannahmen ˆ Shapiro-Wilk-Test Situation: Test auf Normalverteilung H 0 : X N(µ, σ 2 ) H 1 : X nicht normalverteilt

Mehr

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3 Lineare Funktionen Inhaltsverzeichnis 1 Proportionale Funktionen 3 1.1 Definition............................... 3 1.2 Eigenschaften............................. 3 2 Steigungsdreieck 3 3 Lineare Funktionen

Mehr

Einführung in die Statistik mit EXCEL und SPSS

Einführung in die Statistik mit EXCEL und SPSS Christine Duller Einführung in die Statistik mit EXCEL und SPSS Ein anwendungsorientiertes Lehr- und Arbeitsbuch Zweite, überarbeitete Auflage Mit 71 Abbildungen und 26 Tabellen Physica-Verlag Ein Unternehmen

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Statistik I für Betriebswirte Vorlesung 2

Statistik I für Betriebswirte Vorlesung 2 Statistik I für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 16. April 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 2 1 ii) empirische

Mehr

Name:... Matrikel-Nr.:... 3 Aufgabe Handyklingeln in der Vorlesung (9 Punkte) Angenommen, ein Student führt ein Handy mit sich, das mit einer Wahrscheinlichkeit von p während einer Vorlesung zumindest

Mehr

Wirtschaftsmathematik

Wirtschaftsmathematik Einführung in einige Teilbereiche der Wintersemester 2016 Prof. Dr. Stefan Etschberger HSA Lageparameter "Sollen wir das arithmetische Mittel als durchschnittliche Körpergröße nehmen und den Gegner erschrecken,

Mehr

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test 1/29 Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) Matthias Birkner http://www.staff.uni-mainz.de/birkner/biostatistik1516/ 11.12.2015 2/29 Inhalt 1 t-test

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

1 Darstellen von Daten

1 Darstellen von Daten 1 Darstellen von Daten BesucherInnenzahlen der Bühnen Graz in der Spielzeit 2010/11 1 Opernhaus 156283 Hauptbühne 65055 Probebühne 7063 Ebene 3 2422 Next Liberty 26800 Säulen- bzw. Balkendiagramm erstellen

Mehr

13.5 Der zentrale Grenzwertsatz

13.5 Der zentrale Grenzwertsatz 13.5 Der zentrale Grenzwertsatz Satz 56 (Der Zentrale Grenzwertsatz Es seien X 1,...,X n (n N unabhängige, identisch verteilte zufällige Variablen mit µ := EX i ; σ 2 := VarX i. Wir definieren für alle

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr