Statistik Workshop. 12. und 14. Januar Prof. Dr. Stefan Etschberger. Outline

Größe: px
Ab Seite anzeigen:

Download "Statistik Workshop. 12. und 14. Januar 2015. Prof. Dr. Stefan Etschberger. Outline"

Transkript

1 Workshop Mini-Einführung und Auffrischung zu einigen Teilen der angewandten. und 4. Prof. Dr. Stefan Etschberger Outline : Einführung Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio Deskriptive 3 Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen 4 Induktive 5 Datenanalyse Einleitung Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse Datenanalyse: Prozess Material. Deskriptive 4. Induktive

2 Material zur Vorlesung Kursmaterial: Handout der Folien Literatur: Alle Folien inklusive Anmerkungen (am Abend) Beispieldaten Alle Auswertungen als R-Datei Material. Deskriptive 4. Induktive Bamberg, Günter, Franz Baur und Michael Krapp (0).. 6. Aufl. München: Oldenbourg Verlag. ISBN: Dalgaard, Peter (00). Introductory Statistics with R. New York: Springer. Fahrmeir, Ludwig, Rita Künstler, Iris Pigeot und Gerhard Tutz (009). : Der Weg zur Datenanalyse. 7. Aufl. Berlin, Heidelberg: Springer. ISBN: Dalgaard (00)Fahrmeir u. a. (009) Bamberg u. a. (0) 3 Datenbasis Fragebogen Umfrage Sommersemester 04 Bitte beantworten Sie folgende Fragen vollständig und füllen Sie jeweils nur eine beliebige Spalte leserlich aus. Ihr Alter (in Jahren) Ihre Größe (in cm) Ihr Geschlecht (m/w) Wie alt ist (bzw. wäre) Ihr Vater heute? Wie alt ist (bzw. wäre) Ihre Mutter heute? Größe Ihres Vaters (cm) Größe Ihrer Mutter (cm) Wie viele Geschwister haben Sie? Wunschfarbe für Ihr nächstes Smartphone; mögliche Auswahl: (si)lber, (sc)hwarz, (w)eiß, (g)elb, (b)lau, (r)ot Ausgaben für Ihre mobile Kommunikation (egal wer bezahlt hat) in den vergangenen Monaten inkl. Hardware (Smartphone, Zubehör), Software (Apps), Vertrag Wie viele Paar Schuhe besitzen Sie? Ausgaben für Ihre Schuhe (egal wer bezahlt hat) in den letzten Monaten Ihre Note in der Matheklausur Waren Sie mir Ihrer Leistung in Mathe zufrieden? Antworten: (s)ehr zufrieden, (z)ufrieden, (g)eht so, (n)icht zufrieden

3 : Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung : Einführung Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio Bedeutungen des Begriffs Statistische Methoden Zusammenstellung von Zahlen Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive W-theorie Deskriptive Induktive 9

4 Einfaches Beispiel Beispiel Beschäftigte werden nach der Entfernung zum Arbeitsplatz (in km) befragt. Antworten: 4,,, 3, 5, 4, 0, 4, 6, 6, 0, 6 deskriptiv: Durchschnittliche Entfernung: 7,5 Klassenbildung: Klasse [0; 5) [5; 5) [5; 30) Häufigkeit 5 5 Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive induktiv: Schätze die mittlere Entfernung aller Beschäftigten. Prüfe, ob die mittlere Entfernung geringer als 0 km ist. 0 Merkmale Merkmalsträger: Untersuchte statistische Einheit Merkmal: Interessierende Eigenschaft des Merkmalträgers (Merkmals-)Ausprägung: Konkret beobachteter Wert des Merkmals Grundgesamtheit: Menge aller relevanten Merkmalsträger Typen von Merkmalen: a) qualitativ quantitativ qualitativ: z.b. Geschlecht quantitativ: z.b. Schuhgröße Qualitative Merkmale sind quantifizierbar (z.b.: weiblich, männlich 0) b) diskret stetig diskret: Abzählbar viele unterschiedliche Ausprägungen stetig: Alle Zwischenwerte realisierbar Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive

5 Skalenniveaus Nominalskala: Zahlen haben nur Bezeichnungsfunktion z.b. Artikelnummern Ordinalskala: zusätzlich Rangbildung möglich z.b. Schulnoten Differenzen sind aber nicht interpretierbar! Addition usw. ist unzulässig. Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive Kardinalskala: zusätzlich Differenzbildung sinnvoll z.b. Gewinn Noch feinere Unterscheidung in: Absolutskala, Verhältnisskala, Intervallskala Skalendegression und Skalenprogression Ziel der Skalierung: Gegebene Information angemessen abbilden, möglichst ohne Über- bzw. Unterschätzungen Es gilt: Grundsätzlich können alle Merkmale nominal skaliert werden. Grundsätzlich kann jedes metrische Merkmal ordinal skaliert werden. Das nennt man Skalendegression. Dabei: Informationsverlust Aber: Nominale Merkmale dürfen nicht ordinal- oder metrisch skaliert werden. Ordinale Merkmale dürfen nicht metrisch skaliert werden. Das nennt nennt man Skalenprogression. Dabei: Interpretation von mehr Informationen in die Merkmale, als inhaltlich vertretbar. (Gefahr der Fehlinterpretation) Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 3

6 Etschberger Was ist R und warum soll man es benutzen? R ist ein freies Softwarepaket zu und Datenanalyse Fehler durch R ist sehr mächtig und weit verbreitet in Wissenschaft und Industrie (sogar von mehr Leuten benutzt als z.b. SPSS) Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio Ursprung von R: 993 an der Universität Auckland von Ross Ihaka and Robert Gentleman entwickelt. Deskriptive 4. Induktive Seitdem: Viele Leute haben R verbessert mit tausenden von Paketen für viele Anwendungen Nachteil (auf den ersten Blick): Kein point und click tool source: Großer Vorteil (auf den zweiten Blick): Kein point und click tool graphics source: 4 Whas ist RStudio? RStudio ist ein Integrated Development Environment (IDE) um R leichter benutzen zu können. Gibt s für OSX, Linux und Windows Ist auch frei Etschberger Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive Trotzdem: Sie müssen Kommandos schreiben Aber: RStudio unterstützt Sie dabei Download: RStudio.com 5

7 Erste Schritte RStudio Kennenlernen Code Console Workspace History Files Plots Packages Help Auto- Completion Data Import Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 6 Daten einlesen und Struktur anschauen # Arbeitsverzeichnis setzen (alternativ über Menü) setwd("c:/ste/work/vorlesungen/04ws_doktorandenworkshop/05_0 Workshop") # Daten einlesen aus einer csv-datei (Excel) MyData = read.csv(file="../daten/umfrage_hsa_04_03.csv", header=true) # inspect structure of data str(mydata) ## 'data.frame': 05 obs. of 0 variables: ## $ Alter : int ## $ Geschlecht : Factor w/ levels "Frau","Mann":... ## $ AlterV : int ## $ AlterM : int ## $ Geschwister: int ## $ Farbe : Factor w/ 6 levels "blau","gelb",..: ## $ AusgSchuhe : int ## $ AnzSchuhe : int ## $ AusgKomm : num ## $ MatheZufr : Ord.factor w/ 4 levels "nicht"<"geht so"<..: Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 7

8 Erste Zeilen der Datentabelle # Erste Zeilen in Datentabelle head(mydata, 6) ## Alter Geschlecht AlterV AlterM Geschwister Farbe AusgSchuhe AnzSchuhe AusgKomm MatheZufr ## Frau 54 5 weiss nicht ## 0 Frau weiss sehr ## 3 9 Frau schwarz sehr ## 4 0 Frau schwarz sehr ## 5 0 Frau weiss sehr ## 6 4 Mann 54 5 schwarz geht so # lege MyData als den "Standard"-Datensatz fest attach(mydata) Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive # Wie Viele Objekte gibt's im Datensatz? nrow(mydata) ## [] 05 # Wie Viele Merkmale? ncol(mydata) ## [] 0 8 Daten kennenlernen # Auswahl spezieller Objekte und Merkmale über [Zeile, Spalte] MyData[:3, :5] ## Geschlecht AlterV AlterM Geschwister ## Frau 54 5 ## Frau ## 3 Frau # Auswahl von Objekten über logische Ausdrücke head(geschlecht=="frau" & Alter<9, 30) ## [] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE ## [7] FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE # Einsetzen in Klammern und Ausgabe von Alter des Studenten, seines Vaters und seiner Mutter MyData[Geschlecht=="Frau" & Alter<9, # Objektauswahl c("alter", "AlterM", "AlterV") # Welche Merkmale anzeigen? ] Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive ## Alter AlterM AlterV ## ## ## ## ## ## ## ## ##

9 Daten kennenlernen # Zeige die Männer, die mehr als 000 Euro für Schuhe # und Mobilfunk zusammen ausgegeben haben MyData[Geschlecht=="Mann" & AusgSchuhe + AusgKomm > 000, c("alter", "Geschwister", "Farbe", "AusgSchuhe", "AusgKomm")] ## Alter Geschwister Farbe AusgSchuhe AusgKomm ## 0 weiss ## 5 0 rot ## 6 0 schwarz ## 40 0 silber ## 87 0 blau ## schwarz ## 46 4 schwarz ## 77 9 schwarz ## 78 3 schwarz ## schwarz Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 0 : Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung Deskriptive

10 Häufigkeitsverteilungen Auswertungsmethoden für eindimensionales Datenmaterial Merkmal X wird an n Merkmalsträgern beobachtet Urliste (x,..., x n ) Im Beispiel: x = 4, x =,..., x = 6 Urlisten sind oft unübersichtlich, z.b.:. Deskriptive ## [] ## [49] 7 5 Dann zweckmäßig: Häufigkeitsverteilungen 4. Induktive Ausprägung (sortiert) a j absolute Häufigkeit h(a j ) = h j kumulierte abs. H. H(a j ) = j h(a i ) relative Häufigkeit f(a j ) = h(a j )/n j kumulierte rel. H. F(a j ) = f(a i ) Graphische Darstellungen ➊ Balkendiagramm table(x) ## x ## ## barplot(table(x), col="azure") (Höhe proportional zu Häufigkeit) ➋ Kreissektorendiagramm Winkel: w j = 360 f(a j ) pie(table(x)) z.b. w = = 7, w 7 = = 57,6 5 (Fläche proportional zu Häufigkeit) Deskriptive 4. Induktive 4

11 Graphische Darstellungen ➌ Histogramm für klassierte Daten Fläche proportional zu Häufigkeit: Höhe j Breite j = c h(a j ) Höhe j = c h(a j) Breite j Im Beispiel mit c = : Klasse [0; 5) [5; 5) [5; 30] h(a j ) 5 5 Breite j Höhe j 4 90 histdata <- c(0,,,3,4, 5,6,7,0,4, 5,30) truehist(histdata, breaks=c(0, 4.999, 4.999, 30), col="azure", ylab='') histdata. Deskriptive 4. Induktive 7 Lageparameter Modus x Mod : häufigster Wert Beispiel: a j 4 h(a j ) 4 3 Sinnvoll bei allen Skalenniveaus. Median x Med : mittlerer Wert, d.h. } x Mod =. Urliste aufsteigend sortieren: x x x n. Dann. Deskriptive 4. Induktive { = x n+, falls n ungerade x Med [x n ; x n +], falls n gerade (meist x Med = (x n + x n +)) Im Beispiel oben:,,,,,,, 4 x Med [; ], z.b. x Med =,5 Sinnvoll ab ordinalem Skalenniveau. 3

12 Lageparameter () Arithmetisches Mittel x: Durchschnitt, d.h. Im Beispiel: x = n n x i = n x = 8 ( } {{ } 4 k a j h(a j ) j= } {{ } 3 Sinnvoll nur bei kardinalem Skalenniveau. Bei klassierten Daten: + 4 }{{} 4 ) =,75. Deskriptive 4. Induktive Im Beispiel: x = n Klassenmitte Klassenhäufigkeit x = (, ,5 ) = 8,96 7,5 = x 3 Streuungsparameter Voraussetzung: kardinale Werte x,..., x n Beispiel: a) x i b) x i Spannweite: SP = max Im Beispiel: i x i min i x i } je x = 000 a) SP = = 00 b) SP = = Deskriptive 4. Induktive Mittlere quadratische Abweichung: s = n n (x i x) = n x i x n } {{ } Verschiebungssatz 34

13 Streuungsparameter () Mittlere quadratische Abweichung im Beispiel: a) s = 3 ( ) = 3 ( ) 000 = 666,67 b) s = 3 ( ) = 3 ( ) 000 = Standardabweichung: s = s Im Beispiel: a) s = 666,67 = 40,8 b) s = = 88,43. Deskriptive 4. Induktive Variationskoeffizient: V = Im Beispiel: a) V = 40,8 000 = 0,0 ( = %) b) V = 88, =,4 ( = 4 %) s x (maßstabsunabhängig) 35 als Grafik: Boxplot Graphische Darstellung von Box: Oberer/Unterer Rand: 3. bzw.. Quartil, Linie in Mitte: Median Whiskers: Länge: Max./Min Wert, aber beschränkt durch das,5-fache des Quartilsabstands (falls größter/kleinster Wert größeren/kleineren Abstand von Box: Länge Whiskers durch größten/kleinsten Wert innerhalb dieser Schranken) Ausreißer: Alle Objekte außerhalb der Whisker-Grenzen boxplot(anzschuhe ~ Geschlecht, col=c("mistyrose", "lightblue"), data=mydata, main="") Frau Mann Wieviel Paar Schuhe besitzen Sie?. Deskriptive 4. Induktive 37

14 Dateninspektion: Überblick über alle Variablen summary(mydata) ## Alter Geschlecht AlterV AlterM Geschwister Farbe ## Min. :8.00 Frau:34 Min. :38.00 Min. :37.0 Min. :0.000 blau : ## st Qu.:0.00 Mann: 7 st Qu.:50.00 st Qu.:48.0 st Qu.:.000 gelb : 4 ## Median :.00 Median :54.00 Median :5.0 Median :.000 rot :3 ## Mean :. Mean :53.95 Mean :5.5 Mean :.473 schwarz:97 ## 3rd Qu.:3.00 3rd Qu.: rd Qu.:54.0 3rd Qu.:.000 silber :7 ## Max. :36.00 Max. :77.00 Max. :68.0 Max. :9.000 weiss :63 ## AusgSchuhe AnzSchuhe AusgKomm MatheZufr ## Min. : 0.0 Min. :.00 Min. : 30.0 nicht :68 ## st Qu.: 50.0 st Qu.:0.00 st Qu.: 50.0 geht so :47 ## Median : 50.0 Median :0.00 Median : zufrieden:43 ## Mean : 96.6 Mean :.58 Mean : 49.4 sehr :6 ## 3rd Qu.: rd Qu.: rd Qu.: NA's : ## Max. :000.0 Max. :80.00 Max. : Deskriptive 4. Induktive 38 Dateninspektion Boxplots for(attribute in c("alter", "AlterV", "AlterM", "Geschwister", "AusgSchuhe", "AusgKomm")) { data=mydata[, attribute] boxplot(data, # all rows, column of attribute col="lightblue", # fill color lwd=3, # line width cex=, # character size oma=c(,,,) ) text(0.7,max(data), attribute, srt=90, adj=) }. Deskriptive Alter AlterV AlterM Geschwister AusgSchuhe AusgKomm 4. Induktive 39

15 smaße Gegeben: kardinale Werte 0 x x x n Achtung! Die Werte müssen aufsteigend sortiert werden! Lorenzkurve: Wieviel Prozent der Merkmalssumme entfällt auf die x Prozent kleinsten Merkmalsträger? Beispiel: Die 90 % ärmsten besitzen 0 % des Gesamtvermögens. Streckenzug: (0,0), (u, v ),..., (u n, v n ) = (,) mit. Deskriptive 4. Induktive v k = Anteil der k kleinsten MM-Träger an der MM-Summe = k x i n x i u k = Anteil der k kleinsten an der Gesamtzahl der MM-Träger = k n 40 Lorenzkurve: Beispiel Markt mit fünf Unternehmen; Umsätze: 6, 3,,, 3 (Mio. ) 5 n = 5, x k = 5 k= v k. Deskriptive k x k p k 5 v k 5 u k u k 4. Induktive 4

16 Lorenzkurve Knickstellen: Bei i-tem Merkmalsträger x i+ > x i Empirische Verteilungsfunktion liefert Knickstellen: a j 3 6 h(a j ) f(a j ) 5 F(a j ) 5 Vergleich von Lorenzkurven: Deskriptive 4. Induktive Gleichverteilung extreme stärker konzentriert als schwer vergleichbar 4 Lorenzkurve: Beispiel Bevölkerungsanteil gegen BSP Bangladesch Brasilien Deutschland Ungarn USA,0 0,8. Deskriptive (Stand 000) Anteil am BSP 0,6 0,4 4. Induktive 0, 0, 0,4 0,6 0,8 Anteil der Bevölkerung,0 43

17 Gini-Koeffizient Numerisches Maß der : Gini-Koeffizient G G = Aus den Daten: G = Fläche zwischen 45 -Linie und L Fläche unter 45 -Linie n i x i (n + ) n x i n n = x i n i p i (n + ) n = wobei p i = x i n x i. Deskriptive 4. Induktive Problem: G max = n n Normierter Gini-Koeffizient: G = n n G [0; ] 44 Gini-Koeffizient: Beispiel Beispiel: i 3 4 x i 5 0 p i Deskriptive G = ( ) (4 + ) 4 = 0,55 4. Induktive Mit G max = 4 4 = 0,75 folgt G = 4 4 0,55 = 0,7 45

18 smaße: Beispiel Armutsbericht der Bundesregierung 008 Verteilung der Bruttoeinkommen in Preisen von 000 aus unselbständiger Arbeit der Arbeitnehmer/-innen insgesamt Anteil am Einkommen,0 0,8 0,6 0,4 0,. Deskriptive 0, 0,4 0,6 0,8,0 Anteil der Bevölkerung 4. Induktive Arithmetisches Mittel Median Gini-Koeffizient 0,433 0,44 0,448 0, Lorenzkurve mit R require(ineq) # inequality Paket Lorenz = Lc(AusgSchuhe) plot(lorenz, xlab="", ylab="", main="") # Standard plot plot(c(0,), c(0,), type="n", # bisschen netter panel.first=grid(lwd=.5, col=rgb(0,0,0,/)), xlab="", main="", ylab="") polygon(lorenz$p, Lorenz$L, density=-, col=rgb(0,0,,/4), lwd=) Deskriptive 4. Induktive Gini(AusgSchuhe) # Gini-Koeffizient ## []

19 Weitere smaße skoeffizient: n CR g = Anteil, der auf die g größten entfällt = p i = v n g i=n g+ Herfindahl-Index: H = n p i ( [ n ; ]) Es gilt: H = n (V + ) bzw. V = n H Exponentialindex: E = n p p i i ( [ n ; ] ) wobei 0 0 =. Deskriptive 4. Induktive Im Beispiel mit x = (,,, 5): CR = 7 0 = 0,85 ( ) ( ) 5 H = + + = 0, ( ) ( ) E = = 0, Auswertungsmethoden für zweidimensionale Daten Zweidimensionale Urliste Urliste vom Umfang n zu zwei Merkmalen X und Y: (x, y ), (x, y ),..., (x n, y n ) Kontingenztabelle: Sinnvoll bei wenigen Ausprägungen bzw. bei klassierten Daten. Ausprägungen von Y Ausprägungen von X b b... b l. Deskriptive 4. Induktive a h h... h l a h h... h l.... a k h k h k... h kl 49

20 Kontingenztabelle Unterscheide: Gemeinsame : h ij = h(a i, b j ) Randhäufigkeiten: l h i = h ij und h j = j= Bedingte (relative) : k h ij. Deskriptive 4. Induktive f (a i b j ) = h ij h i h j und f (b j a i ) = h ij 50 Beispiel: 400 unfallbeteiligte Autoinsassen: leicht verletzt schwer verletzt tot (= b ) (= b ) (= b 3 ) angegurtet (= a ) (= h ) (= h ) (= h 3 ) (= h ) nicht angegurtet (= a ) (= h ) (= h ) (= h 3 ) (= h ) (= h ) (= h ) (= h 3 ) (= n). Deskriptive 4. Induktive f (b 3 a ) = 4 40 = 0, f (a b 3 ) = 4 0 = 0,4 (0 % der nicht angegurteten starben.) (40 % der Todesopfer waren nicht angegurtet.) 5

21 Streuungsdiagramm Streuungsdiagramm sinnvoll bei vielen verschiedenen Ausprägungen (z.b. stetige Merkmale) Alle (x i, y i ) sowie ( x, ȳ) in Koordinatensystem eintragen. Beispiel: i x i y i y 3 x = 5 5 = 5 ȳ = 8 5 = 5,6 x x y. Deskriptive 4. Induktive 5 Beispiel Streuungsdiagramm. Deskriptive 4. Induktive (Datenquelle: Fahrmeir u. a. (009)) 53

22 Beispiel Streuungsdiagramm mieten <- read.table('../../_data/mietenmuenchen.csv', header=true, sep='\t', check.names=true, fill=true, na.strings=c('','')) x <- cbind(nettomieten=mieten$nm, Wohnflaeche=mieten$wfl) library("geneplotter") ## from BioConductor smoothscatter(x, nrpoints=inf, colramp=colorramppalette(brewer.pal(9,"ylorrd")), bandwidth=c(30,3)) Wohnflaeche Deskriptive 4. Induktive Nettomieten 54 Beispiel Streuungsdiagramm x = cbind("age of father"=alterv, "Age of mother"=alterm) require("geneplotter") ## from BioConductor smoothscatter(x, colramp=colorramppalette(brewer.pal(9,"ylorrd")) ) Age of mother Deskriptive 4. Induktive Age of father 55

23 Visualisiere Paare require(ggally) ggpairs(mydata[, -c(5, 6, 0)], colour='geschlecht', alpha=0.4) 35 Cor : 0.4 Cor : Cor : Cor : 0.05 Cor : Alter Frau: Mann: Frau: Mann: 0.33 Frau: Mann: 0.9 Frau: Mann: Frau: 0.08 Mann: Frau. Deskriptive Geschlecht Mann AlterV Cor : 0.73 Frau: 0.79 Mann: AlterM Cor : Frau: Mann: 0.4 Cor : Frau: 0.06 Mann: Cor : Frau: Mann: Cor : Frau: 0.06 Mann: Cor : 0.08 Frau: 0.08 Mann: Cor : Frau: Mann: Induktive AusgSchuhe Cor : Frau: 0.37 Cor : 0.9 Frau: Mann: AnzSchuhe Mann: Cor : 0.05 Frau: Mann: AusgKomm Bagplot: Boxplot in Dimensionen require(aplpack) bagplot(alterv, AlterM, xlab="alter des Vaters", ylab="alter der Mutter") Alter der Mutter Deskriptive 4. Induktive Alter des Vaters 57

24 Bubbleplot: 3 metrische Variablen require(desctools) PlotBubble(AlterM, AlterV, AusgSchuhe/400, col=setalpha("deeppink4",0.3), border=setalpha("darkblue",0.3), xlab="alter der Mutter", ylab="alter des Vaters", panel.first=grid(), main=""). Deskriptive Alter des Vaters Induktive Alter der Mutter Größe der Blasen: Ausgaben für Schuhe 58 srechnung Frage: Wie stark ist der Zusammenhang zwischen X und Y? Dazu: skoeffizienten Verschiedene Varianten: Wahl abhängig vom Skalenniveau von X und Y:. Deskriptive Skalierung von Y Skalierung von X kardinal ordinal nominal kardinal 4. Induktive ordinal Bravais-Pearson- skoeffizient Rangkorrelationskoeffizient von Spearman nominal Kontingenzkoeffizient 59

25 skoeffizient von Bravais und Pearson Bravais-Pearson-skoeffizient Voraussetzung: X, Y kardinalskaliert n (x i x)(y i ȳ) n x i y i n xȳ r = = [ ; +] n (x i x) n n n (y i ȳ) x i n x y i nȳ Deskriptive 4. Induktive Bravais-Pearson-skoeffizient Im Beispiel: i x i y i x i y i x i y i x = 5/5 = 5 ȳ = 8/5 = 5,6. Deskriptive 4. Induktive r = , ,6 = 0,703 (deutliche positive ) 6

26 Rangkorrelationskoeffizient von Spearman Voraussetzungen: X, Y (mindestens) ordinalskaliert, Ränge eindeutig (keine Doppelbelegung von Rängen) Vorgehensweise: ➀ Rangnummern R i (X) bzw. R i (Y) mit R ( ) i Wert usw. ➁ Berechne r SP = 6 n (R i R i) (n ) n (n + ) = bei größtem [ ; +]. Deskriptive 4. Induktive Hinweise: r SP = + wird erreicht bei R i = R i r SP = wird erreicht bei R i = n + R i i =,..., n i =,..., n 6 Rangkorrelationskoeffizient von Spearman Im Beispiel: x i R i y i R i Deskriptive 4. Induktive r SP = 6 [(5 4) + (3 5) + (4 3) + ( ) + ( ) ] (5 ) 5 (5 + ) = 0,6 63

27 Kontingenzkoeffizient Gegeben: Kontingenztabelle mit k Zeilen und l Spalten (vgl. hier) Vorgehensweise: ➀ Ergänze Randhäufigkeiten h i = l h ij und h j = j= ➁ Berechne theoretische ➂ Berechne χ = h ij = h i h j n k l j= (h ij h ij ) h ij k h ij χ hängt von n ab! (h ij h ij χ χ ). Deskriptive 4. Induktive 64 Kontingenzkoeffizient ➃ Kontingenzkoeffizient: wobei K max = χ K = n + χ [0; K max ] M M ➄ Normierter Kontingenzkoeffizient: mit M = min{k, l}. Deskriptive 4. Induktive K = K K max [0; ] K = + bei Kenntnis von x i kann y i erschlossen werden u.u. 65

28 Kontingenzkoeffizient Beispiel X : Staatsangehörigkeit (d,a) Y : Geschlecht (m,w) wobei h = h ij m w h i h ij m w d d 4 36 a a 6 4 h j = 4 usw.. Deskriptive 4. Induktive χ = (30 4) + (30 36) + (0 6) + (30 4) = 6, K = 6,5 00+6,5 = 0,45; M = min{,} = ; K max = K = 0,45 0,707 = 0,3430 = 0, Graphische Repräsentation von Kontingenztabellen Beispiel Autounfälle Verletzung leicht schwer tödlich angegurtet nicht angegurtet Sicherheit Gurt leicht schwer tödlich < 4 4: :0 0: :4 >4. Deskriptive 4. Induktive Kein Standardized Residuals: Verletzungen Mosaikplot Autounfälle 67

29 Ausgangsdaten Bundesliga 008/009 Gegeben: Daten zu den 8 Vereinen der ersten Bundesliga in der Saison 008/09 Merkmale: Vereinssetat für Saison (nur direkte Gehälter und Spielergehälter) und Ergebnispunkte in Tabelle am Ende der Saison Etat Punkte FC Bayern VfL Wolfsburg SV Werder Bremen FC Schalke VfB Stuttgart Hamburger SV 35 6 Bayer 04 Leverkusen Bor. Dortmund 3 59 Hertha BSC Berlin FC Köln 8 39 Bor. Mönchengladbach 7 3 TSG Hoffenheim 6 55 Eintracht Frankfurt 5 33 Hannover Energie Cottbus 3 30 VfL Bochum 7 3 Karlsruher SC 7 9 Arminia Bielefeld 5 8 (Quelle: Welt). Deskriptive 4. Induktive 7 Darstellung der Daten in Streuplot Bundesliga 008/09 Punkte VfB Stuttgart Hertha BSC Berlin Hamburger SV Bor. Dortmund TSG Hoffenheim Hannover 96. FC Köln Eintracht Frankfurt VfL Bochum Bor. Mönchengladbach Energie Cottbus Karlsruher SC Arminia Bielefeld FC Schalke 04 Bayer 04 Leverkusen SV Werder Bremen VfL Wolfsburg FC Bayern. Deskriptive 4. Induktive Etat [Mio. Euro] 7

30 Trend als lineares Modell Kann man die Tabellenpunkte näherungsweise über einfache Funktion in Abhängigkeit des Vereinsetats darstellen? Allgemein: Darstellung einer Variablen Y als Funktion von X: Dabei: y = f(x) X heißt Regressor bzw. unabhängige Variable Y heißt Regressand bzw. abhängige Variable Wichtiger (und einfachster) Spezialfall: f beschreibt einen linearen Trend:. Deskriptive 4. Induktive y = a + b x Dabei anhand der Daten zu schätzen: a (Achsenabschnitt) und b (Steigung) Schätzung von a und b: 73 Fehlerquadratsumme Pro Datenpunkt gilt mit Regressionsmodell: y i = a + bx i + ɛ i Dabei: ɛ i ist jeweils Fehler (der Grundgesamtheit), mit e i = y i (â + ˆbx i ): Abweichung (Residuen) zwischen gegebenen Daten der Stichprobe und durch Modell geschätzten Werten Modell gut wenn alle Residuen e i zusammen möglichst klein Einfache Summe aber nicht möglich, denn e i positiv oder negativ. Deskriptive 4. Induktive Deswegen: Summe der Quadrate von e i Prinzip der kleinsten Quadrate: Wähle a und b so, dass Q(a, b) = n [y i (a + bx i )] min 74

31 Beste Lösung Beste und eindeutige Lösung: ˆb = = n (x i x)(y i ȳ) n (x i x) n x i y i n xȳ n x i n x â = ȳ ˆb x. Deskriptive 4. Induktive Regressionsgerade: ŷ = â + ˆb x 75 Bundesligabeispiel Berechnung eines linearen Modells der Bundesligadaten dabei: Punkte ˆ= y und Etat ˆ= x: x 33,83 y 46,89 x i 509 xi y i 3474 n ,83 46,89 ˆb = ,83 0,634 â = 46,89 ˆb 33,83 5,443 Modell: ŷ = 5, ,634 x Punkte Einkommen Prognosewert für Etat = 30: ŷ(30) = 5, , ,463. Deskriptive 4. Induktive 76

32 Varianz und Information Varianz der Daten in abhängiger Variablen y i als Repräsentant des Informationsgehalts Ein Bruchteil davon kann in Modellwerten ŷ i abgebildet werden Deskriptive 4. Induktive 0 0 points model Empirische Varianz (mittlere quadratische Abweichung) für rot bzw. grün ergibt jeweils 8 8 (y i y) 00,77 bzw. 8 8 (ŷ i y) 0,78 77 Determinationskoeffizient Gütemaß für die Regression: Determinationskoeffizient (Bestimmtheitskoeffizient): R = n (ŷ i ȳ) = n (y i ȳ) n ŷ i nȳ = r n [0; ] y i nȳ Mögliche Interpretation von R : Durch die Regression erklärter Anteil der Varianz R = 0 wird erreicht wenn X, Y unkorreliert R = wird erreicht wenn ŷ i = y i i (alle Punkte auf Regressionsgerade) Im (Bundesliga-)Beispiel:. Deskriptive 4. Induktive R = 8 (ŷ i y) 8 (y i y) 0,78 00,77 5,9 % 78

33 Regression: 4 eindimensionale Beispiele Berühmte Daten aus den 970er Jahren: i x i x i x 3i x 4i y i y i y 3i y 4i ,04 9,4 7,46 6, ,95 8,4 6,77 5, ,58 8,74,74 7, ,8 8,77 7, 8, ,33 9,6 7,8 8, ,96 8,0 8,84 7, ,4 6,3 6,08 5, ,6 3,0 5,39, ,84 9,3 8,5 5, ,8 7,6 6,4 7, ,68 4,74 5,73 6,89. Deskriptive 4. Induktive (Quelle: Anscombe (973)) 79 Beispieldaten meineregression = lm(alterm ~ AlterV) meineregression plot(alterv, AlterM, xlab="alter des Vaters", ylab="alter der Mutter") abline(meineregression) Alter der Mutter ## ## Call: ## lm(formula = AlterM ~ AlterV) ## ## Coefficients: ## (Intercept) AlterV ## Deskriptive 4. Induktive Alter des Vaters 8

34 Cook s Distanz PLUS Oft Kritisch: Einzelne Punkte, die Modell stark beeinflussen Idee: Was würde sich ändern, wenn solche Punkte weggelassen würden? Cook-Distanz: Misst den Effekt eines gelöschten Objekts Formel für ein lineares Modell mit einem unabh. Merkmal: D i = n (ŷ j ŷ j(ohne i) ) j= MSE. Deskriptive 4. Induktive Dabei bedeutet: ŷ j : Prognosewert des kompletten Modells für das j-te Objekt ŷ j(ohne i) : Prognosewert des Modells ohne Objekt i für das j-te Objekt MSE = n (ŷ i y i ) : Normierender Term (Schätzwert für Fehlerstreuung) 83 Ausreißer? PLUS Anscombe-Daten: Regressionsmodell Nr. 3 Darstellung der Cook-Distanz neben Punkten Faustformel: Werte über sollten genau untersucht werden.39. Deskriptive y Induktive x3 84

35 Residualanalyse Oft aufschlussreich: Verteilung der Residuen e i Verbreitet: Graphische Darstellungen der Residuen Z.B.: e i über ŷ i y Residuals Deskriptive x Fitted values Residuals vs Fitted 4. Induktive y Residuals x Fitted values 85 Residualanalyse Wichtige Eigenschaften der Residuenverteilung Möglichst keine systematischen Muster Alter der Mutter Keine Änderung der Varianz in Abhängigkeit von ŷ i (Homoskedastizität) Nötig für inferentielle Analysen: Näherungsweise Normalverteilung der Residuen (q-q-plots) Residuals Deskriptive 4. Induktive Alter des Vaters Fitted values 86

36 Kausalität versus Exkurs: Kausalität vs. Meist wichtig für sinnvolle Regressionsanalysen: Kausale Verbindung zwischen unabhängigem und abhängigem Merkmal Sonst bei Änderung der unabhängigen Variablen keine sinnvollen Prognosen möglich Oft: Latente Variablen im Hintergrund. Deskriptive 4. Induktive 87 : Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung 3 Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen

37 : Anzahl von Kombinationen bei Auswahl -mal Würfeln, das heißt Auswahl von k = aus n = 6 Zahlen. mit WH, mit RF: alle Möglichkeiten, 6 = 36 ohne WH, mit RF: Diagonale entfällt, 6! 36 6 = 30 = 6 5 = (6 )! (,) (,) (,3) (,4) (,5) (,6) (,) (,) (,3) (,4) (,5) (,6) (3,) (3,) (3,3) (3,4) (3,5) (3,6) (4,) (4,) (4,3) (4,4) (4,5) (4,6) (5,) (5,) (5,3) (5,4) (5,5) (5,6) (6,) (6,) (6,3) (6,4) (6,5) (6,6) ohne WH, ohne RF: Hälfte des letzten Ergebnisses: 30 6! = 5 = 4!! = ( 6) mit WH, ohne RF: Letztes Ergebnis plus Diagonale, = = ( 7). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Auswahl von k aus n Dingen mit Reihenfolge ohne Reihenfolge mit Wiederholung ohne Wiederholung n k n! (n k)! ( ) ( ) n + k n k k 89 Zufallsvorgänge, Ereignisse und Wahrscheinlichkeiten Zufallsvorgang: Geschehen mit ungewissem Ausgang, z.b. Münzwurf Elementarereignis ω: Ein möglicher Ausgang, z.b. Kopf Elementarereignisse schließen sich gegenseitig aus ( Kopf oder Zahl )! Ergebnismenge Ω: Menge aller ω Beispiel: Werfen zweier Würfel: (,) (,) (,6) (,) (,) (,6) Ω : (6,) (6,) (6,6). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Ω = {(x, x ) : x, x {,...,6}} 90

38 Ereignisse und Wahrscheinlichkeiten Ereignis A: Folgeerscheinung eines Elementarereignisses Formal: A Ω Ereignisse schließen sich nicht gegenseitig aus! Beispiel: Werfen zweier Würfel: Ereignis verbal formal A Augensumme = 4 {(,3), (,), (3,)} B Erste Zahl = {(,), (,),..., (,6)}. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Wahrscheinlichkeit P(A): Chance für das Eintreten von A Laplace-Wahrscheinlichkeit: P(A) = A Ω = Anzahl der für A günstigen Fälle Anzahl aller möglichen Fälle 9 Laplace Wahrscheinlichkeit und Urnenmodell Beispiel: Werfen zweier Würfel: Augensumme = 4 : A = {(,3), (,), (3,)} Ω = 36, A = 3 P(A) = 3 36 = = 0,083 Urnenmodell: Ziehe n Objekte aus einer Menge mit N Objekten Anzahl Möglichkeiten: mit Zurücklegen: N n ohne Zurücklegen: N (N ) (N (n )) = N! (N n)!. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Beispiel: Wie groß ist die Wahrscheinlichkeit, aus einem gut gemischten 3-er Kartenblatt bei viermaligem Ziehen vier Asse zu bekommen? a) Ziehen mit Zurücklegen, b) Ziehen ohne Zurücklegen 9

39 Rechenregeln für Wahrscheinlichkeiten Wichtige Rechenregeln:. P(A). P( ) = 0 3. A B P(A) P(B) 4. P(Ā) = P(A) 5. P(A B) = P(A) + P(B) P(A B) A A B B C. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Beispiel: P( Augenzahl 5 ) = P( Augenzahl = 6 ) = 6 = Beispiel Gegenereignis Der Fall Sally Clark Sally Clarks Söhne Christopher und Harry sterben 996 und 997 beide kurz nach der Geburt an plötzlichem Kindstod. Kinderarzt: Wahrscheinlich Mord, da maliger plötzlicher Kindstod sehr unwahrscheinlich! (ohne konkrete Hinweise) Gerichtliche Untersuchung Hauptargument der Anklage gestützt durch Gerichtsgutachter Sir Roy Meadow (renommierter Facharzt für Kinderheilkunde): Wahrscheinlichkeit für plötzlichen Kindstod ist :8500, d.h. Wahrscheinlichkeit für maliges Auftreten in einer Familie ( ) p = : Urteil: Doppelmord; Strafe: mal lebenslang; Inhaftierung von Sally Clark 999. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 94

40 Bedingte Wahrscheinlichkeiten Wahrscheinlichkeit von A hängt von anderem Ereignis B ab. (B kann zeitlich vor A liegen, muss aber nicht!) Beispiel: Wahrscheinlichkeit für note hängt von Mathenote ab. Formal: Im Venndiagramm: P(A B) = P(A B) P(B). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive B A Ω 96 Unabhängigkeit von Ereignissen A, B unabhängig: Eintreten von A liefert keine Information über P(B). Formal: P(A B) = P(A) Bei Unabhängigkeit ist äquivalent dazu: Dann gilt: P(A B) = P(A) P(B) P(A B) = P(A) + P(B) P(A) P(B) Beispiel: Werfen zweier Würfel: } A : " erster Würfel gleich 6" B : " zweiter Würfel gleich 6" P(A B) = = P(A B) P(B) 36 6 = P(A) = 6. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 97

41 Zufallsvariablen Zufallsvariablen und Verteilungen Beschreibung von Ereignissen durch reelle Zahlen Formal: Zufallsvariable ist Abbildung von Ereignisraum in reelle Zahlen: X : Ω R Nach Durchführung des Zufallsvorgangs: Realisation: x = X(ω). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Vor Durchführung des Zufallsvorgangs: Wertebereich: X(Ω) = {x : x = X(ω), ω Ω} Beispiel: Würfeln, X: Augenzahl, X(Ω) = {,,...,6}, x = 4 (z.b.) P(X = 4) = 6, P(X 3) = 3 6 = 98 Verteilungsfunktion Zuweisung von Wahrscheinlichkeiten zu Realisationen Formal: F(x) = P(X x) Eigenschaften der Verteilungsfunktion: F(x) [0; ] Definitionsbereich: R mit F( ) = 0, F( ) = monoton wachsend, d.h. x < x F(x ) F(x ) Es gilt: P(a < X b) = F(b) F(a). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive F(x) 0, x Beispiel einer Verteilungsfunktion 99

42 Diskrete Zufallsvariablen X heißt diskret, wenn X(Ω) = {x, x,... } endlich ist. Wahrscheinlichkeitsfunktion dann: f(x) = P(X = x) Beispiel: Münze mal werfen; X: Anzahl " Kopf" (Z, Z) (Z, K), (K, Z) (K, K) x i 0 f(x i ) 4 4 0, falls x < 0 4 F(x) =, falls 0 x < 3 4, falls x <, falls x. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 0,5 f(x) 0,75 F(x) 0, ,5 0, Binomialverteilung Wiederholter Zufallsvorgang n Durchführungen (jeweils unabhängig) Pro Durchführung: A oder Zurücklegen) Schreibe: X i = Ā mit P(A) = p ( = Ziehen mit {, falls A bei i-ter Durchführung eintritt 0, falls Ā bei i-ter Durchführung eintritt. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Dann gibt X = an, wie oft A eintritt. n X i Gesucht: Wahrscheinlichkeitsfunktion von X 0

43 Binomialverteilung Herleitung: ) P(X i = ) = P(A) = p, P(X i = 0) = P(Ā) = p n ) x i = x entspricht " x mal Ereignis A und n x mal Ā" Wahrscheinlichkeit (bei Unabhängigkeit): p x ( p) n x ( n 3) Aber: Reihenfolge irrelevant! Anzahl Anordnungen: x) Wahrscheinlichkeitsfunktion der Binomialverteilung: ( n p f(x) = x) x ( p) n x, falls x {0,,..., n} 0, sonst. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Kurzschreibweise: X B(n; p) X ist binomialverteilt mit Parametern n und p Tabellen zeigen meist F(x) für f(x) gilt: f(x) = F(x) F(x ) 0 X B(n, 0.5), Tabelle der Binomialverteilung F(x) = P(X x) x\n x\n Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 03

44 Binomialverteilung: Beispiel Beispiel Aus einem 3-er Kartenblatt wird 3-mal eine Karte mit Zurücklegen gezogen. Wie wahrscheinlich ist es, -mal Herz zu ziehen? X i = X = n {, falls i-te Karte Herz 0, sonst X i B(; 8 3 ) X i = X + X + X 3 X B(3; 4 ). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Mithilfe der Wahrscheinlichkeitsfunktion: ( 3 P(X = ) = f() = 0,5 ) 0,75 = 0,406 Mithilfe der Tabelle (n = 3): P(X = ) = F() F() = 0,9844 0,8438 = 0, Binomialverteilung: Wahrscheinlichkeitsfunktion X B(3, 4 ) Binomial Vtlg. mit n=3 p=0.5. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive p x 05

45 Binomialverteilung: Wahrscheinlichkeitsfunktion Binomial Vtlg. mit n=0 p=0.5 Binomial Vtlg. mit n=00 p= p p Deskriptive x x Zufallsvariablen und Verteilungen 4. Induktive Binomial Vtlg. mit n=30 p=0.5 Binomial Vtlg. mit n=500 p= p p x x 06 Hypergeometrische Verteilung n-faches Ziehen ohne Zurücklegen aus N Objekten, davon M markiert. X = Anzahl gezogener Objekte mit Markierung heißt hypergeometrisch verteilt mit den Parametern N, M, n. Kurzschreibweise: X Hyp(N; M; n) Wahrscheinlichkeitsfunktion: ( )( ) M N M x n x (, falls x möglich f(x) = N n) 0, sonst. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Ist n N 0, so gilt: Hyp(N; M; n) B(n; M N ) 07

46 Beispiel: Hypergeometrische Verteilung Aus einem 3-Kartenblatt wird 3-mal eine Karte ohne Zurücklegen gezogen. Wie wahrscheinlich ist es, -mal " Herz" zu ziehen? D.h.: N = 3, M = 8, n = 3, x =. ( ) ( ) ( ) ( ) P(X = ) = f() = ( ) = ( ) = = 9! 8! 3! 4 3! 6!! = 0,355 8!! 6! 4 3! 3! 9! = = = 55. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Dabei wurde verwendet: ( n n! = und k) k!(n k)! ( n ) = n. 08 Hypergeometrische Verteilung Beispiel: x Treffer im Lotto 6 aus 49 X Hyp(49, 6, 6) x P(X = x) (in %) Wahrscheinlichkeit Deskriptive Zufallsvariablen und Verteilungen 4. Induktive x 09

47 Poisson-Verteilung Approximation für B(n; p) und Hyp(N; M; n) Geeignet, wenn p klein ( 0,), n groß ( 50) und np 0. Verteilung der seltenen Ereignisse (z.b. Anzahl 6-er pro Lottoausspielung) X ist poissonverteilt mit Parameter λ: X P(λ) Wahrscheinlichkeitsfunktion: λ x f(x) = x! e λ, falls x = 0,,,... 0, sonst. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive F(x) in Tabelle Überblick: Approximation Hyp(N; M; n) p = M N B(n; p) λ = np = n M N P(λ) 0 Poissonverteilung: X P(λ), Tabelle der Verteilungsfunktionen x\λ Deskriptive Zufallsvariablen und Verteilungen 4. Induktive x\λ

48 Poisson-Verteilung: Beispiel Beispiel X B(0 000; 0,0003); In Tabelle der Binomialverteilung nicht vertafelt! Approximation: p = 0,0003 < 0, n = > 50 B(0 000; 0,0003) P(3) np = 3 < 0 Mithilfe der Wahrscheinlichkeitsfunktion:. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive P(X = 5) = 35 5! e 3 = 0,00888 Mithilfe der Tabelle der Poissonverteilung: P(X = 5) = F(5) F(4) = 0,96 0,853 = 0,008 Exakter Wert: P(X = 5) = 0,00839 Poisson- versus Binomialverteilung: Vergleich 0.4 n=5 p= n=0 p=0.4 p Verteilung Binomial Poisson p Verteilung Binomial Poisson. Deskriptive x x Zufallsvariablen und Verteilungen 4. Induktive 0.0 n=00 p= n=000 p= p 0.0 Verteilung Binomial Poisson p 0.0 Verteilung Binomial Poisson x x 3

49 Stetige Zufallsvariablen X heißt stetig, wenn F(x) stetig ist. 3 f(t) F(x) = x f(t)dt Dann existiert ein f(t) mit: F(x) = x f(t) dt f(x) heißt Dichtefunktion von X. Dann: P(a < X < b) = P(a X < b) = P(a < X b) = P(a X b) x 3 t f(x) x x. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive = b a f(x) dx = F(b) F(a) a b x 4 Dichtefunktion Eigenschaften der Dichtefunktion f(x) 0 für alle x R Wegen F( ) = muss stets gelten: f(x) dx = P(X = x) = 0 für alle x R f(x) > ist möglich für x R ist F(x) differenzierbar F (x) = f(x). Intervallgrenzen spielen keine Rolle:. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive P(X [a; b]) = P(X (a; b]) = P(X [a; b)) = P(X (a; b)) = F(b) F(a) 5

50 Dichtefunktion: Beispiel Beispiel Verteilungsfunktion: x 0 f(x) = f(t) dt = F(x) = 0, falls x < 0, falls 0 x 0 0, falls x > 0 0 x 0 [ ] x t 0 dt = 0 0 0, falls x < 0, falls 0 x 0, falls x > 0 x 0 = x 0. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 6 Gleichverteilung Eine Zufallsvariable X mit f(x) = b a, falls a x b 0, sonst heißt gleichverteilt im Intervall [a; b]. f(x). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive b a a b x 7

51 Gleichverteilung Verteilungsfunktion der Gleichverteilung: F(x) = 0, falls x < a x a b a, falls a x b, falls x > b. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Beispiel: X gleichverteilt in [; 0] P( X ) = F() F() = 0 0 = 0 = 0 9 = 0,563 8 Normalverteilung Eine Zufallsvariable X mit einer Dichtefunktion f(x) = (x µ) σ π e σ. Deskriptive und σ > 0 heißt normalverteilt. f(x) N(; 3 ) Zufallsvariablen und Verteilungen 4. Induktive 0,5 N(0; ) N(; ) N(; ) x Kurzschreibweise: X N(µ; σ) 9

52 Normalverteilung: Gaußkurve Normalverteilung C.F. Gauß. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 0 Verteilungsfunktion Φ der Standardnormalverteilung Dabei bedeutet Φ(x) zum Beispiel: Φ(,3) = Φ(, + 0,03) = 0,9834. Diesen Wert findet man in der Zeile mit x =, und der Spalte mit x = 0,03. x \x Deskriptive Zufallsvariablen und Verteilungen 4. Induktive

53 Eigenschaften der Normalverteilung Dichte ist symmetrisch zu µ: f(µ x) = f(µ + x) µ ist Lage-, σ ist Streuungsparameter Standardnormalverteilung: N(0; ) mit Verteilungsfunktion Φ(x) ( Tabelle 3) Kenntnis von Φ(x), µ und σ genügt, denn: X N(µ; σ) X µ σ N(0; ) ( ) x µ F(x) = Φ σ. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Tabelle enthält nur positive x: Deswegen Φ( x) = Φ(x) Normalverteilung: Beispiel Beispiel: Projektdauer X N(39; ). Wahrscheinlichkeit für Projektdauer zwischen 37 und 4 Wochen? Lösung: P(37 X 4) = F(4) F(37) = Φ ( ) ( 4 39 Φ ) = Φ() Φ( ) = Φ() [ Φ()] = Φ() = 0,843 = 0,686. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 3

54 Lageparameter a) Modus x Mod : f(x Mod ) f(x) für alle x (i.a. nicht eindeutig, z.b. Gleichverteilung) Beispiele: Normalverteilung: x Mod = µ Diskrete Verteilung mit: x 0 f(x) 4 4 } x Mod =. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive b) Median x Med : F(x Med ) = bzw. kleinstes x mit F(x) > Beispiele: Normalverteilung: x Med = µ Diskrete Verteilung oben: F(0) = 4 <, F() = 3 4 > x Med = 4 Lageparameter: Fraktile c) α-fraktil x α : F(x α ) = α (für stetige Verteilungen) Beispiel: X N(0; ), Y N(3; ) Hinweise: x 0,975 =,96 (Tab. 3) x 0,05 = x 0,975 =,96 y 0,05 = x 0,05 +3 = 0,9. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive x Med = x 0,5 Wenn x α nicht vertafelt Interpolation: x α x a + (x b x a ) α a b a mit a : größte vertafelte Zahl < α b : kleinste vertafelte Zahl > α Beispiel: X N(0; ); x 0,6 0,5 + (0,6 0,5) 0,533 0,6 0,5987 0,606 0,5987 = 5

55 Lageparameter: Erwartungswert d) Erwartungswert E(X) bzw. µ: x i f(x i ), i E(X) = xf(x) dx, falls X diskret falls X stetig. Deskriptive Zufallsvariablen und Verteilungen Beispiel: Diskrete Verteilung mit x 0 f(x) 4 4 E(X) = = Beispiel: Für eine exponentialverteilte Zufallsvariable X mit der Dichte { λ e λx für x 0 f(x) = folgt 0 sonst [ E(X) = x f(x)dx = λ x e λx dx = λ 0 λ xe λx 0 = xe λx λ e λx = 0 0 ( 0 ) = λ λ ( λ ) ] e λx dx 4. Induktive 6 Rechenregeln für den Erwartungswert Ist f symmetrisch bzgl. a, so gilt E(X) = a Beispiel: f der Gleichverteilung symmetrisch a+b bzgl. E(X) = a+b Lineare Transformation: Summenbildung: E(a + bx) = a + b E(X). Deskriptive Zufallsvariablen und Verteilungen ( n ) E X i = n E(X i ) 4. Induktive Beispiel: X gleichverteilt in [0; 0], Y N(; ); Z = X + 5Y E(Z) = E(X+5Y) = E(X)+E(5Y) = E(X)+5 E(Y) = = 0 Unabhängigkeit: X, Y unabhängig E(X Y) = E(X) E(Y) 7

56 Streuungsparameter Varianz Var(X) bzw. σ : [x i E(X)] f(x i ), wenn X diskret Var(X) = E([X E(X)] i ) = [x E(X)] f(x) dx, wenn X stetig Standardabweichung Sta(X) bzw. σ: Beispiel: Diskrete Verteilung x 0 f(x) 4 4 : Sta(X) = Var(X). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Var(X) = (0 ) 4 + ( ) + ( ) 4 = Beispiel: Für eine exponentialverteilte Zufallsvariable X (Dichte siehe Erwartungswert) folgt Var(X) = (x E(X))f(x)dx = λ 0 ( x λ ) e λx dx ( = e λx x + x λ ( ) ) λ λ x λ + λ 0 ( = 0 0 ( ) ) λ = λ 8 Rechenregeln für die Varianz Verschiebungssatz: Var(X) = E(X ) [E(X)] Beispiel: Diskrete Verteilung x 0 f(x) 4 E(X ) = = 3 E(X ) [E(X)] = 3 = = Var(X) 4 :. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Lineare Transformation: Var(a + bx) = b Var(X) Summenbildung gilt nur, wenn die X i unabhängig! Dann: ( n ) Var X i = n Var(X i ) 9

57 Erwartungswerte und Varianzen wichtiger Verteilungen Verteilung von X E(X) Var(X) Binomialverteilung B(n; p) np np( p) Hypergeometrische Verteilung mit den Parametern N, M, n n M N Poisson-Verteilung P(λ) λ λ Gleichverteilung in [a; b] mit a < b a + b n M N N M N (b a) N n N. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Normalverteilung N(µ; σ) µ σ 30 Anwendung: Ungleichung von Tschebyschow Für beliebige Zufallsvariablen X und ε > 0 gilt die Ungleichung von Tschebyschow: Beispiele: P ( X E[X] ε ) Var[X] ε X ist gleichverteilt mit Parametern a, b und ε = (a b), 3 also E[X] = (a + b) und Var[X] = (a b). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive P ( X (a + b) 3 (a b)) (a b) 3 (a b) = 3 /4 X B(00; 0,) und ε = 0 damit: E[X] = 00 0, = 0 und Var[X] = 00 0, ( 0,) = 6 P ( X 0 0 ) 6 0 = 0,6 3

58 Kovarianz und Kovarianz: Cov(X, Y) skoeffizient: ρ(x, Y) = = E[(X E(X))(Y E(Y))] = E(X Y) E(X) E(Y) (Verschiebungssatz) Cov(X, Y) Var(X) Var(Y). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Bemerkungen: ρ ist r nachgebildet ρ [ ; ] ρ = Y = a + bx (mit b 0) ρ = 0 X, Y unkorreliert Varianz einer Summe zweier ZV: Var(X + Y) = Var(X) + Var(Y) + Cov(X, Y) 3 : Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung 4 Induktive

59 der induktiven Beispiel Vollerhebung of unmöglich, Deshalb: Beobachte Teilgesamtheit und schließe auf Grundgesamtheit Warensendung von 000 Stück; darunter M Stück Ausschuss. M ist unbekannt. Zufällige Entnahme von n = 30 Stück ( Stichprobe ). Darunter Stück Ausschuss. Denkbare Zielsetzungen: Schätze M durch eine Zahl (z.b = 66,67) Schätze ein Intervall für M (z.b. M [58; 84]) Teste die Hypothese, dass M > 50 ist.. Deskriptive 4. Induktive 34 Grundbegriffe Grundgesamtheit (G): Menge aller relevanten Merkmalsträger. Verteilung von G: F(x) = P(X x) = Wahrscheinlichkeit, dass ein Merkmalsträger ausgewählt wird, der beim untersuchten Merkmal maximal die Ausprägung x aufweist. Uneingeschränkte (reine) Zufallsauswahl: Jedes Element von G hat die selbe Chance, ausgewählt zu werden. Stichprobenumfang (n): Anzahl der Merkmalsträger in der Stichprobe. Einfache Stichprobe: Uneingeschränkte Zufallsauswahl und unabhängige Ziehung. Alle Stichprobenvariablen X,..., X n sind iid. Stichprobenergebnis: n-tupel der Realisationen der Stichprobenvariablen, (x,..., x n ).. Deskriptive 4. Induktive 35

60 Wichtige Stichprobenfunktionen Gegeben: Einfache Stichprobe X,..., X n, mit E(X i ) = µ, Var(X i ) = σ Beliebige Verteilung, Stichprobenfunktion V Bezeichnung E(V) Var(V) n X i Merkmalssumme nµ nσ X = n n X i Stichprobenmittel µ X µ n Gauß- 0 σ n n n n mittlere quadratische (X i µ) Abweichung bezüglich µ mittlere quadratische (X i X) Abweichung S = n S = S σ n n (X i X) Stichprobenvarianz σ Stichproben- Standardabweichung n σ σ n. Deskriptive 4. Induktive X µ n S t- 36 Auswirkungen der Stichprobengröße Ziehen von Stichproben (jeweils vom Umfang n) und Berechnung der Stichprobenmittel (Verteilung: zwei überlagerte Gleichverteilungen):. Deskriptive 4. Induktive 37

61 Auswirkungen der Stichprobengröße. Deskriptive 4. Induktive 38 Auswirkungen der Stichprobengröße. Deskriptive 4. Induktive 39

62 Testverteilungen Chi-Quadrat-Verteilung Sind X,..., X n iid N(0; )-verteilte Zufallsvariablen, so wird die Verteilung von n Z = als Chi-Quadrat-Verteilung mit n Freiheitsgraden bezeichnet. f(x) X i. Deskriptive 4. Induktive 0, 0, x Kurzschreibweise: Z χ (n) Beispiel: χ (30): x 0,975 = 46,98 40 Quantilstabelle der χ -Verteilung mit n Freiheitsgraden α\n Deskriptive 4. Induktive α\n

63 Testverteilungen: t-verteilung Ist X N(0; ), Z χ (n), X, Z unabhängig, so wird die Verteilung von T = X n Z als t-verteilung mit n Freiheitsgraden bezeichnet. f(x) William Sealy Gosset Deskriptive 4. Induktive 0, 0, x 3 3 Kurzschreibweise: T t(n) Beispiel: t(0) x 0,6 = 0,60, x 0,5 = 0, x 0, = x 0,9 =,37 4 Quantilstabelle der t-verteilung mit n Freiheitsgraden α\n Deskriptive 4. Induktive 43

64 t-verteilung vs. Normalverteilung Dichtefunktion t-verteilung mit (blau), 3 (grün) und 0 (lila) Freiheitsgraden Standardnormalverteilung (rot). Deskriptive 4. Induktive 44 Ein unbekannter Parameter ϑ der Verteilung von G soll auf Basis einer Stichprobe geschätzt werden. Zum Beispiel: σ von N(0; σ) Schätzwert: ˆϑ Vorgehen: Verwendung einer Schätzfunktion ˆΘ = g(x,..., X n ) Beachte: Der Schätzwert ˆϑ ist die Realisierung der ZV (!) ˆΘ. Frage: Welche Stichprobenfunktion ist zur Schätzung geeignet? Kriterien für die Beurteilung/Konstruktion von Schätzfunktionen! Im Folgenden: Vorliegen einer einfachen Stichprobe, d.h. X,..., X n iid.. Deskriptive 4. Induktive 45

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Bundesliga-Spielplan für den VfB Stuttgart (fett) p pdf-datei by http://vfb-fansite.npage.de/ Erster Spieltag (15. bis 16. August)

Bundesliga-Spielplan für den VfB Stuttgart (fett) p pdf-datei by http://vfb-fansite.npage.de/ Erster Spieltag (15. bis 16. August) Bundesliga-Spielplan für den VfB Stuttgart (fett) p pdf-datei by http://vfb-fansite.npage.de/ Erster Spieltag (15. bis 16. August) Bayern München - Hamburger SV (Freitag, 20.30 Uhr) Schalke 04 - Hannover

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/31 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8 . Aufgabe: Für zwei verschiedene Aktien wurde der relative Kurszuwachs (in % beobachtet. Aus den jeweils 20 Quartaldaten ergaben sich die folgenden Box-Plots. Box-and-Whisker Plot Aktie Aktie 2-0,2 0,8,8

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/35 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests Beispiel: Sonntagsfrage Vier Wochen vor der österreichischen Nationalratswahl 1999 wurde 499 Haushalten die Sonntagsfrage gestellt: Falls nächsten Sonntag Wahlen wären, welche Partei würden Sie wählen?

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.1 Schätzer für Lage- und Skalenparameter und Verteilungsmodellwahl Lageparameter (l(x + a) = l(x) + a): Erwartungswert EX Median von X

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

9. StatistischeTests. 9.1 Konzeption

9. StatistischeTests. 9.1 Konzeption 9. StatistischeTests 9.1 Konzeption Statistische Tests dienen zur Überprüfung von Hypothesen über einen Parameter der Grundgesamtheit (bei einem Ein-Stichproben-Test) oder über die Verteilung einer Zufallsvariablen

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

$ % + 0 sonst. " p für X =1 $

$ % + 0 sonst.  p für X =1 $ 31 617 Spezielle Verteilungen 6171 Bernoulli Verteilung Wir beschreiben zunächst drei diskrete Verteilungen und beginnen mit einem Zufallsexperiment, indem wir uns für das Eintreffen eines bestimmten Ereignisses

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen 4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.

Mehr

Empirische Softwaretechnik. Einführung in das Statistikpaket R?! Entwickler von R. nicht vergleichbar mit den üblichen Statistikprogrammen

Empirische Softwaretechnik. Einführung in das Statistikpaket R?! Entwickler von R. nicht vergleichbar mit den üblichen Statistikprogrammen Empirische Softwaretechnik Einführung in das Statistikpaket Prof. Dr. Walter F. Tichy Dr. Frank Padberg Sommersemester 2007 1 2 R?! nicht vergleichbar mit den üblichen Statistikprogrammen wie SAS oder

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses.

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses. XI. Binomialverteilung ================================================================== 11.1 Definitionen -----------------------------------------------------------------------------------------------------------------

Mehr

Ergebnis. Tipp. Punkte. Tipp. Ergebnis. Punkte. Tipp. Ergebnis. Punkte. Punkte

Ergebnis. Tipp. Punkte. Tipp. Ergebnis. Punkte. Tipp. Ergebnis. Punkte. Punkte 1. Spieltag 05.08.2011 Borussia Dortmund - Hamburger SV 06.08.2011 FC Bayern München - Bor. Mönchengladbach 06.08.2011 Hertha BSC - 1. FC Nürnberg 06.08.2011 FC Augsburg - SC Freiburg 06.08.2011 Hannover

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Mini-Skript Wahrscheinlichkeitstheorie und Statistik

Mini-Skript Wahrscheinlichkeitstheorie und Statistik Mini-Skript Wahrscheinlichkeitstheorie und Statistik Peter Bühlmann Georg Grafendorfer, Lukas Meier Inhaltsverzeichnis 1 Der Begriff der Wahrscheinlichkeit 1 1.1 Rechenregeln für Wahrscheinlichkeiten........................

Mehr

Statistische Software P. Fink. Statistische Software (R) Wiederholungshausübung SoSe 2015

Statistische Software P. Fink. Statistische Software (R) Wiederholungshausübung SoSe 2015 Allgmeine Hinweise Die Hausübung umfasst 7 Aufgaben mit insgesamt 120 Punkten. Erstellen Sie eine R Skript-Datei mit Ihrer Matrikelnummer als Dateinamen. Diese Datei enthält Ihren vollständigen und mit

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik In der beschreibenden Statistik werden Methoden behandelt, mit deren Hilfe man Daten übersichtlich darstellen und kennzeichnen kann. Die Urliste (=Daten in der Reihenfolge ihrer Erhebung)

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse

Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse Phasen des Forschungsprozesses Auswahl des Forschungsproblems Theoriebildung Theoretische Phase Konzeptspezifikation / Operationalisierung

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Fragestellungen der Schließenden Statistik

Fragestellungen der Schließenden Statistik Fragestellungen der Schließenden Statistik Bisher: Teil I: Beschreibende Statistik Zusammenfassung von an GesamtheitM N {e,,e N } erhobenem Datensatz x,,x N durch Häufigkeitsverteilung und Kennzahlen für

Mehr

Fußball-Ergebnistipps, Saison 2015/16

Fußball-Ergebnistipps, Saison 2015/16 Fußball-Ergebnistipps, Saison 2015/16 V1.0, Sven Guyet 2015 1. Spieltag (14.-16.08.2015) FC Bayern M ünchen - Hamburger SV : Borussia Dortmund - Borussia Mönchengladbach : Bayer 04 Leverkusen - TSG 1899

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung Die Messung Skalenniveaus 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Grundbegriffe Statistische Einheit,

Mehr

Prüfung zu Modul 26 (BA Bw) bzw. 10 (BA IB) (Wirtschaftsstatistik)

Prüfung zu Modul 26 (BA Bw) bzw. 10 (BA IB) (Wirtschaftsstatistik) 2 3 Klausur-Nr = Sitzplatz-Nr Prüfung zu Modul 26 (BA Bw) bzw. 10 (BA IB) (Wirtschaftsstatistik) Klausurteil 1: Beschreibende Statistik BeStat-1 (7 ) n = 400 Personen wurden gefragt, wie viele Stück eines

Mehr

i x k k=1 i u i x i v i 1 0,2 24 24 0,08 2 0,4 30 54 0,18 3 0,6 54 108 0,36 4 0,8 72 180 0,60 5 1,0 120 300 1,00 2,22 G = 1 + 1 n 2 n i=1

i x k k=1 i u i x i v i 1 0,2 24 24 0,08 2 0,4 30 54 0,18 3 0,6 54 108 0,36 4 0,8 72 180 0,60 5 1,0 120 300 1,00 2,22 G = 1 + 1 n 2 n i=1 1. Aufgabe: Der E-Commerce-Umsatz (in Millionen Euro) der fünf größten Online- Shopping-Clubs liegt wie folgt vor: Club Nr. Umsatz 1 120 2 72 3 54 4 30 5 24 a) Bestimmen Sie den Ginikoeffizienten. b) Zeichnen

Mehr

Sozialwissenschaftliche Methoden und Statistik I

Sozialwissenschaftliche Methoden und Statistik I Sozialwissenschaftliche Methoden und Statistik I Universität Duisburg Essen Standort Duisburg Integrierter Diplomstudiengang Sozialwissenschaften Skript zum SMS I Tutorium Von Mark Lutter Stand: April

Mehr

!!! !!! Bundesligaspielplan Saison 2015/16! Hinrunde:! 1. Spieltag 14. bis 16. August 2015! Heim - Gast!

!!! !!! Bundesligaspielplan Saison 2015/16! Hinrunde:! 1. Spieltag 14. bis 16. August 2015! Heim - Gast! Bundesligaspielplan Saison 2015/16 Hinrunde: 1. Spieltag 14. bis 16. August 2015 Heim - Gast Bayern München - Hamburger SV Borussia Dortmund - Borussia Mönchengladbach Bayer Leverkusen - TSG 1899 Hoffenheim

Mehr

Prof. Dr. P. von der Lippe Statistik I NK SS 2002 Seite 1

Prof. Dr. P. von der Lippe Statistik I NK SS 2002 Seite 1 Prof. Dr. P. von der Lippe Statistik I NK SS 2002 Seite 1 Aufgabe 1 a) BWL-Student S hat von seinem Lieblingsonkel 10.000 geschenkt bekommen mit der Auflage damit etwas Vernünftiges zu machen. Nachdem

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Prüfen von Mittelwertsunterschieden: t-test

Prüfen von Mittelwertsunterschieden: t-test Prüfen von Mittelwertsunterschieden: t-test Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) t-test

Mehr

Statistik Musterlösungen

Statistik Musterlösungen Statistik Musterlösungen Regina Tüchler & Achim Zeileis Institut für Statistik & Mathematik Wirtschaftsuniversität Wien 1 Grundbegriffe (1.23) Skript Reaktionen auf Videofilm. Aussagen M, E, P, S h(m)

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

2. Eindimensionale (univariate) Datenanalyse

2. Eindimensionale (univariate) Datenanalyse 2. Eindimensionale (univariate) Datenanalyse Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Kennzahlen, Statistiken In der Regel interessieren uns nicht so sehr die beobachteten Einzeldaten

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

q = 1 p = 0.8 0.2 k 0.8 10 k k = 0, 1,..., 10 1 1 0.8 2 + 10 0.2 0.8 + 10 9 1 2 0.22 1 = 0.8 8 [0.64 + 1.6 + 1.8] = 0.678

q = 1 p = 0.8 0.2 k 0.8 10 k k = 0, 1,..., 10 1 1 0.8 2 + 10 0.2 0.8 + 10 9 1 2 0.22 1 = 0.8 8 [0.64 + 1.6 + 1.8] = 0.678 Lösungsvorschläge zu Blatt 8 X binomialverteilt mit p = 0. und n = 10: a PX = = 10 q = 1 p = 0.8 0. 0.8 10 = 0, 1,..., 10 PX = PX = 0 + PX = 1 + PX = 10 10 = 0. 0 0.8 10 + 0. 1 0.8 9 + 0 1 10 = 0.8 8 [

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3 I Einführung in STATISTICA 1 1 Erste Schritte in STATISTICA 3 2 Datenhaltung in STATISTICA 11 2.1 Die unterschiedlichen Dateitypen in STATISTICA....... 11 2.2 Import von Daten......... 12 2.3 Export von

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Grundlagen der Datenanalyse am Beispiel von SPSS

Grundlagen der Datenanalyse am Beispiel von SPSS Grundlagen der Datenanalyse am Beispiel von SPSS Einführung Dipl. - Psych. Fabian Hölzenbein hoelzenbein@psychologie.uni-freiburg.de Einführung Organisatorisches Was ist Empirie? Was ist Statistik? Dateneingabe

Mehr

Elisabeth Raab-Steiner/Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS/PASW-Auswertung. 2., aktualisierte Auflage. facultas.

Elisabeth Raab-Steiner/Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS/PASW-Auswertung. 2., aktualisierte Auflage. facultas. Elisabeth Raab-Steiner/Michael Benesch Der Fragebogen Von der Forschungsidee zur SPSS/PASW-Auswertung 2., aktualisierte Auflage facultas.wuv Inhaltsverzeichnis 1 Elementare Definitionen 11 1.1 Deskriptive

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Analyse bivariater Kontingenztafeln

Analyse bivariater Kontingenztafeln Analyse bivariater Kontingenztafeln Werden zwei kategoriale Merkmale mit nicht zu vielen möglichen Ausprägungen gemeinsam analysiert, so kommen zur Beschreibung der gemeinsamen Verteilung im allgemeinen

Mehr

Datenanalyse und Statistik

Datenanalyse und Statistik Datenanalyse und Statistik p. 1/44 Datenanalyse und Statistik Vorlesung 2 (Graphik I) K.Gerald van den Boogaart http://www.stat.boogaart.de Datenanalyse und Statistik p. 2/44 Daten Schätzung Test Mathe

Mehr

Kapitel 3. Erste Schritte der Datenanalyse. 3.1 Einlesen und Überprüfen der Daten

Kapitel 3. Erste Schritte der Datenanalyse. 3.1 Einlesen und Überprüfen der Daten Kapitel 3 Erste Schritte der Datenanalyse 3.1 Einlesen und Überprüfen der Daten Nachdem die Daten erfasst worden sind, etwa mit Hilfe eines Fragebogens, ist die nächste Frage, wie ich sie in den Rechner

Mehr

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen Univariate/ multivariate Ansätze Klaus D. Kubinger Effektgrößen Rasch, D. & Kubinger, K.D. (2006). Statistik für das Psychologiestudium Mit Softwareunter-stützung zur Planung und Auswertung von Untersuchungen

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Abhängigkeit zweier Merkmale

Abhängigkeit zweier Merkmale Abhängigkeit zweier Merkmale Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/33 Allgemeine Situation Neben der Untersuchung auf Unterschiede zwischen zwei oder mehreren Untersuchungsgruppen hinsichtlich

Mehr

Einführung in die Statistik mir R

Einführung in die Statistik mir R Einführung in die Statistik mir R ww w. syn t egris.de Überblick GESCHÄFTSFÜHRUNG Andreas Baumgart, Business Processes and Service Gunar Hofmann, IT Solutions Sven-Uwe Weller, Design und Development Jens

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Modul 2 im B.Sc.-Studiengang Psychologie

Modul 2 im B.Sc.-Studiengang Psychologie LOTSE Vorläufige Musterlösungen (Stand: 30. März) zur Klausur zum Modul 2 im B.Sc.-Studiengang Psychologie Termin: 8. März 2010, 14.00-18.00 Uhr Prüfer: apl. Prof. Dr. H.-J. Mittag (Block 1) Dr. H.-G.

Mehr

Empirische Softwaretechnik Datenanalyse mit R

Empirische Softwaretechnik Datenanalyse mit R Empirische Softwaretechnik Dr. Victor Pankratius Andreas Höfer Wintersemester 2009/2010 IPD Tichy, Fakultät für Informatik KIT die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe

Mehr

Einführung in die Stochastik

Einführung in die Stochastik Einführung in die Stochastik Josef G. Steinebach Köln, WS 2009/10 I Wahrscheinlichkeitsrechnung 1 Wahrscheinlichkeitsräume, Urnenmodelle Stochastik : Lehre von den Gesetzmäßigkeiten des Zufalls, Analyse

Mehr

Medizinische Biometrie (L5)

Medizinische Biometrie (L5) Medizinische Biometrie (L5) Vorlesung II Daten Deskription Prof. Dr. Ulrich Mansmann Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie mansmann@ibe.med.uni-muenchen.de IBE,

Mehr

Übungsaufgaben zu Kapitel 5. Aufgabe 101. Inhaltsverzeichnis:

Übungsaufgaben zu Kapitel 5. Aufgabe 101. Inhaltsverzeichnis: Inhaltsverzeichnis: Übungsaufgaben zu Kapitel 5... 1 Aufgabe 101... 1 Aufgabe 102... 2 Aufgabe 103... 2 Aufgabe 104... 2 Aufgabe 105... 3 Aufgabe 106... 3 Aufgabe 107... 3 Aufgabe 108... 4 Aufgabe 109...

Mehr

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler DAS THEMA: INFERENZSTATISTIK II INFERENZSTATISTISCHE AUSSAGEN Standardfehler Konfidenzintervalle Signifikanztests Standardfehler der Standardfehler Interpretation Verwendung 1 ZUR WIEDERHOLUNG... Ausgangspunkt:

Mehr

Spiel Nr. 21 Tipp Spiel Nr. 22 Tipp Spiel Nr. 23 Tipp

Spiel Nr. 21 Tipp Spiel Nr. 22 Tipp Spiel Nr. 23 Tipp Seite 1 SPIELER: STARTGELD 10 Spiel Nr. 18 Tipp Spiel Nr. 19 Tipp Spiel Nr. 20 Tipp 1 VfL Wolfsburg FC Bayern München: 10 FC Bayern München FC Schalke 04 : 19 VfB Stuttgart FC Bayern München : 2 Bayer

Mehr

Anwendung von Statistik in Excel Deskriptive Statistik und Wirtschaftsstatistik

Anwendung von Statistik in Excel Deskriptive Statistik und Wirtschaftsstatistik Anwendung von Statistik in Excel Deskriptive Statistik und Wirtschaftsstatistik Wintersemester 08/09 Kai Schaal Universität zu Köln Organisatorisches und Einleitung (1) Was, wann, wo? Anwendung von Statistik

Mehr

Grundbegriffe (1) Grundbegriffe (2)

Grundbegriffe (1) Grundbegriffe (2) Grundbegriffe (1) S.1 Äquivalenzklasse Unter einer Äquivalenzklasse versteht man eine Klasse von Objekten, die man hinsichtlich bestimmter Merkmalsausprägungen als gleich (äquivalent) betrachtet. (z.b.

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 2 28.02.2008 1 Inhalt der heutigen Übung Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben 2.1: Häufigkeitsverteilung 2.2: Tukey Boxplot 25:Korrelation

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

Evaluation der Normalverteilungsannahme

Evaluation der Normalverteilungsannahme Evaluation der Normalverteilungsannahme. Überprüfung der Normalverteilungsannahme im SPSS P. Wilhelm; HS SPSS bietet verschiedene Möglichkeiten, um Verteilungsannahmen zu überprüfen. Angefordert werden

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

Bundesligatip 2015/2016. Teilnehmer

Bundesligatip 2015/2016. Teilnehmer Bundesligatip 2015/2016 Teilnehmer Spieltag: 1 14.08.2015 Spieltag: 6 22.09.2015 Bayern München : Hamburger SV : Bayern München : Vfl Wolfsburg : Darmstadt 98 : Hannover 96 : Schalke 04 : Eintracht Frankfurt

Mehr

Mathematik 2 für TM Aufgabensammlung Sommersemester 2008 Prof. Dr. Stefan Etschberger Hochschule Ravensburg-Weingarten

Mathematik 2 für TM Aufgabensammlung Sommersemester 2008 Prof. Dr. Stefan Etschberger Hochschule Ravensburg-Weingarten Mathematik 2 für TM Aufgabensammlung Sommersemester 2008 Prof. Dr. Stefan Etschberger Hochschule Ravensburg-Weingarten Aufgabe 1 Ein Einzelhändler registriert für einen Exklusivartikel im Verlauf von 30

Mehr

Grundlagen von Versuchsmethodik und Datenanalyse

Grundlagen von Versuchsmethodik und Datenanalyse Grundlagen von Versuchsmethodik und Datenanalyse Der Anfang: Hypothesen über Ursache-Wirkungs-Zusammenhänge Ursache Wirkung Koffein verbessert Kurzzeitgedächtnis Gewaltfilme führen zu aggressivem Verhalten

Mehr

Kernel, Perceptron, Regression. Erich Schubert, Arthur Zimek. 2014-07-20 KDD Übung

Kernel, Perceptron, Regression. Erich Schubert, Arthur Zimek. 2014-07-20 KDD Übung Kernel, Perceptron, Regression Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-07-20 KDD Übung Kernel-Fukctionen Kernel kann mehrdeutig sein! Unterscheidet zwischen: Kernel function

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

SFB 833 Bedeutungskonstitution. Kompaktkurs. Datenanalyse. Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015

SFB 833 Bedeutungskonstitution. Kompaktkurs. Datenanalyse. Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015 SFB 833 Bedeutungskonstitution Kompaktkurs Datenanalyse Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015 Messen und Skalen Relativ (Relationensystem): Menge A von Objekten und eine oder mehrere Relationen

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Methoden der empirischen Sozialforschung I

Methoden der empirischen Sozialforschung I Methoden der empirischen Sozialforschung I Annelies Blom, PhD TU Kaiserslautern Wintersemester 2011/12 Übersicht Quantitative Datenauswertung: deskriptive und induktive Statistik Wiederholung: Die wichtigsten

Mehr

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY 5.2. Nichtparametrische Tests 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY Voraussetzungen: - Die Verteilungen der beiden Grundgesamtheiten sollten eine ähnliche Form aufweisen. - Die

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr