Statistik Workshop. 12. und 14. Januar Prof. Dr. Stefan Etschberger HSA

Größe: px
Ab Seite anzeigen:

Download "Statistik Workshop. 12. und 14. Januar Prof. Dr. Stefan Etschberger HSA"

Transkript

1 Workshop Mini-Einführung und Auffrischung zu einigen Teilen der angewandten 12. und 14. Prof. Dr. Stefan Etschberger HSA

2 Outline 1 : Einführung Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2 Deskriptive 3 Wahrscheinlichkeitstheorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4 Induktive Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5 Datenanalyse Einleitung Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse Datenanalyse: Prozess 2. Deskriptive 4. Induktive 2

3 Material zur Vorlesung Kursmaterial: Handout der Folien Alle Folien inklusive Anmerkungen (am Abend) Beispieldaten Alle Auswertungen als R-Datei 2. Deskriptive 4. Induktive Literatur: Bamberg, Günter, Franz Baur und Michael Krapp (2011) Aufl. München: Oldenbourg Verlag. ISBN: Dalgaard, Peter (2002). Introductory Statistics with R. New York: Springer. Fahrmeir, Ludwig, Rita Künstler, Iris Pigeot und Gerhard Tutz (2009). : Der Weg zur Datenanalyse. 7. Aufl. Berlin, Heidelberg: Springer. ISBN: Dalgaard (2002)Fahrmeir u. a. (2009) Bamberg u. a. (2011) 3

4 Datenbasis Fragebogen Umfrage Sommersemester 2014 Bitte beantworten Sie folgende Fragen vollständig und füllen Sie jeweils nur eine beliebige Spalte leserlich aus. Ihr Alter (in Jahren) Ihre Größe (in cm) Ihr Geschlecht (m/w) Wie alt ist (bzw. wäre) Ihr Vater heute? Wie alt ist (bzw. wäre) Ihre Mutter heute? Größe Ihres Vaters (cm) Größe Ihrer Mutter (cm) Wie viele Geschwister haben Sie? Wunschfarbe für Ihr nächstes Smartphone; mögliche Auswahl: (si)lber, (sc)hwarz, (w)eiß, (g)elb, (b)lau, (r)ot Ausgaben für Ihre mobile Kommunikation (egal wer bezahlt hat) in den vergangenen 12 Monaten inkl. Hardware (Smartphone, Zubehör), Software (Apps), Vertrag Wie viele Paar Schuhe besitzen Sie? Ausgaben für Ihre Schuhe (egal wer bezahlt hat) in den letzten 12 Monaten Ihre Note in der Matheklausur Waren Sie mir Ihrer Leistung in Mathe zufrieden? Antworten: (s)ehr zufrieden, (z)ufrieden, (g)eht so, (n)icht zufrieden

5 : Table of Contents 1 : Einführung 2 Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung 1 : Einführung Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio

6 Auswahl der Stichprobe Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive 6

7 Kandidat für die schlechteste Grafik aller Zeiten Aussage? Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive Quelle: Friendly, Michael (2001), Gallery of Data Visualization, Stand November

8 Die beste Grafik aller Zeiten? Minards Grafik von 1869 über Napoleons Rußlandfeldzug Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive Quelle: Wikimedia Commons, Stand November

9 Bedeutungen des Begriffs Zusammenstellung von Zahlen Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio Statistische Methoden 2. Deskriptive 4. Induktive W-theorie Deskriptive Induktive 9

10 Einfaches Beispiel Beispiel 12 Beschäftigte werden nach der Entfernung zum Arbeitsplatz (in km) befragt. Antworten: 4, 11, 1, 3, 5, 4, 20, 4, 6, 16, 10, 6 deskriptiv: Durchschnittliche Entfernung: 7,5 Klassenbildung: Klasse [0; 5) [5; 15) [15; 30) Häufigkeit Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive induktiv: Schätze die mittlere Entfernung aller Beschäftigten. Prüfe, ob die mittlere Entfernung geringer als 10 km ist. 10

11 Merkmale Merkmalsträger: Untersuchte statistische Einheit Merkmal: Interessierende Eigenschaft des Merkmalträgers (Merkmals-)Ausprägung: Konkret beobachteter Wert des Merkmals Grundgesamtheit: Menge aller relevanten Merkmalsträger Typen von Merkmalen: a) qualitativ quantitativ qualitativ: z.b. Geschlecht quantitativ: z.b. Schuhgröße Qualitative Merkmale sind quantifizierbar (z.b.: weiblich 1, männlich 0) b) diskret stetig diskret: Abzählbar viele unterschiedliche Ausprägungen stetig: Alle Zwischenwerte realisierbar Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive 11

12 Skalenniveaus Nominalskala: Zahlen haben nur Bezeichnungsfunktion z.b. Artikelnummern Fehler durch Ordinalskala: zusätzlich Rangbildung möglich z.b. Schulnoten Differenzen sind aber nicht interpretierbar! Addition usw. ist unzulässig. Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive Kardinalskala: zusätzlich Differenzbildung sinnvoll z.b. Gewinn Noch feinere Unterscheidung in: Absolutskala, Verhältnisskala, Intervallskala 12

13 Skalendegression und Skalenprogression Ziel der Skalierung: Gegebene Information angemessen abbilden, möglichst ohne Über- bzw. Unterschätzungen Es gilt: Grundsätzlich können alle Merkmale nominal skaliert werden. Grundsätzlich kann jedes metrische Merkmal ordinal skaliert werden. Das nennt man Skalendegression. Dabei: Informationsverlust Aber: Nominale Merkmale dürfen nicht ordinal- oder metrisch skaliert werden. Ordinale Merkmale dürfen nicht metrisch skaliert werden. Das nennt nennt man Skalenprogression. Dabei: Interpretation von mehr Informationen in die Merkmale, als inhaltlich vertretbar. (Gefahr der Fehlinterpretation) Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive 13

14 Was ist R und warum soll man es benutzen? R ist ein freies Softwarepaket zu und Datenanalyse Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive graphics source: 14

15 Etschberger Was ist R und warum soll man es benutzen? R ist ein freies Softwarepaket zu und Datenanalyse Fehler durch R ist sehr mächtig und weit verbreitet in Wissenschaft und Industrie (sogar von mehr Leuten benutzt als z.b. SPSS) Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive source: graphics source: 14

16 Was ist R und warum soll man es benutzen? R ist ein freies Softwarepaket zu und Datenanalyse R ist sehr mächtig und weit verbreitet in Wissenschaft und Industrie (sogar von mehr Leuten benutzt als z.b. SPSS) Etschberger Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio Ursprung von R: 1993 an der Universität Auckland von Ross Ihaka and Robert Gentleman entwickelt 2. Deskriptive 4. Induktive graphics source: 14

17 Was ist R und warum soll man es benutzen? R ist ein freies Softwarepaket zu und Datenanalyse R ist sehr mächtig und weit verbreitet in Wissenschaft und Industrie (sogar von mehr Leuten benutzt als z.b. SPSS) Etschberger Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio Ursprung von R: 1993 an der Universität Auckland von Ross Ihaka and Robert Gentleman entwickelt Seitdem: Viele Leute haben R verbessert mit tausenden von Paketen für viele Anwendungen 2. Deskriptive 4. Induktive graphics source: 14

18 Was ist R und warum soll man es benutzen? R ist ein freies Softwarepaket zu und Datenanalyse R ist sehr mächtig und weit verbreitet in Wissenschaft und Industrie (sogar von mehr Leuten benutzt als z.b. SPSS) Ursprung von R: 1993 an der Universität Auckland von Ross Ihaka and Robert Gentleman entwickelt Seitdem: Viele Leute haben R verbessert mit tausenden von Paketen für viele Anwendungen Nachteil (auf den ersten Blick): Kein point und click tool Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive graphics source: 14

19 Was ist R und warum soll man es benutzen? R ist ein freies Softwarepaket zu und Datenanalyse R ist sehr mächtig und weit verbreitet in Wissenschaft und Industrie (sogar von mehr Leuten benutzt als z.b. SPSS) Ursprung von R: 1993 an der Universität Auckland von Ross Ihaka and Robert Gentleman entwickelt Seitdem: Viele Leute haben R verbessert mit tausenden von Paketen für viele Anwendungen Nachteil (auf den ersten Blick): Kein point und click tool Großer Vorteil (auf den zweiten Blick): Kein point und click tool Download: R-project.org Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive graphics source: 14

20 Was ist RStudio? RStudio ist ein Integrated Development Environment (IDE) um R leichter benutzen zu können. Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive 15

21 Was ist RStudio? RStudio ist ein Integrated Development Environment (IDE) um R leichter benutzen zu können. Gibt s für OSX, Linux und Windows Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive 15

22 Was ist RStudio? RStudio ist ein Integrated Development Environment (IDE) um R leichter benutzen zu können. Gibt s für OSX, Linux und Windows Ist auch frei Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive 15

23 Was ist RStudio? RStudio ist ein Integrated Development Environment (IDE) um R leichter benutzen zu können. Gibt s für OSX, Linux und Windows Ist auch frei Trotzdem: Sie müssen Kommandos schreiben Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive 15

24 Was ist RStudio? RStudio ist ein Integrated Development Environment (IDE) um R leichter benutzen zu können. Gibt s für OSX, Linux und Windows Ist auch frei Trotzdem: Sie müssen Kommandos schreiben Aber: RStudio unterstützt Sie dabei Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive 15

25 Was ist RStudio? RStudio ist ein Integrated Development Environment (IDE) um R leichter benutzen zu können. Gibt s für OSX, Linux und Windows Ist auch frei Trotzdem: Sie müssen Kommandos schreiben Aber: RStudio unterstützt Sie dabei Download: RStudio.com Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive 15

26 Erste Schritte RStudio Kennenlernen Code Console Workspace History Files Plots Packages Help Auto- Completion Data Import Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive 16

27 Daten einlesen und Struktur anschauen # Arbeitsverzeichnis setzen (alternativ über Menü) setwd("c:/ste/work/vorlesungen/2014ws_doktorandenworkshop/2015_01 Workshop") # Daten einlesen aus einer csv-datei (Excel) MyData = read.csv2(file="../daten/umfrage_hsa_2014_03.csv", header=true) # inspect structure of data str(mydata) ## 'data.frame': 205 obs. of 10 variables: ## $ Alter : int ## $ Geschlecht : Factor w/ 2 levels "Frau","Mann": ## $ AlterV : int ## $ AlterM : int ## $ Geschwister: int ## $ Farbe : Factor w/ 6 levels "blau","gelb",..: ## $ AusgSchuhe : int ## $ AnzSchuhe : int ## $ AusgKomm : num ## $ MatheZufr : Ord.factor w/ 4 levels "nicht"<"geht so"<..: Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive 17

28 Erste Zeilen der Datentabelle # Erste Zeilen in Datentabelle head(mydata, 6) ## Alter Geschlecht AlterV AlterM Geschwister Farbe AusgSchuhe AnzSchuhe AusgKomm MatheZufr ## 1 21 Frau weiss nicht ## 2 20 Frau weiss sehr ## 3 19 Frau schwarz sehr ## 4 20 Frau schwarz sehr ## 5 20 Frau weiss sehr ## 6 24 Mann schwarz geht so # lege MyData als den "Standard"-Datensatz fest attach(mydata) Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive # Wie Viele Objekte gibt's im Datensatz? nrow(mydata) ## [1] 205 # Wie Viele Merkmale? ncol(mydata) ## [1] 10 18

29 Daten kennenlernen # Auswahl spezieller Objekte und Merkmale über [Zeile, Spalte] MyData[1:3, 2:5] ## Geschlecht AlterV AlterM Geschwister ## 1 Frau ## 2 Frau ## 3 Frau # Auswahl von Objekten über logische Ausdrücke head(geschlecht=="frau" & Alter<19, 30) ## [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE ## [17] FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE # Einsetzen in Klammern und Ausgabe von Alter des Studenten, seines Vaters und seiner Mutter MyData[Geschlecht=="Frau" & Alter<19, # Objektauswahl c("alter", "AlterM", "AlterV") # Welche Merkmale anzeigen? ] Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive ## Alter AlterM AlterV ## ## ## ## ## ## ## ## ##

30 Daten kennenlernen # Zeige die Männer, die mehr als 1000 Euro für Schuhe # und Mobilfunk zusammen ausgegeben haben MyData[Geschlecht=="Mann" & AusgSchuhe + AusgKomm > 1000, c("alter", "Geschwister", "Farbe", "AusgSchuhe", "AusgKomm")] ## Alter Geschwister Farbe AusgSchuhe AusgKomm ## weiss ## rot ## schwarz ## silber ## blau ## schwarz ## schwarz ## schwarz ## schwarz ## schwarz Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive 4. Induktive 20

31 : Table of Contents 1 : Einführung 2 Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung 2 Deskriptive

32 Häufigkeitsverteilungen Auswertungsmethoden für eindimensionales Datenmaterial Merkmal X wird an n Merkmalsträgern beobachtet Urliste (x 1,..., x n) Im Beispiel: x 1 = 4, x 2 = 11,..., x 12 = 6 Urlisten sind oft unübersichtlich, z.b.: 2. Deskriptive ## [1] ## [49] 7 5 Dann zweckmäßig: Häufigkeitsverteilungen 4. Induktive Ausprägung (sortiert) a j absolute Häufigkeit h(a j ) = h j kumulierte abs. H. j H(a j ) = h(a i ) i=1 relative Häufigkeit f(a j ) = h(a j )/n kumulierte rel. H. j F(a j ) = f(a i ) i=

33 Beispiel: Fragebogen Alter von Studierenden in Vorlesung Absolute h(a j ) j H(a j ) = h(a j ) i=1 2. Deskriptive 4. Induktive Relative frequencies f(a j ) = h(a j ) n j F(a j ) = f(a j ) i=1 23

34 Graphische Darstellungen ➊ Balkendiagramm table(x) ## x ## ## barplot(table(x), col="azure2") (Höhe proportional zu Häufigkeit) ➋ Kreissektorendiagramm Winkel: w j = 360 f(a j ) z.b. w 1 = = 7,2 pie(table(x)) 5 w 7 = 360 (Fläche proportional zu Häufigkeit) = 57, Deskriptive 4. Induktive 24

35 Umfrage: Kuchen Kreissektorendiagramm pie(table(mydata$farbe), col=c("blue", "yellow", "red", "black", "grey", "white")) schwarz rot gelb blau pie(table(mydata$geschlecht), col=c("coral1", "aquamarine")) Frau 2. Deskriptive 4. Induktive silber Wunschfarbe weiss Mann Geschlecht 25

36 Balkendiagramm, Klassen getrennt oder gestapelt barplot(xtabs(~ Geschlecht + Alter), legend=true, beside=true, col=c("mistyrose", "lightblue")) Alter versus Geschlecht barplot(xtabs(~ Geschlecht + Alter), legend=true, beside=false, col=c("mistyrose", "lightblue")) Frau Mann 2. Deskriptive 4. Induktive Mann Frau Alter versus Geschlecht 26

37 Graphische Darstellungen ➌ Histogramm für klassierte Daten Fläche proportional zu Häufigkeit: Höhe j Breite j = c h(a j ) Höhe j = c h(a j) Breite j Im Beispiel mit c = 1 12 : Klasse [0; 5) [5; 15) [15; 30] h(a j ) Breite j Höhe j histdata <- c(0,1,2,3,4, 5,6,7,10,14, 15,30) truehist(histdata, breaks=c(0, 4.999, , 30), col="azure2", ylab='') histdata 2. Deskriptive 4. Induktive 27

38 Umfrage Histogramm plot(hist(alterm, plot=f, breaks=20), col=rgb(1,0,0,1/4), # make red transparent main="", xlim=c(40,80)) # draw from 40 to 80 plot(hist(alterv, plot=f, breaks=20), col=rgb(0,0,1,1/4), add=true) Frequency Deskriptive 4. Induktive AlterM Histogramm: Alter der Väter (blau) und Mütter (rosa) 28

39 Umfrage Dichteplot densmutter = density(alterm) densvater = density(alterv) plot(densmutter, main="", xlab="alter", xlim=c(40,80), # draw from 40 to 80 panel.first=grid()) # draw a grid polygon(densvater, density=-1, col=rgb(0,0,1,1/4)) polygon(densmutter, density=-1, col=rgb(1,0,0,1/4)) Density Deskriptive 4. Induktive Alter Dichteplot: Alter der Väter (blau) und Mütter (rosa) 29

40 Lageparameter 2. Deskriptive 4. Induktive "Sollen wir das arithmetische Mittel als durchschnittliche Körpergröße nehmen und den Gegner erschrecken, oder wollen wir ihn einlullen und nehmen den Median?" 30

41 Lageparameter Modus x Mod : häufigster Wert Beispiel: a j h(a j ) Sinnvoll bei allen Skalenniveaus. Median x Med : mittlerer Wert, d.h. } x Mod = 1 2. Deskriptive 1. Urliste aufsteigend sortieren: x 1 x 2 x n 2. Dann 4. Induktive { = x n+1, falls n ungerade x Med 2 [x n 2 ; x n 2 +1], falls n gerade (meist x Med = 1 (x 2 n + x 2 n 2 +1 )) Im Beispiel oben: 1, 1, 1, 1, 2, 2, 2, 4 x Med [1; 2], z.b. x Med = 1,5 Sinnvoll ab ordinalem Skalenniveau. 31

42 Lageparameter (2) Arithmetisches Mittel x: Durchschnitt, d.h. Im Beispiel: x = 1 n n x i = 1 n i=1 k a j h(a j ) j=1 x = 1 8 (1 } + 1 {{ } + 2 } + {{ } + }{{} 4 ) = 1, Sinnvoll nur bei kardinalem Skalenniveau. Bei klassierten Daten: 2. Deskriptive 4. Induktive Im Beispiel: x = 1 n Klassenmitte Klassenhäufigkeit x = 1 12 (2, ,5 2) = 8,96 7,5 = x 32

43 Umfrage Lageparameter Ausgaben für Schuhe median(ausgschuhe) ## [1] 250 mean(ausgschuhe) ## [1] Alter median(alter) ## [1] 21 mean(alter) ## [1] Lieblingsfarbe summary(geschlecht) ## Frau Mann ## Alter der Mutter median(alterm) ## [1] 51 mean(alterm) ## [1] Deskriptive 4. Induktive 33

44 Streuungsparameter Voraussetzung: kardinale Werte x 1,..., x n Beispiel: a) x i b) x i Spannweite: SP = max Im Beispiel: i x i min x i i } je x = 2000 a) SP = = 100 b) SP = = Deskriptive 4. Induktive Mittlere quadratische Abweichung: s 2 = 1 n n (x i x) 2 = 1 n x 2 i x 2 n i=1 }{{} Verschiebungssatz i=1 34

45 Streuungsparameter (2) Mittlere quadratische Abweichung im Beispiel: a) s 2 = 1 3 ( ) = 1 3 ( ) = 1666,67 b) s 2 = 1 3 ( ) = 1 3 ( ) = Standardabweichung: s = s 2 Im Beispiel: a) s = 1666,67 = 40,82 b) s = = 2828,43 2. Deskriptive 4. Induktive Variationskoeffizient: V = (maßstabsunabhängig) s x Im Beispiel: a) V = 40, = 0,02 ( = 2 %) b) V = 2828, = 1,41 ( = 141 %) 35

46 : Überblick LageStreuung = function(x) { x=na.omit(x) # ignoriere fehlende Werte n = length(x) # Anzahl nicht fehlender Werte popv = var(x)*(n-1)/n # var() ist nicht mittl. qu. Abweichung return(list(mean=mean(x), median=median(x), Variance=popV, StdDev=sqrt(popV), VarCoeff=sqrt(popV)/mean(x))) } mat1 = sapply(mydata[c("alter","alterv","alterm", # sapply: pro Spalte anwenden "Geschwister", "AnzSchuhe", "AusgSchuhe")], LageStreuung) Alter AlterV AlterM Geschwister AnzSchuhe AusgSchuhe mean median Variance StdDev VarCoeff Deskriptive 4. Induktive 36

47 als Grafik: Boxplot Graphische Darstellung von Box: Oberer/Unterer Rand: 3. bzw. 1. Quartil, Linie in Mitte: Median Whiskers: Länge: Max./Min Wert, aber beschränkt durch das 1,5-fache des Quartilsabstands (falls größter/kleinster Wert größeren/kleineren Abstand von Box: Länge Whiskers durch größten/kleinsten Wert innerhalb dieser Schranken) Ausreißer: Alle Objekte außerhalb der Whisker-Grenzen boxplot(anzschuhe ~ Geschlecht, col=c("mistyrose", "lightblue"), data=mydata, main="") Frau Mann Wieviel Paar Schuhe besitzen Sie? 2. Deskriptive 4. Induktive 37

48 Dateninspektion: Überblick über alle Variablen summary(mydata) ## Alter Geschlecht AlterV AlterM Geschwister Farbe ## Min. :18.00 Frau:134 Min. :38.00 Min. :37.0 Min. :0.000 blau :11 ## 1st Qu.:20.00 Mann: 71 1st Qu.: st Qu.:48.0 1st Qu.:1.000 gelb : 4 ## Median :21.00 Median :54.00 Median :51.0 Median :1.000 rot :13 ## Mean :22.22 Mean :53.95 Mean :51.5 Mean :1.473 schwarz:97 ## 3rd Qu.: rd Qu.: rd Qu.:54.0 3rd Qu.:2.000 silber :17 ## Max. :36.00 Max. :77.00 Max. :68.0 Max. :9.000 weiss :63 ## AusgSchuhe AnzSchuhe AusgKomm MatheZufr ## Min. : 0.0 Min. : 2.00 Min. : 30.0 nicht :68 ## 1st Qu.: st Qu.: st Qu.: geht so :47 ## Median : Median :20.00 Median : zufrieden:43 ## Mean : Mean :21.58 Mean : sehr :26 ## 3rd Qu.: rd Qu.: rd Qu.: NA's :21 ## Max. : Max. :80.00 Max. : Deskriptive 4. Induktive 38

49 Dateninspektion Boxplots for(attribute in c("alter", "AlterV", "AlterM", "Geschwister", "AusgSchuhe", "AusgKomm")) { data=mydata[, attribute] boxplot(data, # all rows, column of attribute col="lightblue", # fill color lwd=3, # line width cex=2, # character size oma=c(1,1,2,1) ) text(0.7,max(data), attribute, srt=90, adj=1) } 2. Deskriptive Alter AlterV AlterM Geschwister AusgSchuhe AusgKomm 4. Induktive 39

50 smaße Gegeben: kardinale Werte 0 x 1 x 2 x n Achtung! Die Werte müssen aufsteigend sortiert werden! Lorenzkurve: Wieviel Prozent der Merkmalssumme entfällt auf die x Prozent kleinsten Merkmalsträger? Beispiel: Die 90 % ärmsten besitzen 20 % des Gesamtvermögens. Streckenzug: (0,0), (u 1, v 1 ),..., (u n, v n) = (1,1) mit v k = Anteil der k kleinsten MM-Träger an der MM-Summe = k x i i=1 n x i i=1 2. Deskriptive 4. Induktive u k = Anteil der k kleinsten an der Gesamtzahl der MM-Träger = k n 40

51 Lorenzkurve: Beispiel Markt mit fünf Unternehmen; Umsätze: 6, 3, 11, 2, 3 (Mio. ) 5 n = 5, x k = 25 k=1 v k 2. Deskriptive 1 k x k p k 25 2 v k 25 1 u k u k 4. Induktive 41

52 Lorenzkurve Knickstellen: Bei i-tem Merkmalsträger x i+1 > x i Empirische Verteilungsfunktion liefert Knickstellen: a j h(a j ) f(a j ) 5 1 F(a j ) 5 Vergleich von Lorenzkurven: Deskriptive 4. Induktive Gleichverteilung extreme stärker konzentriert als schwer vergleichbar 42

53 Lorenzkurve: Beispiel Bevölkerungsanteil gegen BSP Bangladesch Brasilien Deutschland Ungarn USA (Stand 2000) Anteil am BSP 1,0 0,8 0,6 0,4 2. Deskriptive 4. Induktive 0,2 0,2 0,4 0,6 0,8 Anteil der Bevölkerung 1,0 43

54 Lorenzkurve: Beispiel Bevölkerungsanteil gegen BSP Bangladesch Brasilien Deutschland Ungarn USA (Stand 2000) Anteil am BSP 1,0 0,8 0,6 0,4 2. Deskriptive 4. Induktive 0,2 0,2 0,4 0,6 0,8 Anteil der Bevölkerung 1,0 43

55 Gini-Koeffizient Numerisches Maß der : Gini-Koeffizient G G = Aus den Daten: G = Fläche zwischen 45 -Linie und L Fläche unter 45 -Linie 2 n i x i (n + 1) n x i i=1 i=1 n n = x i i=1 2 n i p i (n + 1) i=1 n = wobei p i = x i n x i i=1 2. Deskriptive 4. Induktive Problem: G max = n 1 n Normierter Gini-Koeffizient: G = n G [0; 1] n 1 44

56 Gini-Koeffizient: Beispiel Beispiel: i x i p i Deskriptive G = 2 ( ) 15 (4 + 1) = 0, Induktive Mit G max = = 0,75 folgt G = 4 0,525 = 0,

57 smaße: Beispiel Armutsbericht der Bundesregierung 2008 Verteilung der Bruttoeinkommen in Preisen von 2000 aus unselbständiger Arbeit der Arbeitnehmer/-innen insgesamt Anteil am Einkommen 1,0 0,8 0,6 0,4 0,2 0,2 0,4 0,6 0,8 1,0 Anteil der Bevölkerung 2. Deskriptive 4. Induktive Arithmetisches Mittel Median Gini-Koeffizient 0,433 0,441 0,448 0,453 46

58 Lorenzkurve mit R require(ineq) # inequality Paket Lorenz = Lc(AusgSchuhe) plot(lorenz, xlab="", ylab="", main="") # Standard plot plot(c(0,1), c(0,1), type="n", # bisschen netter panel.first=grid(lwd=1.5, col=rgb(0,0,0,1/2)), xlab="", main="", ylab="") polygon(lorenz$p, Lorenz$L, density=-1, col=rgb(0,0,1,1/4), lwd=2) Deskriptive 4. Induktive Gini(AusgSchuhe) # Gini-Koeffizient ## [1]

59 Weitere smaße skoeffizient: CR g = Anteil, der auf die g größten entfällt = Herfindahl-Index: H = n p 2 i ( [ 1 n ; 1]) i=1 n i=n g+1 Es gilt: H = 1 n (V2 + 1) bzw. V = n H 1 Exponentialindex: E = n i=1 p p i i ( [ 1 n ; 1] ) wobei 0 0 = 1 p i = 1 v n g 2. Deskriptive 4. Induktive Im Beispiel mit x = (1, 2, 2, 15): CR 2 = = 0,85 ( ) 1 2 ( ) 15 2 H = + + = 0, ( ) 1 ( ) E = = 0,

60 Auswertungsmethoden für zweidimensionale Daten Zweidimensionale Urliste Urliste vom Umfang n zu zwei Merkmalen X und Y: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n) Kontingenztabelle: Sinnvoll bei wenigen Ausprägungen bzw. bei klassierten Daten. Ausprägungen von Y Ausprägungen von X b 1 b 2... b l 2. Deskriptive 4. Induktive a 1 h 11 h h 1l a 2 h 21 h h 2l.... a k h k1 h k2... h kl 49

61 Kontingenztabelle Unterscheide: Gemeinsame : h ij = h(a i, b j ) Randhäufigkeiten: l h i = h ij und h j = k j=1 i=1 h ij 2. Deskriptive 4. Induktive Bedingte (relative) : f 1 (a i b j ) = h ij h i h j und f 2 (b j a i ) = h ij 50

62 Beispiel: 400 unfallbeteiligte Autoinsassen: leicht verletzt schwer verletzt tot (= b 1 ) (= b 2 ) (= b 3 ) angegurtet (= a 1 ) (= h 11 ) (= h 12 ) (= h 13 ) (= h 1 ) nicht angegurtet (= a 2 ) (= h 21 ) (= h 22 ) (= h 23 ) (= h 2 ) (= h 1 ) (= h 2 ) (= h 3 ) (= n) 2. Deskriptive 4. Induktive f 2 (b 3 a 2 ) = 4 40 = 0,1 f 1 (a 2 b 3 ) = 4 10 = 0,4 (10 % der nicht angegurteten starben.) (40 % der Todesopfer waren nicht angegurtet.) 51

63 Streuungsdiagramm Beispiel: i x i y i Deskriptive 4. Induktive x = 25 5 = 5 ȳ = 28 5 = 5,6 52

64 Streuungsdiagramm Streuungsdiagramm sinnvoll bei vielen verschiedenen Ausprägungen (z.b. stetige Merkmale) Alle (x i, y i ) sowie ( x, ȳ) in Koordinatensystem eintragen. Beispiel: i x i y i y 3 x = 25 5 = 5 2 ȳ = 28 5 = 5,6 1 x x y 2. Deskriptive 4. Induktive 52

65 Beispiel Streuungsdiagramm 2. Deskriptive 4. Induktive (Datenquelle: Fahrmeir u. a. (2009)) 53

66 Beispiel Streuungsdiagramm mieten <- read.table('../../_data/mietenmuenchen.csv', header=true, sep='\t', check.names=true, fill=true, na.strings=c('','')) x <- cbind(nettomieten=mieten$nm, Wohnflaeche=mieten$wfl) library("geneplotter") ## from BioConductor smoothscatter(x, nrpoints=inf, colramp=colorramppalette(brewer.pal(9,"ylorrd")), bandwidth=c(30,3)) 2. Deskriptive Wohnflaeche Induktive Nettomieten 54

67 Beispiel Streuungsdiagramm x = cbind("age of father"=alterv, "Age of mother"=alterm) require("geneplotter") ## from BioConductor smoothscatter(x, colramp=colorramppalette(brewer.pal(9,"ylorrd")) ) Age of mother Deskriptive 4. Induktive Age of father 55

68 Visualisiere Paare require(ggally) ggpairs(mydata[, -c(5, 6, 10)], colour='geschlecht', alpha=0.4) 35 Cor : Cor : Cor : Cor : Cor : Alter Frau: Frau: Frau: rau: Frau: Mann: Mann: Mann: Mann: Mann: Frau 2. Deskriptive Geschlecht Mann AlterV Cor : Frau: 0.79 Mann: Cor : Frau: Mann: Cor : Frau: Mann: Cor : Frau: Mann: AlterM Cor : Frau: Mann: Cor : Frau: Mann: Cor : Frau: Mann: Induktive Cor : Cor : AusgSchuhe Frau: Frau: Mann: AnzSchuhe Mann: Cor : Frau: Mann: AusgKomm

69 Bagplot: Boxplot in 2 Dimensionen require(aplpack) bagplot(alterv, AlterM, xlab="alter des Vaters", ylab="alter der Mutter") Alter der Mutter Deskriptive 4. Induktive Alter des Vaters 57

70 Bubbleplot: 3 metrische Variablen require(desctools) PlotBubble(AlterM, AlterV, AusgSchuhe/400, col=setalpha("deeppink4",0.3), border=setalpha("darkblue",0.3), xlab="alter der Mutter", ylab="alter des Vaters", panel.first=grid(), main="") 2. Deskriptive Alter des Vaters Induktive Alter der Mutter Größe der Blasen: Ausgaben für Schuhe 58

71 srechnung Frage: Wie stark ist der Zusammenhang zwischen X und Y? Dazu: skoeffizienten Verschiedene Varianten: Wahl abhängig vom Skalenniveau von X und Y: Skalierung von Y Skalierung von X kardinal ordinal nominal kardinal ordinal Bravais-Pearson- skoeffizient Rangkorrelationskoeffizient von Spearman 2. Deskriptive 4. Induktive nominal Kontingenzkoeffizient 59

72 skoeffizient von Bravais und Pearson Bravais-Pearson-skoeffizient Voraussetzung: X, Y kardinalskaliert n n (x i x)(y i ȳ) x i y i n xȳ i=1 i=1 r = = [ 1; +1] n (x i x) 2 n n n (y i ȳ) 2 x 2 i n x2 y 2 i nȳ2 i=1 i=1 i=1 i= Deskriptive 4. Induktive

73 Etschberger skoeffizient von Bravais und Pearson Bravais-Pearson-skoeffizient Voraussetzung: X, Y kardinalskaliert n P r= s n P (xi x )(yi y ) i=1 n P (xi x )2 i=1 n P = s (yi y )2 i=1 xi yi nx y s [ 1; +1] n n P P x2i nx 2 y2i ny 2 i=1 i=1 i=1 2. Deskriptive Induktive r = 0, r = 0, r= r = 0, r = 0, r = 0,043 60

74 Bravais-Pearson-skoeffizient Im Beispiel: i x i y i x 2 i y 2 i x i y i x = 25/5 = 5 ȳ = 28/5 = 5,6 2. Deskriptive 4. Induktive r = , ,6 2 = 0,703 (deutliche positive ) 61

75

76 Rangkorrelationskoeffizient von Spearman Voraussetzungen: X, Y (mindestens) ordinalskaliert, Ränge eindeutig (keine Doppelbelegung von Rängen) Vorgehensweise: ➀ Rangnummern R i (X) bzw. R i (Y) mit R ( ) i = 1 bei größtem Wert usw. ➁ Berechne 6 n (R i R i) 2 i=1 r SP = 1 [ 1; +1] (n 1) n (n + 1) Hinweise: r SP = +1 wird erreicht bei R i = R i r SP = 1 wird erreicht bei R i = n + 1 R i i = 1,..., n i = 1,..., n 2. Deskriptive 4. Induktive 62

77 Rangkorrelationskoeffizient von Spearman Im Beispiel: x i R i y i R i Deskriptive 4. Induktive r SP = 1 6 [(5 4)2 + (3 5) 2 + (4 3) 2 + (1 2) 2 + (2 1) 2 ] (5 1) 5 (5 + 1) = 0,6 63

78 Kontingenzkoeffizient Gegeben: Kontingenztabelle mit k Zeilen und l Spalten (vgl. hier) Vorgehensweise: ➀ Ergänze Randhäufigkeiten h i = l h ij und h j = j=1 ➁ Berechne theoretische ➂ Berechne χ 2 = h ij = h i h j n k l i=1 j=1 (h ij h ij ) 2 h ij k i=1 h ij χ 2 hängt von n ab! (h ij 2 h ij χ 2 2 χ 2 ) 2. Deskriptive 4. Induktive 64

79 Kontingenzkoeffizient ➃ Kontingenzkoeffizient: wobei K max = χ K = 2 n + χ 2 [0; K max ] M 1 M ➄ Normierter Kontingenzkoeffizient: mit M = min{k, l} 2. Deskriptive 4. Induktive K = K K max [0; 1] K = +1 bei Kenntnis von x i kann y i erschlossen werden u.u. 65

80 Kontingenzkoeffizient Beispiel X : Staatsangehörigkeit (d,a) Y : Geschlecht (m,w) wobei h 11 = h ij m w h i h ij m w d d a a h j = 24 usw. 2. Deskriptive 4. Induktive χ 2 = (30 24)2 + (30 36)2 + (10 16)2 + (30 24)2 = 6, K = 6,25 = 0,2425; M = min{2,2} = 2; 100+6,25 Kmax = K = 0,2425 0,7071 = 0, = 0,

81 Graphische Repräsentation von Kontingenztabellen Beispiel Autounfälle Verletzung leicht schwer tödlich angegurtet nicht angegurtet Deskriptive leicht schwer tödlich Sicherheit Gurt 4. Induktive Kein Standardized Residuals: < 4 4: 2 2:0 0:2 2:4 >4 Verletzungen Mosaikplot Autounfälle 67

82 Mosaicplot Geschlecht, Zufriedenheit über Note in Matheklausur tab = table(mathezufr,geschlecht) tab ## Geschlecht ## MatheZufr Frau Mann ## nicht ## geht so ## zufrieden ## sehr mosaicplot(tab, shade = TRUE, sort=2:1, main="") Geschlecht Frau nicht geht so zufrieden sehr 2. Deskriptive 4. Induktive Mann Standardized Residuals: < 4 4: 2 2:0 0:2 2:4 >4 68

83 Mosaicplot Geschlecht, Wunschfarbe für Smartphone tab = table(farbe, Geschlecht) tab mosaicplot(t(tab), shade = TRUE, sort=2:1, main="") ## Geschlecht ## Farbe Frau Mann ## blau 7 4 ## gelb 2 2 ## rot 11 2 ## schwarz ## silber 16 1 ## weiss Farbe blau gelb 2. Deskriptive 4. Induktive Standardized Residuals: rot schwarz silber Frau Mann weiss < 4 4: 2 2:0 0:2 2:4 >4 Geschlecht 69

84 Mosaicplot Geschlecht, Anzahl Schuhe tab = table( mosaicplot(t(tab), shade = TRUE, "Anzahl Schuhe"=cut(AnzSchuhe, 5), main="", las=1) Geschlecht) Frau tab ## Geschlecht ## Anzahl Schuhe Frau Mann ## (1.92,17.6] ## (17.6,33.2] 65 4 ## (33.2,48.8] 25 0 ## (48.8,64.4] 11 0 ## (64.4,80.1] 3 1 Anzahl Schuhe (1.92,17.6] (17.6,33.2] Mann < 4 4: 2 2:0 0:2 2:4 >4 2. Deskriptive 4. Induktive (33.2,48.8] (48.8,64.4] (64.4,80.1] Standardized Residuals: Geschlecht 70

85 Ausgangsdaten Bundesliga 2008/2009 Gegeben: Daten zu den 18 Vereinen der ersten Bundesliga in der Saison 2008/09 Merkmale: Vereinssetat für Saison (nur direkte Gehälter und Spielergehälter) und Ergebnispunkte in Tabelle am Ende der Saison Etat Punkte FC Bayern VfL Wolfsburg SV Werder Bremen FC Schalke VfB Stuttgart Hamburger SV Bayer 04 Leverkusen Bor. Dortmund Hertha BSC Berlin FC Köln Bor. Mönchengladbach TSG Hoffenheim Eintracht Frankfurt Hannover Energie Cottbus VfL Bochum Karlsruher SC Arminia Bielefeld (Quelle: Welt) 2. Deskriptive 4. Induktive 71

86 Darstellung der Daten in Streuplot Bundesliga 2008/09 Punkte VfB Stuttgart Hertha BSC Berlin Hamburger SV Bor. Dortmund TSG Hoffenheim Hannover FC Köln Eintracht Frankfurt VfL Bochum Bor. Mönchengladbach Energie Cottbus Karlsruher SC Arminia Bielefeld FC Schalke 04 Bayer 04 Leverkusen SV Werder Bremen VfL Wolfsburg FC Bayern 2. Deskriptive 4. Induktive Etat [Mio. Euro] 72

87 Darstellung der Daten in Streuplot Punkte Bundesliga 2008/09 2. Deskriptive 4. Induktive Etat [Mio. Euro] 72

88 Trend als lineares Modell Kann man die Tabellenpunkte näherungsweise über einfache Funktion in Abhängigkeit des Vereinsetats darstellen? Allgemein: Darstellung einer Variablen Y als Funktion von X: Dabei: y = f(x) X heißt Regressor bzw. unabhängige Variable Y heißt Regressand bzw. abhängige Variable Wichtiger (und einfachster) Spezialfall: f beschreibt einen linearen Trend: 2. Deskriptive 4. Induktive y = a + b x Dabei anhand der Daten zu schätzen: a (Achsenabschnitt) und b (Steigung) Schätzung von a und b: 73

89 Fehlerquadratsumme Pro Datenpunkt gilt mit Regressionsmodell: y i = a + bx i + ɛ i Dabei: ɛ i ist jeweils Fehler (der Grundgesamtheit), mit e i = y i (â + ˆbx i ): Abweichung (Residuen) zwischen gegebenen Daten der Stichprobe und durch Modell geschätzten Werten Modell gut wenn alle Residuen e i zusammen möglichst klein Einfache Summe aber nicht möglich, denn e i positiv oder negativ 2. Deskriptive 4. Induktive Deswegen: Summe der Quadrate von e i Prinzip der kleinsten Quadrate: Wähle a und b so, dass Q(a, b) = n [y i (a + bx i )] 2 min i=1 74

90 Beste Lösung Beste und eindeutige Lösung: ˆb = = n (x i x)(y i ȳ) i=1 n (x i x) 2 i=1 n x i y i n xȳ i=1 n x 2 i n x 2 i=1 â = ȳ ˆb x 2. Deskriptive 4. Induktive Regressionsgerade: ŷ = â + ˆb x 75

91 Bundesligabeispiel Berechnung eines linearen Modells der Bundesligadaten dabei: Punkte ˆ= y und Etat ˆ= x: x 33,83 y 46,89 x 2 i xi y i n ,83 46,89 ˆb = ,83 2 0,634 â = 46,89 ˆb 33,83 25,443 Modell: ŷ = 25, ,634 x Punkte Einkommen Prognosewert für Etat = 30: ŷ(30) = 25, , , Deskriptive 4. Induktive 76

92 Varianz und Information Varianz der Daten in abhängiger Variablen y i als Repräsentant des Informationsgehalts Ein Bruchteil davon kann in Modellwerten ŷ i abgebildet werden Deskriptive Induktive

93 Varianz und Information Varianz der Daten in abhängiger Variablen y i als Repräsentant des Informationsgehalts Ein Bruchteil davon kann in Modellwerten ŷ i abgebildet werden Deskriptive 4. Induktive points model Empirische Varianz (mittlere quadratische Abweichung) für rot bzw. grün ergibt jeweils (y i y) 2 200,77 bzw. i= (ŷ i y) 2 102,78 i=1 77

94 Determinationskoeffizient Gütemaß für die Regression: Determinationskoeffizient (Bestimmtheitskoeffizient): R 2 = n (ŷ i ȳ) 2 i=1 = n (y i ȳ) 2 i=1 n ŷ 2 i nȳ 2 i=1 = r n 2 [0; 1] y 2 i nȳ2 i=1 Mögliche Interpretation von R 2 : Durch die Regression erklärter Anteil der Varianz R 2 = 0 wird erreicht wenn X, Y unkorreliert R 2 = 1 wird erreicht wenn ŷ i = y i i (alle Punkte auf Regressionsgerade) Im (Bundesliga-)Beispiel: R 2 = 18 (ŷ i y) 2 i=1 18 (y i y) 2 i=1 102,78 200,77 51,19 % 2. Deskriptive 4. Induktive 78

95 Regression: 4 eindimensionale Beispiele Berühmte Daten aus den 1970er Jahren: i x 1i x 2i x 3i x 4i y 1i y 2i y 3i y 4i ,04 9,14 7,46 6, ,95 8,14 6,77 5, ,58 8,74 12,74 7, ,81 8,77 7,11 8, ,33 9,26 7,81 8, ,96 8,10 8,84 7, ,24 6,13 6,08 5, ,26 3,10 5,39 12, ,84 9,13 8,15 5, ,82 7,26 6,42 7, ,68 4,74 5,73 6,89 2. Deskriptive 4. Induktive (Quelle: Anscombe (1973)) 79

96 Regression: 4 eindimensionale Beispiele In folgender Tabelle: Jeweils Ergebnisse der linearen Regressionsanalyse dabei: x k unabhängige Variable und y k abhängige Variable Modell jeweils: y k = a k + b k x k k â k ˆb k R 2 k 1 3,0001 0,5001 0, ,0010 0,5000 0, ,0025 0,4997 0, ,0017 0,4999 0, Deskriptive 4. Induktive 80

97 Plot der Anscombe-Daten y y x1 y y x2 2. Deskriptive 4. Induktive x x4 81

98 Beispieldaten meineregression = lm(alterm ~ AlterV) meineregression plot(alterv, AlterM, xlab="alter des Vaters", ylab="alter der Mutter") abline(meineregression) Alter der Mutter ## ## Call: ## lm(formula = AlterM ~ AlterV) ## ## Coefficients: ## (Intercept) AlterV ## Deskriptive 4. Induktive Alter des Vaters 82

99 Cook s Distanz PLUS Oft Kritisch: Einzelne Punkte, die Modell stark beeinflussen Idee: Was würde sich ändern, wenn solche Punkte weggelassen würden? Cook-Distanz: Misst den Effekt eines gelöschten Objekts Formel für ein lineares Modell mit einem unabh. Merkmal: D i = n (ŷ j ŷ j(ohne i) ) 2 j=1 MSE 2. Deskriptive 4. Induktive Dabei bedeutet: ŷ j : Prognosewert des kompletten Modells für das j-te Objekt ŷ j(ohne i) : Prognosewert des Modells ohne Objekt i für das j-te Objekt MSE = 1 n (ŷ i y i ) 2 : Normierender Term (Schätzwert für Fehlerstreuung) 83

100 Ausreißer? PLUS Anscombe-Daten: Regressionsmodell Nr. 3 y Deskriptive 4. Induktive x3 84

101 Ausreißer? PLUS Anscombe-Daten: Regressionsmodell Nr. 3 Darstellung der Cook-Distanz neben Punkten Faustformel: Werte über 1 sollten genau untersucht werden Deskriptive y Induktive x3 84

102 Residualanalyse Oft aufschlussreich: Verteilung der Residuen e i Verbreitet: Graphische Darstellungen der Residuen Z.B.: e i über ŷ i 3 y Residuals Deskriptive x Fitted values Residuals vs Fitted 4. Induktive y Residuals x Fitted values 85

103 Residualanalyse Wichtige Eigenschaften der Residuenverteilung Möglichst keine systematischen Muster Alter der Mutter Keine Änderung der Varianz in Abhängigkeit von ŷ i (Homoskedastizität) Nötig für inferentielle Analysen: Näherungsweise Normalverteilung der Residuen (q-q-plots) Residuals Deskriptive 4. Induktive Alter des Vaters Fitted values 86

104 Kausalität versus Exkurs: Kausalität vs. Meist wichtig für sinnvolle Regressionsanalysen: Kausale Verbindung zwischen unabhängigem und abhängigem Merkmal Sonst bei Änderung der unabhängigen Variablen keine sinnvollen Prognosen möglich Oft: Latente Variablen im Hintergrund 2. Deskriptive 4. Induktive 87

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management für Betriebswirtschaft und internationales Management Sommersemester 2015 Prof. Dr. Stefan Etschberger Hochschule Augsburg Preismesszahl: Misst Preisveränderung eines einzelnen Gutes: Preis zum Zeitpunkt

Mehr

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens in einige Teilbereiche der für Studierende des Wirtschaftsingenieurwesens Sommersemester 2014 Hochschule Augsburg : Gliederung 1 Finanzmathematik 2 Lineare Programme 3 Differentialgleichungen 4 Statistik:

Mehr

Umfrage <- read.csv("http://goo.gl/ymeyjp", sep = ";", dec = ",")

Umfrage <- read.csv(http://goo.gl/ymeyjp, sep = ;, dec = ,) Aufgabe 8 R: Deskriptives mit R Häufigkeiten in R und Umgang mit fehlenden Werten Häufigkeitsauszählungen können in R mit table() erstellt werden. cumsum() bildet kumulierte Summen. mean() berechnet das

Mehr

Bundesliga-Spielplan für den VfB Stuttgart (fett) p pdf-datei by http://vfb-fansite.npage.de/ Erster Spieltag (15. bis 16. August)

Bundesliga-Spielplan für den VfB Stuttgart (fett) p pdf-datei by http://vfb-fansite.npage.de/ Erster Spieltag (15. bis 16. August) Bundesliga-Spielplan für den VfB Stuttgart (fett) p pdf-datei by http://vfb-fansite.npage.de/ Erster Spieltag (15. bis 16. August) Bayern München - Hamburger SV (Freitag, 20.30 Uhr) Schalke 04 - Hannover

Mehr

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz Statistik Der Weg zur Datenanalyse Zweite, verbesserte Auflage Mit 165 Abbildungen und 34 Tabellen Springer Inhaltsverzeichnis Vorwort v 1 Einführung

Mehr

Statistik. Sommersemester 2014. Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. Sommersemester 2014. Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Material zur Vorlesung Kursmaterial: 2 Aufgabensätze: Einer zu allgemeneiner Statistik

Mehr

Skalenniveaus =,!=, >, <, +, -

Skalenniveaus =,!=, >, <, +, - ZUSAMMENHANGSMAßE Skalenniveaus Nominalskala Ordinalskala Intervallskala Verhältnisskala =,!= =,!=, >, < =,!=, >, ,

Mehr

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen

Mehr

Bitte am PC mit Windows anmelden!

Bitte am PC mit Windows anmelden! Einführung in SPSS Plan für heute: Grundlagen/ Vorwissen für SPSS Vergleich der Übungsaufgaben Einführung in SPSS http://weknowmemes.com/generator/uploads/generated/g1374774654830726655.jpg Standardnormalverteilung

Mehr

1. Spieltag. 2. Spieltag. 3. Spieltag. 4. Spieltag

1. Spieltag. 2. Spieltag. 3. Spieltag. 4. Spieltag 1. Spieltag 07.08.2009 20:30 VfL Wolfsburg VfB Stuttgart 2 0 08.08.2009 15:30 Borussia Dortmund 1. FC Köln 1 0 08.08.2009 15:30 1. FC Nürnberg Schalke 04 1 2 09.08.2009 15:30 SC Freiburg Hamburger SV 1

Mehr

MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK

MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK PROF. DR. CHRISTINA BIRKENHAKE Inhaltsverzeichnis 1. Merkmale 2 2. Urliste und Häufigkeitstabellen 9. Graphische Darstellung von Daten 10 4. Lageparameter 1

Mehr

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg Vorlesungsbegleitende Unterlagen Arbeitsmaterial:

Mehr

Ergebnis. Tipp. Punkte. Tipp. Ergebnis. Punkte. Tipp. Ergebnis. Punkte. Punkte

Ergebnis. Tipp. Punkte. Tipp. Ergebnis. Punkte. Tipp. Ergebnis. Punkte. Punkte 1. Spieltag 05.08.2011 Borussia Dortmund - Hamburger SV 06.08.2011 FC Bayern München - Bor. Mönchengladbach 06.08.2011 Hertha BSC - 1. FC Nürnberg 06.08.2011 FC Augsburg - SC Freiburg 06.08.2011 Hannover

Mehr

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es beim radioaktiven Zerfall, zwischen 100 und 110 Zerfälle

Mehr

Einführung in die computergestützte Datenanalyse

Einführung in die computergestützte Datenanalyse Karlheinz Zwerenz Statistik Einführung in die computergestützte Datenanalyse 6., überarbeitete Auflage DE GRUYTER OLDENBOURG Vorwort Hinweise zu EXCEL und SPSS Hinweise zum Master-Projekt XI XII XII TEIL

Mehr

!!! !!! Bundesligaspielplan Saison 2015/16! Hinrunde:! 1. Spieltag 14. bis 16. August 2015! Heim - Gast!

!!! !!! Bundesligaspielplan Saison 2015/16! Hinrunde:! 1. Spieltag 14. bis 16. August 2015! Heim - Gast! Bundesligaspielplan Saison 2015/16 Hinrunde: 1. Spieltag 14. bis 16. August 2015 Heim - Gast Bayern München - Hamburger SV Borussia Dortmund - Borussia Mönchengladbach Bayer Leverkusen - TSG 1899 Hoffenheim

Mehr

Fußball-Ergebnistipps, Saison 2015/16

Fußball-Ergebnistipps, Saison 2015/16 Fußball-Ergebnistipps, Saison 2015/16 V1.0, Sven Guyet 2015 1. Spieltag (14.-16.08.2015) FC Bayern M ünchen - Hamburger SV : Borussia Dortmund - Borussia Mönchengladbach : Bayer 04 Leverkusen - TSG 1899

Mehr

Statistik II: Grundlagen und Definitionen der Statistik

Statistik II: Grundlagen und Definitionen der Statistik Medien Institut : Grundlagen und Definitionen der Statistik Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Hintergrund: Entstehung der Statistik 2. Grundlagen

Mehr

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage Statistik Datenanalyse mit EXCEL und SPSS Von Prof. Dr. Karlheinz Zwerenz 3., überarbeitete Auflage R.01denbourg Verlag München Wien Inhalt Vorwort Hinweise zu EXCEL und SPSS Hinweise zum Master-Projekt

Mehr

WISTA WIRTSCHAFTSSTATISTIK

WISTA WIRTSCHAFTSSTATISTIK WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 04.06.2013 Zweidimensionale Datensätze 1. Kontingenztabelle

Mehr

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Teil III: Statistik Alle Fragen sind zu beantworten. Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Wird

Mehr

Kapitel 1 Beschreibende Statistik

Kapitel 1 Beschreibende Statistik Beispiel 1.25: fiktive Aktienkurse Zeitpunkt i 0 1 2 Aktienkurs x i 100 160 100 Frage: Wie hoch ist die durchschnittliche Wachstumsrate? Dr. Karsten Webel 53 Beispiel 1.25: fiktive Aktienkurse (Fortsetzung)

Mehr

3. Deskriptive Statistik

3. Deskriptive Statistik 3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro Objekt wird ein Merkmal durch Messung / Befragung/ Beobachtung erhoben. Resultat ist jeweils ein Wert (Merkmalsausprägung) x i : - Gewicht

Mehr

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von Statistik Datenanalyse mit EXCEL und SPSS Von Prof. Dr. Karlheinz Zwerenz R.Oldenbourg Verlag München Wien Inhalt Vorwort Hinweise zu EXCEL und SPSS Hinweise zum Master-Projekt XI XII XII TEIL I GRUNDLAGEN

Mehr

Tabellarische und graphie Darstellung von univariaten Daten

Tabellarische und graphie Darstellung von univariaten Daten Part I Wrums 1 Motivation und Einleitung Motivation Satz von Bayes Übersetzten mit Paralleltext Merkmale und Datentypen Skalentypen Norminal Ordinal Intervall Verältnis Merkmalstyp Diskret Stetig Tabellarische

Mehr

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten

Mehr

WISTA WIRTSCHAFTSSTATISTIK

WISTA WIRTSCHAFTSSTATISTIK WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 28.05.2013 Konzentrationsmaße 1. Konzentrationsbegriff

Mehr

Statistik Workshop. 12. und 14. Januar 2015. Prof. Dr. Stefan Etschberger. Outline

Statistik Workshop. 12. und 14. Januar 2015. Prof. Dr. Stefan Etschberger. Outline Workshop Mini-Einführung und Auffrischung zu einigen Teilen der angewandten. und 4. Prof. Dr. Stefan Etschberger Outline : Einführung Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der

Mehr

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8 Wiederholung Statistik I Statistik für SozialwissenschaftlerInnen II p.8 Konstanten und Variablen Konstante: Merkmal hat nur eine Ausprägung Variable: Merkmal kann mehrere Ausprägungen annehmen Statistik

Mehr

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden Inhaltsverzeichnis Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3 Warum Statistik? 3 Checkpoints 4 Daten 4 Checkpoints 7 Skalen - lebenslang wichtig bei der Datenanalyse

Mehr

Statistik I. Übungklausur. Prof. Dr. H. Toutenburg

Statistik I. Übungklausur. Prof. Dr. H. Toutenburg Statistik I Übungklausur Prof. Dr. H. Toutenburg Hinweis: Die Zeitangaben sollen Ihnen aufzeigen wieviel Zeit Ihnen für eine Aufgabe von gewissem Umfang eingeräumt wird. Die Punktzahlen für die einzelnen

Mehr

Datenaufbereitung, Grafische Datenanalyse

Datenaufbereitung, Grafische Datenanalyse Datenaufbereitung, Grafische Datenanalyse R-Übung 2 Statistik III für Nebenfachstudierende LMU WS 2013/14 David Rügamer 6. & 13. November 2013 Nach einer Vorlage von Toni Hilger (WS 11/12) und Arne Kaldhusdal

Mehr

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5 Inhaltsverzeichnis Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite 1.0 Erste Begriffsbildungen 1 1.1 Merkmale und Skalen 5 1.2 Von der Urliste zu Häufigkeitsverteilungen 9 1.2.0 Erste Ordnung

Mehr

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn Statistikpraktikum Carsten Rezny Institut für angewandte Mathematik Universität Bonn Sommersemester 2016 Anmeldung in Basis: 06. 10.06.2016 Organisatorisches Einführung Statistik Analyse empirischer Daten

Mehr

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06.

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06. Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt Gerhard Tutz, Jan Ulbricht WS 05/0 Lösung Aufgabe 4 Notation: X: Rauchen, Y : chronische Bronchitis S X {ja, nein} {a 1, a },

Mehr

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/19 Skalenniveaus Skalenniveau Relation

Mehr

Deskriptive Statistik

Deskriptive Statistik Markus Wirtz, Christof Nachtigall Deskriptive Statistik 2008 AGI-Information Management Consultants May be used for personal purporses only or by libraries associated to dandelon.com network. Statistische

Mehr

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer Statistik 1 Herzlich willkommen zur Vorlesung Statistik smaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer

Mehr

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter) Beispiel (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter) 1 Ein Statistiker ist zu früh zu einer Verabredung gekommen und vertreibt sich nun die Zeit damit, daß er die Anzahl X der Stockwerke

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 26.02.2008 1 Warum Statistik und Wahrscheinlichkeits rechnung im Ingenieurwesen? Zusammenfassung der letzten Vorlesung Statistik und Wahrscheinlichkeitsrechnung

Mehr

I. Deskriptive Statistik 1

I. Deskriptive Statistik 1 I. Deskriptive Statistik 1 1. Einführung 3 1.1. Grundgesamtheit und Stichprobe.................. 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................

Mehr

Statistik II Übung 1: Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der

Mehr

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.)

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.) Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.) Reinhard.Vonthein@imbs.uni-luebeck.de Institut für Medizinische Biometrie und Statistik Universität zu Lübeck / Universitätsklinikums Schleswig-Holstein

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

Probeklausur Statistik Lösungshinweise

Probeklausur Statistik Lösungshinweise Probeklausur Statistik Lösungshinweise Prüfungsdatum: Juni 015 Prüfer: Studiengang: IM und BW Aufgabe 1 18 Punkte 0 Studenten werden gefragt, wie viele Stunden sie durchschnittlich pro Tag ihr Smartphone

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Spieltage. 17.Runde : Runde : Runde : Runde :

Spieltage. 17.Runde : Runde : Runde : Runde : Spieltage 1.Runde : 11.10 17.10. 2.Runde : 11.10 17.10. 3.Runde : 11.10 17.10. 4.Runde : 11.10 17.10. 5.Runde : 18.10. 24.10. 6.Runde : 18.10. 24.10. 7.Runde : 18.10. 24.10. 8.Runde : 18.10. 24.10. 9.Runde

Mehr

Statistik Vorlesung 7 (Lineare Regression)

Statistik Vorlesung 7 (Lineare Regression) Statistik Vorlesung 7 (Lineare Regression) K.Gerald van den Boogaart http://www.stat.boogaart.de/ Statistik p.1/77 Gerade als Vereinfachung Wachstum bei Kindern height 76 78 80 82 18 20 22 24 26 28 age

Mehr

Über den Autor 7 Über den Fachkorrektor 7. Einführung 19

Über den Autor 7 Über den Fachkorrektor 7. Einführung 19 Inhaltsverzeichnis Über den Autor 7 Über den Fachkorrektor 7 Einführung 19 Über dieses Buch 19 Törichte Annahmen über den Leser 20 Wie dieses Buch aufgebaut ist 20 Teil I: Ein paar statistische Grundlagen

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Statistik für Ökonomen

Statistik für Ökonomen Wolfgang Kohn Riza Öztürk Statistik für Ökonomen Datenanalyse mit R und SPSS 2., überarbeitete Auflage 4ü Springer Gabler Inhaltsverzeichnis Teil I Einführung 1 Kleine Einführung in R '! 3 1.1 Installieren

Mehr

3. Merkmale und Daten

3. Merkmale und Daten 3. Merkmale und Daten Ziel dieses Kapitels: Vermittlung des statistischen Grundvokabulars Zu klärende Begriffe: Grundgesamtheit Merkmale (Skalenniveau etc.) Stichprobe 46 3.1 Grundgesamtheiten Definition

Mehr

Statistik. Jan Müller

Statistik. Jan Müller Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen

Mehr

Statistik I für Betriebswirte Vorlesung 2

Statistik I für Betriebswirte Vorlesung 2 Statistik I für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 16. April 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 2 1 ii) empirische

Mehr

Inhaltsverzeichnis. 2 Kurzbeschreibung von SPSS Der SPSS-Dateneditor Statistische Analysen mit SPSS DieDaten...

Inhaltsverzeichnis. 2 Kurzbeschreibung von SPSS Der SPSS-Dateneditor Statistische Analysen mit SPSS DieDaten... Inhaltsverzeichnis Teil I Einführung 1 Kleine Einführung in R... 3 1.1 Installieren und Starten von R... 3 1.2 R-Befehleausführen... 3 1.3 R-Workspace speichern... 4 1.4 R-History sichern........ 4 1.5

Mehr

Charakterisierung der Daten: Sind es genug? Sind alle notwendig? Was ist naturgegeben, was von Menschen beeinflusst (beeinflussbar)?

Charakterisierung der Daten: Sind es genug? Sind alle notwendig? Was ist naturgegeben, was von Menschen beeinflusst (beeinflussbar)? 3 Beschreibende Statistik 3.1. Daten, Datentypen, Skalen Daten Datum, Daten (data) das Gegebene Fragen über Daten Datenerhebung: Was wurde gemessen, erfragt? Warum? Wie wurden die Daten erhalten? Versuchsplanung:

Mehr

Assoziation & Korrelation

Assoziation & Korrelation Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von Merkmalen stellt sich die Frage, ob es Zusammenhänge oder Abhängigkeiten zwischen den

Mehr

Inhaltsverzeichnis. II. Statistische Modelle und sozialwissenschaftliche Meßniveaus 16

Inhaltsverzeichnis. II. Statistische Modelle und sozialwissenschaftliche Meßniveaus 16 Vorwort 1 1. Kapitel: Der Stellenwert der Statistik für die sozialwissenschaflliche Forschung 1 1. Zur Logik (sozial-)wissenschaftlicher Forschung 1 1. Alltagswissen und wissenschaftliches Wissen 1 2.

Mehr

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j 1 Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS 2011 Lösung Aufgabe 27 (a) Notation: X: Rauchen, Y : chronische Bronchitis S X {ja, nein} {a 1, a 2 }, S Y {ja, nein} {b

Mehr

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2013

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2013 Einführung in die Statistik für Politikwissenschaftler Sommersemester 2013 1. Welche Aussage zur Statistik (in den Sozialwissenschaften) sind richtig? (2 Punkte) ( ) Statistik ist die Lehre von Methoden

Mehr

Angewandte Statistik 3. Semester

Angewandte Statistik 3. Semester Angewandte Statistik 3. Semester Übung 5 Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines Beispieles Häufigkeitsauswertungen Grafiken Statistische Grundlagen

Mehr

Fussball-Bundeliga Saison 1964 / 65

Fussball-Bundeliga Saison 1964 / 65 Fussball-Bundeliga Saison 1964 / 65 1 Die Spiele der Bundesliga 1964/1965 am 1. Spieltag Sa 22.08. 16:00» Braunschweig -» 1860 München» 1:1 (1:0) Sa 22.08. 16:00» Dortmund -» Hannover» 0:2 (0:0) Sa 22.08.

Mehr

Statistik eindimensionaler Größen

Statistik eindimensionaler Größen Statistik eindimensionaler Größen Michael Spielmann Inhaltsverzeichnis 1 Aufgabe der eindimensionalen Statistik 2 2 Grundbegriffe 2 3 Aufbereiten der Stichprobe 3 4 Die Kennzahlen Mittelwert und Streuung,

Mehr

Bundesligatip 2015/2016. Teilnehmer

Bundesligatip 2015/2016. Teilnehmer Bundesligatip 2015/2016 Teilnehmer Spieltag: 1 14.08.2015 Spieltag: 6 22.09.2015 Bayern München : Hamburger SV : Bayern München : Vfl Wolfsburg : Darmstadt 98 : Hannover 96 : Schalke 04 : Eintracht Frankfurt

Mehr

Einfache statistische Auswertungen mit dem TI-Nspire

Einfache statistische Auswertungen mit dem TI-Nspire 1. Neues Dokument und darin eine neue Seite anlegen Als Typ 6: Lists & Spreadsheet wählen. Darin die Messwerte in einer Spalte erfassen. Dies ergibt die Urliste. Wenn mehrere Messwerte vorliegen, die diejenigen,

Mehr

Inhaltsverzeichnis. Teil I Einführung

Inhaltsverzeichnis. Teil I Einführung Inhaltsverzeichnis Teil I Einführung 1 Statistik-Programme... 1.1 Kleine Einführung in R... 1.1.1 Installieren und Starten von R. 1.1.2 R-Konsole... 1.1.3 R-Workspace... 1.1.4 R-History... 1.1.5 R-Skripteditor...

Mehr

Univariates Datenmaterial

Univariates Datenmaterial Univariates Datenmaterial 1.6.1 Deskriptive Statistik Zufallstichprobe: Umfang n, d.h. Stichprobe von n Zufallsvariablen o Merkmal/Zufallsvariablen: Y = {Y 1, Y 2,..., Y n } o Realisationen/Daten: x =

Mehr

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für

Mehr

Teil II: Einführung in die Statistik

Teil II: Einführung in die Statistik Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Fachrechnen für Tierpfleger

Fachrechnen für Tierpfleger Z.B.: Fachrechnen für Tierpfleger A10. Statistik 10.1 Allgemeines Was ist Statistik? 1. Daten sammeln: Durch Umfragen, Zählung, Messung,... 2. Daten präsentieren: Tabellen, Grafiken 3. Daten beschreiben/charakterisieren:

Mehr

Spiel Nr. 21 Tipp Spiel Nr. 22 Tipp Spiel Nr. 23 Tipp

Spiel Nr. 21 Tipp Spiel Nr. 22 Tipp Spiel Nr. 23 Tipp Seite 1 SPIELER: STARTGELD 10 Spiel Nr. 18 Tipp Spiel Nr. 19 Tipp Spiel Nr. 20 Tipp 1 VfL Wolfsburg FC Bayern München: 10 FC Bayern München FC Schalke 04 : 19 VfB Stuttgart FC Bayern München : 2 Bayer

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Allgemeine Grundlagen Seite Termin: Eindimensionale Häufigkeitsverteilung

Allgemeine Grundlagen Seite Termin: Eindimensionale Häufigkeitsverteilung Statistik für alle Gliederung insgesamt Allgemeine Grundlagen Seite 1 1. Termin: Allgemeine Grundlagen 2. Termin: Eindimensionale Häufigkeitsverteilung 3. Termin: Lageparameter 4. Termin: Streuungsparameter

Mehr

Empirische Softwaretechnik

Empirische Softwaretechnik Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 1 Einführung in das Statistikpaket 2 R?! nicht vergleichbar mit den üblichen Statistikprogrammen wie SAS oder

Mehr

WISTA WIRTSCHAFTSSTATISTIK

WISTA WIRTSCHAFTSSTATISTIK WISTA WIRTSCHAFTSSTATISTIK PROF DR ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 23042013 Datenlagen und Darstellung eindimensionaler Häufigkeitsverteilungen

Mehr

Vorlesung Grundlagen der Biometrie WS 2011/12 1. Grundbegriffe

Vorlesung Grundlagen der Biometrie WS 2011/12 1. Grundbegriffe Vorlesung Grundlagen der Biometrie WS 2011/12 1. Grundbegriffe Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 1. Grundbegriffe der beschreibenden Statistik Statistische Einheiten, Grundgesamtheit

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt

Mehr

Tippspiel Rückserie 2015 / Name : E - Mail. 18. Spieltag Fr So Punk te. Tipp

Tippspiel Rückserie 2015 / Name : E - Mail. 18. Spieltag Fr So Punk te. Tipp Name : E - Mail spiel Rückserie 2015 / 2016 18. Spieltag Fr.22.01.2016 - So.24.01.2016 Hamburger SV Bay. München Bor. Mönchengladbach Bor. Dortmund TSG Hoffenheim Bay. Leverkusen Eintr. Frankfurt VFL Wolfsburg

Mehr

1. Spieltag. 2. Spieltag. 3. Spieltag. 4. Spieltag. 5. Spieltag

1. Spieltag. 2. Spieltag. 3. Spieltag. 4. Spieltag. 5. Spieltag 1. Spieltag 1. FC Kaiserslautern Werder Bremen 2 1 1. FC Köln Hertha BSC Berlin 2 3 1. FC Nürnberg Borussia Neunkirchen 2 0 Borussia Dortmund Hannover 96 0 2 Eintracht Braunschweig TSV 1860 München 1 1

Mehr

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen - nominal, ordinal, metrisch In SPSS: - Einfache -> Mittelwerte vergleichen -> Einfaktorielle - Mehrfaktorielle -> Allgemeines lineares Modell -> Univariat In SPSS: -> Nichtparametrische Tests -> K unabhängige

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt Methodenlehre Mathematische und statistische Methoden I Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206 Dr. Malte Persike persike@uni-mainz.de

Mehr

Brückenkurs Statistik für Wirtschaftswissenschaften

Brückenkurs Statistik für Wirtschaftswissenschaften Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München

Mehr

Kapitel 2. Häufigkeitsverteilungen

Kapitel 2. Häufigkeitsverteilungen 6 Kapitel 2 Häufigkeitsverteilungen Ziel: Darstellung bzw Beschreibung (Exploration) einer Variablen Ausgangssituation: An n Einheiten ω,, ω n sei das Merkmal X beobachtet worden x = X(ω ),, x n = X(ω

Mehr

Bivariate Zusammenhänge

Bivariate Zusammenhänge Bivariate Zusammenhänge Tabellenanalyse: Kreuztabellierung und Kontingenzanalyse Philosophische Fakultät Institut für Soziologie Berufsverläufe und Berufserfolg von Hochschulabsolventen Dozent: Mike Kühne

Mehr

Assoziation & Korrelation

Assoziation & Korrelation Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von 2 Merkmalen stellt sich die Frage, ob es Zusammenhänge oder Abhängigkeiten zwischen den

Mehr

Empirische Analysen mit dem SOEP

Empirische Analysen mit dem SOEP Empirische Analysen mit dem SOEP Methodisches Lineare Regressionsanalyse & Logit/Probit Modelle Kurs im Wintersemester 2007/08 Dipl.-Volksw. Paul Böhm Dipl.-Volksw. Dominik Hanglberger Dipl.-Volksw. Rafael

Mehr

Kai Schaal. Universität zu Köln

Kai Schaal. Universität zu Köln Deskriptive Statistik und Wirtschaftsstatistik Tutorium zur Anwendung von Statistik 1 in Excel Kai Schaal Universität zu Köln Organisatorisches und Einleitung (1) Was, wann, wo? Anwendung von Statistik

Mehr

BVB - Spieltermine 2016 /17

BVB - Spieltermine 2016 /17 Sonntag, 14.08.2016 Anstoß um 20:30 Uhr Bayern München Samstag, 20.08.2016 Anstoß um 20:45 Uhr SV Eintracht Trier 05 Samstag, 27.08.2016 Mainz 05 Samstag, 10.09.2016 Anstoß um 18:30 Uhr RB Leipzig - Samstag,

Mehr

Einführung in die Korrelationsrechnung

Einführung in die Korrelationsrechnung Einführung in die Korrelationsrechnung Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) Korrelationsrechnung

Mehr

Verteilungsfunktion und dquantile

Verteilungsfunktion und dquantile Statistik 1 für SoziologInnen Verteilungsfunktion und dquantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit die Kumulation inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal

Mehr

Die Perron Frobenius Tabelle der Deutschen Fußballbundesliga

Die Perron Frobenius Tabelle der Deutschen Fußballbundesliga Die Perron Frobenius Tabelle der Deutschen Fußballbundesliga Günter Czichowski, Dirk Frettlöh Institut für Mathematik und Informatik Universität Greifswald Jahnstr. 15a 17487 Greifswald In der Fußballbundesliga

Mehr

4. Kumulierte Häufigkeiten und Quantile

4. Kumulierte Häufigkeiten und Quantile 4. Kumulierte Häufigkeiten und Quantile Kumulierte Häufigkeiten Oft ist man nicht an der Häufigkeit einzelner Merkmalsausprägungen interessiert, sondern an der Häufigkeit von Intervallen. Typische Fragestellung:

Mehr

Fussball Bundesliga Saison 1970 / 71

Fussball Bundesliga Saison 1970 / 71 Fussball Bundesliga Saison 1970 / 71 1 Die Spiele der Bundesliga 1970/1971 am 1. Spieltag Sa 15.08. 15:30» Hertha BSC -» K'lautern» 5:3 (2:3) Sa 15.08. 15:30» Braunschweig -» Schalke» 3:3 (2:1) Sa 15.08.

Mehr

JOACHIM BEHNKE / NINA BAUR / NATHALIE BEHNKE. Empirische Methoden der Politikwissenschaft

JOACHIM BEHNKE / NINA BAUR / NATHALIE BEHNKE. Empirische Methoden der Politikwissenschaft JOACHIM BEHNKE / NINA BAUR / NATHALIE BEHNKE Empirische Methoden der Politikwissenschaft 1 Einleitung 13 2 Methoden im empirischen Forschungsprozess 17 2.1 Methoden und wissenschaftliche Theorie 17 2.2

Mehr

Fussball-Bundeliga. Saison 1963 / 64

Fussball-Bundeliga. Saison 1963 / 64 Fussball-Bundeliga Saison 1963 / 64 1 Die Spiele der Bundesliga 1963/1964 am 1. Spieltag Sa 24.08. 17:00» Hertha BSC -» Nürnberg» 1:1 (0:1) Sa 24.08. 17:00» Bremen -» Dortmund» 3:2 (1:1) Sa 24.08. 17:00»

Mehr

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg Lagemaße Übung M O D U S, M E D I A N, M I T T E L W E R T, M O D A L K L A S S E, M E D I A N, K L A S S E, I N T E R P O L A T I O N D E R M E D I A N, K L A S S E M I T T E Zentrale Methodenlehre, Europa

Mehr

Wahrscheinlichkeitsrechnung und Statistik

Wahrscheinlichkeitsrechnung und Statistik Wahrscheinlichkeitsrechnung und Statistik Für Ingenieurstudenten an Fachhochschulen von Michael Sachs erweitert Wahrscheinlichkeitsrechnung und Statistik Sachs schnell und portofrei erhältlich bei beck-shopde

Mehr

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche Lehrveranstaltung Empirische Forschung und Politikberatung der Universität Bonn, WS 2007/2008 Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

Mehr

BuLiTipp-Spielplan Saison 16/17 (Hinrunde)

BuLiTipp-Spielplan Saison 16/17 (Hinrunde) Spalte für das Masterspiel. Pro Spieltag nur ein Spiel mit einem großen M markieren! BuLiTipp-Spielplan Saison 16/17 (Hinrunde) 1 Fr 26.08.16 FC Bayern München SV Werder Bremen : Bemerkungen Eintracht

Mehr