Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Univariate deskriptive Statistik. Rohdaten und Datenmatrix

Größe: px
Ab Seite anzeigen:

Download "Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Univariate deskriptive Statistik. Rohdaten und Datenmatrix"

Transkript

1 Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik Univariate deskriptive Statistik Dozent: Fabian Scheipl Material: H. Küchenhoff LMU München 80 Deskriptive Statistik Rohdaten und Datenmatrix Data is merely the raw material of knowledge. Charles Wheelan Ziel: Beschreibung von Daten mit möglichst geringem Informationsverlust Eigenschaften und Strukturen sichtbar machen Graphisch und durch Kennwerte Eindimensional und mehrdimensional Zunächst keine Schlüsse auf die Grundgesamtheit oder allgemeine Phänomene (Deskription, nicht Inferenz) Daten liegen in der Regel als Datenmatrix bzw. Tabelle vor: Organisationsprinzip: tidy data (Wickham, 204): Zeilen entsprechen Untersuchungseinheiten Spalten entsprechen Merkmalen Elemente der Matrix sind die Merkmalsausprägungen Fragen mit Mehrfachnennungen als einzelne binäre Merkmale definieren Hinweise zur korrekten Eingabe u.a. auf der Stablab-Homepage 8 82

2 Beispiel: Befragung von Redakteuren Eindimensionale Häufigkeitsverteilung Ordnen der Daten nach einem Merkmal Auszählen der Häufigkeiten der einzelnen Merkmalsausprägungen Relative Häufigkeiten = Häufigkeit/Anzahl der Untersuchungseinheiten Kumulative Häufigkeiten bei ordinal oder metrisch skalierten Merkmalen sinnvoll: F (x) :=(Summe der relativen Häufigkeiten x) empirische Verteilungsfunktion Häufigkeitsverteilung: Notation Häufigkeiten I Im Weiteren: X, Y,... Bezeichnung für Merkmal n Untersuchungseinheiten x i, i {,..., n}: beobachteter Wert bzw. Merkmalsausprägung von X für i-te Beobachtung x,..., x n Rohdaten, Urliste a < a 2 <... < a k, k n der Größe nach geordnete, verschiedene Werte der Urliste x,..., x n Beispiel: Absolventenstudie Für die Variable D Ausrichtung der Diplomarbeit ist die Urliste durch die folgende Tabelle gegeben: Person i Variable D Person i Variable D Person i Variable D

3 Häufigkeiten II Absolute und relative Häufigkeiten Häufigkeitstabelle für die Variable D Ausrichtung der Diplomarbeit : Ausprägung a j absolute Häufigkeit h j relative Häufigkeit f j 2 2/36 = /36 = /36 = /36 = 0.00 h(a j ) = h j absolute Häufigkeit der Ausprägung a j, d.h. Anzahl der x i aus x,... x n mit x i = a j f (a j ) = f j = h j /n relative Häufigkeit von a j Bemerkungen: Für Nominalskalen hat die Anordnung < keine inhaltliche Bedeutung. Bei kategorialen Merkmalen k = Anzahl der Kategorien Bei stetigen Merkmalen k oft nicht oder kaum kleiner als n. h,..., h k f,..., f k absolute Häufigkeitsverteilung relative Häufigkeitsverteilung Bemerkungen: Beispiel Nettomieten I Wir greifen aus dem gesamten Datensatz des Münchner Mietspiegels die Wohnungen ohne zentrale Warmwasserversorgung (zh0 == ) und mit einer Wohnfläche kleiner als 60m 2 (wfl < 60) heraus. Wenn statt der Urliste bereits die Ausprägungen a,..., a k und ihre Häufigkeiten f,..., f k bzw. h,..., h k vorliegen, sprechen wir von Häufigkeitsdaten. Klassenbildung, gruppierte Daten: Bei metrischen, stetigen (oder quasi-stetigen) Merkmalen oft Gruppierung der Urliste durch Bildung geeigneter Klassen Die folgende Urliste zeigt, bereits der Größe nach geordnet, die Nettomieten dieser n = 6 Wohnungen: url <- " mietspiegel <- read.table(file = url, header = TRUE) klein_und_kalt <- subset(mietspiegel, zh0 == & wfl < 60) sort(klein_und_kalt[, "nm"]) ## [] ## [] ## [2] ## [3] ## [4] ## [] ## [6] Alle Werte verschieden: k = n und {x,..., x n } = {a,..., a k }; f j = 27 j =,...,

4 Beispiel Nettomieten II Grafische Darstellungen I Gruppiert man die Urliste in 6 Klassen mit gleicher Klassenbreite von 00e, so erhält man folgende Häufigkeitstabelle: gruppierung <- seq(0, 60, by = 00) klein_und_kalt[, "nm_gruppiert"] <- cut(klein_und_kalt[, "nm"], breaks = gruppierung) table(klein_und_kalt[, "nm_gruppiert"]) ## ## (0,0] (0,20] (20,30] (30,40] (40,0] (0,60] ## Ein Bild sagt mehr als tausend Worte. Klasse absolute Häufigkeit relative Häufigkeit (0,0] (0,20] (20,30] (30,40] 0.8 (40,0] (0,60] Grafische Darstellungen II Grafische Darstellungen III 93 94

5 Grafische Darstellungen IV Statistische Grafik Principles of Graphical Excellence Graphical excellence is the well-designed presentation of interesting data a matter of substance, of statistics and of design. Graphical excellence consists of complex ideas communicated with clarity, precision and efficiency. Graphical excellence is that which gives to the viewer the greatest number of ideas in the shortest time with the least ink in the smallest space. Graphical excellence is nearly always multivariate. And graphical excellence requires telling the truth about the data. Tufte, E. (200): The Visual Display of Information. Graphic Press 2nd ed Allgemeine Kriterien Wahrnehmung von Grafiken Experimente von Psychologen zeigen Hierarchie der korrekten Interpretation (Cleveland/McGill) Wahl der Skala inkl. Bereich Wahl des Prinzips (Längentreue, Flächentreue) Einbringen von anderen Visualisierungen (Piktogramme etc.) Angemessene Wahl der Variablen Angemessene Wahl der Farben. Abstände 2. Winkel 3. Flächen 4. Volumen. Farbton-Sattheit-Schwärzegrad Da Abstände am besten wahrgenommen werden, sollten diese bevorzugt verwendet werden. Cleveland, W.S., McGill, R. (984): Graphical Perception: Theory, Experimentation, and Application to the Development of Graphical Methods. JASA 79(387),

6 Typen von eindimensionalen Darstellungen Beispiel: Liniendiagramm (??) 400 Stab-, Balken- und Säulendiagramm Kreis (Torten)-Diagramm Histogramm Umsatz Jahr Beispiel: Liniendiagramm (!!) Beispiel: Streudiagramm (??) Umsatz 6000 Nettomiete Jahr Index 0 scatter plot 02

7 Beispiel: Dotplot (!?) Beispiel: Gruppierter Dotplot Nettomiete 03 (bin width = 0) Nettomiete 04 Kreisdiagramm, Tortendiagramm Tortendiagramm: Klein & Kalt Darstellung der relativen (absoluten) Häufigkeiten als Anteile Fläche eines Kreises Anwendung: Nettomiete, gruppiert (0,0] (0,20] Nominale Merkmale Ordinale Merkmale (Problem: Ordnung nicht korrekt wiedergegeben) Gruppierte Daten (20,30] (30,40] (40,0] (0,60] pie chart 0 06

8 Stabdiagramm, Säulen- und Balkendiagramm Säulendiagramm Darstellung der absoluten oder relativen Häufigkeiten als Höhen (Längen) Stabdiagramm: Trage über a,..., a k jeweils einen zur x-achse senkrechten Strich (Stab) mit Höhe h,..., h k (oder f,..., f k ) ab. Säulendiagramm wie Stabdiagramm, aber mit Rechtecken statt Strichen. Balkendiagramm: wie Säulendiagramm, aber mit vertikal statt horizontal gelegter x-achse. x-achse: Ausprägungen des Merkmals y-achse: absolute/ relative Häufigkeiten Anwendungen: Ordinale Merkmale Metrische Merkmale mit wenigen Ausprägungen Nominale Merkmale (Problem: Ordnung nicht vorhanden) Beispiel Mietspiegel: Säulendiagramm / Balkendiagramm Stapeldiagramm Darstellen der absoluten oder relativen Häufigkeiten als Länge. Die Abschnitte werden übereinander in verschiedenen Farben gestapelt. Anzahl 400 # Zimmer 4 3 Anwendungen: Ordinale Daten Gruppierte Daten Metrische Daten mit wenigen Ausprägungen Besonders geeignet für den Vergleich verschiedener Gruppen durch nebeneinander liegende Stapel. Zu beachten ist dann die Unterscheidung: relative Häufigkeit absolute Häufigkeit # Zimmer Anzahl 09 0

9 Beispiel Mietspiegel:: Stapeldiagramme Beispiel Mietspiegel: Vergleich mit Kreisdiagramm normal Anzahl rel. Häufigkeit 0.0 # Zimmer beste rel. Häufigkeit 0.0 # Zimmer normal beste Wohnlage normal beste Wohnlage 0.00 normal beste Wohnlage 2 Das Histogramm Beispiel: Nettomiete Klein & Kalt b j = b j = 20 Darstellung der relativen Häufigkeiten durch Flächen (Prinzip der Flächentreue) Vorgehen:. Aufteilung in Klassen (falls die Daten noch nicht gruppiert sind) 2. Bestimmung der relativen Häufigkeiten f j = n j n 3. Bestimmung der Höhen h j, so dass gilt b j h j = f j wobei b j : Breite der Klasse j Nettomiete b j = Nettomiete b j = Nettomiete Nettomiete 3 4

10 Histogramm Stamm-Blätter-Diagramm Anwendung bei metrischen Daten Beachte: Abhängigkeit von der Breite Klassen inhaltlich vorgeben, verschiedene Varianten ansehen Vorsicht bei Rändern Spezielles Histogramm / Balkendiagramm mit Klassen nach Dezimalsystem Einzeldaten reproduzierbar stem-and-leaf plot 6 Beispiel: Nettomiete Klein & Kalt Empirische Verteilungsfunktion stem(klein_und_kalt[, "nm"], scale = 0.) ## ## The decimal point is 2 digit(s) to the right of the ## ## 0 8 ## ## ## ## ## sort(round(klein_und_kalt$nm/0) * 0) ## [] ## [8] ## [3] ## [2] Häufigkeitsfunktion: H(x) := (Anzahl der Werte <= x) Verteilungsfunktion: F (x) = H(x)/n = (Anteil der Werte x i mit x i x) bzw. F (x) = f (a ) f (a j ) = f i, wobei a j x und a j+ > x ist. ECDF (empirical cumulative distribution function) i:a i x 7 8

11 Eigenschaften von F (x) Beispiel: F(Quadratmetermiete) für Klein & Kalt monoton wachsende Treppenfunktionen mit Sprüngen an den Ausprägungen a,..., a k Sprunghöhen: f,..., f k rechtsseitig stetig F (x) = 0 für x < a, F (x) = für x a k F(x) Nettomiete / qm 9 20 Eindimensionale statistische Kennwerte Statistische Kennwerte Lagemaßzahlen Wo liegt die Masse der Daten? Wo liegt die Mehrzahl der Daten? Wo liegt die Mitte der Daten? Welche Merkmalsausprägung ist typisch für die Häufigkeitsverteilung? Streumaßzahlen Über welchen Bereich erstrecken sich die Daten? Wie groß ist die Schwankung der Ausprägungen? 2 22

12 Lagemaß: Modus Lagemaß: Median Definition: Häufigster Wert Eigenschaften: oft nicht eindeutig nur bei gruppierten Daten oder bei Merkmalen mit wenigen Ausprägungen sinnvoll stabil bei allen eindeutigen Transformationen geeignet für alle Skalenniveaus Definition: Der Median ( x med ) ist der Wert für den gilt mindestens 0% der Daten sind kleiner oder gleich x med, mindestens 0% der Daten sind größer oder gleich x med. { x x med = (k) falls k = n+ 2 ganze Zahl ( ) 2 x(k) + x (k+) falls k = n 2 ganze Zahl x (),..., x (n) sind geordnete Werte Alternative Definition: x med [x (k), x (k+) ] falls k = n 2 ganze Zahl Eigenschaften des Medians Lagemaß: Quantil Definition: Das p-quantil ist der Wert x p für den gilt mindestens Anteil p der Daten sind kleiner oder gleich x p, mindestens Anteil p der Daten sind größer oder gleich x p. anschaulich stabil gegenüber monotonen Transformationen geeignet für ordinale Daten stabil gegenüber Ausreißern x p = { x (k) [ x (k) ; x (k+) ] falls np keine ganze Zahl und k kleinste Zahl > np falls k = np ganze Zahl Es gibt weitere Definitionen von Quantilen (in R 9 Typen!), die sich aber in der Praxis kaum unterschieden. p-quantil = (00 p)-perzentil Der Median ist das 0.-Quantil bzw. 0%-Perzentil 2 26

13 Boxplot Boxplot Einfacher Boxplot: x 0.2 = Anfang der Schachtel (Box) (= unteres Quartil) x 0.7 = Ende der Schachtel (= oberes Quartil) d Q = Länge der Schachtel (= Inter-Quartile-Range (IQR)) Der Median wird durch den Strich in der Box markiert Zwei Linien (whiskers) außerhalb der Box gehen bis zu x min und x max. Modifizierter Boxplot: whiskers werden nur bis zu x min bzw. x max gezogen, falls x min und x max innerhalb des Bereichs [z u, z o ] der Zäune liegen. Üblicherweise: z u = x 0.2.d Q, z o = x d Q Ansonsten gehen die Linien nur bis zum kleinsten bzw. größten Wert innerhalb der Zäune, die außerhalb liegenden Werte werden individuell eingezeichnet Boxplot: Beispiel Quadratmetermiete Mietspiegel Boxplot Einfacher Boxplot: Eindimensionale Darstellung auf der zugehörigen Skala Visualisieren der -Punkte-Zusammenfassung (Minimum, 2%-,0%-,7%-Perzentile, Maximum) SPSS-Output: 0 20 Nettomiete / qm Modifizierter Boxplot: 0 20 Nettomiete / qm 29 30

14 Gruppierter Boxplot: Boxplot: Vor- und Nachteile 6 +: # Zimmer 4 3 : kompakt geeignet für Vergleiche Ausreißer sichtbar Schiefe sichtbar 2 gegen Intuition (Viel Farbe wenig Daten) da Ausreißer sehr prominent Multimodale Verteilungen nicht sichtbar (Breite redundant) 0 20 Nettomiete / qm 3 32 Der Mittelwert (arithmetisches Mittel) Mittelwert bei gruppierten Daten x = n bekanntestes Lagemaß instabil gegen extreme Werte geeignet für intervallskalierte Daten Durchschnitt x i x = n x i = n (x + x x n ) = n k h j a j j= h j : Häufigkeit von a j 33 34

15 Das geometrische Mittel Das harmonische Mittel x G = n n arithmetisches Mittel auf der log-skala x g = exp ( n x i ) log(x i ) nur geeignet für positive Werte geeignet für intervallskalierte Daten Anwendung: Durchschnitt von Änderungsraten, z.b. durchschnittliche Verzinsung x H := n n x i Das harmonische Mittel entspricht dem Mittel durch Transformation t t : x H = ( n x i ) Beispiel: x,..., x n Geschwindigkeiten, mit denen jeweils Wegstrecke L zurückgelegt wird Gesamt-Geschwindigkeit: L n L x l = x H x n 3 36 Allgemeine Transformation des Mittelwerts I Allgemeine Transformation des Mittelwerts II Lineare Transformation: Für konvexe Funktionen g gilt: d.h. g(t) = a + bt y i = a + bx i ȳ = a + b x g ( n g( x) g(x) ) x i g(x i ) n (Jensen-Ungleichung) a + bx = a + b x g(x) = g( x) Allgemeine Transformation: Generell ist g(x) g( x) g konvex: Beispiel: x 2 x 2 g(λx + ( λ)y) λg(x) + ( λ)g(y) λ [0, ], x, y D g 37 38

16 Vergleich I Vergleich II Es gilt allgemein für positive x i : Beweis:. Zeige x G x: x H x G x g : t log(t) konkav, da g (t) = t < 0 2 log( x) ( log(x) ) x exp log(x) = exp ( n n log(x i) ) = ( n exp (log(x i)) ) n = x G 2. Zeige x H x G : g 2 : t exp(t) ist konvex, da g 2 (t) = exp(t) 0 Benutze ( transformierte ) Daten log(x ),..., log(x n ) ( g 2 n log(x i ) n exp(log(xi )) ) n n n x i n x i }{{} x G n x i n x i }{{} x H Getrimmtes Mittel Maße für die Streuung Um die Ausreißerempfindlichkeit von x abzuschwächen definiert man x α = n 2r n r i=r+ x (i) : geordnete x-werte r ist die größte ganze Zahl mit r nα Es wird also der Anteil α der extremsten Werte abgeschnitten: α-getrimmtes Mittel Winsorisiertes Mittel (gestutztes Mittel): Der Anteil α der extremsten Werte wird durch das entsprechende Quantil ersetzt. x (i) Spannweite Interquartilsabstand Standardabweichung und Varianz Variationskoeffizient 4 42

17 Die Spannweite (Range) Der Quartilsabstand Definition: Definition: q = x max x min Bereich in dem die Daten liegen Wichtig für Datenkontrolle: Plausibilität, Eingabe-/Codierungsfehler, etc. d Q = x 0.7 x 0.2 Größe des Bereichs in dem die mittlere Hälfte der Daten liegt Länge der Box des Boxplots Bei ordinal skalierten Daten Angabe von x 0.7 und x 0.2 : Zentraler 0%-Bereich Robust gegen Ausreißer Standardabweichung und Varianz Transformationsregel Definition: Varianz S 2 x := n Standardabweichung S x := S 2 x (x i x) 2 y i = a + bx i S y 2 = b 2 S2 x S y = b S x S x = Mittlere Abweichung vom Mittelwert Mindestens Intervallskala empfindlich gegen Ausreißer Verwende S 2 x := n n (x i x) 2 für Vollerhebungen, Division durch n nur bei Stichproben sinnvoll (Analog für S x, S y ) Varianz und Standardabweichung sind stabil mit linearen Transformationen verträglich. 4 46

18 Verschiebungssatz: Für jedes c R gilt: (x i c) 2 = (x i x) 2 + n( x c) 2 Streuungszerlegung I Seien die Daten in r Schichten aufgeteilt: x,..., x n, x n +,..., x n +n 2,..., x nr Schichtmittelwerte: c = 0 S 2 x = n S 2 x = x 2 x 2 x 2 i x 2 Schichtvarianzen: x = n x i, x 2 = +n 2 n n 2 i=n + x i, usw. Beachte: Verschiebungssatz für numerische Berechnung mit Computer nicht geeignet. 47 S x 2 = n (x i x ) 2 = n (x i x ) 2, n n S x2 2 = +n 2 (x i x 2 ) 2 = +n 2 (x i x 2 ) 2, usw. n 2 n i=n + i=n + 48 Streuungszerlegung II Variationskoeffizient Dann gilt: r Das Verhältnis von Standardabweichung und Mittelwert ist gegeben durch x = n S 2 x = n j= n j x j r n j S2 xj + n j= r n j ( x j x) 2 j= v = S x x mit x > 0 Der Variationskoeffizient hat keine Einheit und ist skalenunabhängig. Streuung Streuung Gesamtstreuung = innerhalb + zwischen der Schicht den Schichten Er ist eine Maßzahl für die relative Schwankung um den Mittelwert. 49 0

19 Mittlere absolute Abweichung (MAD) Uni- und multimodale Verteilungen Die mittlere absolute Abweichung ist definiert als unimodal = eingipflig, multimodal = mehrgipflig MAD x = n x i x MedAD x := median( x i x med ) Wegen der Jensen-Ungleichung gilt: MAD x S MAD x, MedAD x nicht so schöne theoretische Eigenschaften wie S x, klarer interpretierbar als S x weniger Ausreißer-empfindlich Das Histogramm der Zinssätze zeigt eine bimodale Verteilung. 2 Symmetrie und Schiefe I Symmetrie und Schiefe II symmetrisch Rechte und linke Häfte der Verteilung sind annähernd zueinander spiegelbildlich linkssteil Verteilung fällt nach links deutlich steiler und (rechtsschief) nach rechts langsamer ab rechtssteil Verteilung fällt nach rechts deutlich steiler und (linksschief) nach links langsamer ab Eine linkssteile (a), symmetrische (b) und rechtssteile Verteilung (c) 3 4

20 Lageregeln Maßzahlen für die Schiefe I Symmetrische und unimodale Verteilung: x x med x mod Linkssteile Verteilung: x > x med > x mod Rechtssteile Verteilung: x < x med < x mod Bei gruppierten Daten: Auch für Histogramme gültig Beachte: Form der Verteilung bleibt bei linearen Transformationen gleich. Änderung bei nichtlinearen Transformationen. Quantilskoeffizient: p = 0.2 Quartilskoeffizient Werte des Quantilskoeffizienten: g p = 0 g p > 0 g p < 0 g p = (x p x med ) (x med x p ) x p x p für symmetrische Verteilungen für linkssteile Verteilungen für rechtssteile Verteilungen 6 Maßzahlen für die Schiefe II Dichtefunktion I Momentenkoeffizient der Schiefe: g m = m 3 s 3 Werte des Momentenkoeffizienten: g m = 0 g m > 0 g m < 0 mit m 3 = n für symmetrische Verteilungen für linkssteile Verteilungen für rechtssteile Verteilungen (x i x) 3 Histogramm: - Anteil der Beob. an den Daten = Fläche unter der Kurve - Histogramm ist stückweise konstante Funktion - Problematisch: Abhängigkeit von der Wahl der Klassengrenzen - Ersetze Histogramm durch glatte Funktion f 7 8

21 Dichtefunktion II Dichte und Verteilung Verteilung, Verteilungsfunktion (distribution): Eine positive stetige Funktion heißt Dichte(-funktion) (density), wenn - f (x) 0 und - f (x)dx = Die Fläche unter der Dichte soll in etwa den relativen Häufigkeiten entsprechen, d.h. F (x 0 ) = n #{x i x i x 0 } ˆF (x 0 ) = x 0 ˆf (x)dx x 0 f (x)dx b f (x)dx n #{x i a < x i b} Quantile: Für 0 < p < ist das p-quantil x p der Wert auf der x-achse, für den gilt: a x p f (x)dx = p Der Median teilt die Fläche unter der Dichte in 2 gleich große Teile Beispiele Histogramm und Dichte Beispiele Histogramm und Dichte density 0.2 density x x 6 62

22 Beispiele Histogramm und Dichte Berechnung von Dichte-Kurven ˆf (x) = Gleitendes Histogramm n #{x i x i [x h, x + h)} 2h density 0.2 f (x) = n h K ( ) x xi h { 2 mit K(u) = für u < 0 sonst K : Kernfunktion x Kern-Dichteschätzer Bemerkungen zur Dichteschätzung K(u) sei Kernfunktion, d.h. K(u) 0 und heißt Kern-Dichteschätzer Kerne: ˆf (x) = nh ( ) x xi K h K(u)du = Epanechnikov-Kern K(u) = 3 4 ( u2 ) für u <, 0 sonst. Bisquare-Kern K(u) = 6 ( u2 ) 2 für u <, 0 sonst. Gauß-Kern K(u) = 2π exp ( 2 u2) für u R Abhängigkeit von der Bandweite h Verfahren zur Bestimmung von h aus den Daten Abhängigkeit von der Wahl des Kerns eher unbedeutend Kerndichteschätzungen sind insbesondere bei größeren Datenmengen Histogrammen vorzuziehen 6 66

23 Normalverteilung Quantile I Für x R heißt ( f (x, µ, σ) = σ 2π exp 2 ( ) ) 2 x µ Normalverteilungsdichte mit Mittelwert µ und Standardabweichung σ Für µ = 0 und σ = erhält man σ Quantile der Standardnormalverteilung: p 0% 7% 90% 9% 97.% 99% x p 0.0 (Median) ϕ(x) = exp ( 2 ) x 2 2π Quantile II Normalverteilung in der Psychologie Prozent-Regel: 68% der Beob. liegen im Interv. µ ± σ 9% der Beob. liegen im Interv. µ ± 2σ 99.7% der Beob. liegen im Interv. µ ± 3σ Skalen werden so konstruiert, dass die Verteilung in der Population einer Normalverteilung genügt. IQ : Mittelwert = 00, Standardabweichung T- Werte: Mittelwert 0, Standardabweichung 0 Sta(ndard)nine Mittelwert Standardabweichung

24 Normalverteilung in der Psychologie II Strategie zur Skalenbildung Ziehe grosse Stichprobe aus der Population Ordne Ergebnisse Zuordnung von Stanine Schema: 4% 7% 2% 7% 20% 7% 2% 7% 4% Strategie zur Skalenbildung II Normalverteilung in der technischen Statistik Ziehe grosse Stichprobe aus der Population Standardisierung (Z- Werte): z i = (x i x)/s x Reskalieren durch Multiplikation mit gewünschter Standardabweichung und Addition des gewünschten Mittelwertes. Größen in der Produktion (Längen etc.) Messfehler Größen nach geeigneter Transformation 6-Sigma 73 74

25 Überprüfung der Annahme der Normalverteilung Normal-Quantil-Plot Fragestellung: Passen die Daten zu einer Normalverteilung?. Vergleiche Histogramm, Dichteschätzer mit NV-Dichte (µ = x, σ = S) 2. Vergleiche Verteilungsfunktion, d.h. empirische Verteilungsfunktion F (x) mit Φ(t) = 3. Prüfe Schiefe = 0 4. Q-Q-Plot t f (µ, σ, t)dt Sei x (),..., x (n) die geordneten Daten. Für i =,..., n werden die (i 0.)/n-Quantile z (i) der Standardnormalverteilung berechnet. Der Normal-Quantil-Plot (Normal-Q-Q-Plot) besteht aus den Punkten im z x Koordinatensystem. (z (), x () ),..., (z (n), x (n) ) Liegen die Punkte auf einer Geraden, so passt die Normalverteilung gut zu den Daten 7 76 Q-Q-Plot I Q-Q-Plot II x x x 4 x theoretical quantiles z density theoretical quantiles z density 77 78

26 Konzentrationsmaße Lorenzkurve Motivation: Existiert eine Menge, die auf viele Individuen verteilt ist, kann es hilfreich sein zu wissen, wie diese Menge verteilt ist. Beispiele: Vermögensverteilung in einem Staat Marktanteile von Firmen in einem Segment Grundidee: Es sollen folgende Aussagen grafisch dargestellt werden: Die Ärmsten / Kleinsten x% besitzen einen Anteil von y%. Die Reichsten / Größten x% besitzen einen Anteil von y% Lorenzkurve Lorenzkurve Gestaltung: Definition: Das Merkmal darf nur positive Ausprägungen annehmen Die Gesamtsumme aller Merkmalswerte ist n j= x j = n j= x (j) Die Lorenzkurve verbindet Punktepaare bestehend aus den kumulierten Summen der nach Größe geordneten Beobachtungswerte 0 x ()... x (n) und dem relativen Anteil der Individuen, die diese kumulierte Summe besitzen. Es wird festgelegt: u (0) = 0 und v (0) = 0 Die x-achse wird in gleiche Längen aufgeteilt, deren Anzahl der der Individuen (Merkmalsausprägungen) entspricht: u i = i n, i =,..., n Die y- Werte werden wie folgt berechnet: i j= v i = x (j) n j= x, i =,..., n, (j) also dem Quotienten aus der kumulierten Summe und der Gesamtsumme. Die so errechneten Koordinatenpunkte (u i, v i ) werden in den Graphen eingetragen und mit Geraden verbunden. 8 82

27 Lorenzkurve Lorenzkurve Beispiel: Bauern teilen sich eine Ackerfläche von 00ha zu je 20ha. Beispiel: 4 Bauern besitzen nichts, besitzt alles: i x (i) u i v i i x (i) u i v i Kumulativer Anteil an Ackerfläche Kumulativer Anteil an Grundgesamtheit Kumulativer Anteil an Ackerfläche Kumulativer Anteil an Grundgesamtheit Lorenzkurve Lorenzkurve Erscheinungsbild von Lorenzkurven: Die Koordinate (u 0 ; v 0 ) ist immer (0; 0). Die Koordinate (u n ; v n ) ist immer (; ). Der konstruierte Polygonzug verläuft immer unterhalb (im Grenzfall auf) der Winkelhalbierenden. Der konstruierte Polygonzug ist (streng) monoton steigend. Die Steigung des nächsten Polygonsegments ist entweder gleich groß oder größer als die Steigung des letzten Polygonsegments. 8 86

28 Gini-Koeffizient Gini-Koeffizient Der Gini-Koeffizient bzw. das Lorenz sche Konzentrationsmaß ist eine Maßzahl, die das Ausmaß der Konzentration beschreibt. Er ist definiert als G = 2 F, wobei F die Fläche zwischen der Diagonalen und der Lorenzkurve ist. F Berechnung: Für die praktische Berechnung von G aus den Wertepaaren (u i ; v i ) stehen folgende alternative Formeln zur Verfügung: oder alternativ G = 2 n i x (i) (n + ) n x (i) n n i=i x (i) G = n Wertebereich des Gini-Koeffizienten: (v i + v i ) 0 G n n Gini-Koeffizient Herfindahl-Index Normierter Gini-Koeffizient G + : Der Gini-Koeffizient wird auf folgende Weise normiert: Er hat somit den Wertebereich G + = n n G 0 G, wobei 0 für keine Konzentration (Gleichverteilung) und für vollständige Konzentration (Monopol) steht. x,... x n seien die Daten mit x i 0. Die Anteile der Einheiten i sind wie folgt definiert: Der Herfindahhl-Index ist p i := H i := x i n j= x j \end{block} Der Wertebereich ist von $/n $ (Identische x) bis (Monopol) j= p 2 i 89 90

29 Gini-Index Einkommen weltweit Gini-Index Einkommen Deutschland - X - Einkommensverteilung (Gini-Koeffizient) 0,3 0,30 0,2 0,20 0, 0,0 0,0 0, Quelle: Berechnungen des DIW Berlin auf Basis SOEP 20. (World CIA Report 2009, Wikipedia) Ein weiteres Verteilungsmaß ist der Gini-Koeffizient. Er beschreibt auf einer Skala von null bis eins die Ungleichheit der Verteilung. Je höher der Wert, umso ungleicher ist die Verteilung. Dieses Maß zeigt eine nach 2007 rückläufige Ungleichheit der Nettoäquivalenzeinkommen auf Haushaltsebene an. Dies umfasst alle Einkommensarten (insbesondere Einkommen aus Erwerb, Renten und Pensionen, aus Vermögen und Sozialtransfers). Der Trend einer Zunahme zwischen 2000 und 200 hat sich also in der Zeit danach umgekehrt. Die Ungleichheit der Einkommen nimmt derzeit ab Reichtumsbericht 203, Bundesregierung) (Armuts- &

Empirische Verteilungsfunktion

Empirische Verteilungsfunktion Empirische Verteilungsfunktion H(x) := Anzahl der Werte x ist. Deskriptive

Mehr

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/19 Skalenniveaus Skalenniveau Relation

Mehr

Kapitel 2. Häufigkeitsverteilungen

Kapitel 2. Häufigkeitsverteilungen 6 Kapitel 2 Häufigkeitsverteilungen Ziel: Darstellung bzw Beschreibung (Exploration) einer Variablen Ausgangssituation: An n Einheiten ω,, ω n sei das Merkmal X beobachtet worden x = X(ω ),, x n = X(ω

Mehr

Verteilungen und ihre Darstellungen

Verteilungen und ihre Darstellungen Verteilungen und ihre Darstellungen Übung: Stamm-Blatt-Diagramme Wie sind die gekennzeichneten Beobachtungswerte eweils zu lesen? Tragen Sie in beiden Diagrammen den Wert 0.452 an der richtigen Stelle

Mehr

Graphische Darstellung einer univariaten Verteilung:

Graphische Darstellung einer univariaten Verteilung: Graphische Darstellung einer univariaten Verteilung: Die graphische Darstellung einer univariaten Verteilung hängt von dem Messniveau der Variablen ab. Bei einer graphischen Darstellung wird die Häufigkeit

Mehr

WISTA WIRTSCHAFTSSTATISTIK

WISTA WIRTSCHAFTSSTATISTIK WISTA WIRTSCHAFTSSTATISTIK PROF DR ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 23042013 Datenlagen und Darstellung eindimensionaler Häufigkeitsverteilungen

Mehr

Verteilungsfunktion und dquantile

Verteilungsfunktion und dquantile Statistik 1 für SoziologInnen Verteilungsfunktion und dquantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit die Kumulation inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal

Mehr

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Häufigkeitsverteilungen und Statistische Maßzahlen Statistik SS Variablentypen Qualitative

Mehr

4. Kumulierte Häufigkeiten und Quantile

4. Kumulierte Häufigkeiten und Quantile 4. Kumulierte Häufigkeiten und Quantile Kumulierte Häufigkeiten Oft ist man nicht an der Häufigkeit einzelner Merkmalsausprägungen interessiert, sondern an der Häufigkeit von Intervallen. Typische Fragestellung:

Mehr

3 Lage- und Streuungsmaße

3 Lage- und Streuungsmaße 3 Lage- und Streuungsmaße Grafische Darstellungen geben einen allgemeinen Eindruck der Verteilung eines Merkmals, u.a. von Lage und Zentrum der Daten, Streuung der Daten um dieses Zentrum, Schiefe / Symmetrie

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Verteilungsfunktion und Quantile

Verteilungsfunktion und Quantile Statistik 1 für SoziologInnen Verteilungsfunktion und Quantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit das Kumulieren inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal

Mehr

3 Häufigkeitsverteilungen

3 Häufigkeitsverteilungen 3 Häufigkeitsverteilungen 3.1 Absolute und relative Häufigkeiten 3.2 Klassierung von Daten 3.3 Verteilungsverläufe 3.1 Absolute und relative Häufigkeiten Datenaggregation: Bildung von Häufigkeiten X nominal

Mehr

3. Deskriptive Statistik

3. Deskriptive Statistik 3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro Objekt wird ein Merkmal durch Messung / Befragung/ Beobachtung erhoben. Resultat ist jeweils ein Wert (Merkmalsausprägung) x i : - Gewicht

Mehr

Verteilungsfunktion und Quantile

Verteilungsfunktion und Quantile Statistik 1 für SoziologInnen Verteilungsfunktion und Quantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit das Kumulieren inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt Methodenlehre Mathematische und statistische Methoden I Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206 Dr. Malte Persike persike@uni-mainz.de

Mehr

Fachrechnen für Tierpfleger

Fachrechnen für Tierpfleger Z.B.: Fachrechnen für Tierpfleger A10. Statistik 10.1 Allgemeines Was ist Statistik? 1. Daten sammeln: Durch Umfragen, Zählung, Messung,... 2. Daten präsentieren: Tabellen, Grafiken 3. Daten beschreiben/charakterisieren:

Mehr

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz Statistik Der Weg zur Datenanalyse Zweite, verbesserte Auflage Mit 165 Abbildungen und 34 Tabellen Springer Inhaltsverzeichnis Vorwort v 1 Einführung

Mehr

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität 0.0 0.1 0.2 0.3 0.4 0.

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität 0.0 0.1 0.2 0.3 0.4 0. Eine Verteilung ist durch die Angabe von einem oder mehreren Mittelwerten nur unzureichend beschrieben. Beispiel: Häufigkeitsverteilungen mit gleicher zentraler Tendenz: geringe Variabilität mittlere Variabilität

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik [descriptive statistics] Ziel der deskriptiven (beschreibenden) Statistik einschließlich der explorativen Datenanalyse [exploratory data analysis] ist zunächst die übersichtliche

Mehr

Lösung Aufgabe 19. ( ) = [Mio Euro]. Empirische Varianz s 2 = 1 n

Lösung Aufgabe 19. ( ) = [Mio Euro]. Empirische Varianz s 2 = 1 n Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 4 Gerhard Tutz, Jan Ulbricht, Jan Gertheiss WS 07/08 Lösung Aufgabe 9 (a) Lage und Streuung: Arithmetisches Mittel x = n i=

Mehr

Bitte am PC mit Windows anmelden!

Bitte am PC mit Windows anmelden! Einführung in SPSS Plan für heute: Grundlagen/ Vorwissen für SPSS Vergleich der Übungsaufgaben Einführung in SPSS http://weknowmemes.com/generator/uploads/generated/g1374774654830726655.jpg Standardnormalverteilung

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Häufigkeiten und ihre Verteilung, oder: Zusammenfassende Darstellungen einzelner Variablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen

Mehr

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent Deskriptive Statistik 1. Verteilungsformen symmetrisch/asymmetrisch unimodal(eingipflig) / bimodal (zweigipflig schmalgipflig / breitgipflig linkssteil / rechtssteil U-förmig / abfallend Statistische Kennwerte

Mehr

Wahrscheinlichkeits - rechnung und Statistik

Wahrscheinlichkeits - rechnung und Statistik Michael Sachs Mathematik-Studienhilfen Wahrscheinlichkeits - rechnung und Statistik für Ingenieurstudenten an Fachhochschulen 4., aktualisierte Auflage 2.2 Eindimensionale Häufigkeitsverteilungen 19 absolute

Mehr

Statistik II: Grundlagen und Definitionen der Statistik

Statistik II: Grundlagen und Definitionen der Statistik Medien Institut : Grundlagen und Definitionen der Statistik Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Hintergrund: Entstehung der Statistik 2. Grundlagen

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik In der beschreibenden Statistik werden Methoden behandelt, mit deren Hilfe man Daten übersichtlich darstellen und kennzeichnen kann. Die Urliste (=Daten in der Reihenfolge ihrer Erhebung)

Mehr

Deskriptive Statistik

Deskriptive Statistik Fakultät für Humanwissenschaften Sozialwissenschaftliche Methodenlehre Prof. Dr. Daniel Lois Deskriptive Statistik Stand: April 2015 (V2) Inhaltsverzeichnis 1. Notation 2 2. Messniveau 3 3. Häufigkeitsverteilungen

Mehr

Kapitel 1 Beschreibende Statistik

Kapitel 1 Beschreibende Statistik Beispiel 1.25: fiktive Aktienkurse Zeitpunkt i 0 1 2 Aktienkurs x i 100 160 100 Frage: Wie hoch ist die durchschnittliche Wachstumsrate? Dr. Karsten Webel 53 Beispiel 1.25: fiktive Aktienkurse (Fortsetzung)

Mehr

a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52

a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52 2 Häufigkeitsverteilungen 2.0 Grundbegriffe Ziel: Darstellung bzw. Beschreibung (Exploration) einer Variablen. Ausgangssituation: An n Einheiten ω 1,..., ω n sei das Merkmal X beobachtet worden. x 1 =

Mehr

4 Statistische Maßzahlen

4 Statistische Maßzahlen 4 Statistische Maßzahlen 4.1 Maßzahlen der mittleren Lage 4.2 Weitere Maßzahlen der Lage 4.3 Maßzahlen der Streuung 4.4 Lineare Transformationen, Schiefemaße 4.5 Der Box Plot Ziel: Charakterisierung einer

Mehr

Beschreibende Statistik Eindimensionale Daten

Beschreibende Statistik Eindimensionale Daten Mathematik II für Biologen 16. April 2015 Prolog Geordnete Stichprobe Rang Maße für die mittlere Lage der Daten Robustheit Quantile Maße für die Streuung der Daten Erkennung potentieller Eindimensionales

Mehr

1 Verteilungen und ihre Darstellung

1 Verteilungen und ihre Darstellung GKC Statistische Grundlagen für die Korpuslinguistik Kapitel 2: Univariate Deskription von Daten 8.11.2004 Univariate (= eindimensionale) Daten bestehen aus Beobachtungen eines einzelnen Merkmals. 1 Verteilungen

Mehr

Grafische Darstellung von Häufigkeitsverteilungen (1)

Grafische Darstellung von Häufigkeitsverteilungen (1) Grafische Darstellung von Häufigkeitsverteilungen () Grafische Darstellungen dienen... - Einführung - der Unterstützung des Lesens und Interpretierens von Daten. der Veranschaulichung mathematischer Begriffe

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Günther Bourier. Beschreibende Statistik. Praxisorientierte Einführung - Mit. Aufgaben und Lösungen. 12., überarbeitete und aktualisierte Auflage

Günther Bourier. Beschreibende Statistik. Praxisorientierte Einführung - Mit. Aufgaben und Lösungen. 12., überarbeitete und aktualisierte Auflage i Günther Bourier Beschreibende Statistik Praxisorientierte Einführung - Mit Aufgaben und Lösungen 12., überarbeitete und aktualisierte Auflage 4^ Springer Gabler Inhaltsverzeichnis Vorwort V 1 Einführung

Mehr

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen DAS THEMA: VERTEILUNGEN LAGEMAßE - STREUUUNGSMAßE Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen Anteile Häufigkeiten Verteilungen Anteile und Häufigkeiten Darstellung

Mehr

Deskriptive Statistik Auswertung durch Informationsreduktion

Deskriptive Statistik Auswertung durch Informationsreduktion Deskriptive Statistik Auswertung durch Informationsreduktion Gliederung Ø Grundbegriffe der Datenerhebung Total-/Stichprobenerhebung, qualitatives/quantitatives Merkmal Einteilung der Daten (Skalierung,

Mehr

STATISTIK I Übung 07 Box-Plots und Stem-and-Leaf-Diagramme. 1 Kurze Wiederholung. Warum nur zwei grafische Darstellungsformen?

STATISTIK I Übung 07 Box-Plots und Stem-and-Leaf-Diagramme. 1 Kurze Wiederholung. Warum nur zwei grafische Darstellungsformen? STATISTIK I Übung 07 Box-Plots und Stem-and-Leaf-Diagramme 1 Kurze Wiederholung Warum nur zwei grafische Darstellungsformen? Im Rahmen der Vorlesungen haben wir kurz eine ganze Reihe grafischer Darstellungsformen

Mehr

7. Konzentrations- und Disparitätsmessung

7. Konzentrations- und Disparitätsmessung 7. Konzentrations- und Disparitätsmessung Betrachte: Merkmal X, bei dem alle Daten x i 0 sind und die Merkmalssumme n i=1 x i eine sinnvolle Interpretation besitzt (extensives Merkmal) 314 Beispiel: X:

Mehr

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer Statistik 1 Herzlich willkommen zur Vorlesung Statistik smaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer

Mehr

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.)

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.) Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.) Reinhard.Vonthein@imbs.uni-luebeck.de Institut für Medizinische Biometrie und Statistik Universität zu Lübeck / Universitätsklinikums Schleswig-Holstein

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

WISTA WIRTSCHAFTSSTATISTIK

WISTA WIRTSCHAFTSSTATISTIK WISTA WIRTSCHAFTSSTATISTIK PROF DR ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 07052013 Mittelwerte und Lagemaße II 1 Anwendung und Berechnung

Mehr

Vorlesung: Statistik für Kommunikationswissenschaftler

Vorlesung: Statistik für Kommunikationswissenschaftler Vorlesung: Statistik für Kommunikationswissenschaftler Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München WiSe 2009/2010 Übungen zur Veranstaltung Mittwoch: 14.15-15.45 HG DZ007 Cornelia Oberhauser

Mehr

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg Lagemaße Übung M O D U S, M E D I A N, M I T T E L W E R T, M O D A L K L A S S E, M E D I A N, K L A S S E, I N T E R P O L A T I O N D E R M E D I A N, K L A S S E M I T T E Zentrale Methodenlehre, Europa

Mehr

WISTA WIRTSCHAFTSSTATISTIK

WISTA WIRTSCHAFTSSTATISTIK WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 28.05.2013 Konzentrationsmaße 1. Konzentrationsbegriff

Mehr

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8 Wiederholung Statistik I Statistik für SozialwissenschaftlerInnen II p.8 Konstanten und Variablen Konstante: Merkmal hat nur eine Ausprägung Variable: Merkmal kann mehrere Ausprägungen annehmen Statistik

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 26.02.2008 1 Warum Statistik und Wahrscheinlichkeits rechnung im Ingenieurwesen? Zusammenfassung der letzten Vorlesung Statistik und Wahrscheinlichkeitsrechnung

Mehr

Demokurs. Modul Grundlagen der Wirtschaftsmathematik Grundlagen der Statistik

Demokurs. Modul Grundlagen der Wirtschaftsmathematik Grundlagen der Statistik Demokurs Modul 31101 Grundlagen der Wirtschaftsmathematik und Statistik Kurs 40601 Grundlagen der Statistik 13. Juli 2010 KE 1 2.4 Schiefe und Wölbung einer Verteilung Seite: 53 2.4 Schiefe und Wölbung

Mehr

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

Übung 1: Wiederholung Wahrscheinlichkeitstheorie Übung 1: Wiederholung Wahrscheinlichkeitstheorie Ü1.1 Zufallsvariablen Eine Zufallsvariable ist eine Variable, deren numerischer Wert solange unbekannt ist, bis er beobachtet wird. Der Wert einer Zufallsvariable

Mehr

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter) Beispiel (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter) 1 Ein Statistiker ist zu früh zu einer Verabredung gekommen und vertreibt sich nun die Zeit damit, daß er die Anzahl X der Stockwerke

Mehr

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße Wofür? Lageparameter Modus/ Modalwert Zentrum Median Zentralwert Im Datensatz stehende Informationen auf wenige Kenngrößen verdichten ermöglicht

Mehr

Lage- und Streuungsparameter

Lage- und Streuungsparameter Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch

Mehr

4 Konzentrationsmessung

4 Konzentrationsmessung 4 Konzentrationsmessung 4.0 Vorbemerkungen 4.0 Vorbemerkungen Konzentration: Ausmaß der Ballung von großen Anteilen an der gesamten Merkmalssumme auf wenige Einheiten (Frage zum Beispiel: Welchen Anteil

Mehr

Grundlagen der Statistik I

Grundlagen der Statistik I NWB-Studienbücher Wirtschaftswissenschaften Grundlagen der Statistik I Beschreibende Verfahren Von Professor Dr. Jochen Schwarze 10. Auflage Verlag Neue Wirtschafts-Briefe Herne/Berlin Inhaltsverzeichnis

Mehr

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es beim radioaktiven Zerfall, zwischen 100 und 110 Zerfälle

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik Analyse und Modellierung von Daten Von Prof. Dr. Rainer Schlittgen 4., überarbeitete und erweiterte Auflage Fachbereich Materialwissenschaft! der Techn. Hochschule Darmstadt

Mehr

Deskriptive Statistik Kapitel VI - Lage- und Streuungsparameter

Deskriptive Statistik Kapitel VI - Lage- und Streuungsparameter Deskriptive Statistik Kapitel VI - Lage- und Streuungsparameter Georg Bol bol@statistik.uni-karlsruhe.de Markus Höchstötter, hoechstoetter@statistik.uni-karlsruhe.de Agenda 1. Ziele 2. Lageparameter 3.

Mehr

MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK

MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK PROF. DR. CHRISTINA BIRKENHAKE Inhaltsverzeichnis 1. Merkmale 2 2. Urliste und Häufigkeitstabellen 9. Graphische Darstellung von Daten 10 4. Lageparameter 1

Mehr

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale) PROC MEAS zum Berechnen statistischer Maßzahlen (für quantitative Merkmale) Allgemeine Form: PROC MEAS DATA=name Optionen ; VAR variablenliste ; CLASS vergleichsvariable ; Beispiel und Beschreibung der

Mehr

Mathematische Statistik. Zur Notation

Mathematische Statistik. Zur Notation Mathematische Statistik dient dazu, anhand von Stichproben Informationen zu gewinnen. Während die Wahrscheinlichkeitsrechnung Prognosen über das Eintreten zufälliger (zukünftiger) Ereignisse macht, werden

Mehr

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober 1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte D. Horstmann: Oktober 2014 4 Graphische Darstellung von Daten und unterschiedliche Mittelwerte Eine Umfrage nach der Körpergröße

Mehr

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5 Inhaltsverzeichnis Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite 1.0 Erste Begriffsbildungen 1 1.1 Merkmale und Skalen 5 1.2 Von der Urliste zu Häufigkeitsverteilungen 9 1.2.0 Erste Ordnung

Mehr

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen

Mehr

2. Beschreibung von eindimensionalen (univariaten) Stichproben

2. Beschreibung von eindimensionalen (univariaten) Stichproben 1 2. Beschreibung von eindimensionalen (univariaten) Stichproben Bei eindimensionalen (univariaten) Daten wird nur ein Merkmal untersucht. Der Fall von zwei- oder mehrdimensionalen Daten wird im nächsten

Mehr

Statistik I für Betriebswirte Vorlesung 2

Statistik I für Betriebswirte Vorlesung 2 Statistik I für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 16. April 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 2 1 ii) empirische

Mehr

Angewandte Statistik mit R

Angewandte Statistik mit R Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 2., überarbeitete Auflage B 374545 GABLER Inhaltsverzeichnis Vorwort zur zweiten Auflage Tabellenverzeichnis

Mehr

Statistik Klausur Wintersemester 2012/2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Statistik Klausur Wintersemester 2012/2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Statistik 1 1. Klausur Wintersemester 2012/2013 Hamburg, 19.03.2013 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................

Mehr

Statistik eindimensionaler Größen

Statistik eindimensionaler Größen Statistik eindimensionaler Größen Michael Spielmann Inhaltsverzeichnis 1 Aufgabe der eindimensionalen Statistik 2 2 Grundbegriffe 2 3 Aufbereiten der Stichprobe 3 4 Die Kennzahlen Mittelwert und Streuung,

Mehr

Begriffe zur Statistik-Vorlesung

Begriffe zur Statistik-Vorlesung Begriffe zur Statistik-Vorlesung 1. Vorlesung Grundgesamtheit gesamte zu beobachtende Menge, über die man eine Aussage machen möchte; z.b. alle Studenten der FH BRS Stichprobe Teil der GGH; nutze ich,

Mehr

Statistik. Jan Müller

Statistik. Jan Müller Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen

Mehr

Statistik I für Betriebswirte Vorlesung 10

Statistik I für Betriebswirte Vorlesung 10 Statistik I für Betriebswirte Vorlesung 10 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 13. Juni 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

Bestimmen von Quantilen

Bestimmen von Quantilen Workshop im Rahmen der VIV-Begabtenförderung Bestimmen von Quantilen Wie Rückwärtsdenken in der Stochastik hilft Leitung: Tobias Wiernicki-Krips Samstag, 10. Januar 2015 1 / 29 Motivation Wie bestimmt

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Vorlesungsskript. Deskriptive Statistik. Prof. Dr. Günter Hellmig

Vorlesungsskript. Deskriptive Statistik. Prof. Dr. Günter Hellmig Vorlesungsskript Deskriptive Statistik Prof. Dr. Günter Hellmig Prof. Dr. Günter Hellmig Vorlesungsskript Deskriptive Statistik Erstes Kapitel Die Feingliederung des ersten Kapitels, welches sich mit einigen

Mehr

Beide Verteilungen der Zeiten sind leicht schief. Der Quartilsabstand für Zeiten zum Surfen ist kleiner als der zum Fernsehen.

Beide Verteilungen der Zeiten sind leicht schief. Der Quartilsabstand für Zeiten zum Surfen ist kleiner als der zum Fernsehen. Welche der folgenden Maßzahlen sind resistent gegenüber Ausreißer? Der Mittelwert und die Standardabweichung. Der und die Standardabweichung. Der und die Spannweite. Der und der Quartilsabstand. Die Spannweite

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2010/11.

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2010/11. Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2010/11 Namensschild Dr. Martin Becker Hinweise für die Klausurteilnehmer

Mehr

Univariate Kennwerte mit SPSS

Univariate Kennwerte mit SPSS Univariate Kennwerte mit SPSS In diesem Paper wird beschrieben, wie eindimensionale Tabellen und Kennwerte mit SPSS erzeugt werden. Eine Herleitung der Kennwerte und eine inhaltliche Interpretation der

Mehr

Box-Plots. Werkzeuge der empirischen Forschung. W. Kössler. Einleitung. Datenbehandlung. Wkt.rechnung. Beschreibende Statistik 174 / 258

Box-Plots. Werkzeuge der empirischen Forschung. W. Kössler. Einleitung. Datenbehandlung. Wkt.rechnung. Beschreibende Statistik 174 / 258 174 / 258 Box-Plots Ziel: übersichtliche Darstellung der Daten. Boxplot zu dem Eingangsbeispiel mit n=5: Descr_Boxplot0.sas Prozeduren: UNIVARIATE, GPLOT, BOXPLOT 174 / 258 Box-Plots Ziel: übersichtliche

Mehr

Über den Autor 7 Über den Fachkorrektor 7. Einführung 19

Über den Autor 7 Über den Fachkorrektor 7. Einführung 19 Inhaltsverzeichnis Über den Autor 7 Über den Fachkorrektor 7 Einführung 19 Über dieses Buch 19 Törichte Annahmen über den Leser 20 Wie dieses Buch aufgebaut ist 20 Teil I: Ein paar statistische Grundlagen

Mehr

Einfache statistische Auswertungen mit dem TI-Nspire

Einfache statistische Auswertungen mit dem TI-Nspire 1. Neues Dokument und darin eine neue Seite anlegen Als Typ 6: Lists & Spreadsheet wählen. Darin die Messwerte in einer Spalte erfassen. Dies ergibt die Urliste. Wenn mehrere Messwerte vorliegen, die diejenigen,

Mehr

Zufallsgröße. Würfelwurf mit fairem Würfel. Wahrscheinlichkeitsverteilung einer diskreten

Zufallsgröße. Würfelwurf mit fairem Würfel. Wahrscheinlichkeitsverteilung einer diskreten Zufallsgrößen Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt 0 Einführung Wahrscheinlichkeitsrechnung 2 Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Hypothesentests

Mehr

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen Kapitel 5 Univariate Zufallsvariablen Im ersten Teil dieses Skriptes haben wir uns mit Daten beschäftigt und gezeigt, wie man die Verteilung eines Merkmals beschreiben kann. Ist man nur an der Population

Mehr

Medizinische Biometrie (L5)

Medizinische Biometrie (L5) Medizinische Biometrie (L5) Vorlesung III Wichtige Verteilungen Prof. Dr. Ulrich Mansmann Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie mansmann@ibe.med.uni-muenchen.de

Mehr

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Teil III: Statistik Alle Fragen sind zu beantworten. Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Wird

Mehr

F r a g e n k a t a l o g

F r a g e n k a t a l o g F r a g e n k a t a l o g 1. Was ist eine Konstante? 2. Was ist eine Variable? 3. Was ist ein Datum? 4. Welche Werte haben Variablen? 5. Was sind qualitative Variablen? 6. Was sind quantitative Variablen?

Mehr

Deskriptive Statistik Lösungen zu Blatt 1 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 1

Deskriptive Statistik Lösungen zu Blatt 1 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 1 1 Deskriptive Statistik Lösungen zu Blatt 1 Christian Heumann, Susanne Konrath SS 2011 Lösung Aufgabe 1 (a) Es sollen die mathematischen Vorkenntnisse der Studenten, die die Vorlesung Statistik I für Statistiker,

Mehr

Statistik I Statistik II

Statistik I Statistik II MARTIN-LUTHER-UNIVERSITÄT HALLE-WITTENBERG Juristische und Wirtschaftswissenschaftliche Fakultät Lehrstuhl für Statistik PD Dr. Joachim Wilde Prof. Dr. Claudia Becker Statistik I Statistik II Wintersemester

Mehr

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra If you torture your data long enough, they will tell you whatever you want to hear. James L. Mills Warum Biostatistik?

Mehr

Lösungsvorschläge zur Klausur Beschreibende Statistik und Wirtschaftsstatistik (Sommersemester 2013)

Lösungsvorschläge zur Klausur Beschreibende Statistik und Wirtschaftsstatistik (Sommersemester 2013) Lösungsvorschläge zur Klausur Beschreibende Statistik und Wirtschaftsstatistik (Sommersemester 203) Aufgabe (9 Punkte) Ein metrisches Merkmal X sei in einer Grundgesamtheit vom Umfang n = 200 diskret klassiert.

Mehr

D E S K R I P T I V E S T A T I S T I K

D E S K R I P T I V E S T A T I S T I K Dr. T. Deutler Seminar für Statistik Universität Mannheim Denkanstöße und Lernkontrollfragen zur Veranstaltung D E S K R I P T I V E S T A T I S T I K 1. Grundbegriffe, Darstellung statistischer Ergebnisse

Mehr

I. Zahlen, Rechenregeln & Kombinatorik

I. Zahlen, Rechenregeln & Kombinatorik XIV. Wiederholung Seite 1 I. Zahlen, Rechenregeln & Kombinatorik 1 Zahlentypen 2 Rechenregeln Brüche, Wurzeln & Potenzen, Logarithmen 3 Prozentrechnung 4 Kombinatorik Möglichkeiten, k Elemente anzuordnen

Mehr

Skript 6 Häufigkeiten und Deskriptive Statistiken einer Variablen

Skript 6 Häufigkeiten und Deskriptive Statistiken einer Variablen Skript 6 Häufigkeiten und Deskriptive Statistiken einer Variablen Ziel: Charakterisierung der Verteilung einer Variablen. Je nach Variablentyp geschieht dies durch Häufigkeitsauszählung und Modus (Nominale

Mehr

Teil II: Einführung in die Statistik

Teil II: Einführung in die Statistik Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu

Mehr

P (X = 2) = 1/36, P (X = 3) = 2/36,...

P (X = 2) = 1/36, P (X = 3) = 2/36,... 2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel

Mehr

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden Inhaltsverzeichnis Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3 Warum Statistik? 3 Checkpoints 4 Daten 4 Checkpoints 7 Skalen - lebenslang wichtig bei der Datenanalyse

Mehr