Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

Ähnliche Dokumente
Graphische Darstellung einer univariaten Verteilung:

Grundlagen der empirischen Sozialforschung

3. Deskriptive Statistik

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Median 2. Modus < Median < Mittelwert. Mittelwert < Median < Modus. 2 Modalwerte oder Modus viel größer bzw. viel kleiner als Mittelwert

Deskriptive Statistik Erläuterungen

Lage- und Streuungsparameter

Diese Lücken sollten nicht auch bei Ihnen vorhanden sein: Aufgrund einer statistischen Untersuchung entsteht eine geordnete bzw. ungeordnete, die durc

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Alle weiteren Messoperationen schließen die Klassifikation als Minimaloperation ein.

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik

Statistische Grundlagen I

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten

Statistik und Wahrscheinlichkeitsrechnung

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober

Angewandte Statistik 3. Semester

Maße der zentralen Tendenz

I.V. Methoden 2: Deskriptive Statistik WiSe 02/03

Grundlagen der empirischen Sozialforschung

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

STATISTIK I Übung 04 Spannweite und IQR. 1 Kurze Wiederholung. Was sind Dispersionsparameter?

Statistik I für Betriebswirte Vorlesung 9

3. Lektion: Deskriptive Statistik

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

Einführung in Quantitative Methoden

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

WISTA WIRTSCHAFTSSTATISTIK

STATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich)

Empirische Verteilungsfunktion

Statistische Kennzahlen für die Lage

Mittelwert und Standardabweichung

Univ.-Prof. Dr. Georg Wydra

Streuungsmaße von Stichproben

Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist.

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Statistik und Wahrscheinlichkeitsrechnung

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

benötigen. Die Zeit wird dabei in Minuten angegeben und in einem Boxplot-Diagramm veranschaulicht.

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale

Musterlösung zur Übungsklausur Statistik

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Deskriptive Statistik Winfried Zinn

beruflicher Bildungsabschluss incl. Hochschulabschl. 4Kat.(m) Häufigkeit Prozent Gültig Lehre/Beruffachgesundh.Schule ,2 59,2 59,2

Kennwerte zur Charakterisierung von Datenreihen. Mittelwerte

Mathematik für Biologen

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

V a r i a b l e X x 1 x 2 x 3 x 4 Σ y y y Σ Variable Y. V a r i a b l e X

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt

a) x = 1150 ; x = 950 ; x = 800 b) Die Lagemaße unterscheiden sich voneinander. c) Der Median charakterisiert die Stichprobe am besten.

Vorlesungsskript. Deskriptive Statistik. Prof. Dr. Günter Hellmig

Statistik II: Grundlagen und Definitionen der Statistik

Bitte am PC mit Windows anmelden!

INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE. Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße

Einführung in die Statistik

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:

Der Mittelwert (arithmetisches Mittel)

2. Beschreibung von eindimensionalen (univariaten) Stichproben

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Wahrscheinlichkeitsverteilungen

Einführendes zur Deskriptivstatistik

Exemplar für Prüfer/innen

Auswertung und Darstellung wissenschaftlicher Daten (1)

Fachrechnen für Tierpfleger

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung?

Willkommen zur Vorlesung Statistik

1 Beschreibende Statistik

I.3. Computergestützte Methoden 1. Deskriptive Statistik. Master of Science Prof. Dr. G. H. Franke WS 2009/ 2010

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Statistische Formeln und Tabellen

4 Statistische Maßzahlen

Inhaltsverzeichnis DESKRIPTIVE STATISTIK. 1 Grundlagen Grundbegriffe Skalen... 15

Kapitel 1 Beschreibende Statistik

Deskriptive Statistik

Statistik und Wahrscheinlichkeitsrechnung

ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE

1 GRUNDLAGEN Grundbegriffe Skalen...15

Thema: Mittelwert einer Häufigkeitsverteilung. Welche Informationen kann der Mittelwert geben?

SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1

registrierte Fußballvereine Männer im besten Fußballalter (20 34 Jahre) Bruttoinlandsprodukt je Einwohner Farben der Nationalflagge

5.4 Verteilungsfunktion Verteilungsfunktion diskreten Zufallsvariablen stetigen Zufallsvariablen Verteilungsfunktion

2 Statistische Maßzahlen

Verteilungen und ihre Darstellungen

Aufbau des Experiments Reihung von Versuchsitems und Distraktoren

Grundlagen der Statistik I

Prüfung aus Statistik 1 für SoziologInnen

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Basiswissen Medizinische Statistik

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Kreisdiagramm, Tortendiagramm

Harry Potter und die Kammer des Schreckens : m, s, g, a, a, a, sg, g, a, g, m, m, g, g, sg, s, a, a, a, g, a, a, g, g, a

Transkript:

20 Weiters zum Thema der statistischen Informationsverdichtung M a ß z a h l e n Statistiken bei Stichproben Parameter bei Grundgesamtheiten Maßzahlen zur Beschreibung univariater Verteilungen Maßzahlen der zentralen Tendenz (Lagemaße bzw. Mittelwerte) Maßzahlen der Variabilität (Streuungsmaße)

21 Hierzu noch weitere Begriffserläuterungen: Statistik Sofern eine Maßzahl eine summarische Aussage über den Informationsgehalt der erhobenen Daten macht, wird diese Maßzahl - in Anlehnung an den englischen Begriff statistic - als Statistik bezeichnet. Parameter In Funktionen und Gleichungen eine neben den eigentlichen Variablen auftretende, entweder unbestimmt gelassene oder konstant gehaltene Hilfsgröße.

22 MAßZAHLEN DER ZENTRALEN TENDENZ Generell gilt: Eine Maßzahl der zentralen Tendenz soll der Kennwert sein, der die gesamte Verteilung am besten repräsentiert. 1. : Modus /Modalwert Symbol h Der Modus ist der Wert, der in einer Verteilung am häufigsten vorkommt (dichtester Wert). Beispiel A: 5, 6, 6, 7, 7, 7, 8, 8, 9, 10 Der Wert 7 kommt hier am häufigsten ( 3mal) vor, also ist: h (3 7)/37 Beispiel B: 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 10 Hier ist: h [( 3 7) + ( 3 8) ]: 6 7, 5 (aufgrund von benachbarten Häufigkeitsmaima)

23 Treten zwei nicht benachbarte Messwerte mit relativen Häufigkeitsmaima auf, dann werden diese beiden Messwerte als Modalwerte angegeben: Die Verteilung ist dann bimodal. B e i s p i e l: i f i 4 1 5 2 6 5 7 2 8 1 9 5 10 1 11 1 h 6 ; h 9

24 Bitte beachten: Da der Modalwert ( h ) schon auf nominalem Meßniveau genutzt werden kann, ist h demnach auch für alle weiteren Meßniveaus zulässig.

25 Maßzahlen der zentralen Tendenz die erst ab ordinalem Skalenniveau berechnet werden können: 2. Median Symbol: ~ auch -Schlange oder -Tilde genannt. Begriff: Median kommt vom lateinischen medianus ( in der Mitte befindlich ) Definition: Der Median ist der Wert, der eine nach ihrer Größe geordnete Reihe von Messwerten halbiert. Medianbestimmung: Die Bestimmung des Medians für nicht-klassifizierte Daten ist abhängig von der Anzahl der Fälle: a) liegt eine ungerade Anzahl von Fällen vor, so ist der Median der Wert des mittleren Falles.

26 Allgemeine Formel für die Berechnung von ~ bei ungerader Anzahl der Fälle: ~ n+ 2 1 Beispiel: i 2 ; 3 ; 4 ; 5 ; 9; 16 ; 22 ; n7 ~ 7+ 1 2 8 2 [ 4] Demnach ist hier der Median ( ~ ) der Wert des 4.Falles, also: 5 denn es liegen gleichviel Fälle (hier jeweils 3 Fälle) unterhalb wie oberhalb des 4.Falles

27 b) liegt eine gerade Anzahl von Fällen vor, so ist der Median der Wert, der die beiden mittleren Fälle halbiert: Formel: ~ + n 2 2 n + 1 2 Beispiel: gegeben sei eine Stichprobe über das monatliche Einkommen (in Euro) von Studenten mit folgenden Werten: 637 697 719 750 898 912 981 1032 Bestimmung des Medians mit Hilfe der zuvor benannten Formel: + 8 8 + 1 ~ 2 2 4 5 2 + 2 750+ 898 824 2

28 Medianbestimmung bei klassifizierten Häufigkeiten: 1) Zunächst müssen die kumulierten Häufigkeiten gebildet werden. 2) Dann ermitteln wir n/2 bzw. (n+1)/2. Damit ist die Lage des Medians festgelegt. 3) Wir bestimmen nun aufgrund der kumulierten Häufigkeit diejenige Messwertklasse, in die der Median fällt. Dies wird auch der Eingriffsspielraum genannt 4) Wir formulieren die eakten Grenzen des Eingriffsspielraumes. 5) Wir berechnen den Median nach der Formel: N + FU ~ U 2 + Fm wobei: U eakte untere Grenze des Eingriffsspielraumes (Medianintervall) N Anzahl der Fälle FU kumulierte Häufigkeit unterhalb des Medianintervalls Fm Häufigkeit im Medianintervall h Klassenbreite h

29 Beispiel: 1) Wir bilden die kumulierte Häufigkeit (cum f i ) 4) eakte Grenze 11,5 Klassenintervall f i cum f i 6 8 3 3 9 11 10 13 12 14 14 27 15 17 13 40 18 20 11 51 3) Eingriffsspielraum (Medianintervall) 2) Wir ermitteln die Stellung des Medians: ~ n + 1 2 51+ 1 2 ( 26) also der 26. Wert 5) ~ Eakte untere Grenze des Eingriffsspielraumes (Medianintervalls) N/2 cum f i unterhalb des + Medianintervalls * h f i im Medianintervall Mit den in die Formel eingesetzten Werten: ~ 11,5 + 51/2 13 * 3 14 ~ 14,18 Achtung: der Ausdruck klein h bezeichnet hier die Breite des Klassenintervalls!

30 Bitte beachten Sie: Der Median zeichnet sich durch Unempfindlichkeit gegenüber Etremwerten aus. Befinden sich am oberen und/oder am unteren Ende einer Verteilung etreme Werte (sogenannte Ausreißer ), so bleiben sie bei der Berechnung des Medians unberücksichtigt!

31 Maßzahlen der zentralen Tendenz die erst ab Intervall-/Ratioskalenniveau ( metrischem Skalenniveau) berechnet werden können: 3. Das arithmetische Mittel Symbol: Definition: Das arithmetische Mittel (Durchschnittswert) ist definiert als die Summe der Messwerte, geteilt durch ihre Anzahl, als Formel geschrieben: 1 + 2 + 3 +... + n n i 1 N n i Liegt mehr als eine Häufigkeit vor gilt: f 1 1 + f 2 2 + f 3 n 3 +... + f k k k fi i n i

32 Beispiel: i Alter(in Jahren) von Häusern in einem Sanierungsgebiet i f i 30 1 40 9 50 7 100 2 400 1 Σ 20 ( 1 30) + ( 9 40) + ( 7 50) + ( 2 100) + ( 1 400) 20 ( 30 ) + ( 360) + ( 350) + ( 200) + ( 400) 1340 20 67 ohne Ausreißer : 20 ( 1 30) + ( 9 40) + ( 7 50) + ( 2 100) 19 940 19 49,47

33 Bitte beachten Sie: Das arithmetische Mittel ist empfindlich gegenüber Etremwerten (sogenannten Ausreißern ). Das arithmetische Mittel ist aber am informativisten gegenüber den anderen Lagemaßen, da hier alle Messwerte in die Berechnung mit aufgenommen werden.

34 Besondere Eigenschaften des arithmetischen Mittels 1) Die Summe der Abweichungen aller Messwerte von ihrem arithmetischen Mittel ist gleich Null. n ( i ) i 1 0 Beispiel: 5, 6, 7, 8, 9 7 i i 5-2 6-1 7 0 8 1 9 2 Σ 0

35 Besondere Eigenschaften des arithmetischen Mittels Problem zu 1), verursacht durch die Idealwissenschaft Mathematik: Wenn gilt, dass n ( i ) i 1 0, dann kann ich an dieser Stelle nicht weiterrechnen, den es gilt auch: 0 + 0 und 0 0 0 0 und 0 0 zudem ist der Ausdruck 0 nicht definiert; dagegen ist festgelegt das gilt: 0 1, 0 und der Ausdruck ist festgelegt mit: 0 0

36 Besondere Eigenschaften des arithmetischen Mittels Abhilfe bietet hier folgende mathematische Gesetzmäßigkeit: 2) Die Summe der Quadrate der Abweichungen aller Messwerte von ihrem arithmetischen Mittel ist kleiner als die Summe der Quadrate der Abweichungen aller Messwerte von einem beliebigen Wert der Verteilung, formelhaft dargestellt: n 2 ( ) i < ( i 0 ) i 1 n i 1 2 Mit anderen Worten: Die Summe der Abweichungsquadrate ist für das arithmetische Mittel ein Minimum - aber eben nicht 0 -, formelhaft dargestellt: n ( ) i i 1 2 min!

37 Besondere Eigenschaften des arithmetischen Mittels Beispiel: i 5, 6, 7,8, 9 7 Der beliebige Wert sei hier angenommen mit 0 6 i i ( ) 2 i 0 i ( ) 2 i 0 5-2 4-1 1 6-1 1 0 0 7 0 0 1 1 8 1 1 2 4 9 2 4 3 9 0 10 5 15 Also ergibt sich: 10 < 15

38 Besondere Eigenschaften des arithmetischen Mittels 3) Die Addition (oder: Subtraktion) einer bestimmten Zahl (c) zu allen Einzelwerten ( i ) einer Verteilung vergrößert ( bzw. verkleinert) das arithmetische Mittel um diese Zahl, formelhaft dargestellt: ( i + c) + c bzw. ( i - c) c Beispiel für : ( i + c) + c Jährliche Reparaturaufwendungen (in ) für ein Auto bei fünf Befragten: 100 ; 200 ; 300 ; 400 ; 500 ; n5 100+ 200+ 300+ 400+ 500 1500 300 5 5

39 Besondere Eigenschaften des arithmetischen Mittels Zusätzliche jährliche Benzinkosten, verursacht durch Preisteigerungen, je Auto: 80 ; (also: c80) (100 + 80) + (200+ 80) + (300+ 80) + (400+ 80) + (500+ 80) 5 1900 380 5 Für + c ergibt sich dann hier für: 300 ; c 80 + c 300 + 80 380

40 Conclusio: Die Maßzahlen der zentralen Tendenz sind: - Modus ( h ): typischer Wert einer Verteilung - Median ( ~ ): zentraler Wert einer Verteilung - Arithmetisches Mittel ( ): Durchschnittswert Maßzahlen der zentralen Tendenz und Skalenniveau Maßzahlen der zentralen Tendenz Skalenniveau Modus Median arithm. Mittel h ~ Nominal X Ordinal X X Intervall- X X X /Ratio, dienen der Die besprochenen Mittelwerte h, ~ Kennzeichnung empirischer Verteilungen durch eine Maßzahl. Folgen: - kleinere oder größere Ungenauigkeiten in Bezug zur gesamten Verteilung; - Informationsverlust in Bezug zur gesamten Verteilung.

41 Maßzahlen der zentralen Tendenz Übungsaufgabe: Bestimmen Sie den Modus, Median und das arithmetisches Mittel! i f i 1 2 3 5 7 3 11 2 Literaturhinweis zu den Maßzahlen der zentralen Tendenz KROMREY, Helmut, a.a.o., 2006(11.üb.Aufl.), Kap.8.2.3:435-446.

42