Mathematische und statistische Methoden I

Ähnliche Dokumente
Forschungsstatistik I

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II

Forschungsstatistik I

Mathematische und statistische Methoden II

Forschungsstatistik I

Mathematische und statistische Methoden I

Forschungsstatistik I

Forschungsmethoden VORLESUNG WS 2017/2018

Mathematische und statistische Methoden I

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I

Forschungsmethoden VORLESUNG SS 2017

Mathematische und statistische Methoden I

Mathematische und statistische Methoden II

Kapitel 2. Häufigkeitsverteilungen

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II

WISTA WIRTSCHAFTSSTATISTIK

2 Häufigkeitsverteilungen

Mathematische und statistische Methoden I

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Kreisdiagramm, Tortendiagramm

SozialwissenschaftlerInnen II

Kapitel V - Graphische Darstellung von Häufigkeitsverteilungen

Forschungsstatistik I

Grafische Darstellung von Häufigkeitsverteilungen (1)

3 Häufigkeitsverteilungen

Forschungsstatistik I

Mathematik für Biologen

Statistik und Wahrscheinlichkeitsrechnung

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

0 Einführung: Was ist Statistik

Deskriptive Statistik Lösungen zu Blatt 1 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 1

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Wahrscheinlichkeits - rechnung und Statistik

Primer: Deskriptive Statistik 1.0

3 Häufigkeitsverteilungen

Forschungsstatistik I

Statistik I für Betriebswirte Vorlesung 9

Mathematische und statistische Methoden II

Die folgende Tabelle 1 wurde im Rahmen einer Umfrage unter den Studenten eines Statistikseminars erstellt.

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

Empirische Verteilungsfunktion

Lage- und Streuungsparameter

P (X = 2) = 1/36, P (X = 3) = 2/36,...

4. Kumulierte Häufigkeiten und Quantile

Deskriptive Statistik Erläuterungen

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

Willkommen zur Vorlesung Statistik

Verteilungsfunktion und Quantile

Musterlösung zur Übungsklausur Statistik

Forschungsstatistik I

Voraussetzung für statistische Auswertung: jeder Fall besitzt in bezug auf jedes Merkmal genau eine Ausprägung

Stichwortverzeichnis. Symbole

Mathematische und statistische Methoden II

Deskriptive Statistik

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Einführung in Quantitative Methoden

4. Kumulierte Häufigkeiten und Quantile

Lösungen zur Klausur zur Statistik Übung am

Deskriptive Statistik Aufgaben und Lösungen

Transkript:

Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/ WS 2010/2011 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz

Definition Es wird eine Einheit definiert Es existiert kein natürlicher Nullpunkt Differenzen von Werten können verglichen werden, nicht aber die Werte selbst Wird am häufigsten in empirischen psychologischen Untersuchungen angenommen Intervallskalierte Variablen können diskret oder stetig sein

Beispiel Attitudes Toward Housecleaning Scale von Ogletree, Worthen, Turner & Vickers (2006). Ihre Aufgabe ist es, ihre Gefühle gegenüber jeder Aussage dahingehend zu kennzeichnen, ob sie (1) stark zustimmen, (2) etwas zustimmen, (3) weder zustimmen noch ablehnen, (4) etwas ablehnen oder (5) stark ablehnen. Bitte verdeutlichen Sie Ihre Meinung dadurch, dass sie entweder 1, 2, 3, 4 oder 5 auf dem Antwortblatt schwärzen. Einen Stapel dreckigen Geschirrs über Nacht im Spülbecken liegen zu lassen finde ich ekelhaft. Ich finde Staubwischen entspannend. Den Müll rauszubringen macht mir Spaß Frauen sollten die primäre Verantwortung für die Hausarbeit übernehmen. Eine unordentliche Wohnung zu haben macht mir nichts

Zulässige Transformationen Zulässige Operationen sind Äquivalenzrelationen, d.h. Gleich und Ungleich Zudem erlaubt sind qualitative Vergleichsrelationen, d.h. Größer oder Kleiner Erlaubt sind weiterhin quantitative Vergleichsrelationen, die sich auf Differenzen beziehen Eine Aussage wie Der Unterschied zwischen A und B ist doppelt so groß wie zwischen A und C ist bei einer intervallskalierten Variable zulässig, nicht aber A ist doppelt so groß wie B.

Zulässige Transformationen Zulässig sind alle linearen Transformationen (die Grundrechenarten), so dass die Verhältnisse zwischen Differenzen erhalten bleiben.

Zulässige Transformationen Die Aussage Person E ist doppelt so gut wie Person C, ausgehend von Skala 1, gilt nicht für Skala 3 und 4.

Zulässige Transformationen Wohl aber gilt immer: Der Unterschied zwischen A und B ist doppelt so groß wie zwischen B und C

Kritische Betrachtung Die bekanntesten und am meisten verbreiteten statistischen Verfahren setzen eine voraus Der Umgang mit niedrigeren Skalenniveaus ist mathematisch oftmals weitaus komplexer Die ungeprüfte Annahme der in psychologischen Untersuchungen ist oft problematisch Beispiele: IQ-Skala, 7-Punkte Likert Skala, Becks Depressionsskala (BDI) 0 13: Keine bis minimale Depression 14 19: Milde Depression 20 28: Moderate Depression 29 63: Schwere Depression

Numerische Beschreibung: Problem: Intervallskalierte Variablen können u.u. beliebige Ausprägungen besitzen, die sich nicht mehr sinnvoll in einer Tabelle darstellen lassen Beispiele: Körpergrößen, Serotoninspiegel, Reaktionszeit Lösung: Es muss eine Aggregation vieler Ausprägungen in wenige Kategorien (oder Klassen ) stattfinden Bei der Klassenbildung für eine Variable X findet im Prinzip nichts anderes als eine Transformation von X in eine neue Variable Y statt, und zwar gemäß Y y1 : X = { K} y2 : X = { K} = K yk : X = { K}

Numerische Beschreibung: Klassenbildung Die Messwertklassen dürfen sich nicht überschneiden, sie sind also wechselseitig ausschließend. Die untere und obere Klassengrenze UG j und OG j gehören zur Klasse c j, die obere Grenze der vorherigen Klasse OG j-1 jedoch nicht. c j = [UG j OG j ] oder c j = (UG j-1 UG j+1 ] Alle Klassen haben im Normalfall dieselbe Breite. Die Anzahl der Klassen ist zunächst frei wählbar. Es ist aber zu beachten: 1. Es sollte möglichst wenige leere Klassen geben 2. Es sollten keine in den Daten enthaltenen wichtigen Informationen herausggregiert werden (z.b. mehrere Modalwerte)

Numerische Beschreibung: Klassenbildung Zur Bestimmung der Anzahl von Klassen gibt es verschiedene Formeln. Als Faustregeln gelten: Anzahl der Ausprägungen k 5 bis 50 5 bis 8 Klassenzahl c 50 bis 100 6 bis 10 100 bis 250 7 bis 12 >250 8 bis 25 Eine einfache Formel, die oft zu einer sinnvollen Klassenanzahl c führt, lautet ( n) c= log2 + 1 mit = Aufrundung Statt der Beobachtungen n wird manchmal auch die Anzahl der Realisationen k verwendet.

Numerische Beschreibung: Klassenbildung Die Klassenbreite d bei einer gewünschten Anzahl von c gleich breiten Klassen wird berechnet als max( X ) min( X ) d = c Hier ist X die ursprüngliche intervallskalierte Variable Bei der Berechnung der Klassenbreite muss auf Ausreißer in der Variablen X geachtet werden, da solche die Klassenbreite erheblich verzerren können.

Numerische Beschreibung: Klassenbildung 25 Abiturienten erreichen in ihrer Abschlussarbeit folgende Punktzahlen: (11, 15, 8, 13, 8, 11, 14, 11, 11, 14, 13, 11, 2, 9, 10, 10, 14, 7, 7, 12, 12, 8, 6, 11, 13) Unter der Annahme, dass die Notenskala von 1 bis 15 reicht, ergibt sich diese Häufigkeitstabelle bei 5 Klassen: Note h(x) f(x) F(x) 1 3 1 0.04 0.04 4 6 1 0.08 0.12 7 9 6 0.28 0.40 10 12 10 0.44 0.84 13 15 7 0.16 1.00

Numerische Beschreibung: Klassenbildung 25 Ratten erreichen in einem Experiment folgende Reaktionszeiten: (11.23, 15.1, 8.4576, 13.3, 8.955, 11.0, 14.443, 11.63, 11.39, 14.771, 13.115, 11.32, 2.5, 9.814, 10.03, 10.99, 14.3, 7.523, 7.49, 12.1496, 12.88, 8.0, 6.748, 11.1, 13.0) Schreibweise der Klassengrenzen in der Tabelle? Note h(x) f(x) F(x) 1 3 1 0.04 0.04 43 6 1 0.08 0.12 76 9 6 0.28 0.40 10 9 12 12 10 0.44 0.84 13 12 15 7 0.16 1.00 Es galt per Konvention: Die obere Grenze gehört zur Klasse, die untere nicht (außer bei erster Kategorie).

Numerische Beschreibung: Klassenbildung Bei diskreten Daten werden die Klassengrenzen nach Möglichkeit nicht-überlappend angegeben. Die Klassenbreite ist dann d = OG UG + 1 Bei kontinuierlichen Daten werden die Klassengrenzen überlappend angegeben, wobei per Konvention die obere Grenze zur Klasse gehört, die untere aber nicht. Die Klassenbreite ist dann d= OG - UG

Beschreibung: Histogramm Das Histogramm stellt die Häufigkeiten vieler Kategorien in einem Säulendiagramm mit weniger Klassen als Kategorien dar Die Klassen müssen nicht notwendig gleich breit sein Für die Klassenbildung beim Histogramm gelten dieselben Faustregeln wie bei den Die Häufigkeiten können entweder absolute Häufigkeiten (absolutes Histogramm) sein oder relative Häufigkeiten (relatives Histogramm) Die Fläche einer Säule repräsentiert dabei die Häufigkeit der Elemente in der Klasse.

Beschreibung: Histogramm Frage: Warum soll beim Histogramm die Fläche der Säule die Häufigkeit repräsentieren und nicht wie beim Säulen-/Balkendiagramm die Höhe der Säule Beispiel: Säule 1 ist etwas höher als Säule 3, allerdings ist die Klassenbreite unterschiedlich groß Aufgrund der Flächenbewertung des menschlichen Sehsystems scheint Klasse 3 wesentlich mehr Merkmalsträger zu umfassen als Klasse 1

Beschreibung: Histogramm Prinzip: Wählt man ungleiche Klassenbreiten, muss das Histogramm normiert werden (wegen der Flächenbeurteilung des menschlichen Sehsystems). Da die Fläche A j einer Säule die Häufigkeit repräsentiert, gilt für eine Klasse y j A = f(x j ), und damit f(x j ) = a j d j (a j ist die Höhe der Säule, d j die Klassenbreite) Somit ist die Höhe einer Säule a j = f(x j ) / d j Dies gilt auch für die Darstellung mit absoluten Häufigkeiten h(x j ) Dann ist die Höhe einer Säule a j = h(x j ) / d j

Beschreibung: Histogramm Prinzip: Wählt man ungleiche Klassenbreiten, muss das Histogramm normiert werden (wegen der Flächenbeurteilung des menschlichen Sehsystems). Da die Fläche A j einer Säule die Häufigkeit repräsentiert, gilt für eine Klasse y j A = f(x j ), und damit f(x j ) = a j d j (a j ist die Höhe der Säule, d j die Klassenbreite)

Beschreibung: Histogramm Problem: Ein normiertes Histogramm ist in Bezug auf die y-achse nur schwer interpretierbar. Um die relative/absolute Häufigkeit einer Klasse zu bestimmen, muss außer bei einer Klassenbreite von 1 stets gerechnet werden Bei gleichen Klassenbreiten wird ein Histogramm daher oft wie ein Säulendiagramm erstellt.

Beschreibung: Histogramm Beispiel: Verteilung des IQ in diesem Raum. Student IQ 1 103 2 110 3 117 4 118 5 125 6 115 7 117 92 97 f(iq) h(iq) 92 Werte zwischen 89 und 140

Beschreibung: Histogramm Achtung: Die Wahl der Klassenanzahl kann für die Aussage entscheidend sein. Beispiel: Körpergrößen an der Geisteswissenschaftlichen Fakultät der Uni Mainz Klassenanzahl: 25 Klassenanzahl: 10 f(iq) f(iq)

/verbale Beschreibung: Modalität Je nach Anzahl der (lokalen) Maxima unterscheidet man uni-, bi- und multimodale Verteilungen.

/verbale Beschreibung: Schiefe Symmetrische Verteilungen: Häufigkeiten für die Ausprägungen einer Zufallsvariablen verlaufen gleichartig um den Mittelwert. Linkssteile/rechtsschiefe Verteilungen: Häufigkeiten laufen rechts des Mittelwertes flacher aus. Rechtssteile/linksschiefe Verteilungen: Häufigkeiten laufen links des Mittelwertes flacher aus.

Beschreibung: Empirische Verteilungsfunktion Die empirische Verteilungsfunktion bei c Klassen ist j F( X x ) = F( x ) = f ( x ) j j c c= 1 mit j = 1 k Note x h(x) f(x) F(x) 1 7 0.17 0.17 2 13 0.32 0.49 3 11 0.27 0.76 4 6 0.15 0.91 5 3 0.07 0.98 6 1 0.02 1.00 Zur grafischen Darstellung werden also die empirischen relativen Häufigkeiten aufsummiert

Relevante Excel Funktionen Klassenbildung LOG() AUFRUNDEN()