Deskriptive Statistik



Ähnliche Dokumente
1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

STATISTIK. Erinnere dich

Kontingenzkoeffizient (nach Pearson)

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Einfache statistische Auswertungen mit dem TI-Nspire

Aufgabe 1: Nehmen Sie Stellung zu den folgenden Behauptungen (richtig/falsch mit stichwortartiger Begründung).

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Felix Klug SS Tutorium Deskriptive Statistik

Daten sammeln, darstellen, auswerten

Teil I: Deskriptive Statistik

Fachhochschule Düsseldorf Wintersemester 2008/09

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Auswertung JAM! Fragebogen: Deine Meinung ist uns wichtig!

4. Erstellen von Klassen

R ist freie Software und kann von der Website.

Laufende Auswertung von Feedback-Fragebögen Eine Vorlage zur Auswertung eines Fragebogens und die Präsentation erstellen...

1 Verteilungen und ihre Darstellung

Korrelation (II) Korrelation und Kausalität

Primzahlen und RSA-Verschlüsselung

QM: Prüfen -1- KN

Media Teil III. Begriffe, Definitionen, Übungen

7 Rechnen mit Polynomen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

1 Mathematische Grundlagen

Musterlösungen zur Linearen Algebra II Blatt 5

Umgang mit Schaubildern am Beispiel Deutschland surft

Anwendungshinweise zur Anwendung der Soziometrie

Mathematische und statistische Methoden II

Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar

Forschungsstatistik I

Professionelle Seminare im Bereich MS-Office

Zusammenhänge zwischen metrischen Merkmalen

Die Größe von Flächen vergleichen

Einfache statistische Auswertungen mit dem Programm SPSS

Analyse klassierter Daten: Vor der Analyse fasst man jeweils mehrere Merkmalsausprägungen in (Merkmalswerte-)Klassen zusammen.

Deutliche Mehrheit der Bevölkerung für aktive Sterbehilfe

Eigenwerte und Eigenvektoren von Matrizen

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Sonderrundschreiben. Arbeitshilfe zu den Pflichtangaben in Immobilienanzeigen bei alten Energieausweisen

W-Rechnung und Statistik für Ingenieure Übung 11

Einführung in die Statistik mit EXCEL und SPSS

Kapitel 2. Häufigkeitsverteilungen

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Erfahrungen mit Hartz IV- Empfängern

Information zum Prüfungswesen Geprüfte(r) Logistikmeister(in) Handlungsspezifische Qualifikationen

Rente = laufende Zahlungen, die in regelmäßigen Zeitabschnitten (periodisch) wiederkehren Rentenperiode = Zeitabstand zwischen zwei Rentenzahlungen

ACDSee 10. ACDSee 10: Fotos gruppieren und schneller durchsuchen. Was ist Gruppieren? Fotos gruppieren. Das Inhaltsverzeichnis zum Gruppieren nutzen

Institut für Leistungselektronik und Elektrische Antriebe. Übungen Regelungstechnik 2

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Histogramm und Wahrscheinlichkeitsnetz 1/16

Krawatten- und Schal-Konfigurator Gestalten Sie Ihre eigene Krawatte, Ihren eigenen Schal!

Professionelle Diagramme mit Excel 2010 erstellen. Peter Wies. 1. Ausgabe, 2. Aktualisierung, März Themen-Special W-EX2010DI

Einführung in. Logische Schaltungen

2 Evaluierung von Retrievalsystemen

Lichtbrechung an Linsen

Berechnung der Erhöhung der Durchschnittsprämien

Expertenrunde Gruppe 1: Wiederholungsgruppe EXCEL (Datenerfassung, Darstellungsformen, Verwertung)

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

Umfrage der Klasse 8c zum Thema "Smartphones"

Data Mining: Einige Grundlagen aus der Stochastik

Überblick über die Tests

Wichtiges Thema: Ihre private Rente und der viel zu wenig beachtete - Rentenfaktor

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

1.3 Die Beurteilung von Testleistungen

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Statistik II für Betriebswirte Vorlesung 2

Lineare Gleichungssysteme

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Um Ihre Ziele durchzusetzen! Um Beziehungen zu knüpfen und zu pflegen! Um in Begegnungen mit anderen Ihre Selbstachtung zu wahren!

MuP-Arbeitshilfen. Kreativität organisieren Der innovative Prozess. Problem-Phase

Erstellen von x-y-diagrammen in OpenOffice.calc

Anleitung über den Umgang mit Schildern

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

Zufallsgrößen und Wahrscheinlichkeitsverteilungen

EDV-Fortbildung Kombi-Schulung Word-Excel Modul Excel. Informationen zum Programm. Die Programmoberfläche von Excel

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Auswertung und Darstellung wissenschaftlicher Daten (2)

Kapitalerhöhung - Verbuchung

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Konzepte der Informatik

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Uli Greßler. Qualitätsmanagement. Überwachung der Produkt- und Prozessqualität. Arbeitsheft. 2. Auflage. Bestellnummer 04796

8.2 Thermodynamische Gleichgewichte, insbesondere Gleichgewichte in Mehrkomponentensystemen Mechanisches und thermisches Gleichgewicht

Versuch 3. Frequenzgang eines Verstärkers

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

q = 1 p = k k k = 0, 1,..., = [ ] = 0.678

Statuten in leichter Sprache

Auswertung zur. Hauptklausur Unternehmensbesteuerung. vom und Ergebnisse der Kundenbefragung

Diagrammtypen. 8. Dezember 2012

Aber zuerst: Was versteht man unter Stromverbrauch im Standby-Modus (Leerlaufverlust)?

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

8. Berechnung der kalkulatorischen Zinsen

MODUL 4 UNIVARIATE DATENANALYSE HÄUFIGKEITEN UND DIAGRAMME PROSEMINAR ANALYSE UND DARSTELLUNG VON DATEN I (DESKRIPTIVE STATISTIK)

Modellbildungssysteme: Pädagogische und didaktische Ziele

Grundlagen der Theoretischen Informatik, SoSe 2008

Transkript:

Deskriptive Statistik [descriptive statistics] Ziel der deskriptiven (beschreibenden) Statistik einschließlich der explorativen Datenanalyse [exploratory data analysis] ist zunächst die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltenen Informationen und Strukturen. Im Vordergrund stehen dabei Informationen über die Verteilung der Merkmalsausprägungen einzelner Merkmale univariate Statistik und der Kombinationen von Merkmalsausprägungen mehrerer Merkmale bi- oder multivariate Statistik (Suche nach Zusammenhängen/Abhängigkeiten). Die verwendeten Techniken hängen vom Skalenniveau der einbezogenen Merkmale (Variablen) ab. 1

Typische Fragestellungen: Wertebereich, Verteilung (z.b. deren Form) und Kenngrößen einzelner Merkmale (univariate Statistik) und von Merkmalspaaren (bivariate Statistik)... Ähnlichkeiten und Unterschiede in der Verteilung von mehreren Merkmalen Abhängigkeiten zwischen Merkmalen Verdichtung der Information, Datenreduktion Ähnlichkeits- und Gruppenstruktur der Objekte Absonderliches Verhalten einzelner Objekte 2

Auch bei Fragestellungen der multivariaten Statistik beginnt die Analyse zunächst mit der Betrachtung einzelner Merkmale, d.h. ihrer univariaten Verteilungen. 3

Univariate Eindimensionale Daten [univariate data]: Pro Objekt i (i = 1,..., n; n Stichprobenumfang) wird ein Merkmal X durch Messung, Befragung oder Beobachtung erhoben, z. B. Bildungsstand, Gehalt, Wohngegend oder Wahlverhalten der befragten Person. Das Resultat ist jeweils ein Wert (die Merkmalsausprägung) x i. 4

Bivariate Zweidimensionale Daten [bivariate data]: Pro Objekt i (i = 1,..., n) werden zwei Merkmale X und Y gemeinsam erhoben, z. B. Bildungsstand und Gehalt, Bildungsstand und Wohngegend oder Wohngegend und Wahlverhalten der befragten Person. Resultat ist jeweils ein Paar (x i, y i ) von Merkmalsausprägungen. 5

Darstellung univariater Verteilungen Ausgangspunkt bei eindimensionalen Daten ist die Urliste, d.h. das Ergebnis der Registrierung der Beobachtungen (Merkmalsausprägungen) x 1, x 2,..., x n des Merkmals X. Dies entspricht einer Spalte der Datenmatrix; in der Regel werden Zahlen(-kodes) verwendet. 6

Bezeichnungen: n heißt Stichprobenumfang [sample size] a 1,..., a k bezeichnen die verschiedenen in der Urliste vorliegenden Merkmalsausprägungen des Merkmals X. Da Ausprägungen mehrfach in der Urliste auftreten können, gilt stets k n. Handelt es sich um Daten mit mindestens ordinalem Skalenniveau, so wollen wir annehmen, dass die Ausprägungen geordnet a 1 < a 2 <... < a k vorliegen. 7

h(a j ) = h j bezeichnet die absolute Häufigkeit [absolute frequency] der Ausprägung a j in der Urliste, d.h. die Anzahl der x i aus x 1, x 2,..., x n mit x i = a j. f(a j ) = f j := h j /n heißt relative Häufigkeit [relative frequency] der Ausprägung a j. (h 1,..., h k ) heißt absolute Häufigkeitsverteilung [... distribution]. (f 1,..., f k ) heißt relative Häufigkeitsverteilung. 8

Beispiel (Verkehrsmittel): Benutzte Verkehrsmittel (Merkmal X) von n = 100 Urlaubern bei der letzten Auslandsreise (Nominalskala). Verwendete Kodierung: a 1 = 1 a 2 = 2 a 3 = 3 a 4 = 4 a 5 = 5 entspricht Bahn... Bus... Flugzeug... PKW... Sonstige Es gilt k = 5 100 = n. 9

Anfang der Urliste: Person i x i 1 4 2 3 3 2 4 4 5 2 6 4 7 4 8 3 9 2.. 10

Bestimmen der absoluten (h(a j ) = h j ) und relativen Häufigkeiten (f(a j ) = f j ) für das Auftreten der verschiedenen Merkmalsausprägungen (a j ) und Erstellen einer Häufigkeitstabelle mit der absoluten und relativen Häufigkeitsverteilung (Tabellieren der Verteilung). Strichliste: 1 Bahn 7 2 Bus 9 3 Flugzeug 29 4 PKW 53 5 Sonstige 2 11

Häufigkeitstabelle: Ausprägung a j abs. Häufigkeiten h j rel. Häufigkeiten f j 1 7 7/100 = 0.07 2 9 9/100 = 0.09 3 29 29/100 = 0.29 4 53 53/100 = 0.53 5 2 2/100 = 0.02 Summe: 100 100/100 = 1.00 k h j = n j=1 k f j = 1 j=1 12

Relative Häufigkeiten sind günstig zur Bewertung und für den Vergleich von Anteilen einsetzbar (Prozentsätze bezogen auf den Stichprobenumfang). Allein aus relativen Häufigkeiten kann allerdings nicht mehr auf die absoluten Häufigkeiten geschlossen werden. Absolute oder relative Häufigkeiten lassen sich mit Balken- [bar chart] oder Kreisdiagrammen [Pie chart] grafisch darstellen. 13

SPSS berechnet in Häufigkeitstabellen neben den absoluten Häufigkeiten verschiedene Prozentsätze: Prozent: relative Häufigkeiten bezogen auf die gesamte Stichprobe mit Stichprobenumfang n. Gültige Prozente: relative Häufigkeiten bezogen nur auf die gültigen Werte; der Stichprobenumfang n wird dabei um die Anzahl der in PASW/SPSS vereinbarten fehlenden Werte reduziert. Kumulierte Prozente: kumulierte gültige Prozente; nur für Merkmale mit mindestens ordinalem Skalenniveau sinnvoll. 14

Speziell bei umfangreicheren metrischen Datensätzen ist oft die Anzahl k der verschiedenen Ausprägungen des beobachteten Merkmals groß und die Häufigkeit für ihr Auftreten sind klein (k n). Entsprechende Häufigkeitstabellen sind unübersichtlich. Ein Ausweg ist dann die Vergröberung des Datenmaterials durch Klassenbildung. 15

Beispiel (Körpergrößen): Population von n = 200 Kindern, 10 Jahre alt, gemessenes Merkmal X: Körperhöhe in cm (Verhältnisskala). Sehr viele verschiedene Messwerte, Häufigkeitstabelle unübersichtlich. Ausweg: Klasseneinteilung, Bildung von Messwertklassen, Daten werden gruppiert 16

Klasse Häufigkeit 125.5... 130.5 8 130.5... 135.5 28 135.5... 140.5 36 140.5... 145.5 36 145.5... 150.5 50 150.5... 155.5 40 155.5... 160.5 2 17

Die Klassenbildung erfolgt so, dass die Ordnung erhalten bleibt, d.h. nur benachbarte Werte werden zusammengefasst. Die Klasseneinteilung muss disjunkt und vollständig sein und sollte möglichst (bis auf die Randklassen) die gleiche Breite verwenden. Faustregel zur Wahl der Anzahl der Klassen: Anzahl n. 18

Die Klassenbildung ist auch für ordinale Daten anwendbar; es dürfen nur benachbarte Ausprägungen zusammengefasst werden. Bei kategorialen (nominalen) Daten ggf. nach der Kausalstruktur (inhaltlichen Ähnlichkeiten) vorgehen. Mit jeder Klassenbildung (Vergröberung) ist ein Informationsverlust verbunden. Grafische Darstellung der gruppierten Daten: Balkendiagramm, Kreisdiagramm 19

Grafische Darstellung der (zunächst) ungruppierten Originaldaten (mindestens intervallskaliert): Histogramm [histogram]: Bei Histogrammen (z.b. in SPSS) übernimmt der Rechner die Klasseneinteilung und stellt die sich ergebende Häufigkeitsverteilung durch eine Balkengrafik dar, wobei die Balken für benachbarte Klassen lückenlos aufeinander folgen. Am Rechner sollte man bei Histogrammen Zahl und Lage der Klassen (Anfangspunkt) variieren, um eine genauere Vorstellung von der Form der Werteverteilung zu bekommen. Die Form ergibt sich dabei durch das Verbinden der Werte für die Balkenhöhen in den Klassenmitten (Häufigkeitspolygon [frequency or density function]). 20

Stamm Blatt Diagramm [stem and leaf display] Siehe Literatur bzw. PC-Praktika (SPSS: Stengel Blatt) Analysieren Deskriptive Statistiken Explorative Datenanalyse: Diagramme Weitere Möglichkeiten zur Darstellung stetiger Verteilungen bieten gleitende Histogramme und Kerndichteschätzer. 21

Typische Verteilungsformen (a) glockenförmige Verteilung: sehr häufig, z.b. immer dann, wenn das untersuchte Merkmal additiv durch viele kleine zufällige Effekte überlagert wird; symmetrisch; z.b. Messfehler (Summe aus vielen kleinen Fehlern). (b) U förmige Verteilung: extreme Werte treten am häufigsten auf; z.b. vorherrschen extremer Meinungen (Polarisierungen). (c) J förmige Verteilung: ein Extrem tritt am häufigsten auf, monotones Abfallen der Häufigkeiten zum anderen Extrem; z.b. Wartezeiten (zwischen Anrufen). 22

(d) eingipflige (unimodale) schiefe Verteilung: asymmetrisch; tritt oft als theoretische Verteilung positiver statistischer Prüfgrößen auf, z.b. χ 2 Verteilung, siehe später. (e) zweigipflige (bimodale) Verteilung: Mischung zweier unterschiedlicher Populationen; z.b. Körpergröße von Männern und Frauen, Mischverteilung. (f) schmalgipflige Verteilung: Werte streuen nur wenig. (g) breitgipflige Verteilung: Werte streuen stark. 23

Kumulierte Häufigkeiten entstehen durch Summieren der absoluten oder relativen Häufigkeiten nach der Größe der Ausprägungen (Kodes) des untersuchten Merkmals, also von links beginnend. Es ist mindestens eine Ordinalskala erforderlich. 24

Im Beispiel Körpergrößen ergibt sich: Klasse Häufigkeit kumulierte Häufigkeiten 125.5... 130.5 8 8 130.5... 135.5 28 8 + 28 = 36 135.5... 140.5 36 36 + 36 = 72 140.5... 145.5 36 72 + 36 = 108 145.5... 150.5 50 108 + 50 = 158 150.5... 155.5 40 158 + 40 = 198 155.5... 160.5 2 198 + 2 = 200 25

Grafische Darstellung der kumulierten Häufigkeiten: Summenpolygon. Hier ergibt sich z.b.: 158 Kinder hatten eine Größe von unter (oder gleich) 150.5 cm 26

Empirische Verteilungsfunktion [empirical distribution function] Voraussetzung: mindestens ordinalskalierte Daten Fragestellung: Welcher Anteil der Daten ist kleiner oder gleich einem vorgegebenen Wert x? 27

Empirische Verteilungsfunktion (kumulierte relative Häufigkeitsverteilung) eines Merkmals X: Wir bestimmen für jede reelle Zahl x den Anteil der Datenwerte, die kleiner oder gleich x sind. Die Funktion F mit F (x) = Anzahl d. Beob. x i mit x i x Stichprobenumfang n = j=1,...,k mit a j x ist die empirische Verteilungsfunktion oder kumulierte relative Häufigkeitsverteilung des Merkmals X mit den beobachteten Merkmalsausprägungen x 1, x 2,..., x n. f j 28

F ist eine monoton wachsende Treppenfunktion, die an den Stellen a 1,..., a k um die entsprechenden relativen Häufigkeiten f 1,..., f k nach oben springt. Es gilt F (x) = 0 für alle x < a 1 und F (x) = 1 für alle x a k. 29

Beispiel (Studiendauer): Studiendauer in Semester von n = Studierenden (Verhältnisskala). Häufigkeitsverteilung: a j 7 8 9 10 11 12 13 14 15 h j 1 2 7 11 21 15 13 4 1 f j 1 2 7 11 21 15 13 4 1 F (a j ) 1 3 10 21 42 57 70 74 30

Mit Hilfe der empirischen Verteilungsfunktion lassen sich Häufigkeitsverteilungen, Anteilswerte und empirische Quantile (siehe später) bestimmen. 31

Geordnete Stichprobe und Ränge [ordered data set and ranks] Gegeben seien (mindestens) ordinale Daten! Das Ordnen der Urliste x 1, x 2,..., x n liefert die geordnete Stichprobe x (1), x (2),..., x (n) mit x (1) x (2)... x (n). Beispiel (Körpergröße von Kindern, Auszug, n = 10): Urliste: 154, 130, 148, 153, 149, 142, 138, 152, 137, 140 geordnete Stichprobe: 130, 137, 138, 140, 142, 148, 149, 152, 153, 154 32

Seien nun alle Merkmalsausprägungen unterschiedlich (!), d.h. es gelte k = n. Dann gelten für die geordnete Stichprobe x (1), x (2),..., x (n) die strengen Ungleichungen x (1) < x (2) <... < x (n) Die Ränge der Daten sind dann definiert als Rg(x (i) ) := i d.h. x (i) ist der i te Wert in der geordneten Stichprobe. 33

Beispiel (Forts.): x i Rg(x i ) x (i) Rg(x (i) ) 154 10 130 1 130 1 137 2 148 6 138 3 153 9 140 4 149 7 142 5 142 5 148 6 138 3 149 7 152 8 152 8 137 2 153 9 140 4 154 10 34

Die Definition der Ränge ist komplizierter, wenn Werte mehrfach auftreten (Bindungen [ties or tied ranks]). Siehe Literatur. SPSS: Transformieren Rangfolge bilden Das Untermenü Rangbindungen erlaubt verschiedene Definitionen von Rängen bei vorliegenden Bindungen. 35