Univariate explorative Datenanalyse in R

Ähnliche Dokumente
Univariate explorative Datenanalyse in R

Bivariate explorative Datenanalyse in R

Bivariate explorative Datenanalyse in R

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

2. Deskriptive Statistik

Statistik I für Betriebswirte Vorlesung 9

Verfahren für metrische Variable

Einstieg in SPSS. Man kann auch für jede Ausprägung einer Variablen ein Wertelabel vergeben.

Eine Einführung in R: Deskriptive Statistiken und Graphiken

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Merkmalstypen Univ.-Prof. Dr. rer. nat. et med. habil. Andreas Faldum

Univariate Kennwerte mit SPSS

3.4 Bivariate Datenanalyse in R

Einführung in Quantitative Methoden

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit

k-means Clustern in R

Skript 6 Häufigkeiten und Deskriptive Statistiken einer Variablen

Deskriptive Statistik

Statistik und Wahrscheinlichkeitsrechnung

Grundlagen der empirischen Sozialforschung

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

4. Kumulierte Häufigkeiten und Quantile

Verteilungsfunktion und Quantile

3. Deskriptive Statistik

3. Lektion: Deskriptive Statistik

Einführung in die Ökonometrie

2.3 Univariate Datenanalyse in R

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

Statistik K urs SS 2004

Beschreibende Statistik Kenngrößen in der Übersicht (Ac )

1 Univariate Statistiken

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2008/2009. Aufgabe 1

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

Fachrechnen für Tierpfleger

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Deskriptive Statistik

Verteilungsfunktion und Quantile

Verteilungsfunktion und Quantile

Kapitel 1: Deskriptive Statistik

Grafische Darstellung von Häufigkeitsverteilungen (1)

Datenaufbereitung, Grafische Datenanalyse

Kapitel 1 Beschreibende Statistik

IDEE DER STATISTIK: Variabilität (Erscheinung der Natur) durch. Zufall (mathematische Abstraktion) modellieren.

Projektarbeit UE Angewandte Statistik I MBIOB 17 Sommersemester 2015

Programmieren mit statistischer Software

LÖSUNG 2C a. Bei HHEINK handelt es sich um eine metrische Variable.

Lineare Modelle in R: Klassische lineare Regression

Phallosan-Studie. Statistischer Bericht

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.)

Kapitel 1: Deskriptive Statistik

N

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele

SPSS (20.0) Hilfe Version 1

Mehrere kategoriale Merkmale

Aufgaben zu Kapitel 1

Einführung in die Angewandte Bioinformatik: Datenanalyse mit R

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Übung 1 im Fach "Biometrie / Q1"

Statistik. Ronald Balestra CH St. Peter

Einführung in Quantitative Methoden

Statistik und Wahrscheinlichkeitsrechnung

Deskriptive Statistik

4. Kumulierte Häufigkeiten und Quantile

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Bitte am PC mit Windows anmelden!

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Erstellen von Grafiken und deskriptiven Statistiken mit Minitab

Das Ergebnis der Untersuchung eines kardinalskalierten Merkmals X sei in folgender Tabelle wiedergegeben: Ausprägung Anzahl

Lösungen. w58r4p Lösungen. w58r4p. Name: Klasse: Datum:

Statistik mit MAXQDA Stats

- Beschreibung der Stichprobe(n-Häufigkeitsverteilung) <- Ermittlung deskriptiver Maßzahlen (Mittelungsmaße, Variationsmaße, Formparameter)

Deskriptive Statistik

0 Einführung: Was ist Statistik

Zufallsauswahl mit R

I.V. Methoden 2: Deskriptive Statistik WiSe 02/03

Lineare Modelle in R: Zweiweg-Varianzanalyse und Kovarianzanalyse

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

5 Exkurs: Deskriptive Statistik

Übung Statistik I Statistik mit Stata SS Grafiken und Wiederholung

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Modul G d) Gibt es einen Größen- bzw. Altersunterschied zwischen den anwesenden Männern und Frauen?

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43

Lösungen der Aufgaben zum Kapitel Data Analysis *

Dr. Quapp: Statistik für Mathematiker mit SPSS. Lösungs Hinweise 1. Übung Beschreibende Statistik & Verteilungsfunktion

Transkript:

Univariate explorative Datenanalyse in R Achim Zeileis, Regina Tüchler 2006-10-03 1 Ein metrisches Merkmal Wir laden den Datensatz: R> load("statlab.rda") und machen die Variablen direkt verfügbar: R> attach(statlab) Um ein metrisches Merkmal numerisch zu beschreiben, gibt es verschiedene statistische Kennzahlen. Hier sollen ein paar der wichtigsten kurz anhand der quantitativen Variablen CTWGT illustriert werden: Mittelwert, Varianz, Standardabweichung (die Wurzel aus der Varianz), Minimum und Maximum. R> mean(ctwgt) [1] 70.93519 R> var(ctwgt) [1] 194.6614 R> sd(ctwgt) [1] 13.95211 R> min(ctwgt) [1] 45 R> max(ctwgt) [1] 143 Anmerkung: Falls eine Variable x fehlende Werte hat, die in R durch NA (für not available ) kodiert werden, dann ist das Ergebnis obiger Kennzahlen auch NA. Um diese NAs zu ignorieren, d.h. vor der Berechnung einfach wegzulassen, haben diese Funktionen ein na.rm Argument (dies steht für NA remove ). Man kann also bspw. sagen mean(x, na.rm = TRUE) um den Mittelwert ohne die fehlenden Beobachtungen zu berechnen. Die generische Funktion summary liefert, wenn man sie auf eine quantitative Variable anwendet, eine Fünf-Punkt-Zusammenfassung plus den Mittelwert, d.h. Minimum, unteres Quartil, Median, Mittelwert, oberes Quartil und Maximum. 1

R> summary(ctwgt) Min. 1st Qu. Median Mean 3rd Qu. Max. 45.00 61.00 68.00 70.94 78.00 143.00 Um dasselbe metrische Merkmal auch zu visualisieren, werden wir nun Histogramme, geglättete Histogramme und Boxplots verwenden. Ein Histogramm für die Variable CTWGT wird so erzeugt: R> hist(ctwgt) Histogram of CTWGT Frequency 0 100 200 300 400 40 60 80 100 120 140 CTWGT Dabei ist zu beachten, dass auf der y-achse,frequencies, also absolute,häufigkeiten, abgetragen werden. Damit auf der y-achse die,dichte abgetragen wird (und damit die Fläche unter dem Histogramm 1 ist, siehe Statistik 1) muss man in R auch noch das Argument freq auf FALSE setzen (s.u.). Einen geglätteten Dichteschätzer erhält man durch density, die man durch die generische Funktion plot visualisieren kann: R> plot(density(ctwgt)) 2

density.default(x = CTWGT) Density 0.000 0.010 0.020 0.030 40 60 80 100 120 140 N = 1296 Bandwidth = 2.723 Man kann auch beide Dichteschätzer gemeinsam visualisieren: dabei wird die Dichte nicht durch plot in eine neue Grafik gezeichnet, sondern durch lines in die bestehende Grafik hinzugefügt: R> hist(ctwgt, freq = FALSE) R> lines(density(ctwgt), col = 4) Histogram of CTWGT Density 0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.035 40 60 80 100 120 140 CTWGT Zuletzt visualisieren wir die Variable auch noch mit Hilfe eines Boxplots: R> boxplot(ctwgt, range = 0) 3

60 80 100 120 140 Falls die zu untersuchende metrische Variable diskret gemessen wurde und nicht allzu viele verschiedene Ausprägungen annimmt, also beispielsweise nur wenige ganzzahlige Werte enthält, kann man die explorative Analyse noch verfeinern. Die Variable CTWGT ist zwar diskret erhoben worden, nimmt aber so viele verschiedene Werte an. Wir verwenden daher nur einen Teil der Beobachtungen der Variable CTWGT, um die folgenden Befehle zu zeigen: R> subctwgt <- CTWGT[CTWGT < 54] Zunächst kann man sich eine Häufigkeitstabelle anschauen. R> table(subctwgt) subctwgt 45 46 47 48 49 50 51 52 53 2 3 2 6 4 9 10 20 10 Im Histogramm möchte man üblicherweise diese Kategorien widerspiegeln, aber hist(subctwgt) wählt diese nicht automatisch. Man kann die Intervalleinteilung aber über das Argument breaks steuern. Hier setzen wir es auf eine Sequenz 44.5, 45.5,..., 53.5, sodass die Ausprägungen 45,..., 53 immer genau in der Intervallmitte liegen. R> hist(subctwgt, breaks = seq(44.5, 53.5, by = 1), freq = FALSE) R> axis(1, at = 45:53) 4

Histogram of subctwgt Density 0.00 0.05 0.10 0.15 0.20 0.25 0.30 45 46 47 48 49 50 51 52 53 subctwgt Der Aufruf von axis ist nicht zwingend notwending und dient hier nur einer,verschönerung der Grafik. Er generiert nochmal eine x-achse (entspricht Nummer 1) mit Beschriftungen an (at) 45,..., 53. 2 Ein kategoriales Merkmal Nun soll auch die qualitative oder kategoriale Variable CBD numerisch und graphisch zusammengefasst werden. Zur numerischen Beschreibung stehen Häufigkeitstabellen zur Verfügung: in R werden diese sowohl von der generischen Funktion summary erzeugt, wenn sie auf einen "factor" angewendet wird, als auch von der Funktion table. R> summary(cbd) 196 167 178 186 187 190 192 R> table(cbd) CBD 196 167 178 186 187 190 192 Man kann diese Häufigkeitstabelle auch in einem Objekt abspeichern und damit weiterrechnen, beispielsweise um relative Häufigkeiten auszurechnen, entweder indem man prop.table anwendet oder,von Hand durch die Anzahl der Beobachtungen dividiert. R> tab <- table(cbd) R> prop.table(tab) CBD 0.1512346 0.1288580 0.1373457 0.1435185 0.1442901 0.1466049 0.1481481 5

R> tab/sum(tab) CBD 0.1512346 0.1288580 0.1373457 0.1435185 0.1442901 0.1466049 0.1481481 Am besten visualisiert man diese Daten durch ein Balkendiagramm. Dies wird entweder von der generischen Funktion plot erzeugt, wenn man sie auf einen "factor" anwendet R> plot(cbd) 0 50 100 150 oder völlig äquivalent von der Funktion barplot, wenn man sie auf die zugehörige Häufigkeitstabelle anwendet. R> barplot(tab) 0 50 100 150 6

Hier könnte natürlich genausogut barplot(tab/sum(tab)) benutzt werden, um die relativen Häufigkeiten zu visualisieren. Eine weitere, wenn auch weniger flexible, Visualisierungsmethode ist das Tortendiagramm, das von pie angewendet auf eine Häufigkeitstabelle angezeigt wird: R> pie(tab) 3 2 1 4 7 5 6 Bemerkung: Das Tortendiagramm ist allerdings nur gut geeignet, um Mehrheiten zu visualisieren. In fast allen anderen Situationen sind Balkendiagramme besser geeignet. 3 Abschließende Bemerkungen Nach Abschluss der Analysen soll der Arbeitsplatz aufgeräumt werden. Als erstes wird dafür der Datensatz, der attached wurde, auch wieder detached R> detach(statlab) und die Objekte, die man nicht mehr benötigt R> objects() sollten entfernt werden. R> remove(statlab, tab, subctwgt) 7