Was ist R? Warum R? Literatur Eine Beispielsitzung mit R. Einführung in R. Dr. Mike Kühne. Technische Universität Dresden Institut für Soziologie

Ähnliche Dokumente
you experienced? Würzburg,

Züchtungslehre - Lösung 3

Empirische Softwaretechnik

Einführung in die Ökonometrie

Prognoseintervalle für y 0 gegeben x 0

Empirische Wirtschaftsforschung in R

Einheit 1. Einführung in R. IFAS JKU Linz c 2018 Programmieren mit Statistischer Software 1 0 / 11

Einführung in die formale Demographie Übung

Aufgabe 35 mit R (Ökonometrie SS 2014 an der UdS)

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)

Eine Einführung in R: Varianzanalyse

Tutorial: Regression Output von R

Lean Body Mass [kg] Estimate Std. Error t value Pr(> t ) (Intercept) ??? lbm <2e-16 ***

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Auswertung und Lösung

Was ist R? Grundfunktionen in R Beispiele Zusammenfassung Literatur. Einführung in R. Michael Zwinkel

Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.

Interaktion unter Berücksichtigung des Skalenniveaus der Prädiktoren Dr. Markus Stöcklin, Universität Basel, Fakultät für Psychologie

Mehrfache und polynomiale Regression

Technische Universität München Zentrum Mathematik Sommersemester Juli 2005 Arbeitszeit 60 Minuten

Erste Schritte mit R. 2.1 Herunterladen der freien Software R

FUNKTIONEN UND FORMELN IN

FORMELN IN. Referent: Daniel Laskow Betreuer: Eugen Betke Programmierung in R Arbeitsbereich Wissenschaftliches Rechnen Universität Hamburg

epg = read.table(file.path(pfadu, "epg.txt")) amp = read.table(file.path(pfadu, "dbdauer.txt"))

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Mehrere metrische Merkmale

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Regression in R, Teil 1

Grundlagen der Bioinformatik Übung 5 Einführung in R. Ulf Leser, Yvonne Mayer

Lineare Modelle in R: Klassische lineare Regression

Einleitung. Statistik. Bsp: Ertrag Weizen. 6.1 Einfache Varianzanalyse

Statistik für Naturwissenschaftler Woche 11-13: Regression basics (mit R Unterstützung)

Schriftliche Prüfung (90 Minuten)

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am Autor: Ludwig Bothmann

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Statistik für Biologen 1. Fachsemester Mono-Bachelor

Ich bestätige, dass ich obige Hinweise zur Kenntnis genommen habe und sie befolgen werde.

Schriftliche Prüfung (2 Stunden)

Schriftliche Prüfung (90 Minuten)

Wirtschaftswissenschaftliches Prüfungsamt

Wiederholung und ein mehrfaktorielles Verfahren. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

> ### Beispiel 7 ### > > library(faraway); options(digits = 5) > data(savings) > savings.lm = lm(sr ~ pop15 + pop75 + dpi + ddpi, savings)

R, Sweave und TikZdevice

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Ausblick; Darstellung von Ergebnissen; Wiederholung

Klausur Statistik Lösungshinweise

Bitte am PC mit Windows anmelden!

Kurze Einführung in R

Statistik IV Übung mit Stata 10. Statistik IV. 3. Datenaufbereitung II und erste Auswertungen. Göttingen 27. Mai Dozent: Jürgen Leibold

Syntax. Ausgabe *Ü12. *1. corr it25 with alter li_re kontakt.

6.4 Kointegration Definition

Lösung zu Kapitel 11: Beispiel 1

E 71,00 74,00 67,50 62,5 52,75 53,00 H 6,00 5,00 5,00 3,00 2,75 4,25

Statistik II Übung 1: Einfache lineare Regression

Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung

Schriftliche Prüfung (1 Stunde)

Erwin Grüner

Metrische und kategoriale Merkmale

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Einführung in die Ökonometrie - Übung

1 Binäre Regression (I)

Bachelorprüfung: Mathematik 4 - Statistik (2 Stunden)

R-WORKSHOP I. Deskriptive Statistik. Johannes Pfeffer & Jens Ziegler

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Funktionen und Formeln in R

Fragen. Einführung in die induktive Statistik. Übersicht. Lineare Einfachregression

Variablen Selektion beste Volles Modell

Aufgaben. Frage: (Aufgabe 3) Warum findet R den Befehl approx.r nicht?

R-Wörterbuch Ein Anfang... ein Klick auf einen Begriff führt, sofern vorhanden, zu dessen Erklärung.

10. Übung (Korrelation und lineare Regressionsanalyse)

Statistik II Übung 1: Einfache lineare Regression

kultur- und sozialwissenschaften

Schriftliche Prüfung (120 Minuten)

Vorlesung: Statistik II für Wirtschaftswissenschaft

Statistik IV Übung mit Stata 10. Statistik IV. 7. Zusammenhangsanalysen III und Probeklausur. Göttingen 12. Juli Dozent: Jürgen Leibold

1 Analyse von Kontigenztafeln: Das loglineare Modell

Eine Einführung in R: Varianzanalyse

Einführung in das Statistikprogramm R

Statistische Software (R)

Marek Chudý. Institut für Statistik und Operations Research UE Statistik 1. Sommersemester, 4.

Statistische Software (R)

3.1 Modell und Statistik Zusammenhang zwischen einer Zielgrösse Y und mehreren Eingangsgrössen X (1), X (2),..., X (m)

Frage: Was kann man tun damit im stripchart bei vielen Punkten diese nicht übereinander gezeichnet werden?

Fortgeschrittenes Programmieren mit R. Christoph Beck. Di, 14:00-15:30 (3065)

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Sonderanhang: Manuelle Berechnungen der Statistikaufgaben

Anhang zu Asexualität, sexuelle und nicht sexuelle Gewalt

Ordinale abhängige Variablen. Einführung Regressionsmodelle für ordinale Variablen Empirisches Beispiel Ausblick

Musterlösung zu Serie 14

1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest.

Programmieren in C(++) und Mathematica - Übungen 2 SS 2018

Bivariate explorative Datenanalyse in R

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Vergleich von Gruppen I

Ausprägung und Ursache von Anreizen bei der Vermietung von Büroliegenschaften im Grossraum Zürich

Transkript:

Technische Universität Dresden Institut für Soziologie

Übersicht 1 Was ist R? 2 3 4

Die Sprache R Geschichte Übersicht 1 Was ist R? Die Sprache R Geschichte 2 3 4

Die Sprache R Geschichte Was ist R? Flexible open source software Software-System, was auf der Sprache R aufbaut

Die Sprache R Geschichte Geschichte R ist eine weitere Entwicklung, die auf der Sprache S aufbaut. S ist ein Sprachstandard für das Arbeiten mit Daten. S wurde seit den 1970ern in den Bell Laboratories von Rick Becker, John Chambers und Alan Wilks entwickelt. Seit ca. 1988 gibt es eine kommerzielle Variante Splus, welche ebenfalls den Sprachstandard S implementiert. Ross Ihaka und Robert Gentleman entwickeln für die Lehre Anfang der 1990er die Sprache R. Seit 1995 steht R unter der GPL (GNU General Public License).

Quelle: Vortrag von John M. Chambers 2006 Was ist R? Die Sprache R Geschichte Geschichte

Vorteile Nachteile Übersicht 1 Was ist R? 2 Vorteile Nachteile 3 4

Vorteile Nachteile Vorteile Vorteile Open Source Software (Code und Software sind frei zugänglich) Professioneller Support u.a. über die Mailing-Liste Professionelle Dokumentation in den Manuals Professionelle Grafikerstellung Integration in LaTeX

Vorteile Nachteile Nachteile Nachteile Die Standardinstallation besitzt nur eine eingeschränkte Benutzeroberfläche (GUI) R ist keine Interpretersprache. Der Programmiercode wird nicht kompiliert, sondern zur Laufzeit interpretiert. Bei sehr umfangreichen Rechenoperationen und sehr großen Datensätzen, kann es unter Windows zu zeitlichen Verzögerungen kommen.

Manuals Internet Übersicht 1 Was ist R? 2 3 Manuals Internet 4

Manuals Internet Manuals Bei einer Standardinstallation im Ordner: C : \Programme\r\R 2.7.2\doc\manual R-FAQ.html R-intro.pdf (englischsprachige Einführung) R-data.pdf (Einlesen und Ausgeben anderer Datenformate) Im Internet: http://cran.r-project.org/other-docs.html Dokumente unter 100 Seiten Dokumente über 100 Seiten nicht englischsprachige Dokumente

Manuals Internet Internet Internetsuche Das Archiv der Mailingliste: http://tolstoy.newcastle.edu.au/r/ Kombinationssuche verschiedener Quellen: http://www.rseek.org Ein Wiki unter: http://wiki.r-project.org

Manuals Internet Einführungen Peter Dalgaard (2008): Introductory Statistics with R (Statistics and Computing). Springer Dolic, Dubravko (2003): Statistik mit R: Einführung für Wirtschafts- und Sozialwissenschaftler. Oldenbourg Ligges, Uwe (2008): Programmieren mit R. Springer

Manuals Internet Murrell, Paul (2005): R Graphics. Chapman & Hall Webseite zum Buch: http://www.stat.auckland.ac.nz/ paul/rgraphics/rgraphics.html

Manuals Internet Statistik Venables, William and Ripley, Brian (2003): Modern Applied Statistics with S. Springer Sachs, Lothar und Hedderich, Jürgen (2006): Angewandte Statistik Methodensammlung mit R. Springer

Übersicht 1 Was ist R? 2 3 4

input > output [1] unvollständige inputs Sollte ein Ausdruck am Ende einer Zeile syntaktisch nicht vollständig sein, erscheint ein + Kommentare (#). > 1 + 1 [1] 2 > 1 + + > 100 [1] 101 > # Das ist ein Kommentar

Operatoren der Grundrechenoperationen Operatoren: + - * / ^ > 12+13 [1] 25 > 121-11 [1] 110 > 4*5 [1] 20 > 5/35 [1] 0.1428571 > 2^3 [1] 8

Weitere Regeln > 10*3+1 # Punkt- vor Strichrechnung [1] 21 > sqrt(16) # einfache Quadratwurzel [1] 4 > exp(2) # Exponentialfunktion [1] 7.389056 > sin(15) # Trigonometrische Funktionen [1] 0.6502878

Es existieren zahlreiche Möglichkeiten der. Beispielsweise im Erzeugen eines Vektors (als endliche Folge von einzelnen Elementen) mit der Funktion c(). > vector.1 <- c(1,2,3) Auf alle Objekte in R kann anhand ihrer Namen zugegriffen werden. > vector.1 [1] 1 2 3

Berechnung BMI Zuerst werden 2 Vector erstellt 1 : > Gewicht <- c(60, 72, 57, 90, 95, 72) > Groesse <- c(1.75, 1.80, 1.65, 1.90, 1.74, 1.91) Anschließend Berechnung des Body Mass Index (BMI): > BMI <- Gewicht/ Groesse^2 > BMI [1] 19.59184 22.22222 20.93664 24.93075 31.37799 19.73630 1 Beispiel aus Dalgaard (2008)

Berechnung eines Mittelwerts Der arithmetische Mittelwert x = 1 n n i=1 x i = x 1+x 2 +...+x n n einer Variable lässt sich über Umwege unter Rückgriff auf die Funktionen sum() und length() berechnen. > sum(gewicht) [1] 446 > length(gewicht) [1] 6 > sum(gewicht)/length(gewicht) [1] 74.33333

Empirische Standardabweichung Die Standardabweichung von Stichprobendaten n s = (x i x) 2 ergibt sich aus: 1 n 1 i=1 > mittelwert <- sum(gewicht)/length(gewicht) > Gewicht-mittelwert [1] -14.333333-2.333333-17.333333 15.666667 20.666667 [6] -2.333333 > sqrt(sum((gewicht - mittelwert)^2)/ (length(gewicht)-1)) [1] 15.42293

Als Statistikprogramm verfügt R über feste Funktionen für Mittelwertberechnung und Ermittlung der Standardabweichung. > mean(gewicht) [1] 74.33333 > sd(gewicht) [1] 15.42293

Histogramm Mit der Funktion hist() kann man ein Histogramm anfordern. > hist(gewicht) Histogram of Gewicht Frequency 0.0 0.5 1.0 1.5 2.0 50 60 70 80 90 100 Gewicht

Funktionen Wir können mit der Funktion rnorm() eine normalverteilte Zufallsvariable mit 100 Fällen erzeugen und wiederum ein Histogramm anfordern. > norm <- rnorm(100) > hist(norm) Histogram of norm Frequency 0 5 10 15 2 1 0 1 2 norm

Funktionen Es stehen zahlreiche andere Funktionen zur Verfügung. Unter anderem zur Erzeugung von einfachen Tabellen... > table(gewicht) 57 60 72 90 95 1 1 2 1 1

Boxplot...und Boxplots: > boxplot(gewicht) 60 70 80 90

Annahme: Das Gewicht (AV) einer Person kann auf die Größe (UV) zurückgeführt werden (Regression). lm(gewicht~groesse) Call: lm(formula = Gewicht ~ Groesse) Coefficients: (Intercept) Groesse -46.34 67.35

Weitere Informationen kann man mit der Funktion summary() anfordern: summary(lm(gewicht~groesse)) Call: lm(formula = Gewicht ~ Groesse) Residuals: 1 2 3 4 5 6-11.527-2.895-7.792 8.370 24.147-10.303 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -46.34 124.02-0.374 0.728 Groesse 67.35 69.13 0.974 0.385 Residual standard error: 15.5 on 4 degrees of freedom Multiple R-Squared: 0.1918, Adjusted R-squared: -0.01027 F-statistic: 0.9492 on 1 and 4 DF, p-value: 0.3851

Einfache Simple werden mit der Funktion plot() erstellt: > plot(gewicht) Gewicht 60 70 80 90 1 2 3 4 5 6 Index

Streudiagramme Streudiagramme können mit plot(x, y) erzeugt werden: > plot(groesse, Gewicht) Gewicht 60 70 80 90 1.65 1.70 1.75 1.80 1.85 1.90 Groesse

Spezifikationen der Funktionen Mit einfachen Spezifikationen kann jede Grafik angepasst werden: > plot(groesse, Gewicht, type = "p", col = "red", lwd=10, + main = "Streudiagramm Groesse gegen Gewicht", xlab="groesse", + ylab="gewicht") Streudiagramm Groesse gegen Gewicht Gewicht 60 70 80 90 1.65 1.70 1.75 1.80 1.85 1.90 Groesse

Komplexe R eignet sich hervorragend zur Erstellung von. Zahlreiche Beispiele findet man im Internet: Die Grafik auf der Startseite des R Projektes: http://www.r-project.org/ Die Beispiel aus Murrell (2005): http://www.stat.auckland.ac.nz/ paul/rgraphics/rgraphics.html Die R Graph Gallery: http://addictedtor.free.fr/graphiques/rgraphgallery.php?graph=30

Grundsätzliche Aufbau einer Funktion fname<-function(argumente) { Koerper der Funktion return(ergebnis) } Beispiel: Berechnung des Mittelwerts > func.mw<-function(x){ + mw<-sum(x)/length(x) + return(mw) + }

Anwendung 1: Berechnung des Mittelwerts func.mw(gewicht) 74.33333 Vorteil von Funktionen: Konservierbarkeit von Algorithmen

Anwendung 2: Wie oft fällt die Zahl 6, wenn man den Würfel 1000 mal wirft? > wuerfel <- function( N, Augenzahl) + { + # Generieren von N Würfen eines Würfels mit 6 Seiten: + x <-sample(1:6, N, replace = TRUE) + # Zählen, wie oft die ugenzahl "Augenzahl" vorkommt: + sum(x == Augenzahl) + } > wuerfel(1000,6) [1] 179 # ist abhängig von den Zufallszahlen Angepasstes Beispiel aus Ligges (2005, S. 100)