Was ist R? Statistische Software. Wo bekomme ich R? Wie installiere ich R?

Was ist R? Statistische Software R ist eine Implementation der Sprache S, anfänglich von Ross Ihaka und Robert Gentleman (Univ. Auckland) entwickelt und seit Mitte der 90iger Jahre von einem Entwickler-Kollektiv (R-Core) betreut. Da R einfach erweiterbar ist, hat sich über die Jahre eine weltweite, extrem aktive Entwicklergemeinschaft gebildet. Manuel J. A. Eugster (Folien Friedrich Leisch) Informationen zu R: Institut für Statistik Ludwig-Maximilians-Universität München http://www.r-project.org WS 2010/2011, R Manuel Eugster, Statistische Software 2010/2011 1 Wo bekomme ich R? Wie installiere ich R? Fertige R Distributionen sind für Windows (alle wichtigen Versionen), MacOS X und viele Linux-Versionen auf CRAN dem Comprehensive R Archive Network erhältlich: http://cran.r-project.org. Natürlich ist dort auch der vollständige Quellcode erhältlich, von nur mehr historisch interessanten alten bis zur derzeit aktuellsten Version. Auf CRAN finden Sie für Ihre Plattform (Windows, Mac,... ) eigene Seiten mit jeweils zwei Unterkategorien: base: R Basisdistribution mit einem Plattform-typischen Installationsmechanismus (Windows: Setup.EXE). Enthält S-Interpreter, Hilfswerkzeuge, Graphiksystem, wichtige Statistikfunktionen. contrib: Eine extrem umfangreiche Sammlung von Erweiterungspaketen, diese Teile können direkt aus einem laufenden R Prozess installiert werden (falls Sie mit dem Internet verbunden sind). Das von uns verwendete GUI namens Zusatzpaket Rcmdr auf CRAN zu finden. R Commander ist als Manuel Eugster, Statistische Software 2010/2011 2 Manuel Eugster, Statistische Software 2010/2011 3

Wie benutze ich R? Kommandos werden am Prompt eingegeben... Der R Commander > 1 + 1 [1] 2 > a = 0.5 > b = a*2 > exp(b) [1] 2.718282 > log(exp(b)) [1] 1 > c = (cos(log(exp(b))) - a) / b + 1 > c [1] 1.040302 > a <- 1:5 > -a [1] -1-2 -3-4 -5 > a * 10 [1] 10 20 30 40 50... in dieser Vorlesung verwenden wir aber eine graphische Oberfläche um das Erlernen von R zu vereinfachen. Manuel Eugster, Statistische Software 2010/2011 4 Der R Commander Der R Commander Der R Commander ist ein Erweiterungspaket, das eine SPSS-ähnliche Oberfläche zur Verfügung stellt. Die Funktionalität orientiert sich am Umfang typischer Statistik- Grundvorlesungen (bei uns: Statistik 1+2, lineare Modelle). Ziel ist ein schrittweises Heranführen der Benutzer an die Sprache S. Installation: bei intakter Internet-Verbindung in der Konsole folgendes Kommando eingeben > install.packages("rcmdr", dependencies=true) Per Default läuft R unter Windows im sogenannten Multiple Document Interface (MDI), bei der alle Fenster, die R öffnet, in ein größeres Fenster eingebettet sind. Aus technischen Gründen erkennt Windows jedoch nicht, daß der R Commander auch zu R gehört, dieser ist daher getrennt. Das wird spätestens bei der ersten Graphik sehr lästig R auf das sogenannte Single Document Interface (SDI) umstellen. Am einfachsten geschieht dies im Menü Bearbeiten -> Einstellungen. Nach der Umstellung muß R einmal neu gestartet werden. Danach kann der R Commander mit dem Befehl > library("rcmdr") oder unter Windows auch über das Menü Pakete -> Installiere Pakete von CRAN gestartet werden. Ist das Paket einmal geladen, startet man den R Commander mit dem Befehl Commander(). Manuel Eugster, Statistische Software 2010/2011 6 Manuel Eugster, Statistische Software 2010/2011 7

Der R Commander Daten einlesen Die Oberfläche des R Commanders teilt sich in 4 Bereiche: Menü: Datenmanipulation, deskriptive Statistik, Inferenz, Modellierung, Verteilungen. Wahl des aktiven Datensatzes und Modells. Skriptfenster: Durch Menüs zusammengecklickte oder vom Benutzer eingegebene Kommandos in der Sprache S. Ausgabefenster: Umleitung der Ausgabe R Konsole in den R Commander. Meldungen: Etwaige Fehlermeldungen (Abbruch der Bearbeitung) oder Warnungen (Bearbeitung läuft weiter) von R. Zum ersten Import von Daten empfiehlt es sich, diese in einer Textdatei abzuspeichern: Eine Zeile pro Beobachtung, Merkmale durch eindeutiges Trennzeichen getrennt, z.b. Tabulator oder Semikolon. Am einfachsten ist es normalerweise, das Format Comma Separated Values (CSV) zu benutzen. Achtung: Je nach Ursprung der Software kann Punkt oder Komma das Dezimaltrennzeichen sein. In R immer Punkt, beim Lesen/Schreiben von Daten auswählbar (nicht für Ausgabe von Berechnungsergebnissen in der Konsole). Kontrolle des Formats in einem Editor vor dem Import kann helfen, Fehler zu vermeiden. Manuel Eugster, Statistische Software 2010/2011 8 Manuel Eugster, Statistische Software 2010/2011 9 Comma Separated Values (CSV) Münchner Mietspiegel 2003 Kommt das Trennzeichen in einer Zeichenkette vor, so muß diese durch einfaches oder doppeltes Hochkomma geschützt werden. Leerzeichen als Trennzeichen: Name Geburtsjahr Geschlecht Sting 1951 m "John Lennon" 1940 m Semikolon: Hochkomma hier nicht notwendig (schaden aber auch nicht): Name;Geburtsjahr;Geschlecht Sting;1951;m John Lennon;1940;m Soll auch in der Zeichenkette ein Hochkomma vorkommen, dann am einfachsten jeweils das andere (einfach, doppelt) zum Schützen nehmen. Beides geht auch (durch Backslash schützen). Zahlreiche deutsche Städte erstellen sogenannte Mietspiegel, um Mietern, Vermietern, Mietberatungsstellen und Sachverständigen eine objektive Entscheidungshilfe in Mietfragen zur Verfügung zu stellen. Die Mietspiegel werden dabei insbesondere zur Ermittlung der ortsüblichen Vergleichsmiete (Nettomiete in Abhängigkeit von Wohnungsgröße, -ausstattung, -alter, etc.) herangezogen. Bei der Erstellung von Mietspiegeln wird aus der Gesamtheit aller in Frage kommenden Wohnungen eine repräsentative Zufallsstichprobe gezogen (im Fall der Stadt München durch Infratest), und die interessierenden Daten werden von Interviewern anhand von Fragebögen ermittelt. Der vorliegende Datensatz stellt einen Ausschnitt aus dem Mietspiegel München des Jahres 2003 dar und enthält die Daten von 2053 Wohnungen. http://www.stat.uni-muenchen.de/service/datenarchiv/miete/miete03. html miete03.asc Manuel Eugster, Statistische Software 2010/2011 10 Manuel Eugster, Statistische Software 2010/2011 11

Einlesen nach R Einlesen nach R Datenmanagement -> Importiere Daten -> aus Textdatei Optionen: Name für Datenmatrix (beliebiger zulässiger Variablenname) enthält die erste Zeile die Namen der Merkmale? Lesen aus Zwischenablage statt Datei? Wie sind fehlende Werte codiert? Trennzeichen? Dezimaltrennzeichen? Danach unbedingt prüfen, ob der Import erfolgreich war: Datenmatrix betrachten Statistik -> Deskriptive Statistik -> Aktive Datenmatrix Sind die Variablennamen korrekt erkannt worden? Sind Minimum und Maximum jeder Variablen plausibel? Sind die fehlenden Werte OK? Sind kategorische Variablen numerisch codiert (Momente statt Häufigkeiten)? Nach Bestätigung durch OK öffnet sich ein Datei-Browser zur Auswahl der Textdatei. Manuel Eugster, Statistische Software 2010/2011 12 Manuel Eugster, Statistische Software 2010/2011 13 Datenmatrix Datenmatrix bearbeiten Die wohl wichtigste Struktur zur Haltung von Daten im üblichen Rechteckschema, wo die Beobachtungen in den Zeilen und die Variablen in den Spalten dargestellt werden, ist die Datenmatrix. In R wird diese data.frame genannt. Die Spalten von data.frames beinhalten Vektoren unterschiedlichen Typs immer entsprechend des Variableninhalts: Ganzzahlige oder Gleitkomma-Werte: numeric Beliebige Zeichen, Wörter, Text: character Logische Zustände, die Werte TRUE und FALSE: logical Nominale oder ordinale Daten: factor Die Auswahl der aktiven Datenmatrix (falls mehr als eine geladen sind) erfolgt am einfachsten durch den Knopf neben Datenmatrix in der zweiten Zeile des Fensters. Manipulation der Datenmatrix: Datenmanagement -> Aktive Datenmatrix Fallbezeichnungen setzen: Auswahl einer Variablen, die geeignete Zeilennamen enthält (z.b. Namen oder ID von Patienten). Teilmenge: Zeilen und/oder Spalten der Datenmatrix auswählen und aktive Datenmatrix damit entweder überschreiben oder neue Datenmatrix anlegen. Auswahl der Zeilen über logischen Ausruck wie Alter < 20. Alternativ kann im Skriptfenster ein R-Kommando wie DMneu <- DMalt[1:10, 1:2] abgesetzt werden (Bsp wählt Zeilen 1 10 und Spalten 1 2 aus). Manuel Eugster, Statistische Software 2010/2011 14 Manuel Eugster, Statistische Software 2010/2011 15

Datenmatrix bearbeiten Variablen bearbeiten Fehlende Werte entfernen: Jede Zeile, die mindestens einen fehlenden Wert enthält, wird entfernt. Speichern: Speichern als binäre R-Datei (Endung.rda oder.rdata). Kann mit Datenmanagement -> Lade Datendatei wieder nach R geladen werden. Exportieren: Als Textdatei speichern, Trennzeichen usw. können spezifiziert werden. Reproduzierbarkeit: Immer Rohdaten zusammen mit Skript aller notwendigen Transformationen (aus Skriptfenster) speichern! Für weitere Bearbeitung ist zusätzliches Speichern der Fertigdatendatei meinedaten.rda praktisch. Neben der gesamten Datenmatrix können auch einzelne Spalten über das Menü Datenmanagement -> Variablen bearbeiten modifiziert werden. Neue Variable: erzeugt neue Variable aus bestehenden. Es stehen alle R-Funktionen zur Verfügung, häufig werden jedoch die Grundrechnungsarten und einfache Funktionen wie log() oder sin() verwendet. Es können auch mehrere Variablen verknüpft werden. Standardisieren: Auf Mittel null und Varianz eins transformieren. Konvertiere numerisch auf Faktor: Speichermodus von numerisch auf Faktor (=kategorisch) setzen, Stufen können übernommen oder vorgegeben werden. Manuel Eugster, Statistische Software 2010/2011 16 Manuel Eugster, Statistische Software 2010/2011 17 Variablen bearbeiten Gruppiere numerisch: Klassierung einer numerischen Variablen (mehrere Verfahren stehen zur Auswahl). Umbenennen, Löschen: sollte selbsterklärend sein. Univariate Deskription Gruppenbildung erfolgt durch Anlegen einer neuen kategorischen Variablen (=Faktor), die die Gruppenzuordnung enthält. Die meisten Analysen und Grafiken können getrennt nach den Stufen eines Faktors gerechnet werden. Manuel Eugster, Statistische Software 2010/2011 18

Zusammenfassung der Datenmatrix Statistik -> Deskriptive Statistik -> Aktive Datenmatrix Manuel Eugster, Statistische Software 2010/2011 20 Zusammenfassung der Datenmatrix nm nmqm wfl rooms Min. : 77.31 Min. : 1.470 Min. : 17.0 Min. :1.000 1st Qu.: 389.95 1st Qu.: 6.800 1st Qu.: 53.0 1st Qu.:2.000 Median : 534.30 Median : 8.470 Median : 67.0 Median :3.000 Mean : 570.09 Mean : 8.394 Mean : 69.6 Mean :2.598 3rd Qu.: 700.48 3rd Qu.:10.090 3rd Qu.: 83.0 3rd Qu.:3.000 Max. :1789.55 Max. :20.090 Max. :185.0 Max. :6.000 bj bez wohngut wohnbest Min. :1918 Min. : 1.00 Min. :0.0000 Min. :0.00000 1st Qu.:1948 1st Qu.: 5.00 1st Qu.:0.0000 1st Qu.:0.00000 Median :1960 Median :10.00 Median :0.0000 Median :0.00000 Mean :1958 Mean :11.27 Mean :0.3911 Mean :0.02192 3rd Qu.:1973 3rd Qu.:17.00 3rd Qu.:1.0000 3rd Qu.:0.00000 Max. :2001 Max. :25.00 Max. :1.0000 Max. :1.00000 ww0 zh0 badkach0 badextra Min. :0.00000 Min. :0.00000 Min. :0.0000 Min. :0.00000 1st Qu.:0.00000 1st Qu.:0.00000 1st Qu.:0.0000 1st Qu.:0.00000 Median :0.00000 Median :0.00000 Median :0.0000 Median :0.00000 Mean :0.03507 Mean :0.08524 Mean :0.1851 Mean :0.09303 3rd Qu.:0.00000 3rd Qu.:0.00000 3rd Qu.:0.0000 3rd Qu.:0.00000 Max. :1.00000 Max. :1.00000 Max. :1.0000 Max. :1.00000 kueche Min. :0.00000 1st Qu.:0.00000 Median :0.00000 Mean :0.07306 Manuel Eugster, Statistische Software 2010/2011 3rd Qu.:0.00000 21 Max. :1.00000 Zusammenfassung der Datenmatrix Häufigkeiten Alle Variablen im Mietspiegel sind numerisch codiert, nach Umwandlung von rooms, bez und den binären Indikatorvariablen in Faktoren ergibt sich mit Statistik -> Deskriptive Statistik -> Aktive Datenmatrix nm nmqm wfl rooms bj Min. : 77.31 Min. : 1.470 Min. : 17.0 1:255 Min. :1918 1st Qu.: 389.95 1st Qu.: 6.800 1st Qu.: 53.0 2:715 1st Qu.:1948 Median : 534.30 Median : 8.470 Median : 67.0 3:759 Median :1960 Mean : 570.09 Mean : 8.394 Mean : 69.6 4:263 Mean :1958 3rd Qu.: 700.48 3rd Qu.:10.090 3rd Qu.: 83.0 5: 47 3rd Qu.:1973 Max. :1789.55 Max. :20.090 Max. :185.0 6: 14 Max. :2001 Statistik -> Deskriptive Statistik -> Häufigkeitsverteilung Verteilung der Anzahl der Zimmer: 255 715 759 263 47 14 12.4208475 34.8270823 36.9702874 12.8105212 2.2893327 0.6819289 bez wohngut wohnbest ww0 zh0 badkach0 badextra kueche 9 : 177 0:1250 0:2008 0:1981 0:1878 0:1673 0:1862 0:1903 2 : 161 1: 803 1: 45 1: 72 1: 175 1: 380 1: 191 1: 150 5 : 139 4 : 137 3 : 132 25 : 117 (Other):1190 Manuel Eugster, Statistische Software 2010/2011 22 Manuel Eugster, Statistische Software 2010/2011 23

Lage, Streuung, Quantile Schichtung Statistik -> Deskriptive Statistik -> Zusammenfassung num. Var. Kennzahlen des numerischen Merkmals Nettomiete: mean sd 0% 25% 50% 75% 100% n 570.093 245.4345 77.31 389.95 534.3 700.48 1789.55 2053 Kennzahlen eines numerischen Merkmals geschichtet nach einem kategorischen Merkmal: Gruppierungsvariable setzen. Statistik -> Deskriptive Statistik -> Zusammenfassung num. Var. mean sd 0% 25% 50% 75% 100% n 1 346.9452 100.3332 106.22 292.6250 344.060 393.325 1288.48 255 2 486.7941 166.5325 77.31 373.7300 486.760 590.365 1467.69 715 3 633.5175 229.3336 145.31 472.9600 617.600 769.635 1789.55 759 4 747.9875 261.7270 193.18 550.6150 723.490 919.820 1749.15 263 5 900.5672 338.6627 327.84 624.5600 917.020 1147.660 1661.55 47 6 998.9257 330.2916 621.52 780.6075 856.755 1302.025 1538.43 14 Manuel Eugster, Statistische Software 2010/2011 24 Manuel Eugster, Statistische Software 2010/2011 25 Balkendiagramm: Anzahl Zimmer Balkendiagramm: Relative Häufigkeiten Statistik -> Grafiken -> Balkendiagramm > barplot(table(miete$rooms)/nrow(miete), xlab = "# Zimmer", ylab = "Prozent") Frequency 0 100 300 500 700 Prozent 0.00 0.10 0.20 0.30 # Zimmer rooms Manuel Eugster, Statistische Software 2010/2011 26 Manuel Eugster, Statistische Software 2010/2011 27

Kreisdiagramm: Anzahl Zimmer Histogramm: Nettomiete Statistik -> Grafiken -> Kreisdiagramm Statistik -> Grafiken -> Histogramm, Automatische Gruppenanzahl Anzahl Zimmer 2 3 4 1 5 6 frequency 0 50 100 200 300 0 500 1000 1500 miete$nm Manuel Eugster, Statistische Software 2010/2011 28 Manuel Eugster, Statistische Software 2010/2011 29 Histogramm: Nettomiete Gruppenanzahl auf 50 gesetzt. Bi- & Multivariate Darstellungen percent 0 5 10 0 500 1000 1500 miete$nm Manuel Eugster, Statistische Software 2010/2011 30

Bi- & Multivariate Darstellungen Balkendiagramme für Kontingenztafeln 2 kategorische Merkmale 1 kategorisches und 1 numerisches Merkmal 2 oder mehr numerische und/oder kategorische Merkmale Kontingenztafeln: Statistik -> Kontingenztabellen -> Kreuztabelle 2 kategorische Merkmale: Balkendiagramme für Kontingenztafeln sind (derzeit noch) nicht über das Menü des R Commander ansteuerbar. Es müssen daher Kommandos im Skriptfenster eingegeben werden, diese können aber auch gleich ganze Ausdrücke enthalten: > TAB <- table(miete$wfl > 80, miete$rooms) > TAB FALSE 254 702 495 26 0 0 TRUE 1 13 264 237 47 14 Manuel Eugster, Statistische Software 2010/2011 32 Manuel Eugster, Statistische Software 2010/2011 33 Balkendiagramme für Kontingenztafeln Balkendiagramme für Kontingenztafeln > barplot(tab, legend = TRUE) Die Funktion t() transponiert eine Matrix: 0 100 300 500 700 TRUE FALSE > TAB FALSE 254 702 495 26 0 0 TRUE 1 13 264 237 47 14 > t(tab) FALSE TRUE 1 254 1 2 702 13 3 495 264 4 26 237 5 0 47 6 0 14 Manuel Eugster, Statistische Software 2010/2011 34 Manuel Eugster, Statistische Software 2010/2011 35

Balkendiagramme für Kontingenztafeln Balkendiagramme für Kontingenztafeln > barplot(t(tab), legend = TRUE) > barplot(t(tab), beside = TRUE, legend = TRUE) 0 200 400 600 800 1200 6 5 4 3 2 1 0 100 200 300 400 500 600 700 1 2 3 4 5 6 FALSE TRUE FALSE TRUE Manuel Eugster, Statistische Software 2010/2011 36 Manuel Eugster, Statistische Software 2010/2011 37 Balkendiagramme für Kontingenztafeln Mosaicplot: Zimmer, Lage, Zentralheizung > barplot(tab, beside = TRUE, legend = TRUE) Eingabe im Skriptfenster: 0 100 200 300 400 500 600 700 FALSE TRUE > mosaicplot(~badextra + (wfl > 80) + wohnbest, data = miete) miete wfl > 80 TRUE FALSE 0 1 0 0 1 1 badextra Manuel Eugster, Statistische Software 2010/2011 38 Manuel Eugster, Statistische Software 2010/2011 39

Boxplot: Nettomiete Grafiken -> Boxplot, Grafiken für die Gruppen: rooms 500 1000 1500 rooms nm Manuel Eugster, Statistische Software 2010/2011 40 Boxplot: Nettomiete pro m 2 5 10 15 20 rooms nmqm Manuel Eugster, Statistische Software 2010/2011 41 Streudiagramm: Nettomiete und Fläche Grafiken -> Streudiagramm 500 1000 1500 wfl nm Manuel Eugster, Statistische Software 2010/2011 42 Streudiagramm: Miete, Fläche, Lage Grafiken -> Streudiagramm, Grafiken für die Gruppen: wohngut 500 1000 1500 wfl nm wohngut 0 1 Manuel Eugster, Statistische Software 2010/2011 43

Streudiagramm: Miete, Fläche, Lage Grafiken -> XY conditioning plot wfl nm 0 500 1000 1500 0 1 Manuel Eugster, Statistische Software 2010/2011 44 Streudiagramm: Miete, Fläche, Zimmer wfl nm 0 500 1000 1500 1 2 3 4 5 0 500 1000 1500 6 Manuel Eugster, Statistische Software 2010/2011 45 Streudiagramm-Matrix Grafiken -> Streudiagramm Matrix nm 5 10 15 20 500 1000 5 10 15 20 nmqm 500 1000 1500 wfl Manuel Eugster, Statistische Software 2010/2011 46 Korrelationsmatrix Statistik -> Deskriptive Statistik -> Korrelationsmatrix, Pearsons Produkt-Moment nm nmqm wfl nm 1.0000000 0.4747967 0.7074627 nmqm 0.4747967 1.0000000-0.2268304 wfl 0.7074627-0.2268304 1.0000000 Statistik -> Deskriptive Statistik -> Test... Korrelation, Persons Produkt-Moment, zweiseitig Pearson s product-moment correlation data: miete$nm and miete$nmqm t = 24.4321, df = 2051, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.4405851 0.5076311 sample estimates: cor 0.4747967 Manuel Eugster, Statistische Software 2010/2011 47

Korrelationsmatrix Statistik -> Deskriptive Statistik -> Korrelationsmatrix, Rangkorrelation Spearman nm nmqm wfl nm 1.0000000 0.4610854 0.6970837 nmqm 0.4610854 1.0000000-0.2303777 wfl 0.6970837-0.2303777 1.0000000 Statistik -> Deskriptive Statistik -> Test... Korrelation, Spearman Rangkorrelation-Moment, zweiseitig Spearman s rank correlation rho data: miete$nm and miete$nmqm S = 777204767, p-value < 2.2e-16 alternative hypothesis: true rho is not equal to 0 sample estimates: rho 0.4610854 Manuel Eugster, Statistische Software 2010/2011 48