Programmieren mit R. Beate Sick (sick) Aleksandar Spasojevic (spas) Matthias Salvisberg (salv) 14. September 2012

Transkript

1 Programmieren mit R Beate Sick (sick) Aleksandar Spasojevic (spas) Matthias Salvisberg (salv) 14. September Vorwort 2 2 R und R-Studio Console Zuweisung Workspace R Script Packages Help Files Das Einlesen von Daten Daten im Textformat Daten per URL Daten als.rdata Daten und Variablentypen in R 7 Aufbau eines Datensatzes Struktur des Datensatzes Zugriff auf die Datenstruktur Subsetting von Data Frames Mit vector arbeiten Erstellen eines vector s Indexierung bzw. Zugriff mit Vektoren rechnen cbind/rbind (Spalten- Zeilenweise) zusammenfügen von vector s 12 5 Univariate Visualisierung von numerischen und kategoriellen Daten Darstellung von kategoriellen Variablen Darstellung von numerischen Variablen Kennzahlen, Tabellen Lagemasse Mittelwert x Median x med bzw. x Modus bzw. Modalwert x mod bzw. x D 17 Quantile, Perzentile Streuungsmass Spannweite Quartilsabstand (Interquartile Range IQR) Varianz und Standardabweichung. 18 Boxplot Stripchart Bivariate Visualisierung kategorial-kategorial stetig-kategorial stetig-stetig Quantil-Quantil-Diagramm Multivariate Visualisierungen Mehr als 2 Variablen pairs d Grafik Korrelation Pearson-Korrelationskoeffizient Spearman-Rangkorrelationskoeffizient 24 Beziehung zwischen Spearman und Pearson Verteilungen 26 Verteilungen Quantil-Quantil-Plots Hypothesen Tests Einfache lineare Regression 29

2 Vorwort 2 1 Vorwort In den folgenden Kapiteln lernen Sie das R und R-Studio kennen. Dabei liegt der Fokus darauf, die benötigten R-Kenntnisse für die Grundvorlesung in Statistik zu vermitteln. Befehle die in die Konsole oder dem R Skript eingetippt werden, sind wie folgt formatiert: rbefehl(...). Verweise auf die Fenster sind rot formatiert: Fenster Fenster2... Eine R-Sitzung hebt sich vom Text ab: # R Sitzung d <- 3 2 R und R-Studio R ist eine Programmiersprache und Programm-Umgebung für Statistikanwendungen. Die Software besteht aus einem Basis-Paket und Erweiterungspaketen, sogenannten packages. Das Programm R ist als GNU General Public License lizensiert, d. h. R ist eine freie Software. R-Studio ist eine Entwicklungsumgebung (Editor) für das Statistikprogramm R. Es erleichtert dem Benutzer die Verwaltung, Bearbeitung und Ausführung des R-Skripts und somit das Arbeiten mit R. Das R lässt sich über folgenden Link herunterladen, dabei müssen Sie das Betriebssystem und anschliessend base anwählen. R-Studio lässt sich über folgenden Link herunterladen. Zuerst installieren Sie das Statistikprogramm R und danach das R-Studio. Abbildung 1: die Entwicklungsumgebung R-Studio Sie werden 6 Fenster der Entwicklungsumgebung R-Studio kennenlernen. Console, Workspace, R Script, also das Fenster in dem R Befehle eingetippt werden. Weiter erforschen Sie die Fenster Packages und deren Help und zu guter Letzt den Explorer Files.

3 2.1. Console Console Nach dem Aufstarten des R-Studio s ist unten links die Konsole des R Statistikprogramms zu sehen. Einfache Rechenoperationen/Befehle können Sie direkt in der Konsole eingeben und mit <Enter> abschliessen. Da R case sensitive ist ( A und a sind verschiedene Symbole), ist die korrekte Schreibweise wichtig. In der Console finden die Berechnungen statt, die Entwicklungsumgebung stellt nur eine Verbindung zu dieser Console, die Installation der Konsole erfolgte durch die Installation des Statistikprogramms R. Zuweisung Wenn Sie ein Resultat (= Datenobjekt) speichern wollen, um es später weiter zu verwenden, so weisen Sie das Resultat mit dem Befehl <- oder = einem Objektnamen zu. a = 2 # weise dem Objektnamen a die Zahl 2 (Resultat) zu a # was ist im Objekt a > [1] 2 b <- 3 b > [1] Workspace Der Workspace beinhaltet alle geladenen Datensätze, Funktionen und R Variablen die während einer R Sitzung generiert werden. Sie können auch die generierten Objekte über den Befehl ls() in der Konsole abrufen. Eine Abspeicherung erfolgt über Workspace Save Save Workspace As, um bei einer nächsten Sitzung über Workspace Load Load Workspace die Programme, Datensätze etc. wieder hervorzurufen. Wird der Workspace als Default abgespeichert, so lädt er sich automatisch, sobald Load Load Default Workspace angeklickt wird. Das Löschen des Workspace während der R Sitzung erfolgt über Clear All oder dem Befehl rm("namedesobjekts"). Im Allg. wird nicht empfohlen den Workspace abzuspeichern, sondern nur das R-Skript und die wichtigsten Zwischenergebnisse. ls() # was ist im Workspace schon generiert worden: a und b > [1] "a" "b" rm("a") a # lösche das Objekt a, somit sollte es nicht mehr definiert sein > Error: Objekt 'a' nicht gefunden ls() # das a kommt auch nicht im Workspace vor > [1] "b" 2.3 R Script Um Reproduzierbarkeit der Sitzung zu gewährleisten, ist es wichtig dass Sie die Befehle in ein Dokument schreiben und mit der Endung.R abspeichern. Dabei gewähren Sie Einsicht in die Analysestruktur, die leicht wiederverwendet, korrigiert und erweitert werden kann. Kurz, Sie sind transparent. Ein solches Dokument nennt sich R-Skript und kann unter File New R Script erstellt werden. Die erfassten Befehle im R-Skript können markiert und über Tastenbefehl <Ctrl+Enter> an die R Console geschickt werden. Im R gibt es viele vordefinierte und z.t. sehr mächtige R-Funktionen, die auch oft als R-Befehl bezeichnet werden. Der Aufruf einer R-Funktion erfolgt immer durch den Namen der R-Funktion gefolgt von runden Klammern - innerhalb der runden Klammern werden oft die Argumente der R-Funktion gesetzt:

4 2.4. Packages 4 sqrt(x = 4) # sqrt steht für square root, also die Wurzel. > [1] 2 # der Funktionsname ist 'sqrt', gefolgt von runden Klammern, und in den Klammern # die Argumente. In unserem Fall gibt es ein Argument 'x', welches die Zahl 4 # erhält, danach rechnet die Funktion für dieses Argument die Wurzel aus. Hilfe zu den R-Befehlen erhalten Sie über den Befehl?funktionsname oder über das Fenster Help, dazu mehr im Subkapitel (2.5).?sqrt help(sqrt) Weiter sollten Sie beim erstellen eines R Scripts auch Kommentare schreiben. Damit verstehen Sie das Programm beim späteren Aufruf auch noch. Einem Kommentar im R Script steht immer das Symbol # voran. b # Kommentar neben der Variable > [1] 3 # Kommentar auf einer Zeile 2.4 Packages Standardgemäss (nach der Installation) wird das R mit einer Kleinzahl an packages (nur das nötigste) installiert. Weitere packages können über ein sogenanntes Repo (Repositorium) installiert werden. Diese packages sind Open-Source und kostenlos. Im R-Studio vereinfacht sich das Vorhaben, hierzu Packages Install Packages anklicken. Danach package Name eintippen und auf Install klicken. Es kann aber auch die R-Funktion install.packages(packagename) verwendet werden. Alle installierbaren Pakete sind unter Packages Table of available packages, sorted by name aufgelistet. Diese Namen sind beim Installieren anzugeben. Nachdem ein Packet installiert wurde, kann es über den Befehl library("paketname") für die R Sitzung geladen werden. Erst nach dem Laden sind die Funktionen für die R Konsole bekannt. 2.5 Help Besitzt das Paket eine Dokumentation, so wird diese bei der Paketinstallation ins R-Studio eingebunden. In der Menüleiste Help R Help Packages kann darauf zugegriffen werden. Möchten Sie auf die Dokumentation eines bestimmten Pakets zugreifen, so können Sie das über den Befehl help("paketname") erzielen. 2.6 Files Files ist ein integrierter Explorer der beim öffnen des R-Studios dorthin navigiert wo auch das Arbeitsverzeichnis des R ist. Eine R Sitzung startet immer mit einem standard Arbeitsverzeichnis, üblich mit dem Ordner Dokumente. Das Arbeitsverzeichnis ist der Ort auf der Harddisk, dessen Inhalt das R sieht. Sie können jederzeit den Pfad des Arbeitsverzeichnis abrufen getwd() oder ändern setwd("pfadneuarbeitsv.")....wd(...) steht für Working Directory. Weiter können Sie über dir() Dokumente und Ordner vom Arbeitsverzeichnis in der Konsole anzeigen lassen. getwd() # in welchem Arbeitsverzeichnis befindet sich das R > [1] "D:/zhaw/rskript" head(dir()) # welche Ordner und Dokumente sind im Arbeitsverzeichnis vorhanden > [1] "Bilder" "Daten" "literatur" > [4] "R-in-Kurzform-vb.pdf" "R-Skript.R" "rskript.bbl"

5 Das Einlesen von Daten 5 # mittels 'head' soll mir die Konsole nur die ersten paar Elemente des 'dir()' anzeigen # 'head' ist eine Funktion setwd("~") # setze neues Arbeitsverzeichnis: ~ dieses Symbol führt zum standard # Arbeitsverzeichnis head(dir()) # was ist darin > [1] "android_development" "Anwendungsdaten" > [3] "AppData" "Application Data" > [5] "B0BF E4B920CEA2A58DA07F0.TMP" "BA_ours" getwd() # neues Arbeitsverzeichnis > [1] "C:/Users/SaM" 3 Das Einlesen von Daten Beim einlesen der Daten ins R kommt es darauf an, wie der Datensatz formatiert ist. Für die folgende Demonstation benutzen wir einen Datensatz im.txt-format. Darin sind Autos mit Spezifikationen aufgelistet. Der Einfachheit wegen arbeiten wir mit einer gekürzten Version des Originaldatensatzes. Wenn Sie den Datensatz per URL einlesen, dann erhalten Sie die ungekürzte Version des Datensatzes. 3.1 Daten im Textformat Ist der Datensatz in Form eines Textdokuments abgespeichert, so kann er direkt über das R-Studio eingelesen werden. Hierzu Workspace Import Dataset From Text File auswählen und dann im neu geöffneten Fenster zum Datensatz navigieren. Danach öffnet sich ein neues Fenster (Import Assistent). Hier geben Sie dem Datensatz einen Namen, überprüfen bzw. ändern die Optionen zum Heading, Separator, Decimal, Quote, und dann klicken Sie auf Import. Nun ist der Datensatz unter dem vorgegebenem Namen im Workspace aufgelistet und Sie können ihn anklicken und ansehen (in Form einer Tabelle), um zu überprüfen, ob beim Einlesen alles funktioniert hat. Der Datensatz lässt sich in Form einer Tabelle veranschaulichen, dies erreichen Sie per Klick auf den Namen im Workspace. ls() # ist der Datensatz im momentanen Workspace? > [1] "b" "imports85" # Ja ist er, siehe imports85 head(imports85) # 'head' zeigt Anfang des Datensatzes (nur paar Zeilen des Datensatz, nicht kompletten Datensat > make f.type doors d.wheels cyl ps city.mpg highway.mpg price > 1 alfa-romeo gas two rwd four > 2 alfa-romeo gas two rwd four > 3 alfa-romeo gas two rwd six > 4 audi gas four fwd four > 5 audi gas four 4wd five > 6 audi gas two fwd five Daten per URL Es ist auch möglich für R-Studio den Datensatz über das Internet herunterzuladen und ins R einzulesen. Dabei müssen Sie die URL kennen. Ähnlich wie bei Daten als Textformat klicken Sie auf Import From Web URL. Danach lädt das R die Daten herunter und öffnet automatisch den Import Assistenten. Weiteres Vorgehen ist analog Daten im Textformat. Für den obigen Datensatz imports85 lautet die URL:

6 3.3. Daten als.rdata 6 Abbildung 2: der Import Wizard von R-Studio 3.3 Daten als.rdata Das Statistikprogramm R bietet eine eigene Form des Datensatzes an, diese ist an der Endung des Dokuments mit.rdata zu erkennen. Möchten Sie einen.rdata Datensatz einlesen, so navigieren Sie unter Files zum Datensatz und klicken diesen an. Danach veranlassen Sie das Laden des Datensatzes mit OK. Eine andere Möglichkeit besteht darin den Datensatz über Workspace Load Load Workspace zu laden (analog dem Laden eines Workspace) oder die R-Funktion load("pfaddesdatensatzes"). Hierbei stellen Sie fest, dass keine Namensvergabe stattfand, diese Information ist im Datensatz gespeichert. Mit dem Befehl save("namedesobjekst", file = "name.rdata") speichern Sie den Datensatz als Format.Rdata. namedesobjekts ist der Objektname den Sie beim Einlesen des Datensatzes angegeben haben, name ist der Name den das Dokument mit der Endung.Rdata nach dem abspeichern besitzen soll. Verwenden Sie denselben Namen für name. Ein Vorteil des.rdata-format ist, dass die Datentypen der Spalten erhalten bleiben - ein Nachteil ist, dass dieses Format nur von R gelesen werden kann. ls() # imports85 ist ein Datensatz der Form Textdokument, welcher eingelesen wurde > [1] "b" "imports85" save("imports85", file = "Daten/imports85.Rdata") # speichere den Datensatz in Ordner Daten unter demselben Namen (imports85.rdata) # wie beim einlesen angegeben. Nun sollten Sie im Ordner 'Daten' ein neues # Dokument mit der Endung.Rdata finden dir("./daten") > [1] "imports85.rdata"

7 Daten und Variablentypen in R 7 rm(list = ls()) # mit diesem Befehl lösche ich alles im Workspace ls() # nichts mehr im Workspace > character(0) load("daten/imports85.rdata") # mit Load kann ich dasselbe wie mit dem Load im # Fenster erzielen, nämlich einen Datensatz laden ls() # nun ist der Datensatz wieder im Workspace geladen > [1] "imports85" 4 Daten und Variablentypen in R Jedes Objekt in R hat eine bestimmte Struktur. Die Struktur kann ein Vektor, Matrix, Data Frame oder eine Liste sein. Die Matrix und das Data Frame sind Konstrukte welche aus mehreren Vektoren bestehen. Vorerst behandeln Sie das Data Frame und den Vektor, da diese in der Datenverarbeitung typisch sind. Jeder Merkmals-Vektor bzw. jede Variable ist von einem bestimmten Typ, dabei kann eine Variable vom Datentyp, z.b. von Typ character, numeric, integer, logical oder factor sein. Variablen von Typ logical sind Wahrheitswerte TRUE oder FALSE und factor sind kategorielle Variablen, die nominelle oder ordinale Ausprägungen haben können; numeric sind stetige Variablen und integer diskrete bzw. ganzzahlige Merkmale. Aufbau eines Datensatzes In der Statistik sind die Spalten für Merkmale bzw. Variablen reserviert und die Zeilen für Objekte bzw. Untersuchungseinheiten oder Personen. Dabei können Sie sich das so vorstellen, wenn Sie den Datensatz imports85 studieren, dann stellen Sie fest das eine Zeile ein Auto representiert, dabei sind die Spalten (Variablen/Merkmale) Merkmale des Autos, wie z.b. der Preis oder die Leistung des Motors. Struktur des Datensatzes Nach dem Einlesen des Datensatzes sollten Sie die Struktur abfragen. Dazu rufen Sie den Befehl str(datensatz) auf: str(imports85) > 'data.frame': 20 obs. of 9 variables: > $ make : Factor w/ 4 levels "alfa-romeo","audi",..: > $ f.type : Factor w/ 1 level "gas": > $ doors : Factor w/ 2 levels "four","two": > $ d.wheels : Factor w/ 3 levels "4wd","fwd","rwd": > $ cyl : Factor w/ 4 levels "five","four",..: > $ ps : int > $ city.mpg : int > $ highway.mpg: int > $ price : num Sie sehen welchen Typ die einzelnen Variablen haben. Der Hersteller make ist eine kategorielle Variable ohne Ordnung (factor). Dagegen ist der Preis price eine Ganzzahl und deshalb auch int (integer). class(datensatz) Befehl gibt Aufschluss über den Typ der Struktur: class(imports85) > [1] "data.frame" In unserem Fall ist dies ein Data Frame. Das Data Frame erlaubt es uns, verschiedene Typen von Vektoren, die alle dieselbe Länge haben, zusammen zu setzen. Sind alle Vektoren numerisch, so wäre die Matrix als Struktur geeigneter. Sind Sie an der Anzahl Objekte und Merkmale eines Datensatzes interessiert, so rufen Sie dim(datensatz) auf:

8 Daten und Variablentypen in R 8 dim(imports85) > [1] 20 9 Die 20 steht für die Anzahl Zeilen (Objekte) und die 9 für die Anzahl Spalten (Merkmale). Die Namen der Merkmale erhalten Sie mittels Befehl names(datensatz): names(imports85) > [1] "make" "f.type" "doors" "d.wheels" "cyl" "ps" > [7] "city.mpg" "highway.mpg" "price" Zugriff auf die Datenstruktur Die Indizierung eines Elements in einem Vektor oder Data Frame findet immer mit eckigen Klammern [] statt, oder den Namen des Elements. Den Zugriff können Sie sich beim Data Frame wie folgt vorstellen, Datensatz[Zeilename-nummer, Spaltenname-nummer] oder Datensatz$Merkmalsname: imports85[, "price"] > [1] > [15] head(imports85[, c("doors", "price")], 3) # Sie können auch gleichzeitig auf zwei Merkmale zugreifen > doors price > 1 two > 2 two > 3 two imports85$price # greife auf das Merkmal 'price' über den Namen > [1] > [15] imports85$price[2] # greife auf das 2te Element des Merkmals 'price' > [1] head(imports85[, c(8, 9)], 3) # greife auf die 8te und 9te Spalte von imports85, > highway.mpg price > > > imports85[2, ] # greife auf die 2te Zeile von imports85 > make f.type doors d.wheels cyl ps city.mpg highway.mpg price > 2 alfa-romeo gas two rwd four imports85[2, 9] # greife auf die 2te Zeile und 9te Spalte von imports85 > [1] Die head(vektoroderdataframe, anzahlelemente) gibt uns die ersten anzahlelemente von einem Vektor oder Data Frame. Dies ist dann nütlich, wenn Sie kurz einen Blick auf den Datensatz werfen möchten. Möchten Sie nun den Preis extrahieren und dabei in eine Variable price abspeichern, damit Sie später mit dieser Variable z.b. Analysen machen können, so tun Sie folgendes: priceext = imports85$price # mittels '=' weisen sie den Inhalt des imports85$price der # Variable 'price' zu priceext # was ist nun da drin? der Preis des datensatz imports85$price

9 Daten und Variablentypen in R 9 > [1] > [15] mittels = können Sie jedes, durch irgendeine Funktion generiertes Resultat in eine Variable abspeichern. Subsetting von Data Frames Beim subsetting eines Data Frames filtern wir die Objekte heraus, die eine oder mehrere Bedingungen erfüllen. Konkret, Sie könnten sich fragen, welche Autos kosten weniger als 20000$? Diese Art von Fragen beantworten Sie mit dem Befehl subset(datensatz, Bedingungen): subset(imports85, price < 20000) > make f.type doors d.wheels cyl ps city.mpg highway.mpg price > 1 alfa-romeo gas two rwd four > 2 alfa-romeo gas two rwd four > 3 alfa-romeo gas two rwd six > 4 audi gas four fwd four > 5 audi gas four 4wd five > 6 audi gas two fwd five > 7 audi gas four fwd five > 8 audi gas four fwd five > 10 audi gas two 4wd five > 11 bmw gas two rwd four > 12 bmw gas four rwd four > 19 chevrolet gas two fwd three > 20 chevrolet gas two fwd four Dabei ist beim Befehle subset(...,...) das zweite Argument die Bedingung. Hierbei müssen Sie einen Ausdruck schreiben der entweder TRUE oder FALSE als Resultat liefert. Hierfür braucht es logische Operatoren. Für logische Operatoren im R siehe Tabelle 1. Ausdruck R UND & ODER NICHT! grösser als > grösser gleich >= kleiner als < kleiner gleich <= gleich == nicht gleich!= Tabelle 1: logische Operatoren Bei den Ausdrücken UND, ODER, NICHT handelt es sich um Logische Verknüpfungen, diese Operatoren dienen der Konstruktion mehrerer Bedingungen. Möchten Sie nun wissen, welche Autos kosten weniger als 20000$ UND haben 4 Türen, so formulieren Sie dies im R wie folgt: subset(imports85, price < & doors == "four") > make f.type doors d.wheels cyl ps city.mpg highway.mpg price > 4 audi gas four fwd four > 5 audi gas four 4wd five > 7 audi gas four fwd five > 8 audi gas four fwd five > 12 bmw gas four rwd four

10 4.1. Mit vector arbeiten 10 Logische Operationen auf Data Frames Sie können ebenfalls die obigen logischen Operatoren auf das Data Frame selbst, also ohne subset(...), anwenden. Dieselbe Filterung von Objekten erhalten Sie wie folgt: idx = imports85$price < & imports85$doors == "four" idx > [1] FALSE FALSE FALSE TRUE TRUE FALSE TRUE TRUE FALSE FALSE FALSE TRUE FALSE FALSE > [15] FALSE FALSE FALSE FALSE FALSE FALSE Dabei wird das Resultat in Form eines Warheitsvektors zurückgegeben. An jeder Stelle wo die beiden Bedingungen erfüllt sind, steht ein TRUE. Sind Sie an der Stelle wo das TRUE vorkommt interessiert, so wenden Sie den Befehl which(vektor) auf den Vektor an: which(idx) > [1] imports85[which(idx), ] > make f.type doors d.wheels cyl ps city.mpg highway.mpg price > 4 audi gas four fwd four > 5 audi gas four 4wd five > 7 audi gas four fwd five > 8 audi gas four fwd five > 12 bmw gas four rwd four Die Objekte (Zeilen) 4, 5, 7, 8 und 12 des Datensatz imports85 erfüllen beide Bedingungen. Die logischen Werte TRUE und FALSE können Sie auch direkt für die Indexierung eines Data Frames verwenden: imports85[idx, ] > make f.type doors d.wheels cyl ps city.mpg highway.mpg price > 4 audi gas four fwd four > 5 audi gas four 4wd five > 7 audi gas four fwd five > 8 audi gas four fwd five > 12 bmw gas four rwd four Sie sehen, Indexierung eines Data Frames kann über Zahlen, Namen oder Wahrheitswert TRUE erfolgen. Dabei ist bei dem Wahrheitswert die Stelle wichtig in der das TRUE vorkommt. 4.1 Mit vector arbeiten Wie Sie schon bereits erfahren haben, bestehen Data Frames aus Vektoren verschiedener Typen. Im Folgenden sollen Sie den Umgang mit Vektoren kennenlernen. Im R ist ein Vektor eine linienförmige Anordnung von Elementen, wie Sie das aus der Mathematik kennen. Ein Vektor darf nur Elemente von einem Typ besitzen. Erstellen eines vector s Kombination (zusammenfügen) Sie können die Abfolge der Elemente eines Vektors direkt angeben. Mit c(element1, Element2,...) erstellen Sie einen Vektor. Die Länge ergbit sich durch die Anzahl Elemente die Sie übergeben haben. vecc1 = c(2, 13, 20) vecc1 > [1]

11 4.1. Mit vector arbeiten 11 vecc2 = c("a", 2) # Zahl oder eben Charakter? das R wandelt die Zahl automatisch in einen Charakter um da # ein Vektor nur aus einem Typ bestehen darf vecc2 > [1] "a" "2" Replikation Sie können die Abfolge der Elemente eines Vektors auch mittels einer Regel bestimmten. rep(zahl, times = ZAHL) erstellt einen Vektor der Länge times mit dem Inhalt ZAHL. repvec1 = rep(3) # standard für times ist: times = 1 repvec1 > [1] 3 repvec2 = rep(7, times = 4) repvec2 > [1] is.vector(repvec1) # überprüfen ob es ein Vektor ist > [1] TRUE Sequenz Mittels seq(from = ZAHL, to = ZAHL, 'by = Inkrement, length.out = Länge') erstellen Sie eine Sequenz die bei 'from' startet und bis 'to' geht. Nur eines der zwei optionalen Argumente by =, length.out = darf zusätzlich angegeben werden. by = steht für die Grösse der Schritte und length.out = die Länge (Anzahl Elemente im Vektor) der Sequenz. seqvec1 = seq(from = 0, to = 10, by = 2) seqvec1 > [1] seqvec2 = seq(from = 0, to = 10, length.out = 3) seqvec2 > [1] vecby1 = 2:5 # gleich wie seq(from = 2, to = 5) / Standard: by = 1 vecby1 > [1] is.vector(seqvec1) > [1] TRUE Indexierung bzw. Zugriff Beim Vektor können Sie ebenfalls über eckige Klammern [] auf einzelne Elemente zugreifen. Das sieht dann so aus, vektorobjekt[zahl]: vecby1 > [1] vecby1[3] # 3-tes Element von Vektor vecby1

12 4.1. Mit vector arbeiten 12 > [1] 4 repvec2[c(2, 3)] # das zweite und dritte Element des Vektors > [1] 7 7 mit Vektoren rechnen Im R werden die mathematischen Operationen standardmässig elementweise ausgeführt. vecc1 > [1] vecc1 + 1 # Zahl 1 dem Vektor hinzufügen > [1] vecc1/2 > [1] vecc1 * 2 > [1] # mit zwei Vektoren rechnen vecc2 = c(37, 48, 53) vecc1 + vecc2 # das Resultat ist wieder ein Vektor > [1] vecc1 - vecc2 > [1] vecc1 * vecc2 > [1] vecc1/vecc2 > [1] cbind/rbind (Spalten- Zeilenweise) zusammenfügen von vector s Möchten Sie zwei Vektoren zusammenfügen, so wenden Sie die Befehle cbind(vec1, vec2,...) (spaltenweise) oder rbind(vec1, vec2,...) (zeilenweise) an. vecc = cbind(vecc1, vecc2) vecc # Spaltenweise zusammenfügen > vecc1 vecc2 > [1,] 2 37 > [2,] > [3,] class(vecc) # wird zu einer Matrix (Typänderung), da nicht mehr Linienförmig > [1] "matrix" vecs = rbind(vecc1, vecc2) vecs # Zeilenweise zusammenfügen

13 Univariate Visualisierung von numerischen und kategoriellen Daten 13 > [,1] [,2] [,3] > vecc > vecc Die Befehle werden dann sehr interessant, wenn Sie z.b. ein Data Frame bereits besitzen, und ein neues Merkmal dem Datensatz hinzufügen möchten. Sie werden nun den Preis, welcher in Dollar angegeben ist, in Franken umwandeln. Der momentane Kurs liegt bei Konkret, 1$ sind 98 Rp. ############################# Dollar umwandeln in Franken imports85 = cbind(imports85, price.chf = imports85$price * 0.98) imports85 > make f.type doors d.wheels cyl ps city.mpg highway.mpg price price.chf > 1 alfa-romeo gas two rwd four > 2 alfa-romeo gas two rwd four > 3 alfa-romeo gas two rwd six > 4 audi gas four fwd four > 5 audi gas four 4wd five > 6 audi gas two fwd five > 7 audi gas four fwd five > 8 audi gas four fwd five > 9 audi gas four fwd five > 10 audi gas two 4wd five > 11 bmw gas two rwd four > 12 bmw gas four rwd four > 13 bmw gas two rwd six > 14 bmw gas four rwd six > 15 bmw gas four rwd six > 16 bmw gas four rwd six > 17 bmw gas two rwd six > 18 bmw gas four rwd six > 19 chevrolet gas two fwd three > 20 chevrolet gas two fwd four Univariate Visualisierung von numerischen und kategoriellen Daten Dieses Kapitel soll Ihnen die grafischen Methoden zeigen, dabei wird der Fokus auf die Visualisierung einer Variable gelegt. 5.1 Darstellung von kategoriellen Variablen Im Hinblick auf die Visualisierung der kategoriellen Variable, müssen Sie die Verteilung bzw. die absoluten Häufigkeiten der Variable berechnen. Dies erreichen Sie mittels R-Befehl table(vektorfactorvariable) und prop.table(table(vektorfactorvariable)). hersteller = imports85$make hersteller # das Merkmal/Variable 'make' ist kategoriell > [1] alfa-romeo alfa-romeo alfa-romeo audi audi audi audi > [8] audi audi audi bmw bmw bmw bmw > [15] bmw bmw bmw bmw chevrolet chevrolet > Levels: alfa-romeo audi bmw chevrolet tab = table(hersteller) tab # absolute Häufigkeiten > hersteller > alfa-romeo audi bmw chevrolet > prop.table(tab) # relative Häufigkeiten

14 5.2. Darstellung von numerischen Variablen 14 > hersteller > alfa-romeo audi bmw chevrolet > # Sie können auch die relativen Häufigkeiten selber ausrechnen, indem Sie die Anzahl # Beobachtungen mit dem Befehl 'length(vektor)' ausfindig machen tab/length(hersteller) > hersteller > alfa-romeo audi bmw chevrolet > Bei ordinalen Variablen ist es sinnvoll, die absoluten und/oder relativen kumulierten Häufigkeiten zu berechnen. Hierzu cumsum(vektor): ps.tab = table(imports85$ps) ps.tab > > > cumsum(ps.tab) # beim Hersteller macht es keinen Sinn, deshalb PS > > Für die Visualisierung der kategoriellen Variable verwenden Sie das Balken- und Kuchendiagramm (barplot(...) - pie(...)). tab # mit der Tabelle plot's generieren, da Datensatz Faktorvariable > hersteller > alfa-romeo audi bmw chevrolet > pie(tab) # Hersteller title("kuchendiagramm zur Variable 'make'") barplot(tab, col = "lightblue", ylab = "abs. Häufigkeit") title("balkendiagramm zur Variable 'make'") Kuchendiagramm zur Variable 'make' Balkendiagramm zur Variable 'make' audi bmw alfa romeo chevrolet abs. HÃ ufigkeit alfa romeo audi bmw chevrolet 5.2 Darstellung von numerischen Variablen Bei numerischen bzw. metrischen Variablen brauchen Sie oft das Histogramm für die Visualisierung. Dazu müssen Klassen gebildet werden, woraus dann die Häufigkeiten der Klassen berechnet werden. Das Histogramm lässt sich mit dem Befehl hist(..., breaks = anzahlklassen) erzeugen, dabei können Sie mit breaks die Anzahl Klassen angeben. Verzichten Sie auf die Angabe des Arguments breaks, so wählt R selber eine geeignete Anzahl Klassen.

15 5.2. Darstellung von numerischen Variablen 15 imports85$price # mit Datensatz plot's generieren, da der Datensatz jetzt numerisch > [1] > [15] hist(imports85$price, breaks = 5, col = "lightblue") # histogramm mit 5 Klassen hist(imports85$price, breaks = c(min(imports85$price), 15190, 17190, 19450, 21800, max(imports85$price)), col = "lightgoldenrod") # über das Argument 'col' definieren wir die Farbe des Histogramms. 'max' bzw. 'min' # geben das Maximum bzw. Minimum des Vektors zurück Histogram of imports85$price Histogram of imports85$price Frequency Density imports85$price imports85$price Ebenso können Sie über das Argument breaks die Klassengrenzen manuell festlegen. Beachten Sie dabei dass der Start beim Minimum und das Ende beim Maximum sind, siehe oben R-Befehl. Sie stellen nun fest, dass auf der y-achse die absoluten Häufigkeiten abgetragen werden. Damit auf der y-achse die Dichte abgetragen wird (und damit die Fläche unter dem Histogramm 1 ist), müssen Sie in R auch noch das Argument freq auf FALSE setzen. Einen geglätteten Dichteschätzer erhalten Sie mittels density(datensatz), dieser lässt sich mit der Funktion plot(densityresultat) oder lines(densityresultat) visualisieren. Beachten Sie dabei dass lines(...) nur dann funktioniert, wenn schon ein Grafikfenster (plot(...)) aktiv ist. plot(density(imports85$price)) hist(imports85$price, breaks = 4, freq = FALSE, col = "lightblue", ylim = c(0, 8 * 10^-5)) lines(density(imports85$price), col = "blue") # nachdem hist aufgerufen wurde, ist nun ein Grafikfenster aktiv und wir können mittels # 'lines' eine Linie in die bestehende Grafik hinzufügen density.default(x = imports85$price) Histogram of imports85$price Density 0e+00 2e 05 4e 05 6e 05 8e 05 Density 0e+00 2e 05 4e 05 6e 05 8e N = 20 Bandwidth = imports85$price Mit ylim = c(y1, y2) werden die Grenzen der y-achse festgelegt. Falls y1 größer als y2 ist, wird die Achse umgekehrt ausgegeben. Ebenso können Sie das Intervall der x-achse mittels xlim = c(x1, x2) steuern.

16 Kennzahlen, Tabellen 16 6 Kennzahlen, Tabellen Um ein metrisches Merkmal bzgl. Lage und Streuung zu beschreiben, gibt es verschiedene statistische Kennzahlen. Hier soll Ihnen das Kapitel die notwendigen R-Funktionen vermitteln, die diese Kennzahlen berechnen. Anmerkung Falls eine Variable fehlende Elemente hat, die R durch NA (für not available ) kodiert, dann ist das Ergebnis der R-Funktionen auch NA. Um diese NA s zu ignorieren, d.h. vor der Berechnung der Kennzahl einfach wegzulassen, haben diese Funktionen ein na.rm Argument (dies steht für NA remove ). 6.1 Lagemasse Lagemasse geben Auskunft über das Zentrum einer Verteilung. Dabei spielen das arithmetische Mittel, der Median, der Modus und die Perzentilwerte eine Rolle. Diese Grössen machen auf kategoriellen Daten keinen Sinn, dort bietet sich einzig der Modus an. Mittelwert x Möchten Sie den Mittelwert bzw. das arithmetisches Mittel bzw. den Durchschnitt berechnen, so verwenden Sie den Befehl mean(vektorodermatrix): dat = c(3, 0.5, 4, 7, 5, NA, 0.5, 6, 3, 3, 0.5, 5, 6, 7, 8, 8, 6, 3, 4) dat > [1] NA mean(dat) # Mittelwert eines Datenvektors 'dat' mit 'NA's drin liefert NA > [1] NA # siehe Anmerkung mean(dat, na.rm = TRUE) > [1] # mit dem Entfernen des NA's, ist es dem R möglich, den Mittelwert zu berechnen. Median x med bzw. x Der Median einer Anzahl von Werten (Elemente des Vektors oder Matrix) ist die Zahl, welche an der mittleren Stelle steht, wenn man die Werte (Elemente) nach Größe sortiert. Im Vergleich zum arithmetischen Mittel, ist der Median robuster gegenüber Ausreissern (extrem abweichenden Werten). Den Median berechnen Sie mit dem Befehl median(vektorodermatrix): dat # der Datensatz von vorhin > [1] NA median(dat) # Fehler da NA drin > [1] NA median(dat, na.rm = TRUE) > [1] 4.5

17 6.2. Streuungsmass 17 Modus bzw. Modalwert x mod bzw. x D Der Modus ist der häufigste Wert in einer Variable, also das Element welches am häufigsten auftritt. Im R gibt es keine Funktion, mit der Sie den Modus sofort ausrechnen können. Quantile, Perzentile Das (α 100)% - Quantil (oder Perzentil) teilt die geordnete Stichprobe im Verhältnis α : (1 α), wobei natürlich 0 α 1 gelten muss. Quantile lassen sich mittels quantile(datensatz, probs = alphawerte) berechnen. Dem Argument probs übergeben Sie das α. Möchten Sie mehrere Quantile simultan berechnen, so übergeben Sie dem Argument probs die α s in Form eines Vektors. quantile(dat, probs = 0.25) # Fehler da NA drin > Error: missing values and NaN's not allowed if 'na.rm' is FALSE quantile(dat, probs = 0.25, na.rm = TRUE) > 25% > 3 # dies ist das erste Quartil Q1, da probs = Gleichzeitig mehrere Quantile # berechnen quantile(dat, probs = c(0.25, 0.5, 0.75), na.rm = TRUE) > 25% 50% 75% > # kurze Zusammenfassung der Daten liefert ebenfalls Quantile, besser bekannt unter # Quartile summary(dat) > Min. 1st Qu. Median Mean 3rd Qu. Max. NA's > Streuungsmass Ein Streuungsmaß gibt quantitativ Auskunft darüber, wie nah sich die Daten um den zentralen Wert einer Häufigkeitsverteilungen häufen. Spannweite Die Spannweite einer Häufigkeitsverteilung ist die Differenz zwischen dem grössten und dem kleinsten Wert der Beobachtungen. Sie errechnen diese Kennzahl im R mit der Funktion diff(range(datensatz)): dat > [1] NA diff(range(dat, na.rm = TRUE)) > [1] 7.5 # 'range' nimmt den maximalen und den minimalen Wert diff macht davon die Differenz, # deshalb können Sie obige Kennzahl auch selber ausrechnen mittels Funktionen 'max' und # 'min' der Datensätze max(dat, na.rm = TRUE) - min(dat, na.rm = TRUE) > [1] 7.5

18 6.2. Streuungsmass 18 Quartilsabstand (Interquartile Range IQR) Dieses Streuungsmass, auch Quartilsdifferenz (quartile deviation) genannt, ist eine Robustifizierung der Spannweite. Es misst die Länge des Intervalls, das etwa die Hälfte der mittleren Beobachtungen enthält. Die R-Funktion dafür lautet IQR(datensatz): IQR(dat, na.rm = TRUE) > [1] 3 Varianz und Standardabweichung Die empirische Varianz betrachtet die Summe der quadratischen Abweichungen vom arithmetischen Mittel und dividiert diese durch die Anzahl-1 Beobachtungen. Kurz, Varianz ist in etwa der Durchschnitt der quadratischen Abweichungen zum Mittelwert (weshalb Anzahl-1 s. Skript). Die Standardabweichung ist die Wurzel der Varianz. Die Funktion var(datensatz) berechnent für Sie die emp. Varianz, die Funktion sd(datensatz) die Standardabweichung: var(dat, na.rm = TRUE) > [1] sqrt(var(dat, na.rm = TRUE)) > [1] sd(dat, na.rm = TRUE) > [1] Boxplot Ein Boxplot fasst verschiedene robuste Streuungs- und Lagemasse in einer Darstellung zusammen. Sie sollen dabei schnell einen Eindruck darüber erhalten, in welchem Bereich die Daten liegen und wie sie sich über diesen Bereich verteilen. Der Befehl boxplot(daten) zeichnet Ihnen die Box: dat > [1] NA boxplot(dat, col = "lightblue", ylab = "abs. Häufigkeit") title("boxplot des fiktiven Datensatzes 'dat'") # um die einzelnen Datenpunkte einzuzeichnen points(rep(1, length(dat)), dat, pch = 4, cex = 2) legend(x = "topleft", legend = "Daten", pch = 4) Boxplot des fiktiven Datensatzes 'dat' abs. Häufigkeit Daten * größte grösste normale,,normale Beobachtung Beobachtung Q (apple IQR Q IQR) Q 3 Q 3 Qmedian 2 Q 1 Q 1 kleinste,,normale Beobachtung kleinste normale Beobachtung Q ( Q IQR) * IQR * extreme Beobachtung Abbildung 4 1 Aufbau eines Box Plots

19 6.2. Streuungsmass 19 Alle Grafen sollten beschriftete Achsen haben. Wenn R die Achsen nicht automatisch beschriftet, so können Sie dies über das Argument xlab (x-achse) oder ylab (y-achse) tun. points(xcoords, ycoords, pch = formdespunkts, cex = grössedespunkts) zeichnet weitere Punkte in ein aktives Grafikfenster. Dabei können Sie die Form der Punkte über das Argument pch = ZAHL steuern, oder mittels cex = ZAHL die Grösse festlegen. Mit dem Befehl legend(x = wohinxkoordinate, legend = "wassollsteheninlegende", pch = formdespunkte) kann ich eine Legende der Grafik hinzufügen. Sie sollen davon Gebrauch machen. Mittels Argument x steuern Sie die Position der Legende, dabei können Sie die x-y-koordinaten selber angeben oder Keywords für x verwenden, hierzu?legend aufrufen und unter Examples nachschauen. Die Argumente pch und lty steuern die Punktform und Linienform der Legende. Stripchart Eine Alternative zum Boxplot bei wenigen Beobachtungen ist der Stripchart. Dies ist ein eindimensionales Streudiagramm: dat > [1] NA stripchart(dat, ylab = "dat", main = "horizontal") stripchart(dat, xlab = "dat", vertical = TRUE, main = "vertical") stripchart(dat, ylab = "dat", method = "stack", main = "method = 'stack'") stripchart(dat, ylab = "dat", method = "jitter", main = "method = 'jitter'") horizontal vertical dat dat method = 'stack' method = 'jitter' dat dat Standardgemäss ist das Argument method mit 'overplot' gesetzt, was dazu führt, dass Werte welche mehrmals vorkommen, übereinander gezeichnet werden. Die Information des mehrmaligen auftreten einer Zahl geht verloren. Möchten Sie die Information ebenfalls visualisieren, so können Sie das Attribut method auf 'stack' oder 'jitter' setzen. Beim 'stack' setzt R die Vierecke aufeinander, beim 'jitter' sehen Sie im?stripchart nach.

20 Bivariate Visualisierung 20 7 Bivariate Visualisierung In diesem Kapitel befassen Sie sich mit der Visualisierung zweier Variablen. Entsprechend den Merkmalstypen entscheiden Sie, welche Grafik erstellt werden soll. Jedes Subkapitel ist einer Kombination der Variablentypen gewidmet. Für die Grafiken im Skript wird der Datensatz imports85 oder ein fiktiver Datensatz verwendet. head(imports85, n = 4) > make f.type doors d.wheels cyl ps city.mpg highway.mpg price price.chf > 1 alfa-romeo gas two rwd four > 2 alfa-romeo gas two rwd four > 3 alfa-romeo gas two rwd six > 4 audi gas four fwd four kategorial-kategorial Bei kategorial-kategorial sind beide Variablen kategoriale Variablen. Um diese Variablen gegeneinander visualisieren zu können, bedarf es die numerische Beschreibung. Die einfachste numerische Beschreibung für zwei (oder mehr) kategoriale Merkmale, ist ihre Kontingenztabelle. Diese erhalten Sie mit dem Befehl table(...), wie beim darstellen eines kategorialen Merkmals (5.1): tab = table(imports85$doors, imports85$make) tab > > alfa-romeo audi bmw chevrolet > four > two Um den Inhalt einer Kontingenztabelle zu visualisieren, eignet sich der Mosaikplot: mosaicplot(doors ~ make, data = imports85, color = TRUE) mosaicplot(tab, color = TRUE) imports85 tab alfa romeo four two alfa romeo four two bmw bmw make audi audi chevrolet doors chevrolet Der Mosaikplot ist in erster Linie eine flächenproportionale Darstellung der Kontingenztabelle, d.h.: je grösser der Eintrag in der Kontingenztabelle, desto grösser ist die Fläche des entsprechenden Mosaiks im Vergleich zu den übrigen Mosaiks. 7.2 stetig-kategorial Bei stetig-kategorial ist die eine Variable numerisch und die andere Variable kategorial. Für diese Situation ist der Boxplot geeignet. Ist der Datensatz nicht gross, so empfiehlt es sich einen Stripchart zu verwenden.

21 7.3. stetig-stetig 21 boxplot(price ~ make, data = imports85, ylab = "price") stripchart(price ~ make, data = imports85, vertical = TRUE) price price alfa romeo audi bmw chevrolet alfa romeo audi bmw chevrolet Sie stellen fest, dass die kategoriale Variable für die Gruppierung verwendet wird. 7.3 stetig-stetig Bei stetig-stetig sind beide Variablen (Merkmale) von selben Typ und zusätlich numerisch. Für die Visualisierung ist daher das Streudiagramm (Scatterplot) geeignet. Jeder Punkt (x, y) im 2-dim. Koordinatensystem repräsentiert eine Beobachtung der zwei Variablen eines Objekts. plot(price ~ ps, data = imports85) plot(imports85$ps, imports85$price) # mittels Vektoren als x und y price imports85$price ps imports85$ps Der Funktion plot(...) können Sie die Koordinaten mittels Formel oder Vektoren übermitteln. Bei der Formel Notation müssen Sie das Symbol verwenden, dabei separieren Sie die x-achse (steht auf der rechten Seite) von der y-achse (steht auf der linken Seite). Mittels Argument data übergeben Sie der Funktion den Datensatz, damit die Funktion mit der Formel und dem Datensatz arbeiten kann. Quantil-Quantil-Diagramm Diese Grafik erstellen Sie mit dem Befehl qqplot(datensatz1, datensatz2): dat1 = c(1, 2, 3, 4, 5, 5, 4, 6, 7, 8, 9, 1, 1, 2, 4, 0, 1, 7, 4) dat2 = c(3, 6, 4, 8, 9, 9, 11, 7, 2, 3, 4, 5, 6, 7, 8, 1, 2, 3, 2) qqplot(dat1, dat2) # Quantil-Quantil Plot

22 Multivariate Visualisierungen 22 dat dat1 8 Multivariate Visualisierungen Dieses Kapitel soll Ihnen zeigen welche Visualisierungen Sie mit mehr als 2 Variablen erzielen können. 8.1 Mehr als 2 Variablen Sie können den bivariaten Visualisierungen weitere Variablen hinzufügen, indem Sie die Punkte mit verschiedenen Formen, Farben und Texten in Abhängigkeit der weiteren Merkmale, zeichnen. Zum Beispiel können Sie dem Streudiagramm als weiteres Merkmal die Punktform angeben: plot(price ~ ps, data = imports85, pch = as.numeric(imports85$make)) # mittels Formel legend(x = "topleft", legend = levels(imports85$make), pch = unique(as.numeric(imports85$make))) # Oder Boxplot boxplot(price ~ make + doors, data = imports85, ylab = "price", las = 2) price alfa romeo audi bmw chevrolet price ps alfa romeo.four audi.four bmw.four chevrolet.four alfa romeo.two audi.two bmw.two chevrolet.two 8.2 pairs Mit dem Befehl pairs(datensatz) können Sie für jede Variablenkombination ein Streudiagramm erstellen. pairs(imports85)

23 8.3. 3d Grafik make f.type doors d.wheels cyl ps city.mpg highway.mpg price price.chf 8.3 3d Grafik Möchten Sie drei quantitative Variablen visualisieren, so bedarf es eine 3-dim. Darstellung. Mittels scatterplot3d(xdaten,ydaten,zdaten) können Sie das tun. Hierzu müssen Sie das Packet scatterplot3d installieren, danach über library(scatterplot3d) laden. dat1 > [1] dat2 > [1] dat3 = dat1 + dat2 require(scatterplot3d) > Loading required package: scatterplot3d > Warning: there is no package called 'scatterplot3d' scatterplot3d(dat1, dat2, dat3) > Error: konnte Funktion ÿcatterplot3d"nicht finden 9 Korrelation Die Korrelation misst die Stärke und die Richtung des Zusammenhangs (positiv oder negativ). In diesem Kapitel lernen Sie zwei Möglichkeiten, um Korrelationskoeffizienten zu berechnen. Wir gehen nicht auf die Formeln ein, diese sind im Skript erläutert. 9.1 Pearson-Korrelationskoeffizient Der Pearson-Korrelationskoeffizient misst den linearen Zusammenhang der beiden Variablen. Sie errechnen den Koeffizienten mittels cor(datensatz1,datensatz2):

24 9.2. Spearman-Rangkorrelationskoeffizient 24 dat1 > [1] dat2 > [1] cor(dat1, dat2) > [1] plot(dat1, dat2) # Was ist wohl die Korrelation von dat1 gegen dat1? cor(dat1, dat1) > [1] 1 plot(dat1, dat1) dat dat dat dat1 Hierbei sei darauf hingewiesen, dass Sie niemals Korrelationskoeffizienten anbegen sollen, ohne mit einem Scatterplot die Form des Zusammenhangs vorher überprüft zu haben. Die Gefahr von Fehlschlüssen ist im Skript dargestellt. 9.2 Spearman-Rangkorrelationskoeffizient Der Spearman-Rangkorrelationskoeffizient misst, wie gut eine beliebige monotone Funktion den Zusammenhang zwischen zwei Variablen (Merkmalen) beschreiben kann. Anders als Pearsons Korrelationskoeffizient benötigt er nicht die Annahme, dass die Beziehung zwischen den Variablen linear ist. Der Rangkorrelationskoeffizient ist robust gegenüber Ausreissern. Sie errechnen den Koeffizienten ebenfalls mit cor(datensatz1,datensatz2, method = 'spearman') aber fügen noch das Argument method mit 'spearman' hinzu. dat1 = seq(from = 1, to = 10) dat1 > [1] dat2 = dat1^-2 dat2 # kein linearer Zusammenhang, aber dafür nichtlinearer Zusammenhang > [1] plot(dat1, dat2) # erster Zusammenhang

25 9.2. Spearman-Rangkorrelationskoeffizient 25 dat Nun was sagen die Korrelationskoeffizienten hierzu: dat1 cor(dat1, dat2) # Pearson-Korrelationskoeffizient > [1] cor(dat1, dat2, method = "spearman") > [1] -1 Beziehung zwischen Spearman und Pearson Besteht eine Beziehung zwischen Spearman-Rangkorrelationskoeffizient und dem Pearson-Korrelationskoeffizienten? Ja, der Spearman-Rangkorrelationskoeffizient transformiert die Originalwerte in sogenannte Rangwerte. Von diesen Rangwerte wird dann der Pearson-Korrelationskoeffizient berechnet. Die Transformation in Rangwerte, linearisiert jeden monotonen Zusammenhang. Deshalb können Sie den Spearman-Rangkorrelationskoeffizient auch so berechnen: dat1 > [1] dat2 > [1] rank(dat1) # transformiere die Daten in Ränge > [1] rank(dat2) > [1] cor(rank(dat1), rank(dat2)) # nun rechne ich den linearen Zusammenhang von den Rängen > [1] -1 plot(dat1, dat2, main = "Originaldaten") plot(rank(dat1), rank(dat2), main = "Transformierte Daten")

26 Verteilungen 26 Originaldaten Transformierte Daten dat rank(dat2) dat rank(dat1) 10 Verteilungen Verteilungen Um in R mit Wahrscheinlichkeitsverteilungen arbeiten zu können, gibt es für jede gängige Verteilung je vier Funktionen. Siehe Tabelle 2. Funktion Dichtefunktion Verteilungsfunktion Quantilsfunktion Zufallzahlengenerator Kurzzeichen in R d p q r Tabelle 2: Kurzzeichen der Funktionen in R Ein Überblick über die gängigsten Kurzzeichen der Verteilungen gibt der Befehl?Distributions. Bei jeder Funktion muss als erstes Argument die auszwertende Stelle(n) angegeben werden und dann die Werte der Parameter der jeweiligen Verteilung als Argument übergeben werden. Hier wird eine Beispiel mit der Normalverteilung und der Binomialverteilung gezeigt. Die Wahrscheinlichkeit, dass eine ZV X mit X N(100, 16) einen Wert kleiner gleich annimmt, kann mit Hilfe der pnorm-funktion berechnet werden. pnorm(q = 100.1, mean = 100, sd = 4) > [1] 0.51 Generiere 10 Binomialverteilte Zufallsvariablen mit n = 100 p = 0.5. Also X Binom(100, 0.6) Wobei size und prob die Verteilungsspezifischen Argumente sind und n ein Argument des Zufallgenerators. rbinom(n = 10, size = 100, prob = 0.6) > [1] Quantil-Quantil-Plots Der Quantil-Quantil-Plot (Q-Q-Plot) trägt die theoretischen Quantile gegen die Quantile des übergebenen vectors ab. Dies können die Quantile einer beliebigen Funktion sein. Mit der R Funktion qqplot aus dem package car kann ein Q-Q-Plot gezeichnet werden. Im standard Fall werden als theoretische Quantile die Quantile der Normalverteilung abgetragen. Dann wird von einem Q-Q-Norm Plot gesprochen. In R muss dem qqplot das Argument distribution = "norm" übergeben werden. Die durchgezogene rote Gerade verläuft durch das erste und das dritte Quartil. Damit lässt sich der Plot einfacher bezüglich Lang-, Kurzschwänzigkeit und Schiefe interpretieren. Zusätzlich werden gestrichelt die punktweisen 95% Vertauensbänder eingezeichnet. D.h. falls

27 Hypothesen Tests 27 eine Beobachtung der im Plot spezifizierten Verteilung folgt, liegt sie mit 95% Wahrscheinlichkeit innerhalb der Vertauensbänder. set.seed(82) library(car, quietly = TRUE) par(mfrow = c(2, 2)) plot(seq(-6, 6, 0.01), dt(seq(-6, 6, 0.01), df = 3), type = "l", xlab = "x", ylab = "Dichte", main = "t Verteilung mit 3 Freiheitsgraden") qqplot(rt(200, df = 3), distribution = "norm", main = "Q-Q-Norm Plot") plot(seq(0, 3, 0.01), df(seq(0, 3, 0.01), df1 = 40, df2 = 40), type = "l", xlab = "x", ylab = "Dichte", main = "F Verteilung mit m = 30 und n = 30") qqplot(rf(200, df1 = 30, df2 = 30), distribution = "norm", main = "Q-Q-Norm Plot") t Verteilung mit 3 Freiheitsgraden Q Q Norm Plot Dichte rt(200, df = 3) x norm quantiles F Verteilung mit m = 30 und n = 30 Q Q Norm Plot Dichte rf(200, df1 = 30, df2 = 30) x norm quantiles In der Grafik wird oben eine t-verteilung mit drei Freiheitsgraden dargestellt. Im Plot der Dichte ist die Abweichung zur Normalverteilung nur schwierig zu erkennen. Der Q-Q-Norm Plot hingegen zeigt diese eindeutig ersichtlich, da auf der linken Seite des Plots die Beobachtunen unterhalb des Vertrauensbandes und auf der rechten Seite oberhalb des Vertauensband liegen. Ein anderes Problem zeigt sich in der unteren Grafik. Die Rechtsschiefe der F-Verteilung ist viel besser im Q-Q-Norm Plot ersichtlich, da an beiden Enden der Grafik die Beobachtungen oberhalb der Vertauensbandes liegen. 11 Hypothesen Tests Die Funktion t-test kann im Einstichprobenfall sowie auch im Zweistichprobenfall verwendet werden. Die Voraussetzung des t-test ist, dass die Stichproben normalverteilt sind - dies kann mittels eines Q-Q-Norm Plot geprüft werden. Im Einstichprobenfall müssen nur die Argumente x (die Daten) und mu (den zu testenden Mittelwert) spezifiziert werden. Im Zweistichprobenfall muss bei einem gepaarten Test das Argument paired = TRUE gesetzt werden. Strikt spricht man nur von t-test, wenn die Varianzen in beiden Gruppen als gleich angenommen werden - var.equal=true. Wenn die Gruppen unterschiedliche Varianzen haben, die getrennt geschätzt werden, wird zwar dieselbe R-Funktion mit var.equal=false verwendet, aber man nennt diesen Test in der Literatur auch Welch-Test. Mit dem Argument conf.level wird das Signifikanzniveau α gesetzt. α = 1 - conf.level. Das Argument alternative spezifiziert die Alternative H A des Tests. Siehe Tabelle 3. t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95,...)