Eine Einführung in R: Grundlagen II

Ähnliche Dokumente
Statistische Software (R)

Eine Einführung in R: Programmstrukturen

Eine Einführung in R: Programmstrukturen

Programmieren mit statistischer Software

Erwin Grüner

Statistische Software (R-Vertiefung) Kontrollstrukturen: Bedingte Anweisungen. Logische Operatoren & Verknüpfungen. Syntax. Paul Fink, M.Sc.

Datenmanagement in R: Eine Einführung

Programmieren mit statistischer Software

Eine Einführung in R: Dichten und Verteilungsfunktionen

Eine Einführung in R: Grundlagen I

Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung

Arbeiten mit Daten. Session 3

Dateneingabe und Transformation Übersicht

3. Bestehende Dateien

Einführung in die Ökonometrie

Kurze Einführung in R

Eine Einführung in R: Grundlagen I

Eine Einführung in R: Statistische Tests

Unterschiede in Dateien mit diff

Mit R können Rechenoperationen durch direkte Eingabe durchgeführt werden. Beispiel >(3*(5+7)^4)/3 [1] 20736

Einführung in die Angewandte Bioinformatik: Datenanalyse mit R

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Einführung in die Ökonometrie - Übung

Einfaches Datenmanagement in R

Arbeiten mit Daten. Session 3

Kapitel 2. Daten importieren und exportieren. 2.1 Daten im Textformat lesen und schreiben

Einsatz von Statistikprogrammen

R-Wörterbuch Ein Anfang... ein Klick auf einen Begriff führt, sofern vorhanden, zu dessen Erklärung.

Grundlagen der Bioinformatik Übung 5 Einführung in R. Ulf Leser, Yvonne Mayer

Kommandozeile und Batch-Dateien. Molekulare Phylogenetik Praktikum

Zugriff auf die swhv-mitgliederverwaltung

Eine Einführung in R: Statistische Tests

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

1 Univariate Statistiken

Eine Einführung in R: Dichten und Verteilungsfunktionen

Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung

W-Rechnung und Statistik für Ingenieure Übung 2

1.5 Berechnung von Rangzahlen

IDE Grundlagen Vektoren Matrizen Faktoren Dataframes Visualisierung Tips. Quick & dirty

Eine Einführung in R: Varianzanalyse


Exkurs: Datenein- und Ausgabe mit R

Statistik mit R, Sitzung am

Eine Einführung in R: Hochdimensionale Daten: n << p

Statistik: Einführung. Online-Übung 2: Herbert Stocker

Spalten aufsummieren?!

Eine Einführung in R: Varianzanalyse

Shell. Oder Konsole suchen im Application Finder. Auch Terminal, Bash oder Kommandozeile genannt. Bash nimmt Befehle entgegen und führt diese aus

=ZÄHLENWENN Zählt die nichtleeren Zellen eines Bereiches, deren Inhalte mit den Suchkriterien übereinstimmen

2 R die Basics. Inhalt. 2.1 Ziel. 2.2 R als Taschenrechner. Markus Burkhardt

Deskriptive Statistiken

Excel:mac 2011 Grundlagen & Funktionen

Bivariate explorative Datenanalyse in R

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

SAS-Online Dokumentation: zu finden über Internetsuche nach sas online documentation

Kurzanleitung für SPSS Statistics 22

TU Bergakademie Freiberg Datenanalyse/Statistik Wintersemester 2016/ Übungsblatt. Homepage zur Übung unter:

Datenaufbereitung, Grafische Datenanalyse

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

PROC NPAR1WAY. zum Durchführen des U-Tests für zwei unverbundene Stichproben (für quantitative nicht-normalverteilte Merkmale)

9. Vektoren. (auch Felder/array)

Running R. Windows Aus Menü. Lese R Code ein führt den Code auch gleich aus, eventuell muss vorher das Verzeichnis gewechselt werden.

Was ist R? Grundfunktionen in R Beispiele Zusammenfassung Literatur. Einführung in R. Michael Zwinkel

Die REB-Schnittstelle

ERSTELLUNG EINES DATENEXPORTS MIT ORGAMAX

1 Keine Angst vor Daten

Modell Bahn Verwaltung. Tutorial. Decoder Datei. Min. Programm Version 0.65, März w w w. r f n e t. c h 1 / 10

Einheit 1. Einführung in R. IFAS JKU Linz c 2018 Programmieren mit Statistischer Software 1 0 / 11

Softwarepraktikum. zu Elemente der Mathematik. Carsten Rezny Institut für angewandte Mathematik Universität Bonn

Kapitel 3. Programmieren in R. Vorlesung Programmieren in statistischer Software: R Sommersemester Bedingte Anweisungen, Schleifen, Funktionen

Computer & GNU/Linux Einführung Teil 4

Tutorial. Stata und Wharton Research Data Services (WRDS)

Computerwerkstatt: Umgang mit Daten in R (- Studio)

Erwin Grüner

Vorwort Einführung in Power Query Erste Abfrage erstellen... 21

Einführung in SPSS. Sitzung 2: Datenbereinigung und Datenmanagement. Knut Wenzig. 4. Dezember 2006

Erste Schritte in etab

Erste Schritte in R. 27. Oktober 2012 Statistik mit R Heike Zinsmeister WS 2011/12

Armako-Spss. Handbuch. Universität Graz, Institut für Psychologie Abteilung Biologische Psychologie

Univariate explorative Datenanalyse in R

Einführung. Statistische Software. Was ist R? Wie installiere ich R? Micha Schneider. Institut für Statistik Ludwig-Maximilians-Universität München

10 Lesen und Schreiben von Dateien

Übung 2 im Fach "Biometrie / Q1"

Univariate explorative Datenanalyse in R

Probleme beim Projekt-Speichern

Kompaktwissen zu R. 1. Hilfe. Allgemein. Beispiele hilfreicher Internetseiten (mit weiteren Verweisen zu Einführungen und Tutorien)

Es geht also im die SQL Data Manipulation Language.

Shell-Programmierung

Eine Einführung in R: Statistische Tests

Einrichten und Verwenden der Solutio Charly PA-Konzepte Schnittstelle

Einführung in R Viktor Werle Dustin Kahl. Entscheidungen unter Risiko und statistische Datenanalyse

Reihen sind Beobachtungen (jedes Mal, dass eine Versuchsperson etwas getan hat, gibt es eine Reihe).

Sonstige Daten importieren.

STATA II: Daten- und Analysevorbereitung (Teil 1)

Programmieren mit statistischer Software

Die SQL-Schnittstelle

Einführung in R. Marius Hofert. Ulm University

Die SQL-Schnittstelle

Dr. Quapp: Statistik für Mathematiker mit SPSS. Lösungs Hinweise 1. Übung Beschreibende Statistik & Verteilungsfunktion

Transkript:

Eine Einführung in R: Grundlagen II Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws11/r-kurs/ 20. Oktober 2011 Bernd Klaus, Verena Zuber, Grundlagen II, 20. Oktober 2011 1

Empfehlenswerte frei verfügbare Literatur: (Links auf der Homepage!) Wim Krijnen, 2009: Applied Statistics for Bioinformatics Using R Andrew Robinson, 2008: IcebreakR W. N. Venables, D. M. Smith and the R Development Core Team, 2009: An Introduction to R Tom Short, 2004: R reference card Dormann, C.F., I. Kühn. 2008: Statistische Analyse biologischer Daten Editor: tinn-r: http://www.sciviews.org/tinn-r/ Bernd Klaus, Verena Zuber, Grundlagen II, 20. Oktober 2011 2

1 I. Grundlegendes zu R: Datenim- und Export 2 II. Grundlegendes zu R: Wichtige Funktionen zum Datenumgang Ordnen und Sortieren Die Apply-Funktionen Die Abfrage mittels which Bernd Klaus, Verena Zuber, Grundlagen II, 20. Oktober 2011 3

Das.csv Format Wir verwenden hier das sogenannte.csv Format, ein einfaches und weitverbreitetes Textformat Bsp.: Patienten.csv vom ersten Übungsblatt (Der Eintrag NA wurde durch 60.0 ersetzt.) Groesse, Gewicht P1, 1.65, 80.0 P2, 1.30, 60.0 P3, 1.20, 50.0 Einträge einer Zeile werden durch, getrennt, Leerzeichen kennzeichnen fehlende Werte Bernd Klaus, Verena Zuber, Grundlagen II, 20. Oktober 2011 4

Mit getwd() bzw. setwd() lässt sich das aktuelle Arbeitsverzeichnis abfragen bzw. setzen list.files(/data) listet alle Dateien auf, die im Unterverzeichnis data des Arbeitsverzeichnisses liegen Mit read.csv() lässt sich eine Datei im.csv Format einlesen Bsp.: pat <- read.csv(file = C://path/to/filename/Patienten.csv) (absoluter Pfad) bzw. pat <- read.csv(file = /data/patienten.csv) (relativer Pfad) Exportieren entsprechend mit write.csv() Bernd Klaus, Verena Zuber, Grundlagen II, 20. Oktober 2011 5

Allgemeiner ist der read.table bzw. write.table Befehl: read.table(file, header = FALSE, sep =, dec =., row.names, col.names, na.strings = NA,... ) file: der Datensatz, bzw. Pfad zu dem Datensatz header: enthält der Datensatz Variablennamen in der ersten Zeile? sep: Trennungszeichen dec: Dezimalzeichen row/col.names: die gewünschten Namen der Zeilen bzw. Spalten na.strings: Bezeichnung der fehlenden Werte Bernd Klaus, Verena Zuber, Grundlagen II, 20. Oktober 2011 6

Weitere Befehle zum Dateneinlesen R bietet eine Vielzahl von Möglichkeiten Daten ein- und auszulesen: read.table: der allgemeine Befehl read.csv: Einlesen von.csv Datenformaten read.delim: Einlesen von Datenformaten, die tabs verwenden read.fwf: Einlesen von besonders formatierten Daten scan: Einlesen von Daten in Vektoren oder Listen Bernd Klaus, Verena Zuber, Grundlagen II, 20. Oktober 2011 7

Ordnen und Sortieren sort: Sortiert eine Vektor in aufsteigender Ordnung order: Ordnet die Indices so, dass die Elemente des Vektors sortiert werden, d.h. es gilt sort(v) = V[order(V)] rank: Verteilt Ränge, wobei es verschiedene Optionen gibt, gleiche Werte (ties) zu behandeln Beispiel: Der Anteil an Kinder in einem armen Elternhaus (Armut) sort(armut): 2.7 4.0 4.2 4.6... 22.2 24.6 sort(armut, decreasing=true): 24.6 22.2... 4.0 2.7 Armut[order(Armut)]: 2.7 4.0 4.2 4.6... 22.2 24.6 rank(armut)[order(armut)]: 1.0 2.0 3.0... 22.0 23.5 23.5 25.0... 30.0 Bernd Klaus, Verena Zuber, Grundlagen II, 20. Oktober 2011 8

Die Apply-Funktion R ermöglicht es mit der Funktion apply() eine Funktion auf jede Zeile, bzw Spalte einer Matrix anzuwenden. apply(x, MARGIN, FUN,...) X: die entsprechende Matrix MARGIN = 1 (-> Zeilenweise) MARGIN = 2 (-> Spaltenweise) FUN: die gewünschte Funktion, z.b. mean, var,... Bernd Klaus, Verena Zuber, Grundlagen II, 20. Oktober 2011 9

Apply-Funktionen apply( ) eine Funktion spalten- oder zeilenweise auf eine Matrix anwenden sapply( ) eine Funktion spaltenweise auf einen Datensatz anwenden mapply( ) multivariate Variante von sapply( ), mehrere Datensätze können übergeben werden tapply( ) eine Funktion auf Daten anwenden, die zu bestimmten Faktorgruppen gehören Fehlende Werte ( NA ) können bei den Apply-Funktionen mittels der Option na.rm = TRUE herausgenommen werden (sonst gibt R in der Regel eine Fehlermeldung zurück). Bernd Klaus, Verena Zuber, Grundlagen II, 20. Oktober 2011 10

Beispiele Betrachten wir unsere Patientendaten: Groesse, Gewicht P1, 1.65, 80.0 P2, 1.30, 60.0 P3, 1.20, 50.0 Berechnung des Mittelwert für jede Spalte in diesem Datensatz: sapply(x = pat[,1:2], FUN = mean) Groesse Gewicht 1.383333 63.333333 Bernd Klaus, Verena Zuber, Grundlagen II, 20. Oktober 2011 11

Betrachten wir eine erweiterte Tabelle unserer Patientendaten: Groesse, Gewicht, Ge P1, 1.65, 80.0, w P2, 1.30, 60.0, m P3, 1.20, 50.0, w Zu den bekannten Daten ist ein Faktor Ge hinzugekommen. Berechnung der durchschnittlichen Gröÿe getrennt nach dem Faktor Geschlecht: Die Ausgabe ist: tapply(x = pat$groesse, FUN = mean, INDEX = pat$ge) m w 1.3 1.425 Bernd Klaus, Verena Zuber, Grundlagen II, 20. Oktober 2011 12

Die Abfrage mittels which Will man auf Beobachtungen mit einer bestimmten Eigenschaft zugreifen, so bietet sich die Abfrage mittels which() an: which(bedingung) Bedingung: logischer Vektor, Bsp. Variable == Wert Ergebnis: ein Vektor mit den Stellen, an denen die Bedingung wahr ist Um direkt auf die Elemente zuzugreifen: Variable[which(Bedingung)] Bernd Klaus, Verena Zuber, Grundlagen II, 20. Oktober 2011 13

Einschub: Logische Variablen Variable == Wert: Gleichheit Variable!= Wert: Ungleichheit Variable < Wert: kleiner Variable > Wert: gröÿer &: und : oder!: Negation %in%: Überprüfung auf Elementeigenschaft Bernd Klaus, Verena Zuber, Grundlagen II, 20. Oktober 2011 14

Beispiele Betrachten wir wieder unsere Patientendaten: Groesse, Gewicht P1, 1.65, 80.0, P2, 1.30, 60.0, P3, 1.20, 50.0, In welchen Zeilen sind Beobachtungen, die kleiner 1.5 sind? which(groesse<1.5) 2 3 Wie klein sind die Patienten, die kleiner als 1.5 sind? Groesse[which(Groesse<1.5)] 1.3 1.2 Bernd Klaus, Verena Zuber, Grundlagen II, 20. Oktober 2011 15