Reihen sind Beobachtungen (jedes Mal, dass eine Versuchsperson etwas getan hat, gibt es eine Reihe).

Ähnliche Dokumente
# Erforderlich da Leerstellen in einigen Elementen vorhanden sind kj = read.delim(file.path(pfad, "kj.txt"))

Die Varianzanalyse. Jonathan Harrington

library(lattice) # Für den Data-Frame dip dip = read.table(file.path(pfadu, "dip.txt"))

Varianzanalyse mit Messwiederholungen (fortgesetzt) path = "Verzeichnis wo Sie anova1 gespeichert haben" attach(paste(path, "anova1", sep="/"))

Varianzanalyse mit Messwiederholungen. (Repeated-measures (M)ANOVA)

Generalised linear mixed models (GLMM) und die logistische Regression

3.4 Bivariate Datenanalyse in R

library(lattice) source(file.path(pfadu, "proben.r")) form = read.table(file.path(pfadu, "bet.txt")) e.df = read.table(file.path(pfadu, "e.

library(ez) library(lattice) source(file.path(pfadu, "phoc.txt")) # Führen Sie Aufgaben mit der Varianzanalyse durch.

Mixed Models. Jonathan Harrington. library(ez) library(lme4) library(multcomp) source(file.path(pfadu, "phoc.txt"))

(Repeated-measures ANOVA) path = "Verzeichnis wo Sie anova1 gespeichert haben" attach(paste(path, "anova1", sep="/"))

# Proportionen berechnen: die Proportion vom Erfolg (0 <= p <= 1) p = with(ovokal.m, P/(P+Q)) ovokal.m = cbind(ovokal.m, p)

> patienten<-data.frame( c(28,61,79,54,na,48), c(2,2,3,2,1,1), c("pillen","pillen","massage","gymnastik","massage","gymnastik"),

Einige Kriterien für die Durchführung einer Varianzanalyse. Jonathan Harrington

Einstieg in SPSS. Man kann auch für jede Ausprägung einer Variablen ein Wertelabel vergeben.

Aufgaben zu Kapitel 1

Bitte am PC mit Windows anmelden!

Einführung in die Angewandte Bioinformatik: Datenanalyse mit R

Eine Einführung in R: Grundlagen II

Aufgaben zu Kapitel 1

Die Varianzanalyse ohne Messwiederholung. Jonathan Harrington. Bi8e noch einmal datasets.zip laden

Die Varianzanalyse. Analysis of Variance (ANOVA) Jonathan Harrington

Statistische Software (R)

# Dies soll berechnet werden, in dem die Variabilität # wegen Versuchspersonen- und Wortunterschiede # ausgeklammert wird:

Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung

Grundlagen der R Programmiersprache. Jonathan Harrington und Tina John IPDS, Kiel.

Demographie III Übung

Mixed models. Jonathan Harrington. Die R-Befehle: mixed.txt. library(lme4) lex = read.table(paste(pfad, "lex.txt", sep="/"))

BOXPLOT 1. Begründung. Boxplot A B C

Bivariate explorative Datenanalyse in R

Perzeptionsexperiment zur Koartikulation in Anlehnung an Fowler, 1981

Hypothesentests mit SPSS

More about R: Logische Vektoren

Varianzanalyse mit Messwiederholungen (Repeated- measures (ANOVA) BiFe noch einmal datasets.zip laden

Grundlagen der Analyse von Sprachdatenbanken. Jonathan Harrington

STATA II: Daten- und Analysevorbereitung (Teil 1)

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Einige nützliche Abbildung für die statistische Analyse von Sprechdaten in R

Einführung in die formale Demographie Übung

Metrische und kategoriale Merkmale

Softwarepraktikum. zu Elemente der Mathematik. Carsten Rezny Institut für angewandte Mathematik Universität Bonn

Statistik IV Übung mit Stata 10. Statistik IV. 3. Datenaufbereitung II und erste Auswertungen. Göttingen 27. Mai Dozent: Jürgen Leibold

Übung 1 im Fach "Biometrie / Q1"

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Dateneingabe und -aufbereitung

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Die extrinsische und intrinsische Vokalnormalisierung

Modul G d) Gibt es einen Größen- bzw. Altersunterschied zwischen den anwesenden Männern und Frauen?

R-Wörterbuch Ein Anfang... ein Klick auf einen Begriff führt, sofern vorhanden, zu dessen Erklärung.

Univariate explorative Datenanalyse in R

Einfache statistische Auswertungen mit dem TI-Nspire

Das einfachste Objekt ist ein Vektor, der aus mehreren Elementen besteht. Ein Vektor wird auf diese Weise erzeugt:

Stochastik-Praktikum

Kapitel 1: Deskriptive Statistik

0.1 R starten, R beenden Wenn man R startet, beginnt man einen Session. Man beendet einen Session mit

Running R. Windows Aus Menü. Lese R Code ein führt den Code auch gleich aus, eventuell muss vorher das Verzeichnis gewechselt werden.

Kreuztabellen und Häufigkeitstabellen. Kreuztabellen: - unabhängige Variable in Zeilen (Ursache) - abhängige Variable in Spalten (Wirkung)

Grundlagen der Bioinformatik Assignment 4: Introduction to R. Yvonne Lichtblau SS 2017

Sprachproduktion- und Sprachperzeption. Jonathan Harrington

Vokale und die Quantaltheorie. Jonathan Harrington

Einführung in die Ökonometrie

1 Kodierung kategorialer Einflussgrößen

Merkmalstypen Univ.-Prof. Dr. rer. nat. et med. habil. Andreas Faldum

A&O ExPra Datenauswertung

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

Profil gesperrter Spieler

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

3. Bestehende Dateien

SUBSTRING - wo liegt mein Fehler?

7. Sitzung. Kategoriale Wahrnehmung, McGurk-Effekt

Vorwort zur vierten Auflage Einleitung 13

Ferienkurse Mathematik Sommersemester 2009

Aufbau des Experiments Reihung von Versuchsitems und Distraktoren

Grundlagen der Bioinformatik Übung 5 Einführung in R. Ulf Leser, Yvonne Mayer

QUANTITATIVE DATEN IM PRAXISSEMSTER DATENMANAGEMENT AUSWERTUNG VISUALISIERUNG

Inhalt: Vorbereitungen Seite 2. Los gehts (kleines Beispiel für Blitzer POI's in allen Marken) Seite 3

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Statistische Tests

Daten zusammenfügen und erste Datenbereinigung

1 Univariate Statistiken

Rhythmus in den Sprachen der Welt. Jonathan Harrington

Der χ2-test Der χ2-test

UE Angewandte Statistik Termin 2 deskriptive Darstellungsmöglichkeiten

KLAUSUR ZUM BACHELORMODUL EINFÜHRUNG IN DIE PROGRAMMIERUNG WS 2016/17, DR. MAXIMILIAN HADERSBECK KLAUSUR AM

Der χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest)

Bivariate explorative Datenanalyse in R

Abfragen aus einer Sprachdatenbank. Tina John (Jonathan Harrington)

Spektrale Analysen in EMU-R: eine Einführung. Jonathan Harrington

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Regressionsanalysen mit Stata

Einführung in die formale Demographie Übung

Beabsichtigte und automatische Aspekte der Sprachproduktion und Sprachperzeption. am

Mehrere kategoriale Merkmale

Zeichnung und Koordinaten einlesen

Anleitung zur Pflege der Homepage über den Raiffeisen-Homepage-Manager

Wie bekomme ich einen schnellen Überblick über die bereits eingegebenen Daten?

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)

Registrierungsanleitung Informatik-Biber

Transkript:

1 Data-Frames, Faktoren, Deskriptive Statistik Jonathan Harrington 0. Vorbereitung von Daten Data-Frame besteht aus Reihen und Spalten. Reihen sind Beobachtungen (jedes Mal, dass eine Versuchsperson etwas getan hat, gibt es eine Reihe). Spalten können aus kontinuierlichen Variablen und Faktoren (kategorialen Daten) bestehen. Typische kontinuierliche Variablen in der Phonetik z.b. Dauermessungen, Formantwerte, Reaktionszeiten usw. Typische Faktoren (kategoriale Daten) in der Phonetik (und Linguistik) Sprecherkürzel (wer hat was gesprochen?) Sprechereigenschaften (Geschlecht, Dialekt, Alter...) Spracheigenschaften (Vokale, Wörter, Silben...) Ein Faktor besteht aus Stufen z.b. Geschlecht hat 2 Stufen (m, w); wenn drei Altersgruppen aufgenommen wurden, dann hat der Faktor Alter 3 Stufen (jung, mittel, alt) usw. Beispiel 1 20 Versuchspersonen (10 männlich, 10 weiblich) produzierten /i, a, u/ Vokale jeweils 10 Mal. Die Dauerwerte dieser Vokale wurden erhoben. Kontinuierliche Variablen Dauer Faktoren Versuchspersonen (20 Stufen) Geschlecht (2 Stufen: m, w) Vokal (3 Stufen, i, u, a) Wiederholung (10 Stufen: 1, 2,...10) Data-Frame Struktur 20 (Versuchspersonen) 3 Vokale 10 Wiederholungen = 600 Reihen 5 Spalten: Dauer, Versuchsperson, Geschlecht, Vokal, Wiederholung. Eine 600 5 Matrix (3000 Werte) Beispiel 2 F1 und F2 Werte wurden erhoben für lange und kurze Vokale, die sowohl in Funktionswörtern also auch in Inhaltswörtern vorkamen. Die Daten wurden von 40 Personen

2 produziert, 20 aus Bayern, 20 aus Hessen; 12 der Versuchspersonen waren männlich, die anderen 28 weiblich. Kontinuierliche Variablen F1, F2 Faktoren Vokallänge (2 Stufen: lang, kurz) Kategorie (2 Stufen: Funktion, Inhalt) Versuchsperson (40 Stufen) Dialekt (2 Stufen) Geschlecht (2 Stufen) Data-Frame Struktur 40 (Versuchspersonen) 2 Vokallängen 2 Kategorien = 160 Reihen (also jede Versuchsperson produzierte 4 Werte: langer Vokal im Inhaltswort, kurzer Vokal im Inhaltswort, langer Vokal im Funktionswort, kurzer Vokal im Funktionswort) 7 Spalten: F1, F2, Vokallänge, Kategorie, Versuchsperson, Dialekt, Geschlecht Beispiel 3 Die Reaktionszeiten wurden in 40 Versuchspersonen gemessen. Den Versuchspersonen wurden 50 Stimuli präsentiert, einmal orthographisch auf einem Bildschirm, einmal auditiv über Kopfhörer. Die Versuchspersonen mussten entscheiden, ob der präsentierte Stimulus ein reales Deutsches Wort war, oder nicht. Die Stimuli begannen mit einem /s/, /st/, oder /str/. 20 der Vpn. waren L1-Deutsch, 20 L1-Spanisch. Das Experiment wurde zwei Mal pro Versuchsperson durchgeführt: Einmal mit den auditiven Stimuli zuerst, einmal mit den orthographischen Stimuli zuerst. 1. Data-Frame in R erzeugen # Dauermessungen d = c(100, 56, 190, 80, 110, 45, 89, 90, 120) # für diese Vokale lab = c("i", "i", "e", "e", "i", "a", "a", "e", "a") # für diese Versuchspersonen vpn = c("ab", "AB", "EJ", "AB", "EJ", "MP", "DN", "WN", "DN") # Geschlecht der Versuchspersonen g = c("m", "m", "w", "m", "w", "m", "w", "m", "w") mein.df = data.frame(dauer = d, Vok = factor(lab), Vpn = factor(vpn), G = factor(g)) class(mein.df) dim(mein.df) # um die ersten paar Zeilen zu sehen head(mein.df)

3 # um die Spaltennamen zu sehen names(mein.df) Hier erzeugen wir einen Data-Frame aus den Dauerwerten, Konsonant /t, d, St/, Silbenanzahl, Wort der Sprachdatenbank sabinevot. Zur Erinnerung: # library(emu) vot.s = emu.query("sabinevot", "*", "Phonetik = h") # Die Wörter wort.s = emu.requery(vot.s, "Phonetik", "Wort") wort.l = label(wort.s) # wir können die obigen zwei Befehle so kombinieren wort.l = emu.requery(vot.s, "Phonetik", "Wort", j = T) # Die Silbenzahl zahl.l = emu.requery(vot.s, "Phonetik", "Zahl", j = T) # Der Konsonant kons.l = emu.requery(vot.s, "Phonetik", "Phonetik", seq = -1, j = T) # Data-frame genannt vot.df bauen mit diesen Daten. 1. Data-Frame als Text-Datei speichern write.table(mein.df, file.path(pfad, "mein.txt")) # oder write.table(mein.df, file.path(pfad, "mein.txt"), quote=f) 2. Data-Frame einlesen m = read.table(file.path(pfad, "mein.txt")) 3. Daten von einem Data-Frame manipulieren: die with() Funktion Alle Befehle in R können als zweites Argument zu der with() Funktion eingegeben werden und sie funktionieren auf die selbe Weise. Das erste Argument ist irgendein Data-Frame, zb 4+10 with(mein.df, 4+10) c("ja", "nein") with(mein.df, c("ja", "nein")) Aber zusätzlich sind die Spalten eines Data-Frames sichtbar. z.b. colnames(mein.df) Vok Error: object 'Vok' not found with(mein.df, Vok)

4 dauer Error: object 'dauer' not found with(mein.df, dauer) # Wie bekomme ich den Dauer-Mittelwert? # Wie bekomme ich eine Tabellierung der Vokale? 4. Deskriptive Statistik I: boxplot() Um kontinuierliche Daten darzustellen, und um festzustellen, wie eine kontinuierliche Variable von einem oder mehreren Faktoren beeinflusst wird. vot = dur(vot.s) mean(vot) median(vot) [1] 14.5495 Bedeutung von Median: man sortiert die Werte. Der Median ist so nah wie möglich am der mittleren Wert in den sortierten Daten sort(vot) [1] 9.601 10.383 11.082 11.171 11.304 11.373 11.590 [8] 11.803 11.882 12.530 12.960 13.301 13.692 13.840 [15] 14.127 14.972 15.364 15.633 17.940 20.422 40.215 [22] 43.040 44.413 54.944 59.827 76.957 79.971 80.486 [29] 89.477 108.142 Man sagt auch für Median: der 50% Quantal quantile(vot,.5) Im Boxplot wird der Median als eine horizontale dicke Linie dargestellt; der 'Box' dehnt sich aus zwischen den 25% und 75% Quantalen, genannt den Interquartalen Bereich quantile(vot,.25) quantile(vot,.75) # oder quantile(vot, c(.25,.75)) boxplot(vot) Meistens will man die Verteilung in Abhängigkeit von einem Faktor sehen: boxplot(vot ~ zahl.l) boxplot(vot ~ kons.l) # Beide zusammen (Die Faktoren werden 'gekreuzt')

5 boxplot(vot ~ kons.l * zahl.l) Meistens erstellen wir solche Daten aus einem Data-Frame. Dafür gibt es zwei Möglichkeiten... Fragen Entpacken Sie die zip-datei unter 4.1 in der Webseite, so dass die darin enthaltenen.txt- Dateien sich in Ihrem pfad-verzeichnis befinden (Öffnen Sie eine Text-Datei mit einem Editor, um zu bestätigen, dass sie sich in dem pfad-verzeichnis befinden). 1. lok.txt Lesen Sie in R mit read.table() die.txt- Datei lok.txt ein: lok = read.table(file.path(pfad, "lok.txt")) Schreiben Sie R- Befehle um diese Informationen zu ermitteln. 1.1 Die Anzahl der Beobachtungen 1.2 Die Anzahl der Spalten 1.3. Die Stufen des Faktors P 1.4 Den Mittelwert der Variable slopes 1.5. Einen Boxplot der Variable slopes als Funktion der Faktoren Kons und P 1.6 Das gleiche wie 1.5 aber nur für die Männer (für die M- Stufe des Faktors G; hier müssen Sie einen logischen Vektor verwenden). 2. rtdaten.txt Daten aus Johnson (2008), modifiziert. Die Daten zeigen Reaktionszeitmessungen (RT) für 58 Versuchspersonen (Listener) aufgeteilt in 4 Sprechergruppen (Gruppe). Für die Reaktionszeitmessungen bekamen die Versuchsperson eine Reihenfolge von 2 spanischen Sprachlauten. Der erste Laut (Cons) war entweder "d" oder "r". Das Urteil (Pair) der Versuchspersonen war entweder "same" oder "different". z.b. Cons = "d" und Pair = "different" heißt: die Reaktionszeit wurde gemessen, wenn der erste Laut ein /d/ war, und wenn im nächsten Laut keinen /d/ wahrgenommen wurde. Die vier Sprechergruppen (Gruppe) sind: begin (L2- spanisch Anfänger), intermed (L2- spanisch Fortgeschrittene), nospan (L2- spanisch mit keinen Kenntnissen der spanischen Sprache), spannat (L1- Spanisch). Inwiefern werden die Reaktionszeiten (a) von der Hörergruppe, (b) dem ersten Konsonant, und (c) Urteil beeinflusst? Verwenden Sie Boxplots um (a), (b), und (c) zu beantworten.