Modul G d) Gibt es einen Größen- bzw. Altersunterschied zwischen den anwesenden Männern und Frauen?

Ähnliche Dokumente
Modul G Anmerkungen zur Hausaufgabe vom

Statistik in R Block 1: April 1

3.4 Bivariate Datenanalyse in R

Programmiervorkurs für die Numerik Teil 2/4

Mathematische Computer-Software

Bivariate explorative Datenanalyse in R

Univariate explorative Datenanalyse in R

R-Wörterbuch Ein Anfang... ein Klick auf einen Begriff führt, sofern vorhanden, zu dessen Erklärung.

Kurze Einführung in Octave

Grundlagen der R Programmiersprache. Jonathan Harrington und Tina John IPDS, Kiel.

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

Bitte am PC mit Windows anmelden!

Univariate explorative Datenanalyse in R

Übungszettel 2a - Python

Einführung in MATLAB

Lineare Algebra mit dem Statistikprogramm R

Der Download von R erfolgt über die homepage

Einführung in MATLAB für Maschinenbauer im ersten Semester. Aufgaben und Lösungen

Klaus Schliep. 16. Februar 2004

Strings. Daten aus Dateien einlesen und in Dateien speichern.

Schülerworkshop Computertomographie Mathematik als Schlüsseltechnologie

0.1 R starten, R beenden Wenn man R startet, beginnt man einen Session. Man beendet einen Session mit

Python Einführung. Monica Selva Soto. 24 März Mathematisches Institut

Syntax Variablen. mtrx <- matrix (c(1,2,3,4,5,6),ncol=2,nrow=3) Anzeigen des Types: class(var) Umwandeln mit: as.vector(mtrx)

Matlab: Grundlagen und Hilfen

Erwin Grüner

R Befehle SS min(x) Bestimmt das Minimum von x Bestimmt die Anzahl der sum(x<=4) Werte von x, die kleiner oder max(x) Bestimmt das Maximum von x

Bivariate explorative Datenanalyse in R

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

Einführung in MATLAB für Maschinenbauer im ersten Semester

ECDL-Advanced Excel 2010 Advanced

R starten (Arbeitsverzeichnis wählen, Workspace abspeichern, History abspeichern)

Softwarepraktikum. zu Elemente der Mathematik. Carsten Rezny Institut für angewandte Mathematik Universität Bonn

Gliederung. Übungsbeispiel Autovermietung

1 Berechnung von Summen (ca = 10 Punkte)

Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten

Matlab Selbstlernkurs

Deskriptive Statistik Erläuterungen

MATLAB Sommersemester 2018 Dr. Ulf Mäder

Rechner. Verlauf ansehen. Ausdruck teilen. Graph Gleichungen. OXY Seite öffnen. SCI/ENG Schreibweise. Eigene Gleichung zuweisen

Einführung in Matlab Was ist MATLAB? Hilfe Variablen

10:Exkurs MATLAB / Octave

Statistik und Wahrscheinlichkeitsrechnung

Statistik IV Übung mit Stata 10. Statistik IV. 3. Datenaufbereitung II und erste Auswertungen. Göttingen 27. Mai Dozent: Jürgen Leibold

Statistik und Wahrscheinlichkeitsrechnung

PPS "Bits on Air" 1. Teil, Matlab-Tutorial Vorbereitungsaufgaben (Lösungsvorschläge)

Variablen in MATLAB. Unterschiede zur Mathematik: Symbolisches und numerisches Rechnen. Skriptdateien. for-schleifen.

Einführung in die Angewandte Bioinformatik: Datenanalyse mit R

Einführung in die Ökonometrie - Übung

Programmieren mit statistischer Software

Übungsaufgaben. zahlen bis auf das 3. und 7. Element enthält. (e) Erstellen Sie einen Vektor. zahlen3, der ein Klon von

Graphische Darstellung einer univariaten Verteilung:

Einstieg in SPSS. Man kann auch für jede Ausprägung einer Variablen ein Wertelabel vergeben.

Vorwort Einführung in Power Query Erste Abfrage erstellen... 21

Softwarepraktikum. zu Elemente der Mathematik. Carsten Rezny Institut für angewandte Mathematik Universität Bonn

2 R die Basics. Inhalt. 2.1 Ziel. 2.2 R als Taschenrechner. Markus Burkhardt

Ein metrisches Merkmal

Programmieren mit statistischer Software

Präsenzübung (Einführung in R) Übung zur Vorlesung Statistik I für Biowissenschaften WS 2016/2017

Aufgaben zu Kapitel 1

> patienten<-data.frame( c(28,61,79,54,na,48), c(2,2,3,2,1,1), c("pillen","pillen","massage","gymnastik","massage","gymnastik"),

Programmieren mit statistischer Software

Einführung in die Ökonometrie

1 Univariate Statistiken

Übungs- und Praktikumsaufgaben zur Systemprogrammierung Dipl.-Ing. H. Büchter (Lehrbeauftragter) FH-Dortmund WS 2001/2002 / SS 2002

More about R: Logische Vektoren

Einführung in die formale Demographie Übung

Statistik K urs SS 2004

3) Lagemaße: Mittelwert, Median, Modus

Demographie III Übung

2. Einführung in das Ingenieurtool MATLAB

Aufgaben zu Kapitel 1

Grundlagen der Bioinformatik Übung 5 Einführung in R. Ulf Leser, Yvonne Mayer

# Erforderlich da Leerstellen in einigen Elementen vorhanden sind kj = read.delim(file.path(pfad, "kj.txt"))

5 Einfache Datentransformationen

Dr. Quapp: Statistik für Mathematiker mit SPSS. Lösungs Hinweise 1. Übung Beschreibende Statistik & Verteilungsfunktion

3 Kurzeinführung in Matlab

Zufallsauswahl mit R

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Reihungen. Prof. Dr. Christian Böhm. In Zusammenarbeit mit Gefei Zhang. WS 07/08

beruflicher Bildungsabschluss incl. Hochschulabschl. 4Kat.(m) Häufigkeit Prozent Gültig Lehre/Beruffachgesundh.Schule ,2 59,2 59,2

Grundlagen der Bioinformatik Assignment 4: Introduction to R. Yvonne Lichtblau SS 2017

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik

(a) Richtig, die Varianz ist eine Summe quadratischer Größen.

Hausaufgabe Modellierung und Simulation 1

Tabellenkalkulation. Tabellenkalkulation

Reihungen. Martin Wirsing. in Zusammenarbeit mit Michael Barth, Fabian Birzele und Gefei Zhang

Tutorium Statistik Berufsbegleitende Studiengänge Bodensee Campus Konstanz Dozent Dipl. Mathematiker (FH) Roland Geiger

Funktionen in Matlab. Lehrstuhl für Angewandte Mathematik Sommersemester und 29. Mai 2008

Technische Universität München SS 2006 Zentrum Mathematik Blatt 2 Prof. Dr. J. Hartl

Unterlagen zu: Das Datenanalysesystem SAS SS 2000

Mit dem Explorer arbeiten

Modul Tabellenkalkulation

Das arithmetische Mittel. x i = = 8. x = 1 4. und. y i = = 8

Primäre Reliefparameter (2)

Erste Schritte in etab

High Performance Computing Blatt 7

Transkript:

Modul G 29.11.2007 Hausaufgabe vom 22.11.2007: Erstelle eine Matrix mit (fiktiven) Initialen, Alter, Geschlecht und Größe von 18 Seminarteilnehmern. Auswertung a) Zähle pro vorkommendem Alter die Anzahl der Studenten und berechne so die absoluten bzw. relativen Häufigkeiten. b) Welches ist der Modalwert der Größenverteilung? c) Welches ist der Median der Altersverteilung? d) Gibt es einen Größen- bzw. Altersunterschied zwischen den anwesenden Männern und Frauen? e) Stelle die Altersstruktur der Seminarteilnehmer in zwei Histogrammen mit unterschiedlichen Klassenbreiten dar. Zur Lösung der Hausaufgabe vom 22.11.2007 Problem: In Matrize (mit rbind erzeugt) kann mit arithmetischen Funktionen nicht ohne weiteres auf numerische Elemente zugegriffen werden. Zahlen werden in gesetzt und nicht mehr als Zahlen erkannt. Lösung 1: alle erforderlichen Berechnungen können in diesem Fall auch über die Vektoren laufen. Lösung 2: Zahlenerkennung in Matrize erzwingen > funktion: as.integer Bsp.: > x = c(1,2,3,4,5) > y= c("a","b","c","d","e") > tab =rbind (x,y) > tab [,1] [,2] [,3] [,4] [,5] x "1" "2" "3" "4" "5" y "a" "b" "c" "d" "e" > tab [1,] [1] "1" "2" "3" "4" "5" > mean (tab[1,])

[1] NA Warning message: In mean.default(tab[1, ]) : Argument ist weder numerisch noch boolesch: gebe NA zurück > as.integer (tab[1,]) [1] 1 2 3 4 5 > mean (as.integer (tab[1,])) [1] 3 Lösung 3: bei der Erzeugung der Matrix Buchstaben raushalten z.b. 1. fiktive Matrix erstellen Daten der Seminarteilnehmer: AR = c(23, 1.70, 1) BG = c(20, 1.58, 1) SV = c(22, 1.80, 0) PQ = c(21, 1.53, 1) IL = c(24, 1.68, 1) HK = c(25, 1.78, 0) usw. Matrix erstellen, Reihenverbindung: mat= rbind(ar, BG, SV, PQ, IL, HK, GU, DS, HB, AS, KL, FE, KT, PO, GH, SD, EG, ER) Dimensionsnamen: ynamen = c("alter", "Größe in cm", "weiblich" ) xnamen= c("ar", "BG", "SV", "PQ", "IL", "HK", "GU", "DS", "HB", "AS", "KL", "FE", "KT", "PO", "GH", "SD", "EG", "ER") dimnames(mat) = list (xnamen, ynamen) Lösung 4: statt einer Matrize kann ein Dataframe erzeugt werden. In einem Dataframe werden die Zahlen als Zahlen erkannt. Und arithmetische Operationen über Zeilen und Spalten sind möglich. Dataframes sind ein grundlegendes Element in vielen komplexen Anwendungen von r. Die Erstellung eines Dataframes ist unter der Verwendung von data.frame möglich, dies führt zu folgendem Lösungsweg der Hausaufgaben: Vektoren mit Argumente füllen Initialen: initial=c("aa","bb","cc","dd","ee","ff","gg","hh","ii","jj","kk","ll","mm", "NN","OO","PP","QQ","RR") Alter: alter = c(21, 20, 20, 24, 22, 23, 24, 25, 26, 22, 22, 23, 22, 24, 24, 24, 21,26)

Geschlecht: sex=c("w","w","w","w","w","w","w","w","w","m","m","m","m","m","m","m","m"," m") Größe: groesse = c(110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195) Vektoren zur Dataframe zusammenfügen: frame=data.frame (initial, sex, alter, groesse) Absolute und relative Häufigkeiten berechnen > xy = table (frame [,3]) > xy 20 21 22 23 24 25 26 2 2 4 2 5 1 2 > xy /18*100 20 21 22 23 24 25 26 11.111111 11.111111 22.222222 11.111111 27.777778 5.555556 11.111111 Welches ist der Median der Altersverteilung? > median (frame [,4]) [1] 152.5 Auch : apply(frame,4, median) -> median gibt den Zentralwert aus Welches ist der Modalwert der Größenverteilung? >table (frame [,4]) 110 115 120 125 130 135 140 145 150 155 160 165 170 175 180 185 190 195 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Bzw. gleich den größten Wert anzeigen lassen: max Funktion verwenden Gibt es eine Größen- bzw. Altersunterschied zwischen den Männern und Frauen? Berechne hierfür das arithmetische Mittel der Größen, bzw. Alter von Männern und Frauen.

ii = (frame [,2] == "w") > ii [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE > mean (frame [,3][ii]) [1] 22.77778 Stelle die Altersstruktur der Seminarteilnehmer in zwei Histogrammen mit unterschiedlichen Klassenbreiten dar. > breaks = c(0:4)*2 + 20 0:4 > Anzahl der Boxen *2 > Klassenbreite +20 > Offset Grundlegende Vorgehensweisen und Funktionen von R Hilfe-Funktion: help Viele der nachfolgenden Funktionen sind nicht erschöpfend dargestellt, sondern sind oft mächtiger. Die umfassende Darstellung findet sich über die help-funktion.

Speichern und laden von Workspace (*.Rdata) Unter Word: klicken : save und load > Befehle erscheinen auf der Kommandozeile save.image("d:\\temp\\test.rdata") load("d:\\temp\\test.rdata") entsprechendes kann unter UNIX auf der r-kommandozeile eingegeben werden Ansehen von Funktionen z.b. sd (input) > Standardabweichung sd eintippen + return > Programmierung der Funktion wird sichtbar > Ansehen Kommentare zu Befehlszeilen hinzufügen (Sinnvoll bei längeren Skripten und gespeichertem Workspace bzw. history) Beispiele 10 + 2 # addition 2 * 3 + 12 # * is multiplication 54/3 # / denotes division 2 * pi * 4 # circumference of a circle, radius 4 4^2 # ^ means raise to the power Entfernen von Objekten rm(moredata) rm(moredata, newdata) # entfernt das Objekt moredata # entfernt die Objekte moredata und newdata Ausgabe von Objekten als Textdateien (*.txt) Beispiel vec <- c(10, 20, 30) write(vec, "path/vec.txt") # erzeugt einen Vektor # schreibt den Vektor als Textdatei Dataframes erzeugen framexy = data.frame (vec1,...,vec5) Zusammenfassung von Dataframes summary (framexy)

Editieren von Dataframes edit (framexy) Wichtige mathematische i n-built-funktionen, die auf numerische Vektoren oder vergleichbare Objekte angewendet werden können. Hier am Beispiel des Vektors a = c(10, 4, 20) exemplifiziert. range(a) # range von a [1] 4 20 max(a) # das Element in a mit dem höchsten Wert [1] 20 sum(a) # Summe aller Elemente aus a [1] 34 diff(a) # Differenzbildung: c(a[2] a[1], a[3] a[2]) [1] -6 16 mean(a) # Arithmetisches Mittel a [1] 11.33333 log(a, base=10) sqrt(a) # Natürlicher Logarithmus von a # Quadratwurzel von a [1] 3.162278 2.000000 4.472136 a^3 #a hoch 3 [1] 1000 64 8000 Aufgabe 2 (Lösungen bitte zum 6.12.2007 einreichen - gerne auch früher per Mail) a) Lade die Datei formants.rdata in R (zu finden unter Modul G auf der IPdS- Webseite) b.) Was bewirkt die Funktion summary, wenn man sie über das enthaltene Dataframe laufen lässt? c) Stelle die Vokaldauern (vdur) graphisch dar. d) Stelle die Vokaldauern für die einzelnen Lautstärken graphisch mit dem Befehl hist in einer Abbildung dar. e) Welche Vokaldauer kommt bei laut am häufigsten vor, welche bei normal und welche bei leise? f) Haben alle drei Lautstärkestufen die gleiche Anzahl von Items? g) Berechechne die Mittelwerte und Standardabweichungen der RMS-Werte für die die einzelnen Lautstärken.

#a) load("c:/eigene Dateien/Statistik/formants.RData") # Daten wurden in drei Lautstärken aufgenommen # formants$loud: L = laut, N=normal, S=Soft summary(formants) #b) hist(formants$vdur) #c) ii=formants$loud=="l" hist(formants$vdur[ii], col="green", xlim=c(50, 190)) ii=formants$loud=="n" hist(formants$vdur[ii], col="red", xlim=c(50, 190), add=t) ii=formants$loud=="s" hist(formants$vdur[ii], col="blue", xlim=c(50, 190), add=t) # Berechnung der Maße der zentralen Tendenz library(emu) load("c:eigene dateien/statistik/segs.txt") dur=mudur(nsegs) # Modus nn=hist(dur, breaks=20, main="vokaldauer") maxfreq=which.max(nn$counts) maxfreq

nn modus=nn$mids[maxfreq] # Median sdur=sort(dur) n=length(dur) med=(sdur[n/2]+sdur[n/2+1])/2 median(dur) # Mittelwert xbar=sum(dur)/n mean(dur)