Eine Einführung in R: Deskriptive Statistiken und Graphiken



Ähnliche Dokumente
Eine Einführung in R: Statistische Tests

Eine Einführung in R: Dichten und Verteilungsfunktionen

Eine Einführung in R: Dichten und Verteilungsfunktionen

Eine Einführung in R: Dichten und Verteilungsfunktionen

Eine Einführung in R: Deskriptive Statistiken und Graphiken

Eine Einführung in R: Deskriptive Statistiken und Graphiken

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Deskriptive Statistiken und Graphiken

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Statistik II für Betriebswirte Vorlesung 2

9. Schätzen und Testen bei unbekannter Varianz

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Ein möglicher Unterrichtsgang

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Willkommen zur Vorlesung Statistik

R ist freie Software und kann von der Website.

Eine Einführung in R: Deskriptive Statistiken und Graphiken

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Überblick über die Tests

Statistische Thermodynamik I Lösungen zur Serie 1

Stichprobenauslegung. für stetige und binäre Datentypen

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Grundlagen der Inferenzstatistik

Tutorial: Homogenitätstest

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Willkommen zur Vorlesung Statistik (Master)

Eine Einführung in R: Deskriptive Statistiken und Graphiken

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Einfache Varianzanalyse für abhängige

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Eine Einführung in R: Deskriptive Statistiken und Graphiken

Beispiel Zusammengesetzte Zufallsvariablen

1 Darstellen von Daten

Statistik II für Betriebswirte Vorlesung 3

Statistische Auswertung der Daten von Blatt 13

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Statistik I für Betriebswirte Vorlesung 5

4. Erstellen von Klassen

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Varianzanalyse ANOVA

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe Institut für Statistik Ludwig-Maximilians-Universität München

Ausarbeitung des Seminarvortrags zum Thema

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

W-Rechnung und Statistik für Ingenieure Übung 11

5. Schließende Statistik Einführung

Business Value Launch 2006

Stochastische Eingangsprüfung,

Data Mining: Einige Grundlagen aus der Stochastik

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Einführung in statistische Analysen

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31

Einfache statistische Auswertungen mit dem Programm SPSS

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

Überblick über die Verfahren für Ordinaldaten

Korrelation (II) Korrelation und Kausalität

Korrelation - Regression. Berghold, IMI

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Binäre abhängige Variablen

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Varianzanalyse (ANOVA: analysis of variance)

QM: Prüfen -1- KN

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Forschungsstatistik I

Die Optimalität von Randomisationstests

q = 1 p = k k k = 0, 1,..., = [ ] = 0.678

1.3 Die Beurteilung von Testleistungen

Beurteilung der biometrischen Verhältnisse in einem Bestand. Dr. Richard Herrmann, Köln

Einfache statistische Auswertungen mit dem TI-Nspire

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Klausur Nr. 1. Wahrscheinlichkeitsrechnung. Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt.

Teil I Beschreibende Statistik 29

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Statistik für Studenten der Sportwissenschaften SS 2008

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE. Markt+Technik

Statistik im Versicherungs- und Finanzwesen

13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.

Aufgabe 1 10 ECTS. y i x j gering mittel hoch n i Hausrat KFZ Unfall Reiserücktritt n j

Kugel-Fächer-Modell. 1fach. 3fach. Für die Einzelkugel gibt es 3 Möglichkeiten. 6fach. 3! Möglichkeiten

Felix Klug SS Tutorium Deskriptive Statistik

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Einführung in die Statistik mit EXCEL und SPSS

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Transkript:

Eine Einführung in R: Deskriptive Statistiken und Graphiken (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365 06. Januar 2015 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und06. Bernd Januar Klaus) 2015( Institut 1 / für 104 Med

I. Ergänzungen zu Übung 1 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und06. Bernd Januar Klaus) 2015( Institut 2 / für 104 Med

Scope [Gültigkeitsbereich] von Variablen bei Funktionen Es können drei Arten von Variablen in einer Funktion auftauchen: Formale Parameter: Werden beim Aufruf der Funktion angegeben Lokale Variablen: Werden beim Abarbeiten einer Funktion erzeugt Freie Variablen: Alle anderen Frage: Wo sucht R nach freien Variablen? Antwort: In der Umgebung der Variable (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und06. Bernd Januar Klaus) 2015( Institut 3 / für 104 Med

z <- 3 f <- function(x) { y <- 2*x print(z) } Ausgabe bei Aufruf der Funktion: f(1) f(60) 3 3 x: Formaler Parameter y: Lokale Variable z: Freie Variable, die in diesem Bsp. von R auÿerhalb der Funktion gesucht wird (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und06. Bernd Januar Klaus) 2015( Institut 4 / für 104 Med

z <- 3 f <- function(x) { y <- 2*x z <- 5 print(z) } Ausgabe bei Aufruf der Funktion: f(1) f(60) 5 5 z ist keine freie Variable mehr, da sie nun innerhalb der Funktion deniert ist (lokale Variable) und die freie Variable z auÿerhalb der Funktion verdeckt Zugri auf verdeckte Variablen per <<- Befehl (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und06. Bernd Januar Klaus) 2015( Institut 5 / für 104 Med

Ermittlung der Rechenzeit system.time(expr) expr: R-Befehl, dessen Rechenzeit ausgewertet werden soll Beispiel: colmeans gegen apply try<-matrix(1:4000000, nrow=4) system.time(colmeans(try)) user system elapsed 0.02 0.00 0.01 system.time(apply(try, MARGIN=2, FUN=mean, na.rm=true)) Alternativ: user system elapsed 32.16 0.00 32.20 ptm <- proc.time() exrps proc.time()-ptm (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und06. Bernd Januar Klaus) 2015( Institut 6 / für 104 Med

Pakete und Hilfe Download unter http://cran.r-project.org R besteht aus einem Grundprogramm mit vielen Zusätzen den sogenannten packages oder Pakete Hilfe per?<name> oder help.search(suchbegriff) Übersicht über die Hilfe help.start( ) Pakete speziell für Bioinformatik / Biostatistik: http://bioconductor.org/ (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und06. Bernd Januar Klaus) 2015( Institut 7 / für 104 Med

Was sind Pakete? R bietet eine Vielzahl frei verfügbarer Pakete Ein Paket enthält unterschiedlichste, spezielle Funktionen Beim Start von R ist nur eine Grundausstattung geladen, alle anderen Pakete müssen zusätzlich geladen werden Jeder kann sein eigenes Paket schreiben Derzeit gibt es 6158 Pakete (Stand Oktober 2009: 2112 Pakete) Es besteht aber KEINE GARANTIE für richtige Funktionsweise! (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und06. Bernd Januar Klaus) 2015( Institut 8 / für 104 Med

Was sind Pakete? Überblick über die geladenen Pakete sessioninfo( ) package laden require(packagename) oder library(packagename) package installieren install.packages(packagename) Repositories auswählen setrepositories() Wichtige Pakete: survival: Überlebenszeitanalysen (Kaplan-Meier, Log-Rank-Tests Cox-Modelle) mvtnorm: Multivariate Normalverteilung R2HTML: R Ausgabe in HTML Mögliche Pakete: sendmailr: send email from inside R twitter: R based Twitter client sudoku: Sudoku Puzzle Generator and Solver (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und06. Bernd Januar Klaus) 2015( Institut 9 / für 104 Med

II. Diskrete Daten: Deskriptive Statistiken und Graphiken (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 10 / für 104 Med

Was sind diskrete Variablen? Diskrete Variablen nehmen nur eine endliche Anzahl an Werten an: Kategorial: Es besteht keine Rangordnung der Kategorien Ordinal: Kategorien können geordnet werden Kategoriale oder ordinale Variablen sollten in R als Faktoren deniert sein. Mit einer Häugkeitstabelle kann man ein kategoriales Objekt zusammenfassen: table(object): Absolute Häugkeiten prop.table(table(object)): Relative Häugkeiten (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 11 / für 104 Med

Betrachten wir einen Faktor mit 4 Ausprägungen: DNA <- rep(c(a, C, G, T), 10) table(dna) ergibt: 1 A 2 C 3 G 3 T A C G T 10 10 10 10 prop.table(table(dna)) ergibt:.. A C G T 0.25 0.25 0.25 0.25 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 12 / für 104 Med

Kuchendiagramm und Balkendiagramm Kuchendiagramm Balkendiagramm C G A T 0 2 4 6 8 10 A C G T Zu erzeugen mit: pie(table(dna)) barplot(table(dna)) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 13 / für 104 Med

III. Stetige Daten: Deskriptive Statistiken und Graphiken (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 14 / für 104 Med

Was sind stetige Variablen? Stetige Variablen können (in der Theorie) eine unendliche Anzahl an Werten annehmen. Beispiele: Gewicht Gröÿe Gehalt R speichert stetige Variablen als metrische Objekte (numeric) ab. Häugkeitstabelle sind für stetige Variablen meist nicht geeignet. Wichtiger sind: Maÿe für die Lage Maÿe für die Streuung (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 15 / für 104 Med

Maÿe für die Lage Die Lage (location) gibt an, in welcher Gröÿenordnung sich Daten bewegen. (Empirische) Mittelwert x = 1 n n x i = 1 n (x 1 +... + x n ). i=1 In R: mean() (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 16 / für 104 Med

Maÿe für die Lage II x%-quantile, trennen die Daten in zwei Teile. So liegen x% der Daten unter dem x%-quantile und 100 x% darüber. Median x 0.5 entspricht dem 50%-Quantil In R: median() 25%-Quantil x 0.25 (das erste Quartil) In R: quantile(x,0.25) 75%-Quantil x 0.75 (das dritte Quartil) In R: quantile(x,0.75) Der Median ist robuster gegen Ausreiÿer als der Erwartungswert Oder gleich in R: summary() (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 17 / für 104 Med

Maÿe für die Streuung Die Streuung (scale) gibt an, wie stark die verschiedenen Werte voneinander abweichen. Die (empirische) Varianz s 2 = 1 n 1 n i=1 (x i x) 2 = 1 n 1 Spannbreite: Dierenz vom gröÿten zum kleinsten Wert Interquartilsabstand: ( (x1 x) 2 +... + (x n x) 2). IQR = x 0.75 x 0.25 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 18 / für 104 Med

Beispiel: oecd-daten Betrachten wir das durchnittliche, frei verfügbare Einkommen einer Familie [ pro Kind, in tausend US-Dollar ]. Einen Überblick erhält man durch: summary(einkommen) Min. 1st Qu. Median Mean 3rd Qu. Max. 5.10 16.60 21.10 19.18 22.65 34.20 Die Varianz bzw. Standardabweichung var(einkommen) [1] 50.75937 sd(einkommen) (alternativ sqrt(var(einkommen)) ) [1] 7.124561 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 19 / für 104 Med

Beispiel: oecd-daten II Den Interquartilsabstand erhält man durch: Die Spannweite mit IQR(Einkommen) [1] 6.05 max(einkommen)-min(einkommen) [1] 29.1 Bei der Variable Alkohol (Prozentsatz der 13-15 jährigen Kinder, die mindestens zweimal betrunken waren) bestehen fehlende Werte. Mittelwertsberechnung über mean(alkohol,na.rm=true) [1] 15.225 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 20 / für 104 Med

Was ist ein Boxplot? Der Boxplot ist eine Graphik zur Darstellung stetiger Variablen. Er enthält: Minimum und Maximum 25%-Quantil und 75%-Quantil Median In R: boxplot(variable) Um Variablen getrennt nach Faktorstufen zu untersuchen, bietet sich an: boxplot(variable factor) Einschub: Ein Label für den Faktor Geo factor(geo,levels=c(r,e), labels=c(nicht-europa,europa)) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 21 / für 104 Med

Boxplot: Alkohol Boxplot Boxplot für Europa und Nicht Europa 10 15 20 25 10 15 20 25 Nicht Europa Europa Zu erzeugen mit: boxplot(alkohol) boxplot(alkohol Geo) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 22 / für 104 Med

Stripchart: Alkohol Eine Alternative zum Boxplot bei wenigen Beobachtungen ist der Stripchart: Nicht Europa Europa 10 15 20 25 Alkohol Zu erzeugen mit: stripchart(alkohol Geo) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 23 / für 104 Med

Was ist ein Histogramm? Zur Erstellung eines Histogramms teilt man die Daten in homogene Teilintervalle ein und plottet dann die absolute Häugkeit pro Teilintervall Dieses Verfahren gibt einen ersten Überblick über die Verteilung der Daten ( => Ermitteln der empirischen Dichte möglich ) hist(x, breaks = AnzahlBins, freq = NULL ) x: Daten breaks = AnzahlBins: Steuerung der Teilintervalle freq=true: absolute Häugkeiten freq=false: relative Häugkeiten (empirische Dichte) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 24 / für 104 Med

Histogramm: Einkommen Histogramme des Einkommens mit verschiedenen Binstärken Histogram of Einkommen Histogram of Einkommen Frequency 0 2 4 6 8 10 12 Frequency 0 1 2 3 4 5 6 5 10 15 20 25 30 35 Einkommen 5 10 15 20 25 30 35 Einkommen Zu erzeugen mit: hist(einkommen) hist(einkommen, breaks=15) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 25 / für 104 Med

Aufgabenkomplex 1 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 26 / für 104 Med

IV. Graphiken in R: Grundaufbau und Parameter (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 27 / für 104 Med

Graphiken in R R kennt einen Standardbefehl für einfache Graphiken (plot()), aber auch viele spezielle Befehle, wie hist() oder pie(). plot(x, y, type, main, par (...) ) x: Daten der x-achse y: Daten der y-achse type=l: Darstellung durch eine Linie type=p: Darstellung durch Punkte main: Überschrift der Graphik par (...): Zusätzlich können sehr viele Parametereinstellungen geändert werden (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 28 / für 104 Med

Parameter für Graphiken in R par(cex, col, lty, mfrow, pch, x/yaxs) cex: Skalierung von Graphikelementen col: Farbe (colors() zeigt die vordenierten Farben an) lty: Linienart mfrow: Anordnen von mehreren Graphiken nebeneinander pch: Andere Punkte oder Symbole x/yaxs: Stil der x- bzw. y-achse Einen Überblick über die Parameter erhält man mit?par. par() kann entweder im plot() -Befehl gesetzt werden oder als eigene Funktion vor einem oder mehreren plot()-befehlen. (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 29 / für 104 Med

Aufbau von Graphiken in R 1 plot(): Bildet den Grundstein einer Graphik 2 Zusätzlich können weitere Elemente eingefügt werden wie: lines(): Linien points(): Punkte legend(): Legende text(): Text 3 dev.off(): schlieÿt die Graphik Einen Überblick erhält man mit der betreenden Hilfefunktion, z.b.?legend. (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 30 / für 104 Med

Abspeichern von Graphiken Folgende Graphikformate können in R erzeugt werden: pdf() ps() jpg() Beispiel: pdf(file=boxplot.pdf, width=13, height=6) par(mfrow=c(1,2)) boxplot(alkohol, main=boxplot) boxplot(alkohol Geo, main=boxplot für...) par(mfrow=c(1,1)) dev.off() (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 31 / für 104 Med

y 3 2 1 0 1 2 3 Cos und Sin 1.0 0.5 0.0 0.5 1.0 cosinus sinus x pdf(file=rgraphiken/beispiel.pdf, width=12, height=6) plot(x,y, type=l, col=darkviolet, main=cos und Sin) lines(x,z, col=magenta) points(x,null, pch=3) legend(topleft, c(cosinus,sinus), col=c(darkviolet, magenta), lty=1) dev.off() (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 32 / für 104 Med

V. Dichten und Verteilungsfunktionen in R (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 33 / für 104 Med

Einschub: Zufallsvariablen Eine Variable oder Merkmal X, dessen Werte die Ergebnisse eines Zufallsvorganges sind, heiÿt Zufallsvariable. Notation: X: Die Zufallsvariable x: Eine Realisierung oder Beobachtung der Zufallsvariable (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 34 / für 104 Med

Induktive (Schlieÿende) Statistik: Mittels einer Stichprobe wird versucht Aussagen bezüglich einer Grundgesamtheit zu treen. Grundgesamtheit: Menge aller für die Fragestellung relevanten Objekte Stichprobe: Tatsächlich untersuchte Teilmenge der Grundgesamtheit Die Aussagen beziehen sich auf Merkmale der Grundgesamtheit. Merkmal: Die interessierende Gröÿe oder Variable Merkmalsausprägung: Der konkret gemessene Wert an einem Objekt der Stichprobe (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 35 / für 104 Med

Das Model: Theoretische Ebene Statistische Analysen beruhen auf Modellannahmen. Ziel: Formalisierung eines reellen Sachverhaltes Stetige Variablen mit Erwartungswert und Varianz Diskrete Variablen mit Gruppenzugehörigkeiten Parametrischer Ansatz: Verteilungsannahmen, wie eine Zufallsvariable X ist normalverteilt mit Erwartungswert µ und Varianz σ 2 Non-Parametrischer Ansatz: Ohne Verteilungsannahmen (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 36 / für 104 Med

Die beobachteten Daten: Die empirische Ebene Erwartungswert und Varianz einer Grundgesamtheit können nicht in der Realität beobachtet werden, sondern müssen aus der Stichprobe geschätzt werden. Beobachtet werden n Realisierungen x 1,..., x n einer Zufallsstichprobe X. Notation: Erwartungswert µ Schätzer für den Erwartungswert ˆµ = 1 n n i=1 x i Gesetz der groÿen Zahlen: Je mehr Realisierungen einer Zufallszahl beobachtet werden, desto besser approximiert der Mittelwert den Erwartungswert Realisierungen einer Zufallsvariable folgen nicht exakt einer bestimmten Verteilung. Nur bei groÿer Stichprobenzahl nährt sich die empirische Dichte der theoretischen an. (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 37 / für 104 Med

Normalverteilung N(µ, σ) Die Normal- oder Gauÿ-Verteilung ist formalisiert durch Erwartungswert µ und Varianz σ 2 : ( 1 f (x µ, σ) = 2π exp 1 ( ) ) x µ 2 σ 2 σ Diese Funktion ist in R implementiert: dnorm(x, mean=0, sd=1) (Vorsicht: mean steht hier für den Erwartungswert) Erzeugen von n Realisierungen x 1,..., x n : rnorm(n, mean=0, sd=1) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 38 / für 104 Med

Beispiel: Normalverteilung Darstellung: Gesetz der groÿen Zahlen x10<-matrix(rnorm(100),nrow=10,ncol=10) x1000<-matrix(rnorm(10000),nrow=10,ncol=1000) apply(x10,margin=1, mean) -0.392-0.309 0.195-0.727-0.150 0.327 0.142 0.020 0.069 0.594 apply(x1000,margin=1, mean) -0.018-0.011 0.007-0.011-0.021-0.013 0.036 0.026 0.074 0.010 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 39 / für 104 Med

Beispiel: Normalverteilung Anpassung der empirischen an die theoretische Verteilung: Histogram of data10 Histogram of data1000 Density 0.0 0.1 0.2 0.3 0.4 Density 0.0 0.1 0.2 0.3 0.4 2 1 0 1 2 3 data10 3 2 1 0 1 2 3 data1000 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 40 / für 104 Med

V.I Diskrete Daten (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 41 / für 104 Med

Eine Zufallsvariable heiÿt diskret, wenn sie endlich viele Werte x 1,..., x k annehmen kann. Die Wahrscheinlichkeitsfunktion f (x) einer diskreten Zufallsvariable X ist für x R deniert durch die Wahrscheinlichkeiten p i : { P(X = xi ) = p f (x) = i falls x = x i {x 1,..., x k } 0 sonst Die Verteilungsfunktion F (x) einer diskreten Zufallsvariable ist gegeben durch die Summe: F (y) = P(X y) = f (x i ) i:x i y (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 42 / für 104 Med

Eigenschaften Für die Wahrscheinlichkeitsfunktion f (x) gilt: 0 f (x) 1 p i = 1 i 1 Für die Verteilungsfunktion F (x) gilt: { 1 x max(x) F (x) = 0 x min(x) F(x) ist monoton steigend mit Wertebereich 0 bis 1. (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 43 / für 104 Med

Bernoulli-Experiment Binäre Zufallsvariable X: Tritt ein Ereignis A ein? { 1 falls A eintritt X = 0 falls A nicht eintritt Das Ereignis A tritt mit einer bestimmten Wahrscheinlichkeit 0 < π < 1 ein P(X = 1) = π P(X = 0) = 1 π (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 44 / für 104 Med

Binomialverteilung Die Binomialverteilung entspricht dem n-maligen Durchführen eines Bernoulli-Experimentes mit Wahrscheinlichkeit π ( ) n π f (x) = x (1 π) n x falls x = 0, 1,..., n x 0 sonst Beispiel Ein Schütze schieÿt n = 10 mal auf eine Torwand. Wie groÿ ist die Wahrscheinlichkeit, dass er genau fünfmal trit, wenn er eine Treerwahrscheinlichkeit π von 25 % hat? P(X = 5) = ( ) 10 0.25 5 5 (1 0.25) 10 5 = 0.058 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 45 / für 104 Med

Diskrete Gleichverteilung Die diskrete Gleichverteilung charakterisiert die Situation, dass x 1,..., x k -verschiedene Werte mit gleicher Wahrscheinlichkeit angenommen werden. { 1 f (x) = k falls x i mit i = 1,..., k 0 sonst Beispiel Würfeln, jede Zahl hat die gleiche Wahrscheinlichkeit 1 6 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 46 / für 104 Med

V.II Stetige Daten (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 47 / für 104 Med

Eine Zufallsvariable heiÿt stetig, wenn sie unendlich viele Werte x 1,..., x k,... annehmen kann, wie beispielsweise metrische Variablen. Die Dichte f (x) einer stetigen Zufallsvariable X ist für ein Intervall [a, b] deniert als: P(a X b) = b a f (x) x Die Verteilungsfunktion F (y) einer stetigen Zufallsvariable ist gegeben durch das Integral: F (y) = P(X y) = y f (x) x (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 48 / für 104 Med

Eigenschaften Für die Dichte f (x) gilt: + P(X = a) = f (x) x = 1 a a f (x) x = 0 Für die Verteilungsfunktion F (x) gilt: { 1 für x max(x) F (x) = 0 für x min(x) F (x) = F (X ) x = f (x) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 49 / für 104 Med

Normalverteilung N(µ, σ) Eine der wichtigsten Verteilungen ist die Normal- oder Gauÿ-Verteilung mit Erwartungswert µ und Varianz σ 2 : ( 1 f (x µ, σ) = 2π exp 1 ( ) ) x µ 2 σ 2 σ Symmetrisch um µ Nur abhängig von µ und σ Beispiele: Klausurnoten, das (logarithmierte) Einkommen, Messfehler, Gröÿe und Gewicht (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 50 / für 104 Med

Stetige Gleichverteilung U(a, b) Gegeben: ein Intervall, deniert durch reelle Zahlen a und b mit a < b: { 1 f (x) = b a für x [a, b] 0 sonst Die stetige Gleichverteilung spielt eine wichtige Rolle bei statistischen Tests. Hat man x 1,..., x n Realisierungen einer Variablen X mit Verteilungsfunktion F, so gilt: F (x 1 ),..., F (x n ) U(0, 1) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 51 / für 104 Med

Aufgabenkomplex 2 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 52 / für 104 Med

V.III Umgang mit Zufallszahlen (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 53 / für 104 Med

R ermöglicht den Umgang mit Zufallszahlen. Beispiel: (Standard)Normalverteilung 1 Ziehen von n Zufallszahlen: rnorm(n, mean=0, sd=1) 2 Dichte im Wert x: dnorm(x, mean=0, sd=1) Beispiel: dnorm(c(-1,0,1)) 0.24197 0.39894 0.24197 3 Verteilungsfunktion im Wert x: pnorm(x, mean=0, sd=1) Beispiel: pnorm(c(-1,0,1)) 0.15866 0.50000 0.84134 4 Quantil für Wahrscheinlichkeit p: qnorm(p, mean=0, sd=1) Beispiel: qnorm(c(0.25,0.5,0.75)) -0.67449 0.00000 0.67449 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 54 / für 104 Med

Beispiel: (Standard)Normalverteilung 1 Dichte im Wert x: dnorm(c(-1,0,1)) 0.24197 0.39894 0.24197 2 Verteilungsfunktion im Wert x: pnorm(c(-1,0,1)) 0.15866 0.50000 0.84134 Dichte Verteilungsfunktion fx 0.0 0.1 0.2 0.3 0.4 Fx 0.0 0.2 0.4 0.6 0.8 1.0 4 2 0 2 4 x 4 2 0 2 4 x (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 55 / für 104 Med

R-Befehle für weitere Verteilungen rnorm(n, mean=0, sd=1) Normalverteilung mit Mittelwert mean und Standardabweichung sd rexp(n, rate=1) Exponentialverteilung mit Rate rate rpois(n, lambda) Poissonverteilung mit Rate lambda rcauchy(n, location=0, scale=1) Cauchyverteilung mit Lokations- und Skalenparameter rt(n, df)(studen)t-verteilung mit Freiheitsgraden df rbinom(n, size, prob) Binomialverteilung vom Umfang size und Wahrscheinlichkeit prob rgeom(n, prob) Geometrische Verteilung mit Wahrscheinlichkeit prob rhyper(nn, m, n, k) Hypergeometrische Verteilung runif(n, min=0, max=1) Stetige Gleichverteilung im Intervall [min, max] (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 56 / für 104 Med

Darstellung: Histogramme und Kerndichteschätzer 1 Histogramme: Darstellung von stetigen und diskreten Verteilungen hist(x, breaks = AnzahlBins, freq = NULL ) x: Daten breaks = AnzahlBins: Steuerung der Teilintervalle freq=true: absolute Häugkeiten freq=false: relative Häugkeiten (empirische Dichte) 2 Kerndichteschätzer: Darstellung von stetigen Verteilungen plot(density(x, kernel=gaussian, bw)) density(x): Kerndichteschätzung der Daten kernel: Option für spezielle Kerntypen bw: Bandbreite (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 57 / für 104 Med

Darstellung: Kerndichteschätzer Kerndichteschätzer sind aus dem Histogramm abgeleitete Verfahren zur Schätzung von stetigen Dichten Hat man gegebene Daten x 1,..., x n und eine konstante Bandbreite h R so ist der Kerndichteschätzer gegeben durch: ˆf (x) = 1 n n i=1 1 h K ( ) x xi Typische Kerne sind: Bisquare Kern: K(u) = 15(1 16 u2 ) 2 für u [ 1, 1] und 0 sonst ) ( 12 u2 Gauÿ Kern: K(u) = 1 2π exp h für u R (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 58 / für 104 Med

Beispiel: Simulation aus der Normalverteilung data10<-rnorm(10) data1000<-rnorm(1000) hist(data10, freq=false) hist(data1000, freq=false) lines(density(data10), col=2) lines(density(data1000), col=2) Histogram of data10 Histogram of data1000 Density 0.0 0.1 0.2 0.3 0.4 Density 0.0 0.1 0.2 0.3 0.4 2 1 0 1 2 3 data10 3 2 1 0 1 2 3 data1000 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 59 / für 104 Med

Beispiel: Wie plottet man die Normalverteilung? x<-seq(from=-4, to=4, by=0.1) Dichte fx<-dnorm(x) plot(x,fx, type=l) Verteilungsfunktion Fx<-pnorm(x) plot(x,fx, type=l) Dichte Verteilungsfunktion fx 0.0 0.1 0.2 0.3 0.4 Fx 0.0 0.2 0.4 0.6 0.8 1.0 4 2 0 2 4 x 4 2 0 2 4 x (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 60 / für 104 Med

Darstellung: Q-Q-Plot Quantil-Quantil-Plots tragen die Quantile (empirisch oder theoretisch) zweier Verteilungen gegeneinander ab. Somit können Verteilungen miteinander verglichen werden. qqplot(x,y): Plottet die emp. Quantile von x gegen die emp. Quantile von y qqnorm(y): Plottet die emp. Quantile von y gegen die theoretischen Quantile einer Standard-Normalverteilung qqline(y): Fügt dem Quantilplot eine Gerade hinzu die durch das erste und dritte Quartil geht Bsp: Vergleich von Normal- und t-verteilung data <- rt(400, df = 2) qqnorm(data, main = QQ-Plot, xlab= Normalverteilung, ylab = t-verteilung) qqline(data, col = green) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 61 / für 104 Med

Darstellung: Q-Q-Plot 3 2 1 0 1 2 3 15 10 5 0 5 10 QQ Plot Normalverteilung t Verteilung (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Med Grundlagen II 06. Januar 2015 62 / 104

VI. Statistische Tests (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 63 / für 104 Med

VI.I Einführungsbeispiel (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 64 / für 104 Med

VI.I Einführungsbeispiel (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 65 / für 104 Med

Fragestellung Einführungsbeispiel: Trinkt die Jugend in Europa mehr Alkohol als im Rest der Welt? Untersucht wird die Variable Alkohol im oecd-datensatz: Der Anteil an 13-15 jährigen Jugendlichen, die mindestens zweimal betrunken waren. (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 66 / für 104 Med

Erster Schritt: Deskriptive Analyse 1 Graphisch mit Boxplot: boxplot(alkohol Geo) Boxplot für Europa und Nicht Europa 10 15 20 25 Nicht Europa Europa (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 67 / für 104 Med

Zweiter Schritt: Kennzahlen 2 Kennzahlen: Mittelwert: mu<-tapply(alkohol, Geo, FUN=mean, na.rm=true) Nicht-Europa Europa 13.700 15.443 Standardabweichung: sigma<-tapply(alkohol, Geo, FUN=sd, na.rm=true) Nicht-Europa Europa 4.518 4.341 Es ist zu erkennen, dass in Europa im Mittel ein höherer Anteil an Jugendlichen schon mindestens zweimal betrunken war als in nicht-europäischen Staaten. Doch dies könnte auch ein Zufall sein! Denn die Beobachtungen beruhen auf Stichproben, sie sind Realisierungen einer Zufallsvariable. (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 68 / für 104 Med

Eigentliches Ziel: Überprüfung von Annahmen über das Verhalten des interessierenden Merkmales in der Grundgesamtheit mittels Stichproben. Annahme: Jugendliche in Europa trinken mehr Alkohol als im Rest der Welt Merkmal: Alkoholkonsum der Jugend Grundgesamtheit: Jugendliche in Europa und im Rest der Welt Stichprobe: Die oecd-daten Für solche Fragestellungen mit gleichzeitiger Kontrolle der Fehlerwahrscheinlichkeit sind statistische Tests geeignet! (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 69 / für 104 Med

Statistisches Testen I 1 Aufstellen von zwei komplementären Hypothesen: Testhypothese (H 0 ): Der Anteil in Europa ist kleiner dem im Rest der Welt µ E µ NE Alternativhypothese (H 1 ): Der Anteil in Europa gröÿer als der im Rest der Welt µ E > µ NE 2 Fehlerwahrscheinlichkeit festlegen: H 0 soll mit einer W'keit von weniger als 5% abgelehnt werden, wenn H 0 wahr ist. Also: Wenn der Anteil in Wahrheit kleiner oder gleich ist, soll der Test nur mit einer Wahrscheilichkeit von weniger als 5% zu dem (falschen) Ergebnis kommen, dass der Anteil gröÿer ist. (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 70 / für 104 Med

Statistisches Testen II 3 Beobachtete Daten: 2 Gruppen ˆµ ˆσ n Nicht-Europa 13.700 4.518 3 Europa 15.443 4.341 21 4 (Weitere Annahmen, hier: Normalverteilung, Varianzgleichheit) 5 Berechnen der Prüfgröÿe T, einer Kennzahl, die zeigt, wie stark die Gruppenmittel voneinander abweichen: Mittelwertsdierenz der beiden Gruppen Standardisieren mit der entsprechenden Standardabweichung T = ( µ ˆ E µ NE ˆ )/ ( 1 + 1 ) (n E 1)ˆσ E 2 + (n NE 1)ˆσ NE 2 n E n NE n E + n NE 2 (Hypothetische Verteilung der Prüfgröÿe festlegen, hier t-verteilung mit 3 + 21-2 = 22 Freiheitsgraden) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 71 / für 104 Med

Statistisches Testen III 6 Berechnung der Prüfgröÿe T in R: Mittelwertsdierenz der beiden Gruppen m.diff<-mu[2]-mu[1] Standardisieren mit der entsprechenden Standardabweichung diff.std2 <- sqrt((1/21+1/3)* (20*sigma[2]ˆ2+2*sigma[1]ˆ2)/(21+3-2)) Prüfgröÿe: 1-pt(pg.T, df=22) 0.648 7 Wie wahrscheinlich ist es (unter der Nullhypothese), eine Prüfgröÿe T zu beobachten, die gröÿer oder gleich 0.648 ist? 1-pt(pg.T, df=22) 0.262 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 72 / für 104 Med

Statistisches Testen IV y 0.0 0.1 0.2 0.3 0.4 0.738 pg.t 0.262 4 2 0 2 4 x Mit hoher Wahrscheinlichkeit (26.2%) kann eine solche Prüfgröÿe pg.t beobachtet werden, wenn der Mittelwert in Europa und kleiner als der in Nicht-Europa ist. (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 73 / für 104 Med

Statistisches Testen V 8 Entscheidung: Aus diesen Daten kann nicht geschlossen werden, dass in Europa Jugendliche mehr Alkohol trinken als im Rest der Welt. 9 Grund: Zu geringe Fallzahl! Mit ne = nne = 101 ergibt sich Standardisieren mit der entsprechenden Standardabweichung diff.std <- sqrt((1/101+1/101)* (100*sigma[2] 2+100*sigma[1] 2)/(101+101-2)) Prüfgröÿe: pg.t2 <-m.di/di.std2 2.796 Vergleich mit der t-verteilung: 1-pt(pg.T2, df=200) 0.003 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 74 / für 104 Med

Statistisches Testen VI y 0.0 0.1 0.2 0.3 0.4 0.997 pg.t2 0.003 4 2 0 2 4 x Mit nur sehr geringer Wahrscheinlichkeit (0.003%) kann eine solche Prüfgröÿe pg.t 2 beobachtet werden, wenn wenn der Mittelwert in Europa und kleiner als der in Nicht-Europa ist. (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 75 / für 104 Med

Fünf Schritte zum Testergebnis I. Hypothesen aufstellen II. Betrachtung der Daten III. Aufstellen der Prüfgröÿe IV. Durchführen des Tests V. Testentscheidung (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 76 / für 104 Med

I. Hypothesen aufstellen Was soll verglichen werden? Mittelwerte von unabhängigen Gruppen Mittelwert gegen einen festen Wert Gepaarte Messungen Einseitige oder zweiseitige Fragestellung? Einseitige Fragestellung: H 0 : µ 1 µ 2 gegen H 1 : µ 1 > µ 2 Zweiseitige Fragestellung: H 0 : µ 1 = µ 2 gegen H 1 : µ 1 µ 2 Aufstellen der eigentlich interessierenden Alternativhypothese H 1 und der Nullhypothese H 0 Signikanzniveau α festlegen (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 77 / für 104 Med

Fehler bei statistischen Tests Entscheidung H 0 Entscheidung H 1 H 0 wahr richtig Fehler erster Art α H 1 wahr Fehler zweiter Art (β) richtig Fehler erster Art (α-fehler): Obwohl H 0 wahr ist, entscheidet man sich für H 1 (Falsch positives Testergebnis) Fehler zweiter Art (β-fehler): Obwohl H 1 wahr ist, entscheidet man sich für H 0 (Falsch negatives Testergebnis) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 78 / für 104 Med

II. Betrachtung der Daten Können Verteilungsannahmen getroen werden? Ja: Parametrische Tests Nein: Nicht-Parametrische Tests Weitere Annahmen wie z.b. Varianzgleichheit in den Gruppen Aus Schritt I. und II. folgt die Auswahl eines geeigneten Tests und alle weiteren Schritte! (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 79 / für 104 Med

III. Aufstellen der Prüfgröÿe Aus den Hypothesen ergibt sich die Form der Prüfgröÿe, z.b. die Mittelwertsdierenz Standardisieren der Prüfgröÿe mit: unter H 0 gültigen Erwartungswert unter H 0 gültigen Standardabweichung Festlegen der Verteilung, die unter H 0 gültig ist (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 80 / für 104 Med

IV./V. Durchführen des Tests und Testentscheidung Hier sind zwei Werte entscheidend: Kritischer Wert κ: Welchen Wert darf die Prüfgröÿe bei gegebenem Signikanzniveau α maximal/minimal annehmen, wenn H 0 tatsächlich gültig ist p-wert: Wahrscheinlichkeit, die vorliegenden Daten zu beobachten, wenn H 0 gültig ist Entscheidung H 0 ablehnen, falls: die Prüfgröÿe gröÿer als der kritische Wert ist (bzw. kleiner als der kritische Wert bei einigen nonparametrischen Tests) falls der p-wert kleiner dem vorher festgelegten Signikanzniveau α ist (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 81 / für 104 Med

t-test - gegen festen Wert (Einstichproben-t-Test) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 82 / für 104 Med

1. Ziel, Hypothesen und Voraussetzungen Vergleich das emp. Populationsmittel x einer Population mit einem hypothetischen Mittelwert µ 0 Voraussetzung: Normalverteilung der Stichprobe Varianz wird als unbekannt angenommen und aus den Daten geschätzt Varianten für die Hypothesen: 1 Einseitige Fragestellung 1: H 0 : x µ 0 gegen H 1 : x > µ 0 2 Einseitige Fragestellung 2: H 0 : x µ 0 gegen H 1 : x < µ 0 3 Zweiseitige Fragestellung: H 0 : x = µ 0 gegen H 1 : x µ 0 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 83 / für 104 Med

2. Teststatistik Teststatistik T = x µ 0 s n Schätzung der Standardabweichung σ durch: [ n i=1 s = (x x i) 2 n 1 ] 0.5 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 84 / für 104 Med

3. Kritische Bereiche 1 Einseitige Fragestellung 1: T > t 1 α (df = n 1) 2 Einseitige Fragestellung 2: T < t α (df = n 1) 3 Zweiseitige Fragestellung: T > t 1 α/2 (df = n 1) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 85 / für 104 Med

t-test für unabhängige Stichproben (Zweistichproben-t-Test) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 86 / für 104 Med

1. Ziel, Hypothesen und Voraussetzungen Vergleich das emp. Populationsmittel x 1 und x 2 miteinander Voraussetzung: Normalverteilung der Stichproben Varianz der Populationen unbekannt 2 Varianten: Varianzen der Populationen gleich oder ungleich Varianten für die Hypothesen: 1 Einseitige Fragestellung 1: H 0 : x 1 x 2 gegen H 1 : x 1 > x 2 2 Einseitige Fragestellung 2: H 0 : x 1 x 2 gegen H 1 : x 1 < x 2 3 Zweiseitige Fragestellung: H 0 : x 1 = x 2 gegen H 1 : x 1 x 2 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 87 / für 104 Med

2. Teststatistik Teststatistik T = x 1 x 2 s n Schätzung der Standardabweichung σ durch: s = [( 1 + 1 ) (n ] 1 1)s 1 + (n 2 1)s 0.5 2 n1 n2 n 1 + n 2 1 wobei s 1 und s 2 die Standardvarianzschätzer für die Populationen sind (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 88 / für 104 Med

3. Kritische Bereiche 1 Einseitige Fragestellung 1: T > t 1 α (n 1 + n 2 2) 2 Einseitige Fragestellung 2: T < t α (n 1 + n 2 2) 3 Zweiseitige Fragestellung: T > t 1 α/2 (n 1 + n 2 2) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 89 / für 104 Med

t-test für Paardierenzen (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 90 / für 104 Med

1. Ziel, Hypothesen und Voraussetzungen Teste die Dierenz d = n i=1 d i = n i=1 x 1i x 2i miteinander gepaarter Stichproben (x 1i, x 2i ) Typisches Bsp.: Messen eines Blutwertes vor und nach einer med. Behandlung Voraussetzung: Normalverteilung der Stichproben Varianten für die Hypothesen: 1 Einseitige Fragestellung 1: H 0 : d 0 gegen H 1 : d > 0 2 Einseitige Fragestellung 2: H 0 : d 0 gegen H 1 : d < 0 3 Zweiseitige Fragestellung: H 0 : d = 0 gegen H 1 : d 0 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 91 / für 104 Med

2. Teststatistik Teststatistik T = d s n Schätzung der Standardabweichung σ durch: [ n i=1 s = (d d i) 2 n 1 ] 0.5 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 92 / für 104 Med

3. Kritische Bereiche 1 Einseitige Fragestellung 1: T > t 1 α (df = n 1) 2 Einseitige Fragestellung 2: T < t α (df = n 1) 3 Zweiseitige Fragestellung: T > t 1 α/2 (df = n 1) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 93 / für 104 Med

Der Wilcoxon-Rangsummen-Test (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 94 / für 104 Med

1. Ziel, Hypothesen und Voraussetzungen Teste nicht-parametrisch, ob zwei Population den gleichen Median besitzen Zu verwenden, wenn Vor. für den t-test nicht erfüllt sind Voraussetzung: Normalverteilung der Stichproben Benötigt KEINE konkrete Verteilungsannahme Alternative für den t-test Varianten für die Hypothesen: 1 Einseitige Fragestellung 1: H 0 : x 1,med x 2,med gegen H 1 : x 1,med > x 2,med 2 Einseitige Fragestellung 2: H 0 : x 1,med x 2,med gegen H 1 : x 1,med < x 2,med 3 Zweiseitige Fragestellung: H 0 : x 1,med = x 2,med gegen H 1 : x 1,med x 2,med (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 95 / für 104 Med

2. Teststatistik Bilde für sämtlichen Beobachtungen x 11,... x 1n1, x 21,... x 2n2 Ränge rg(x 11 ),... rg(x 1n1 ), rg(x 21 ),... rg(x 2n2 ) Teststatistik: n 1 R = rg(x 1i ) i=1 Wertebereich: n 1(n 1 +1) < R < (n 1+n 2 )(n 1 +n 2 +1) n 1(n 1 +) 2 2 2 Nullverteilung von R liegt tabelliert vor Approximation durch die Normalverteilung ab einer Stichprobengröÿe von ca. 20 möglich (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 96 / für 104 Med

3. Kritische Bereiche 1 Einseitige Fragestellung 1: R > w 1 α (n 1, n 2 ) 2 Einseitige Fragestellung 2: R < w α (n 1, n 2 ) 3 Zweiseitige Fragestellung: R > w 1 α/2 (n 1, n 2 ) oder R < w α/2 (n 1, n 2 ) (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 97 / für 104 Med

t-test und Wilcoxon-Rangsummen - Test in R - Praktische Durchführung (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 98 / für 104 Med

t-test in R t.test(x, y, alternative, paired, var.equal) Erklärung der Parameter: x,y = NULL: Die Daten, beim t-test für eine Population genügt es, x anzugeben alternative = c(two.sided, less, greater): Varianten für die Alternativhypothese var.equal = TRUE: Gibt an, ob Varianzgleichheit bei den Populationen vorliegt paired: Gibt an, ob x und y als gepaarte Stichprobe anzusehen sind (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd Januar Klaus) 2015 ( Institut 99 / für 104 Med

Wilcoxon-Rangsummen - Test in R wilcox.test(x, y, alternative, paired, exact) Erklärung der Parameter: Im wesentlichen analog zum t-test exact: Soll die Teststatistik exakt bestimmt werden, oder per Approximation an die Normalverteilung? (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd JanuarKlaus) 2015 ( Institut 100 / für 104 Med

Beispiel: Nettokaltmieten pro m 2 für 1- (X) und 2-Raum (Y) Wohnungen Gibt es einen Unterschied zwischen beiden Gruppen? Wir untersuchen diese Frage per Wilcoxon- und t-test 1 2 3 4 5 X 8.70 11.28 13.24 8.37 12.16 Y 3.36 18.35 5.19 8.35 13.10 6 7 8 9 10 X 11.04 10.47 11.16 4.28 19.54 Y 15.65 4.29 11.36 9.09 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd JanuarKlaus) 2015 ( Institut 101 / für 104 Med

t-test miete <- read.csv(miete.csv) attach(miete) t.test(x,y, var.equal = FALSE, paired = FALSE) R-Ausgabe: Welch Two Sample t-test data: X and Y t = 0.5471, df = 14.788, p-value = 0.5925 alternative hypothesis: true difference in means is not equal to 0 p > 0.05, kein signikanter Unterschied (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd JanuarKlaus) 2015 ( Institut 102 / für 104 Med

Wilcoxon-Rangsummen-Test wilcox.test(x,y, exact = TRUE) R-Ausgabe: Wilcoxon rank sum test data: X and Y W = 51, p-value = 0.6607 alternative hypothesis: true location shift is not equal to 0 p > 0.05, kein signikanter Unterschied (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd JanuarKlaus) 2015 ( Institut 103 / für 104 Med

Aufgabenkomplex 3 (basierend auf Grundlagen Vorarbeiten II von Verena Zuber und 06. Bernd JanuarKlaus) 2015 ( Institut 104 / für 104 Med