Metrische Daten. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/28



Ähnliche Dokumente
Einfache statistische Testverfahren

Kategoriale und metrische Daten

Kategoriale Daten. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/17

Signifikanztests zur Prüfung von Unterschieden in der zentralen Tendenz -Teil 1-

5. Lektion: Einfache Signifikanztests

Abhängigkeit zweier Merkmale

Sommersemester Marktforschung

Parametrische vs. Non-Parametrische Testverfahren

STATISTISCHE MUSTERANALYSE - DARSTELLUNGSVORSCHLAG

Statistische Methoden in den Umweltwissenschaften

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II

Mittelwertvergleiche, Teil I: Zwei Gruppen

11. Nichtparametrische Tests

Einfaktorielle Varianzanalyse

1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests

Klausur zur Vorlesung

Test auf einen Anteilswert (Binomialtest) Vergleich zweier Mittelwerte (t-test)

Statistik. Jan Müller

Ein- und Zweistichprobentests

Einführung in die Korrelationsrechnung

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst.

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

Mathematische und statistische Methoden I

Online Statistik-Coaching

Klassifikation von Signifikanztests

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Statistik II. Weitere Statistische Tests. Statistik II

6.4 Der Kruskal-Wallis Test

Vergleich von Parametern zweier Stichproben

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

3.Wiederholung: Toleranzbereiche Für EX Geg:

Herzlich willkommen zur Vorlesung Statistik

Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

SPSS III Mittelwerte vergleichen

Überblick über die Verfahren für Ordinaldaten

Auswertung und Lösung

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Forschungsstatistik I

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Herzlich willkommen zum Thema SPSS

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Blockpraktikum zur Statistik mit R

6. Übung Statistische Tests Teil 1 (t-tests)

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Christoph Sawade/Niels Landwehr Tobias Scheffer

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II. IV. Hypothesentests. Martin Huber

Überblick über die Tests

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005

Übersicht über verschiedene Signifikanztests und ihre Voraussetzungen

VS PLUS

Tutorial: Rangkorrelation

6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität

Statistische Tests zu ausgewählten Problemen

Analytische Statistik II

FH- Management & IT. Constantin von Craushaar FH-Management & IT Statistik Angewandte Statistik (Übungen)

Arbeitsbuch zur deskriptiven und induktiven Statistik

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Biometrische Planung von Versuchsvorhaben

Computergestützte Methoden. Master of Science Prof. Dr. G. H. Franke WS 07/08

Statistik-Klausur A WS 2009/10

Biometrieübung 7 t-test (gepaarte Daten) & Wilcoxon-Test

Kapitel 2 Wahrscheinlichkeitsrechnung

Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Mittelwertvergleiche, Teil II: Varianzanalyse

7. Zusammenfassung. Zusammenfassung

Biomathematik für Mediziner, Klausur WS 2000/2001 Seite 1

1.6 Der Vorzeichentest

Kapitel 5 FRAGESTELLUNG 1. Öffne die Datei alctobac.sav.

Kenngrößen von Zufallsvariablen

Liegen 2 Beobachtungen an n Objekten vor, spricht man von einer gebundenen Stichprobe Typische Struktur bei "stimulus-response" Versuchen

Angewandte Statistik 3. Semester

Nonparametrische Verfahren

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

Einführung in die Statistik

Statistische Tests (Signifikanztests)

Einführung in SPSS. Sitzung 4: Bivariate Zusammenhänge. Knut Wenzig. 27. Januar 2005

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Testen von Hypothesen:

Einführung in die Induktive Statistik: Varianzanalyse

Biomathematik für Mediziner, Klausur SS 2001 Seite 1

Prüfen von Unterschiedshypothesen für ordinale Variablen: Mann-Whitney Test und Ko

Statistisches Testen

Aufgaben zu Kapitel 8

Transkript:

Metrische Daten Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/28

Metrische Daten Übersicht Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die folgenden Szenarien: Eine metrische Variable Einstichproben t-test Wilcoxon-Vorzeichen-Rangtest für eine Stichprobe Zwei metrische Variablen Zusammenhangshypothese Korrelation nach Pearson Korrelation nach Spearman Unterschiedshypothese t-test für abhängige Stichproben Wilcoxon-Vorzeichen-Rangtest für zwei Stichproben 2/28

Eine metrische Variable Normalverteilte Daten Voraussetzungen Gegeben ist eine Stichprobe X 1,...,X n von n unabhängigen Beobachtungen einer N(µ,σ 2 )-verteilten Zufallsvariable mit unbekanntem µ und σ 2. Die zu untersuchende Nullhypothese lautet H 0 : µ = µ 0 mit einem hypothetischen Wert µ 0. Der Name des Tests lautet Einstichproben t-test. Beispiel: Eine Herstellerfirma umweltfreundlicher Engergiesparlampen behauptet, dass die Haltbarkeit ihrer Lampen 10.000 Stunden beträgt. In einem Langzeitversuch werden von n = 25 Energiesparlampen die Stundenzahlen gemessen, wie lange es dauert, bis die Lampe durchbrennt. 3/28

Eine metrische Variable Normalverteilte Daten Grundlegender Gedanke: Berechnet man den Mittelwert X n der Stundenzahl der 25 Energiesparlampen, so sollte sich dieser bei Gültigkeit der H 0 nicht stark von µ 0 unterscheiden. Je großer also die Differenz von X n und µ 0 ist, desto eher wird man H 0 anzweifeln. Wird die Differenz zu groß, muss die Nullhypothese verworfen werden. Um eine Aussage über die Gültigkeit von H 0 machen zu können schaut man auf die Teststatistik T := n X n µ 0 S n auch t-statistik genannt. Diese ist t-verteilt mit (n 1) Freiheitsgraden. 4/28

Eine metrische Variable Normalverteilte Daten Der Einstichproben t-test in R # Einlesen der Daten lampen <- read.csv2("c:/r/rohdaten/lampen.csv") # Deskriptive Übersicht summary(lampen) # Boxplot der Daten boxplot(lampen) # Test auf Normalverteilung shapiro.test(lampen$brenndauer) # Einstichproben t-test zum Mittelwert 10000 t.test(lampen$brenndauer, mu = 10000) 5/28

Eine metrische Variable Nicht normalverteilte Daten Voraussetzungen Gegeben ist eine unabhängige und identisch verteilte Stichprobe X 1,...,X n mit dem unbekanntem Median m. Die zu untersuchende Nullhypothese lautet H 0 : m = m 0 mit einem hypothetischen Wert m 0. Der Test heißt Wilcoxon-Vorzeichen-Rangtest. Der Nichtparametrische Einstichprobentest ist ein Spezialfall des Wilcoxon-Vorzeichen-Rangtests für zwei Stichproben man stelle sich einfach eine zweite Stichprobe vor, die immer den Wert m 0 aufweist. Details zum nichtparametrischen Einstichprobentest findet man weiter unten auf Folie 24. 6/28

Eine metrische Variable Nicht normalverteilte Daten Der Wilcoxon-Vorzeichen-Rangtest in R # Falls noch nicht durchgeführt: Einlesen der Daten lampen <- read.csv2("c:/r/rohdaten/lampen.csv") # Wilcoxon-Vorzeichen-Rangtest zum Median 10000 wilcox.test(lampen$brenndauer, mu = 10000) 7/28

Zwei metrische Variablen: Zusammenhangshypothese Grafische Darstellung Voraussetzungen Für zwei Zufallsvariablen X und Y vom stetigen Typ, d.h. entweder intervall- oder sogar verhältnisskalierte Variablen, liegt eine unabhängige Stichprobe (X 1,Y 1 ),...,(X n,y n ) vom Umfang n vor. Die Abhängigkeitsstruktur von X und Y kann man mit einem Scatterplot grafisch untersuchen. Hierbei werden die beiden Variablen X und Y gegeneinander in einem Diagramm eingetragen. Je nach dem wie stark der Zusammenhang zwischen den beiden Variablen ist, kann man mit einem Scatterplot schon eine Struktur in den Daten erkennen (oder auch nicht). 8/28

Abhängigkeit bei stetigen Variablen Grafische Darstellung Beispiel: Scatterplot der Ehepaar-Daten, X = Alter des Mannes, Y = Alter der Frau. Alter der Frau 10 20 30 40 50 60 70 80 10 20 30 40 50 60 70 80 Alter des Manns 9/28

Zwei metrische Variablen: Zusammenhangshypothese Grafische Darstellung Erstellung eines Scatterplots in R # Falls noch nicht durchgeführt: Einlesen der Daten mannfrau <- read.csv2("c:/r/rohdaten/mannfrau.csv") # Scatterplot mit dem Alter plot(mannfrau$alter.mann, mannfrau$alter.frau, xlab = "Alter des Manns", ylab = "Alter der Frau", col = "red") Mit dem Argument pch kann zudem noch das Punktsymbol im Scatterplot geändert werden. 10/28

Zwei metrische Variablen: Zusammenhangshypothese Korrelation Eng mit dem Begriff der Abhängigkeit verwandt ist in der Statistik die Korrelation zwischen zwei Variablen. Mit der Korrelation lässt sich der Zusammenhang quantifizieren und somit auch statistisch genauer untersuchen. Die Korrelation zwischen zwei Zufallsvariablen X und Y ist wie folgt definiert: Corr(X,Y) = Cov(X,Y) σ X σ Y [ 1;1]. = Die Korrelation auf dem Intervall von [ 1; 1] standardisiert und kann deshalb viel leichter interpretiert werden. 11/28

Zwei metrische Variablen: Zusammenhangshypothese Korrelation Interpretation der Korrelation: Eine hohe positive (negative) Korrelation bedeutet, dass tendenziell ein überdurchschnittlich hoher Wert von X mit einem überdurchschnittlich hohen (niedrigen) Wert von Y einhergeht. Richtlinien für die Stärke der Korrelation Corr(X, Y) 0: vernachlässigbare lineare Abhängigkeit zwischen X und Y. 0.3 < Corr(X,Y) < 0.7: schwacher linearer Zusammenhang zwischen X und Y. Corr(X, Y) > 0.7: starker linearer Zusammenhang zwischen X und Y. 12/28

Zwei metrische Variablen: Zusammenhangshypothese Korrelation: Korrekte Interpretation Es gilt: Achtung: X und Y unabhängig X und Y unkorreliert. X und Y unkorreliert X und Y unabhängig. gilt im Allgemeinen aber NICHT! Merke: Die Korrelation misst nur die lineare Abhängigkeit. Es gibt auch andere Arten von Abhängigkeiten zwischen Variablen, z.b. quadratische oder logarithmische. Siehe hierzu auch Abschnitt 8.3.2 im Handbuch (Grenzen des Korrelationskoeffizienten). 13/28

Abhängigkeit bei stetigen Variablen Korrelationskoeffizient nach Pearson Um nun konkrete statistische Aussagen über die Stärke des Zusammenhangs zweier Variablen zu machen, berechnet man aus der vorliegenden Stichproben den empirischen Korrelationskoeffizienten nach Pearson: ρ := Ĉov(X,Y) ˆσ Xˆσ Y = (1 n n i=1 X iy i ) ( 1 n n i=1 X i)( 1 n n i=1 Y i) ( 1 n n i=1 (X i X) 2 )( 1 n n i=1 (Y i Ȳ)2 ) Interpretation von ρ Wenn der Wert der einen Variablen, z.b. von X um eine Einheit ansteigt, dann verändert sich der Wert der anderen Variablen, also Y, um ρ Einheiten. Je nach dem Vorzeichen geht der Wert von Y um ρ Einheiten nach oben oder nach unten. 14/28

Zwei metrische Variablen: Zusammenhangshypothese Korrelationskoeffizient nach Pearson Um festzustellen, ob der Zusammenhang zwischen zwei Variablen X und Y nicht nur zufällig sondern systematisch ist, kann man einen Signifikanztest durchführen. Voraussetzungen Gegeben sind zwei intervallskalierte Stichproben X 1,...,X n und Y 1,...,Y n, die durch die Bildung von Paaren (X i,y i ),i = 1,...,n erhoben wurden. Die beiden Stichproben sind außerdem normalverteilt, d.h. X 1,...,X n N(µ X,σ 2 ) und Y 1,...,Y n N(µ Y,σ 2 ). = Es reicht bei diesem Test also nicht aus, dass intervallskalierte Daten vorliegen, sondern die Daten müssen zusätzlich auch noch beide normalverteilt sein! 15/28

Zwei metrische Variablen: Zusammenhangshypothese Korrelationskoeffizient nach Pearson Die zugehörige Nullhypothese für diesen Test lautet H 0 : ρ = 0, d.h. es wird überprüft, ob überhaupt ein Zusammenhang zwischen X und Y vorliegt. Die zugehörige Teststatistik T := ρ 1 ρ 2 n 2 ist unter H 0 t-verteilt mit (n 2) Freiheitsgraden. Wird H 0 nun verworfen, kann man anhand des Vorzeichens von ρ erkennen, in welche Richtung der Zusammenhang geht. 16/28

Zwei metrische Variablen: Zusammenhangshypothese Korrelationskoeffizient nach Pearson Pearson scher Korrelationskoeffizient in R # Pearson scher Korrelationskoeffizient cor(mannfrau$alter.mann, mannfrau$alter.frau, use = "complete.obs") # Zugehöriger Signifikanztest cor.test(mannfrau$alter.mann, mannfrau$alter.frau) 17/28

Zwei metrische Variablen: Zusammenhangshypothese Korrelationskoeffizient nach Spearman Voraussetzungen Für zwei Zufallsvariablen X und Y mit ordinalskalierten Werten liegt eine unabhängige Stichprobe (X 1,Y 1 ),...,(X n,y n ) vom Umfang n vor. Für den Fall, dass eine der beiden Variablen vom stetigen Typ ist, wird diese wie eine ordinal skalierte Variable behandelt. Hier kann ebenfalls ein Korrelationskoeffizient berechnet werden, der sogenannte Spearman Rangkorrelationskoeffizient. Vorgehen zur Berechnung: Ordne die X 1,...,X n und die Y 1,...,Y n jeweils der Größe nach an. Jeder Messwert X i und Y i erhält einen Rang r X,i und r Y,i. Berechne den Spearman schen Rangkorrelationskoeffizienten: r S := 6 n i=1 (r X,i r Y,i ) 2 n(n 2 [ 1;1]. 1) 18/28

Zwei metrische Variablen: Zusammenhangshypothese Korrelationskoeffizient nach Spearman Wie beim Korrelationkoeffizienten nach Pearson wird auch hier die Nullhypothese H 0 : r S = 0 getestet, also ob die beiden Variablen signifikant zusammenhängen in welche Richtung auch immer. Die Teststatistik T := r S 1 r 2 S n 2 ist dann für n > 30 approximativ t-verteilt mit (n 2) Freiheitsgraden. Für n 30 berechnet R den p-wert basierend auf Tafelwerken. 19/28

Zwei metrische Variablen: Zusammenhangshypothese Korrelationskoeffizient nach Spearman Spearman scher Korrelationskoeffizient in R # Spearman scher Korrelationskoeffizient cor(mannfrau$alter.mann, mannfrau$alter.frau, use = "complete.obs", method = "spearman") # Zugehöriger Signifikanztest cor.test(mannfrau$alter.mann, mannfrau$alter.frau, method = "spearman") 20/28

Zwei metrische Variablen: Unterschiedshypothese Normalverteilte Daten Voraussetzungen Gegeben sind zwei Stichproben X 1,...,X n und Y 1,...,Y n, die durch die Bildung von Paaren (X i,y i ),i = 1,...,n erhoben wurden. Die paarweisen Differenzen D i = X i Y i,i = 1,...,n sind normalverteilt gemäß N(µ D,σ 2 ). Da es sich hier um zwei verbundene Stichproben handelt (man spricht auch von einem matched pairs-design) muss die Annahme der Unabhängigkeit der beiden Stichproben fallen gelassen werden. Beachte, dass es nicht ausreicht zu zeigen, dass die Originalvariablen normalverteilt sind, sondern die Differenz! Beispiel: Von n = 35 Patienten wird der Bluckdruck vor und nach der Einnahme eines blutdrucksenkenden Medikamentes gemessen. Es soll untersucht werden ob sich der Blutdruck gesenkt hat. 21/28

Zwei metrische Variablen: Unterschiedshypothese Normalverteilte Daten Die Nullhypothese lautet H 0 : µ X = µ Y bzw. µ X µ Y = 0, also beispielsweise dass das Medikament keinen Einfluss hat. Dies ist der Zweistichproben t-test für gepaarte (verbundene) Stichproben. Grundlegender Gedanke: Um zu untersuchen ob die Behandlung mit dem Medikament erfolgreich war wird von jedem Patient die Differenz D i := X i Y i,i = 1,...,n gebildet. Bei der Gültigkeit der H 0 sollten die Differenzen nahe bei 0 liegen. Auf die auftretenden Differenzen wird dann der Einstichproben t-test angewendet, mit dem Wert µ 0 = 0. 22/28

Zwei metrische Variablen: Unterschiedshypothese Normalverteilte Daten Der t-test für gepaarte Stichproben in R # Boxplot der Daten par(mfrow = c(1,2)) boxplot(mannfrau$größe.mann) boxplot(mannfrau$größe.frau) par(mfrow = c(1,1)) # Test auf Normalverteilung diff <- mannfrau$größe.mann - mannfrau$größe.frau shapiro.test(diff) # t-test t.test(diff) 23/28

Zwei metrische Variablen: Unterschiedshypothese Nicht normalverteilte Daten Voraussetzungen Gegeben sind n unabhängige Wiederholungen eines Zufallspaares (X i,y i ),i = 1,...,n. Die Nullhypothese zum Wilcoxon-Vorzeichen-Rangstest lautet: H 0 : X i Y i hat den Median 0. Vorgehen: Berechne die Differenzen D 1 = X 1 Y 1,...,D n = X n Y n. Berechne die Ränge R i der absoluten Beträge D 1,..., D n. Bilde die Summe R + der Rangwerte, die zu positiven D-Werten gehören und die Summe R der Rangwerte, die zu negativen D-Werten gehören. 24/28

Zwei metrische Variablen: Unterschiedshypothese Nicht normalverteilte Daten Grundlegender Gedanke: Unter der Nullhypothese, sollten die Differenzen D i der n Beobachtungen nicht allzu stark voneinander abweichen. Demzufolge sollten auch die Vorzeichen der D-Werte in etwa mit der gleichen Häufigkeit auftreten. Überwiegt bei den D-Werten aber ein Vorzeichen zu stark, dann wird je nach dem entweder R + oder R zu groß, woraufhin der Test dann verwirft. Die Teststatistik Z := min{r +,R } ist unter H 0 für eine Stichprobengröße n > 25 annähernd N ( n(n+1) 4, n(n+1)(n+2) ) 24 -verteilt. 25/28

Zwei metrische Variablen: Unterschiedshypothese Nicht normalverteilte Daten Der Wilcoxon-Vorzeichen-Rangtest für zwei Stichproben in R # Einlesen der Daten fussball <- read.csv2("c:/r/rohdaten/fussball.csv") # Deskriptive Zusammenfassung sapply(fussball[, c("tore.hz1", "tore.hz2")], summary) # Wilcoxon-Test wilcox.test(fussball$tore.hz1, fussball$tore.hz2, paired = TRUE) 26/28

Metrische Daten Aufgaben zur Vertiefung I Aufgabe zum Datensatz mannfrau Die durchschnittliche Größe von Frauen in Deutschland beträgt 165 cm. Unterscheidet sich die Größe der Frau signifikant von diesem Wert? Bei den Männen beträgt die Durchschnittsgröße 178 cm. Untersuchen Sie die gleiche Fragestellung. Aufgabe zum Datensatz kino Gibt es einen Zusammenhang zwischen dem Alter und der Anzahl der Kinobesuche? Stelle die Daten grafisch dar, berechne ein geeignetes Zusammenhangsmaß und führe dazu einen Signifikanztest durch. Aufgabe zum Datensatz fussball Wie hoch ist die Korrelation zwischen den Punkten am Saisonende und dem Etat der Vereine? Überprüfe die Signifikanz mit dem korrekten Testverfahren und versuche die Daten grafisch zu veranschaulichen. 27/ 28

Metrische Daten Aufgaben zur Vertiefung II Aufgaben zum Datensatz mannfrau Überprüfe die beiden folgenden Nullhypothesen mit dem korrekten Signifikanztest: H 0 : Männer und Frauen sind gleich groß H 0 : Männer und Frauen sind gleich alt Aufgaben zum Datensatz pisa Gibt es zwischen den drei Leistungsparametern irgendwo signifikante Unterschiede? Untersuche also die drei Nullhypothesen: H 0 : Leistung Lesen = Leistung Mathe H 0 : Leistung Lesen = Leistung Naturwissenschaft H 0 : Leistung Mathe = Leistung Naturwissenschaft 28/28