Metrische Daten Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/28
Metrische Daten Übersicht Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die folgenden Szenarien: Eine metrische Variable Einstichproben t-test Wilcoxon-Vorzeichen-Rangtest für eine Stichprobe Zwei metrische Variablen Zusammenhangshypothese Korrelation nach Pearson Korrelation nach Spearman Unterschiedshypothese t-test für abhängige Stichproben Wilcoxon-Vorzeichen-Rangtest für zwei Stichproben 2/28
Eine metrische Variable Normalverteilte Daten Voraussetzungen Gegeben ist eine Stichprobe X 1,...,X n von n unabhängigen Beobachtungen einer N(µ,σ 2 )-verteilten Zufallsvariable mit unbekanntem µ und σ 2. Die zu untersuchende Nullhypothese lautet H 0 : µ = µ 0 mit einem hypothetischen Wert µ 0. Der Name des Tests lautet Einstichproben t-test. Beispiel: Eine Herstellerfirma umweltfreundlicher Engergiesparlampen behauptet, dass die Haltbarkeit ihrer Lampen 10.000 Stunden beträgt. In einem Langzeitversuch werden von n = 25 Energiesparlampen die Stundenzahlen gemessen, wie lange es dauert, bis die Lampe durchbrennt. 3/28
Eine metrische Variable Normalverteilte Daten Grundlegender Gedanke: Berechnet man den Mittelwert X n der Stundenzahl der 25 Energiesparlampen, so sollte sich dieser bei Gültigkeit der H 0 nicht stark von µ 0 unterscheiden. Je großer also die Differenz von X n und µ 0 ist, desto eher wird man H 0 anzweifeln. Wird die Differenz zu groß, muss die Nullhypothese verworfen werden. Um eine Aussage über die Gültigkeit von H 0 machen zu können schaut man auf die Teststatistik T := n X n µ 0 S n auch t-statistik genannt. Diese ist t-verteilt mit (n 1) Freiheitsgraden. 4/28
Eine metrische Variable Normalverteilte Daten Der Einstichproben t-test in R # Einlesen der Daten lampen <- read.csv2("c:/r/rohdaten/lampen.csv") # Deskriptive Übersicht summary(lampen) # Boxplot der Daten boxplot(lampen) # Test auf Normalverteilung shapiro.test(lampen$brenndauer) # Einstichproben t-test zum Mittelwert 10000 t.test(lampen$brenndauer, mu = 10000) 5/28
Eine metrische Variable Nicht normalverteilte Daten Voraussetzungen Gegeben ist eine unabhängige und identisch verteilte Stichprobe X 1,...,X n mit dem unbekanntem Median m. Die zu untersuchende Nullhypothese lautet H 0 : m = m 0 mit einem hypothetischen Wert m 0. Der Test heißt Wilcoxon-Vorzeichen-Rangtest. Der Nichtparametrische Einstichprobentest ist ein Spezialfall des Wilcoxon-Vorzeichen-Rangtests für zwei Stichproben man stelle sich einfach eine zweite Stichprobe vor, die immer den Wert m 0 aufweist. Details zum nichtparametrischen Einstichprobentest findet man weiter unten auf Folie 24. 6/28
Eine metrische Variable Nicht normalverteilte Daten Der Wilcoxon-Vorzeichen-Rangtest in R # Falls noch nicht durchgeführt: Einlesen der Daten lampen <- read.csv2("c:/r/rohdaten/lampen.csv") # Wilcoxon-Vorzeichen-Rangtest zum Median 10000 wilcox.test(lampen$brenndauer, mu = 10000) 7/28
Zwei metrische Variablen: Zusammenhangshypothese Grafische Darstellung Voraussetzungen Für zwei Zufallsvariablen X und Y vom stetigen Typ, d.h. entweder intervall- oder sogar verhältnisskalierte Variablen, liegt eine unabhängige Stichprobe (X 1,Y 1 ),...,(X n,y n ) vom Umfang n vor. Die Abhängigkeitsstruktur von X und Y kann man mit einem Scatterplot grafisch untersuchen. Hierbei werden die beiden Variablen X und Y gegeneinander in einem Diagramm eingetragen. Je nach dem wie stark der Zusammenhang zwischen den beiden Variablen ist, kann man mit einem Scatterplot schon eine Struktur in den Daten erkennen (oder auch nicht). 8/28
Abhängigkeit bei stetigen Variablen Grafische Darstellung Beispiel: Scatterplot der Ehepaar-Daten, X = Alter des Mannes, Y = Alter der Frau. Alter der Frau 10 20 30 40 50 60 70 80 10 20 30 40 50 60 70 80 Alter des Manns 9/28
Zwei metrische Variablen: Zusammenhangshypothese Grafische Darstellung Erstellung eines Scatterplots in R # Falls noch nicht durchgeführt: Einlesen der Daten mannfrau <- read.csv2("c:/r/rohdaten/mannfrau.csv") # Scatterplot mit dem Alter plot(mannfrau$alter.mann, mannfrau$alter.frau, xlab = "Alter des Manns", ylab = "Alter der Frau", col = "red") Mit dem Argument pch kann zudem noch das Punktsymbol im Scatterplot geändert werden. 10/28
Zwei metrische Variablen: Zusammenhangshypothese Korrelation Eng mit dem Begriff der Abhängigkeit verwandt ist in der Statistik die Korrelation zwischen zwei Variablen. Mit der Korrelation lässt sich der Zusammenhang quantifizieren und somit auch statistisch genauer untersuchen. Die Korrelation zwischen zwei Zufallsvariablen X und Y ist wie folgt definiert: Corr(X,Y) = Cov(X,Y) σ X σ Y [ 1;1]. = Die Korrelation auf dem Intervall von [ 1; 1] standardisiert und kann deshalb viel leichter interpretiert werden. 11/28
Zwei metrische Variablen: Zusammenhangshypothese Korrelation Interpretation der Korrelation: Eine hohe positive (negative) Korrelation bedeutet, dass tendenziell ein überdurchschnittlich hoher Wert von X mit einem überdurchschnittlich hohen (niedrigen) Wert von Y einhergeht. Richtlinien für die Stärke der Korrelation Corr(X, Y) 0: vernachlässigbare lineare Abhängigkeit zwischen X und Y. 0.3 < Corr(X,Y) < 0.7: schwacher linearer Zusammenhang zwischen X und Y. Corr(X, Y) > 0.7: starker linearer Zusammenhang zwischen X und Y. 12/28
Zwei metrische Variablen: Zusammenhangshypothese Korrelation: Korrekte Interpretation Es gilt: Achtung: X und Y unabhängig X und Y unkorreliert. X und Y unkorreliert X und Y unabhängig. gilt im Allgemeinen aber NICHT! Merke: Die Korrelation misst nur die lineare Abhängigkeit. Es gibt auch andere Arten von Abhängigkeiten zwischen Variablen, z.b. quadratische oder logarithmische. Siehe hierzu auch Abschnitt 8.3.2 im Handbuch (Grenzen des Korrelationskoeffizienten). 13/28
Abhängigkeit bei stetigen Variablen Korrelationskoeffizient nach Pearson Um nun konkrete statistische Aussagen über die Stärke des Zusammenhangs zweier Variablen zu machen, berechnet man aus der vorliegenden Stichproben den empirischen Korrelationskoeffizienten nach Pearson: ρ := Ĉov(X,Y) ˆσ Xˆσ Y = (1 n n i=1 X iy i ) ( 1 n n i=1 X i)( 1 n n i=1 Y i) ( 1 n n i=1 (X i X) 2 )( 1 n n i=1 (Y i Ȳ)2 ) Interpretation von ρ Wenn der Wert der einen Variablen, z.b. von X um eine Einheit ansteigt, dann verändert sich der Wert der anderen Variablen, also Y, um ρ Einheiten. Je nach dem Vorzeichen geht der Wert von Y um ρ Einheiten nach oben oder nach unten. 14/28
Zwei metrische Variablen: Zusammenhangshypothese Korrelationskoeffizient nach Pearson Um festzustellen, ob der Zusammenhang zwischen zwei Variablen X und Y nicht nur zufällig sondern systematisch ist, kann man einen Signifikanztest durchführen. Voraussetzungen Gegeben sind zwei intervallskalierte Stichproben X 1,...,X n und Y 1,...,Y n, die durch die Bildung von Paaren (X i,y i ),i = 1,...,n erhoben wurden. Die beiden Stichproben sind außerdem normalverteilt, d.h. X 1,...,X n N(µ X,σ 2 ) und Y 1,...,Y n N(µ Y,σ 2 ). = Es reicht bei diesem Test also nicht aus, dass intervallskalierte Daten vorliegen, sondern die Daten müssen zusätzlich auch noch beide normalverteilt sein! 15/28
Zwei metrische Variablen: Zusammenhangshypothese Korrelationskoeffizient nach Pearson Die zugehörige Nullhypothese für diesen Test lautet H 0 : ρ = 0, d.h. es wird überprüft, ob überhaupt ein Zusammenhang zwischen X und Y vorliegt. Die zugehörige Teststatistik T := ρ 1 ρ 2 n 2 ist unter H 0 t-verteilt mit (n 2) Freiheitsgraden. Wird H 0 nun verworfen, kann man anhand des Vorzeichens von ρ erkennen, in welche Richtung der Zusammenhang geht. 16/28
Zwei metrische Variablen: Zusammenhangshypothese Korrelationskoeffizient nach Pearson Pearson scher Korrelationskoeffizient in R # Pearson scher Korrelationskoeffizient cor(mannfrau$alter.mann, mannfrau$alter.frau, use = "complete.obs") # Zugehöriger Signifikanztest cor.test(mannfrau$alter.mann, mannfrau$alter.frau) 17/28
Zwei metrische Variablen: Zusammenhangshypothese Korrelationskoeffizient nach Spearman Voraussetzungen Für zwei Zufallsvariablen X und Y mit ordinalskalierten Werten liegt eine unabhängige Stichprobe (X 1,Y 1 ),...,(X n,y n ) vom Umfang n vor. Für den Fall, dass eine der beiden Variablen vom stetigen Typ ist, wird diese wie eine ordinal skalierte Variable behandelt. Hier kann ebenfalls ein Korrelationskoeffizient berechnet werden, der sogenannte Spearman Rangkorrelationskoeffizient. Vorgehen zur Berechnung: Ordne die X 1,...,X n und die Y 1,...,Y n jeweils der Größe nach an. Jeder Messwert X i und Y i erhält einen Rang r X,i und r Y,i. Berechne den Spearman schen Rangkorrelationskoeffizienten: r S := 6 n i=1 (r X,i r Y,i ) 2 n(n 2 [ 1;1]. 1) 18/28
Zwei metrische Variablen: Zusammenhangshypothese Korrelationskoeffizient nach Spearman Wie beim Korrelationkoeffizienten nach Pearson wird auch hier die Nullhypothese H 0 : r S = 0 getestet, also ob die beiden Variablen signifikant zusammenhängen in welche Richtung auch immer. Die Teststatistik T := r S 1 r 2 S n 2 ist dann für n > 30 approximativ t-verteilt mit (n 2) Freiheitsgraden. Für n 30 berechnet R den p-wert basierend auf Tafelwerken. 19/28
Zwei metrische Variablen: Zusammenhangshypothese Korrelationskoeffizient nach Spearman Spearman scher Korrelationskoeffizient in R # Spearman scher Korrelationskoeffizient cor(mannfrau$alter.mann, mannfrau$alter.frau, use = "complete.obs", method = "spearman") # Zugehöriger Signifikanztest cor.test(mannfrau$alter.mann, mannfrau$alter.frau, method = "spearman") 20/28
Zwei metrische Variablen: Unterschiedshypothese Normalverteilte Daten Voraussetzungen Gegeben sind zwei Stichproben X 1,...,X n und Y 1,...,Y n, die durch die Bildung von Paaren (X i,y i ),i = 1,...,n erhoben wurden. Die paarweisen Differenzen D i = X i Y i,i = 1,...,n sind normalverteilt gemäß N(µ D,σ 2 ). Da es sich hier um zwei verbundene Stichproben handelt (man spricht auch von einem matched pairs-design) muss die Annahme der Unabhängigkeit der beiden Stichproben fallen gelassen werden. Beachte, dass es nicht ausreicht zu zeigen, dass die Originalvariablen normalverteilt sind, sondern die Differenz! Beispiel: Von n = 35 Patienten wird der Bluckdruck vor und nach der Einnahme eines blutdrucksenkenden Medikamentes gemessen. Es soll untersucht werden ob sich der Blutdruck gesenkt hat. 21/28
Zwei metrische Variablen: Unterschiedshypothese Normalverteilte Daten Die Nullhypothese lautet H 0 : µ X = µ Y bzw. µ X µ Y = 0, also beispielsweise dass das Medikament keinen Einfluss hat. Dies ist der Zweistichproben t-test für gepaarte (verbundene) Stichproben. Grundlegender Gedanke: Um zu untersuchen ob die Behandlung mit dem Medikament erfolgreich war wird von jedem Patient die Differenz D i := X i Y i,i = 1,...,n gebildet. Bei der Gültigkeit der H 0 sollten die Differenzen nahe bei 0 liegen. Auf die auftretenden Differenzen wird dann der Einstichproben t-test angewendet, mit dem Wert µ 0 = 0. 22/28
Zwei metrische Variablen: Unterschiedshypothese Normalverteilte Daten Der t-test für gepaarte Stichproben in R # Boxplot der Daten par(mfrow = c(1,2)) boxplot(mannfrau$größe.mann) boxplot(mannfrau$größe.frau) par(mfrow = c(1,1)) # Test auf Normalverteilung diff <- mannfrau$größe.mann - mannfrau$größe.frau shapiro.test(diff) # t-test t.test(diff) 23/28
Zwei metrische Variablen: Unterschiedshypothese Nicht normalverteilte Daten Voraussetzungen Gegeben sind n unabhängige Wiederholungen eines Zufallspaares (X i,y i ),i = 1,...,n. Die Nullhypothese zum Wilcoxon-Vorzeichen-Rangstest lautet: H 0 : X i Y i hat den Median 0. Vorgehen: Berechne die Differenzen D 1 = X 1 Y 1,...,D n = X n Y n. Berechne die Ränge R i der absoluten Beträge D 1,..., D n. Bilde die Summe R + der Rangwerte, die zu positiven D-Werten gehören und die Summe R der Rangwerte, die zu negativen D-Werten gehören. 24/28
Zwei metrische Variablen: Unterschiedshypothese Nicht normalverteilte Daten Grundlegender Gedanke: Unter der Nullhypothese, sollten die Differenzen D i der n Beobachtungen nicht allzu stark voneinander abweichen. Demzufolge sollten auch die Vorzeichen der D-Werte in etwa mit der gleichen Häufigkeit auftreten. Überwiegt bei den D-Werten aber ein Vorzeichen zu stark, dann wird je nach dem entweder R + oder R zu groß, woraufhin der Test dann verwirft. Die Teststatistik Z := min{r +,R } ist unter H 0 für eine Stichprobengröße n > 25 annähernd N ( n(n+1) 4, n(n+1)(n+2) ) 24 -verteilt. 25/28
Zwei metrische Variablen: Unterschiedshypothese Nicht normalverteilte Daten Der Wilcoxon-Vorzeichen-Rangtest für zwei Stichproben in R # Einlesen der Daten fussball <- read.csv2("c:/r/rohdaten/fussball.csv") # Deskriptive Zusammenfassung sapply(fussball[, c("tore.hz1", "tore.hz2")], summary) # Wilcoxon-Test wilcox.test(fussball$tore.hz1, fussball$tore.hz2, paired = TRUE) 26/28
Metrische Daten Aufgaben zur Vertiefung I Aufgabe zum Datensatz mannfrau Die durchschnittliche Größe von Frauen in Deutschland beträgt 165 cm. Unterscheidet sich die Größe der Frau signifikant von diesem Wert? Bei den Männen beträgt die Durchschnittsgröße 178 cm. Untersuchen Sie die gleiche Fragestellung. Aufgabe zum Datensatz kino Gibt es einen Zusammenhang zwischen dem Alter und der Anzahl der Kinobesuche? Stelle die Daten grafisch dar, berechne ein geeignetes Zusammenhangsmaß und führe dazu einen Signifikanztest durch. Aufgabe zum Datensatz fussball Wie hoch ist die Korrelation zwischen den Punkten am Saisonende und dem Etat der Vereine? Überprüfe die Signifikanz mit dem korrekten Testverfahren und versuche die Daten grafisch zu veranschaulichen. 27/ 28
Metrische Daten Aufgaben zur Vertiefung II Aufgaben zum Datensatz mannfrau Überprüfe die beiden folgenden Nullhypothesen mit dem korrekten Signifikanztest: H 0 : Männer und Frauen sind gleich groß H 0 : Männer und Frauen sind gleich alt Aufgaben zum Datensatz pisa Gibt es zwischen den drei Leistungsparametern irgendwo signifikante Unterschiede? Untersuche also die drei Nullhypothesen: H 0 : Leistung Lesen = Leistung Mathe H 0 : Leistung Lesen = Leistung Naturwissenschaft H 0 : Leistung Mathe = Leistung Naturwissenschaft 28/28