ZUSAMMENHANGSMAßE
Skalenniveaus Nominalskala Ordinalskala Intervallskala Verhältnisskala =,!= =,!=, >, < =,!=, >, <, +, - =,!=, >, <, +, -, *, / Kardinalskala Bemerkungen: Das Skalenniveau ist eine wichtige Eigenschaft von Merkmalen (Variablen). Das Skalenniveau bestimmt die mathematische und logische Operationen, die zulässig sind. Operationen, die bei Variablen eines bestimmten Skalenniveaus zulässig sind, können auch auf Variablen aller höheren Skalenniveaus durchgeführt werden.
Korrelation Eine Korrelation beschreibt eine Beziehung zwischen zwei (mehreren) Merkmalen. Eine Korrelation als Maß des Zusammenhangs soll drei Fragen klären: Existiert ein Zusammenhang überhaupt? Wie stark ist der Zusammenhang? Falls möglich, welche Richtung hat der Zusammenhang?
Zusammenhangsmaße In der Statistik wird der Zusammenhang zwischen zwei statistischen Variablen mit verschiedenen Zusammenhangsmaßen (Koeffizienten) gemessen. in Abhängigkeit vom Skalenniveau der Merkmale (Variablen) gibt es einen oder mehrere mögliche Zusammenhangsmaße. Variable X: Nominalskala Ordinalskala Intervallskala Verhältnisskala Variable Y: Nominalskala Ordinalskala Intervallskala Verhältnisskala Kardinalskala Kontingenzkoeffizient Korrelationskoeffizient nach Spearman Kovarianz Korrelationskoeffizient nach Pearson
Variable X: Nominalskala Ordinalskala Intervallskala Verhältnisskala Variable Y: Nominalskala Ordinalskala Intervallskala Verhältnisskala Welcher Koeffizient benutze ich, wenn die Variablen von verschiedenen Skalenniveaus sind? Regel: Man benutzt immer den Koeffizient, der für das niedrigere Skalenniveau erlaubt ist.
Zusammenhangsmaße In der Statistik wird der Zusammenhang zwischen zwei statistischen Variablen mit verschiedenen Zusammenhangsmaßen (Koeffizienten) gemessen. in Abhängigkeit vom Skalenniveau der Merkmale (Variablen) gibt es einen oder mehrere mögliche Zusammenhangsmaße. Variable X: Nominalskala Ordinalskala Intervallskala Verhältnisskala Variable Y: Nominalskala Ordinalskala Intervallskala Verhältnisskala Kardinalskala Kontingenzkoeffizient Korrelationskoeffizient nach Spearman Kovarianz Korrelationskoeffizient nach Pearson
Kovarianz Variable X Variable Y (Zielvariable) i 1 2 3 4 5 6 7 8 Alter 20 30 40 50 55 65 70 80 Gehalt 200 1800 2500 3000 3000 3000 2000 2000 Kovarianz S xy 1 n n i1 ( x i x)( y i y) Stichprobe vom Umfang n Arithmetischer Mittelwert der Variablen X _ 1 x n n i1 x i
Kovarianz i 1 2 3 4 5 6 7 8 Alter 20 30 40 50 55 65 70 80 Gehalt 200 1800 2500 3000 3000 3000 2000 2000 _ 1 8 Berechnung: x x i 51. 25 y y i 2187. 5 8 S xy 1 7 n i1 ( x i 8 51.25)( y i1 i 2187.5) _ 1 8 i1 10160.71 Wie kann ich den Wert interpretieren? Normierung? Kovarianz
Arithmetischer Mittelwert von X Arithmetischer Mittelwert von Y Kovarianz
Korrelationskoeffizient nach Pearson i 1 2 3 4 5 6 7 8 Alter 20 30 40 50 55 65 70 80 Gehalt 200 1800 2500 3000 3000 3000 2000 2000 Korrelationskoeffizient Kovarianz s xy Standardabweichung von X s x var( x) 1 var( x) n 1 n i1 ( x i _ x) 2 s x. s y
Korrelationskoeffizient nach Pearson 0.5249728 Wie kann ich den Wert interpretieren? 1. Wertebereich: 1 1 2. Eine lineare Zusammenhang ist Voraussetzung.? Wert Zusammenhang (Korrelation) 0 kein 0-0.3 schwach 0.3-0.6 mittel 0.6-1.0 stark 1.0 exakt auf einer Geraden
s xy 0, 0
Zusammenhangsmaße In der Statistik wird der Zusammenhang zwischen zwei statistischen Variablen mit verschiedenen Zusammenhangsmaßen (Koeffizienten) gemessen. in Abhängigkeit vom Skalenniveau der Merkmale (Variablen) gibt es einen oder mehrere mögliche Zusammenhangsmaße. Variable X: Nominalskala Ordinalskala Intervallskala Verhältnisskala Variable Y: Nominalskala Ordinalskala Intervallskala Verhältnisskala Kardinalskala Kontingenzkoeffizient Korrelationskoeffizient nach Spearman Kovarianz Korrelationskoeffizient nach Pearson
Korrelationskoeffizient nach Spearman s Note RN Note P3 1 3 1 Bindungen sind Beobachtungen, die denselben Rang haben. Student Student Note RN RANG Note P3 RANG d d^2 1 3 1 1 2,5-1.5 2,25 d i x i y i 2 4 1 3 5 2 3 2 3 4 3 2 4 3 1 2,5 0,5 0,25 3 5 6,5 2 6,5 0 0 4 4 2 5 4 2 6 5 1 7 5 2 8 5 1 5 6 7 8 6,5 4 1 2 3 4 2.5 4 5 6 7 8 6.5 4 4 4 3 2 6,5-3.5 12.25 5 4 3 2 6,5-3.5 12.25 6 5 6,5 1 2,5 4 16 7 5 6,5 2 6,5 0 0 8 5 6,5 1 2,5 4 16
Korrelationskoeffizient nach Spearman s s s ( n 6. 1 i1 6*59 1 7*8*9 n d 2 i 1). n.( n 0,2976 Wie kann ich den Wert interpretieren? 1) 1. Wertebereich 1 1 2. Eine lineare Zusammenhang ist nicht vorausgesetzt. 3. Aber der Zusammenhang muss monoton sein. 4. Die o.e. Formel ist allerdings nur korrekt im Fall ohne Bindungen. 5. Sollten Bindungen existieren, ist besser den Korrelationskoeff. mit den Rängen rechnen. s
Zusammenhangsmaße In der Statistik wird der Zusammenhang zwischen zwei statistischen Variablen mit verschiedenen Zusammenhangsmaßen (Koeffizienten) gemessen. in Abhängigkeit vom Skalenniveau der Merkmale (Variablen) gibt es einen oder mehrere mögliche Zusammenhangsmaße. Variable X: Nominalskala Ordinalskala Intervallskala Verhältnisskala Variable Y: Nominalskala Ordinalskala Intervallskala Verhältnisskala Kontingenzkoeffizient Korrelationskoeffizient nach Spearman Kovarianz Korrelationskoeffizient nach Pearson
nominalskaliert Kontingenzkoeffizient Variable X i 1 2 3 4 5 6 7 8 Geschlecht Frau Frau Frau Frau Mann Mann Frau Mann Variable Y Ausbildung Haupt schule Hoch schule Haupt schule Gymnasium Gymnasium Hoch schule Hoch schule Hoch schule ordinalskaliert Kontingenztabelle (Kreuztabelle)
Absolute Häufigkeit h11 Gymnasium Hauptschule Hochschule Frau Mann Zeilensumme/ Randhäufigkeit 1 / 1.25 1 / 0.75 2 2 / 1.25 0 / 0.75 2 2 / 2.50 2 / 1.50 4 Spaltensumme/ Randhäufigkeit 5 3 8 Erwartete Häufigkeit he32=(3*4)/8 zeilensumme * spaltensumme h i e ij stichprobenumfang j
Chi2-Koeffizient 2 k m i1 j1 ( h ij h e h ij e ij ) 2 i=1,..,k j=1,..,m Wie kann ich den Wert interpretieren? Die Aussagekraft des χ2-koeffizienten ist gering. 0 <= Chi2-Koeffizient <= n*min{k 1,m 1} Der Chi2-Koeffizient verdoppelt sich durch die Verdoppelung des Stichprobenumfangs (Abhängigkeit von n) Diese Abhängigkeit begründet den Normierungsschritt zum Kontingenzkoeffizienten K
Kontingenzkoeffizient K 2 2 n K liegt im Wertebereich zwischen [0, 1 ), also abhängig von der Anzahl Spalten und Zeilen: min1 K [0, ] min, min=min( k, m ) Wie kann ich den Wert interpretieren? Um zusätzlich zum Einfluss des Stichprobenumfangs auf die Obergrenze des Koeffizienten auszuschalten wird der korrigierte Kontingenzkoeffizient
Korrigierter Kontingenzkoeffizient min K *.K min1 Wie kann ich den Wert interpretieren? min=min( k, m ) Es gilt 0 K* 1 Über K* kann eine Aussage über die Stärke des Zusammenhangs zwischen den Merkmalen X und Y aber nicht über die Richtung der Wirkung gemacht werden.