Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt Gerhard Tutz, Jan Ulbricht WS 05/0 Lösung Aufgabe 4 Notation: X: Rauchen, Y : chronische Bronchitis S X {ja, nein} {a 1, a }, S Y {ja, nein} {b 1, b } Sei (x i, y j ) : {(X a i ) (Y b j )}, i, j 1, f ij f(x i, y j ) 1 n r1 1 {x ra i }1 {yrb j }, i, j 1,, n 100 Schritt 1: Aufstellen der Kontingenztabelle geg: f 11 0.1 f X Y ( 1) 1 3 f Y X ( 1) 0. ges: relative Häufigkeiten und Randhäufigkeiten Lös: Es gilt f X Y ( 1) 1 3 f X Y (1 1) 1 f X Y ( 1) 3 f Y X ( 1) 0. f Y X (1 1) 1 f Y X ( 1) 0.4 Für bedingte relative Häufigkeit gilt: f X Y (1 1) f 11 f 1 hier: 3 0.1 f 1 f 1 0.15 f Y X (1 1) f 11 f 1 hier: 0.4 0.1 f 1 f 1 0.5 Damit ergibt sich folgende Kontingenztabelle: f i j f ij f j f j f 1j + f j, j 1, f i f i1 + f i, i 1, X : Rauchen Y : chron. Bronchitis f i b 1 ja b nein a 1 ja 0.1 0.15 0.5 a nein 0.05 0.7 0.75 f j 0.15 0.85 1
Schritt : Berechnung eines geeigneten Zusammenhangsmaßes X, Y sind nominalskaliert, Wertebereich der Maßzahl: [0, 1] korrigierter Kontingenzkoeffizient absolute Zellhäufigkeit: h ij nf ij unter Unabhängigkeit zu erwartende Zellhäufigkeit e ij : h i h j n nf i f j korrigierter Kontingenzkoeffizient: mit χ K max von Y, n: Stichprobenumfang Wertebereiche: χ K χ + n, k i1 j1 K : l (h ij e ij ) K K max, (Kontingenzkoeffizient) e ij, (Chi-Quadrat-Koeffizient) M 1 M, M : min{k, l}, k: Anzahl der Kategorien von X, l: Anzahl der Kategorien χ [0, n(min{k, l} 1)], hier: χ [0, 100] [ ] K 0,, hier: K [0, 0.5] K [0, 1] M 1 M Berechnung von χ : Kontingenztabelle der unter Unabhängigkeit zu erwartenden absoluten Häufigkeiten e ij (i, j 1, ): X : Rauchen Y : chron. Bronchitis h i b 1 ja b nein a 1 ja 3.75 1.5 5 a nein 11.5 3.75 75 h j 15 85 100 1.948 1.948 K 1.948+100 0.3743 χ (10 3.75) (15 1.5) (5 11.5) + + 3.75 1.5 11.5 10.417 + 1.838 + 3.47 + 0.17 + (70 3.75) 3.75 K 0.3743 0.5 0.593 Interpretation: Es besteht ein mittlerer Zusammenhang zwischen Rauchen und dem Auftreten von chronischer Bronchitis. Aufgabe 4b) ges: relatives Risiko Unter einer Chance (odds) bzw. einem Risiko versteht man das Verhältnis zwischen dem Auftreten von Y b j1 und Y b j in einer Teilpopulation X a i (o.b.d.a.)
Notation: γ(j 1, j i) γ Y X (b j1, b j a i ) h ij 1 h ij Unter einer relativen Chance (relatives Risiko) versteht man das Verhältnis zwischen den Chancen (Risiken) einer Teilpopulation X a i1 zu den Chancen (Risiken) einer Teilpopulation X a i. Notation: hier: γ(j 1, j i 1, i ) γ Y X (b j1, b j a i1, a i ) h i1 j 1 h i1 j h i1 j 1 h i j h i j 1 h i1 j h i j 1 h i j γ Y X (1, 1) h 11 h 1 10 15 3 Interpretation: von 5 Rauchern entwickeln eine chronische Bronchitis. In 3 von 5 Fällen bleibt der Raucher gesund, in von 5 Fällen entwickelt sich eine chronische Bronchitis. Das Risiko einer chronischen Bronchitis ist damit um 1/5 geringer als die Chance, gesund zu bleiben. γ Y X (1, ) h 1 h 5 70 1 14 Interpretation: Einer von 15 Nichtrauchern entwickelt eine chronische Bronchitis. γ Y X (1, 1, ) 3 1 9.3333 14 Interpretation: Das Risiko von Rauchern, eine chronische Bronchitis zu entwickeln, ist 9.3 mal so hoch wie für Nichtraucher. Lösung Aufgabe 5 Es handelt sich um zwei ordinalskalierte Merkmale Problem: Es liegen Bindungen vor. Bindung: Zwei oder mehr Beobachtungen haben die gleiche Ausprägung des Merkmals X oder Y. Als Rang wird dann der Mittelwert der zu vergebenden Ränge genommen. geeignete Maßzahl: korrigierter Rangkorrelationskoeffizient: mit rsp n(n 1) 1 k i1 s i(s i 1) 1 l j1 r j(rj 1) i1 d i n(n 1), l j1 r j(rj 1) n(n 1) k i1 s i(s i 1) s i r j 1 {xmai }, i 1,..., k, m1 1 {xmrj }, j 1,..., l, m1 d i rg(x i ) rg(y i ) Bemerkung: s i und r j werden nur relevant, wenn Bindungen vorliegen. Folgende Zwischenergebnisse: Person i rg(f i ) rg(t i ) d i d i +7 +7+8 1.5 3 7 0.5 0.5 4 3 1 1 +7+8 3 5 3 7 4 4+5 4 3 4.5 1.5.5 5 8 9 1 1 10 10 0 0 +7+8 7 9 3 7 4 +7 1+ 8.5 1.5 5 5 1+ 9 1 1.5 0.5 0.5 4+5 10 4.5.5.5
Einsetzen: (n 10) rsp 990 1 1 3 44 990 990 3 705 93873 0.77 Interpretation: Es besteht ein deutlicher (linearer) Zusammenhang zwischen F und T in Höhe von r SP 0.77. Lösung Aufgabe Bravais-Pearson-Korrelationskoeffizient für metrisch skalierte Merkmale X und Y : r XY i1 (x i x)(y i y) i1 (x i x) n i1 (y i y) n i1 x iy i i1 x i i1 y i (n i1 x i ( i1 x i) )(n i1 y i ( i1 y i) ) r SP verwendet Rangzahlen (Es dürfen keine Bindungen vorliegen!!!) i1 x i i1 rg(x i) i1 rg(y i) 1 + +... + n n(n+1) i1 x i i1 rg(x i) i1 rg(y i) 1 + +... + n n(n+1)(n+1) i1 x iy i i1 rg(x i)rg(y i ) Es gilt: i1 (rg(x i) rg(y i )) i1 rg(x i) i1 rg(x i)rg(y i ) + i1 rg(y i) Daraus folgt: { } rg(x i )rg(y i ) 1 rg(x i ) + rg(y i ) (rg(x i ) rg(y i )) i1 i1 i1 i1 { } 1 n(n + 1)(n + ) d i, mit d i rg(x i ) rg(y i ). Einsetzen: i1 r XY n n(n+1)(n+1) n i1 d i n (n+1) 4 n n(n+1)(n+1) n (n+1) 4 n (n+1)(n+1) 1 n i1 d i 1 3n (n+1) 1 n (n+1)(n+1) 1 3n (n+1) 1 4n4 + n 3 + 4n n i1 d i 3n4 n 3 3n 4n 4 + n 3 + 4n 3n 4 n 3 3n n4 n n i1 d i n 4 n 1 n i1 d i n (n 1) 1 i1 d i n(n 1)
Lösung Aufgabe 7 Aufgabe 7a) Ausgangspunkt für neue Patente ist im Allgemeinen Forschung. Je höher die Anzahl an Forschern ist, desto höher sollte die Anzahl neuer Patente sein. Es wird daher ein positiver Zusammenhang erwartet. Aufgabe 7b) Sei X: Anzahl der Forscher (unabhängige Variable), Y : Anzahl der Triadepatente (abhängige Variable). Streudiagramm Anzahl Forscher (00, je 1000 Beschäftigte) und Anzahl Triadepatente (00, je 1 Mio Beschäftigte) Anzahl Triadepatente (Y) 0 50 100 150 00 50 300 350 4 5 7 8 9 10 Anzahl Forscher (X) Das Streudiagramm zeigt, daß ein approximativ linearer Zusammenhang zwischen X und Y besteht. Aufgabe 7c) Bravais-Pearson-Korrelationskoeffizient für zwei metrische Merkmale X und Y ist definiert als r XY i1 (x i x)(y i y) i1 (x i x) i1 (y i y) (n n i1 x iy i i1 x i i1 y i i1 x i ( i1 x i) )(n i1 y i ( i1 y i) ) i1 x iy i n xȳ ( i1 x i nx )( i1 y i ny ) r XY ist ein Maß für den linearen Zusammenhang bei metrisch skalierten Variablen Eigenschaften: 1 r XY 1 r XY r Y X (Symmetrie) Für X ax + b, Ỹ cy + d folgt r XỸ r XY (Translationsinvarianz)
Spearmans Rangkorrelationskoeffizient ist definiert als r SP 1 i1 d i (n 1)n mit den Rangdifferenzen d i rg(x i ) rg(y i ), i 1,..., n. r SP ist Maß für linearen Zusammenhang bei mind. ordinalskalierten Merkmalen ohne Bindungen Eigenschaften wie Bravais-Pearson-Korrelationskoeffizient benötigte Werte zur Berechnung von r XY und r SP : Einsetzen (n 10): Land x i y i x i yi x i y i rg(x i ) rg(y i ) d i Belgien 7.9 1.41 45 170.4 7 1 Deutschland.9 77 47.1 779 1911.3 5 8 9 Dänemark 9.3 355 8.49 105 3301.5 9 9 0 Spanien 5.1 4.01 174 14. 0 Frankreich 7.5 14 5.5 89 130 4 4 Irland 5. 139 7.04 1931 7.8 3 3 0 Portugal 3.5 1.5 3 1 1 1 0 GB 5.5 191 30.5 3481 1050.5 4 5 1 Japan 9.9 31 98.01 13031 3573.9 10 10 0 USA 8. 39 73.9 5711 055.4 8 7 1 Summe: 9.3 1990 50.8 51350 15787 1 r XY 10 15787 9.4 1990 (10 50.8 9.4 )(10 51350 1990 ) 1974 38.44 153400 0.8980 Der Wert r XY 0.8980 zeigt einen hohen positiven (linearen) Zusammenhang zwischen der Anzahl an Forschern und der Anzahl an Triadepatenten. Spearmans Rangkorrelationskoeffizient: r SP 1 1 10 99 1 9 990 0.9030 Der Wert r SP 0.9030 zeigt einen starken monotonen Zusammenhang zwischen der Anzahl an Forschern und der Anzahl an Triadepatenten. Aufgabe 7d) Sei Ỹ 1000Y Dann folgt r X Ỹ n i1 x i1000y i i1 x i i1 1000y i (n i1 x i ( i1 x i) )(n i1 (1000y i) ( i1 1000y i) ) 1000(n i1 x iy i i1 x i i1 y i) 1000 (n i1 x i ( i1 x i) )(n i1 y i ( i1 y i) ) r XY
Bravais-Pearson-Korrelationskoeffizient ändert sich nicht Die Ränge ändern sich durch die Transformation nicht, daher bleibt auch Spearmans Rangkorrelationskoeffizient gleich. Aufgabe 7e) Modell der linearen Einfachregression: mit y i β 0 + β 1 x i + ɛ i, i 1,..., n ŷ i β 0 + β 1 x i, β 0, β 1 : Regressionsparameter, ɛ i : i-tes Residuum (Fehlerterm) β 0, β 1 : geschätzte Parameterwerte, Y : Anzahl der Triadepatente, X: Anzahl der Forscher Die Parameterwerte können mit Hilfe der Lösungen der Normalgleichungen geschätzt werden. Es gilt: Für β 0 ergibt sich damit β 0 ȳ β 1 x β 1 s XY s X i1 x iy i i1 x i i1 y i i1 x i ( i1 x i) 15787 9.4 1990 50.8 (9.4) 1319 49.08 8.47 β 0 1 n ( y i β 1 i1 x i ) i1 1 (1990 8.47 9.4) 10 1.409 Die Modellgleichung zur Schätzung von Ŷ lautet damit Ŷ 1.409 + 8.47X Interpretation: Ein zusätzlicher Forscher erhöht die Anzahl der Triadepatente um 8.5. Die Güte des Modells kann durch das Bestimmtheitsmaß R beurteilt werden. Es gilt R rxy 0.8980 R 0.947 94.7 % der Variation in den Daten wird durch das Modell erklärt. Das Modell paßt daher sehr gut zu den Daten.