Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06.

Ähnliche Dokumente
Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Skalenniveaus =,!=, >, <, +, -

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale

Inhaltsverzeichnis (Ausschnitt)

Bivariate Verteilungen [bivariate data]

Zusammenhangsanalyse in Kontingenztabellen

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Zusammenhänge zwischen metrischen Merkmalen

3 Bivariate Deskription und Exploration von Daten

Musterlösung zur Aufgabensammlung Statistik I Teil 3

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale

6 Korrelationsanalyse: Zusammenhangsanalyse stetiger. Merkmale

Lösung Aufgabe 19. ( ) = [Mio Euro]. Empirische Varianz s 2 = 1 n

Vl Zweidimensionale Verteilungen Zusammenhangsmaße 3.1. Zwei dimensionale Häufigkeitstabellen. Absolute Häufigkeitstabelle

Lösungen zur Klausur zur Statistik Übung am

Eigene MC-Fragen (Teil II) "Kap. 9 Zusammenhangsmaße

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Statistische Methoden in den Umweltwissenschaften

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

5 Beschreibung und Analyse empirischer Zusammenhänge

Bivariate Zusammenhänge

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Zusammenhänge zwischen metrischen Merkmalen

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

WISTA WIRTSCHAFTSSTATISTIK

Einführung in die sozialwissenschaftliche Statistik

Elementare Regressionsrechnung

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

W-Rechnung und Statistik für Ingenieure Übung 5

Alternative Darstellung des 2-Stcihprobentests für Anteile

Grundlagen der Statistik

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Aufgabe 1. Studiensemester Anzahl Studierende 1. Semester Semester Semester Semester Semester 5 6.

Grundlagen der empirischen Sozialforschung

Kapitel 5 Wichtige Maßzahlen für den Zusammenhang zwischen Merkmalen

Einführung in die Induktive Statistik: Regressionsanalyse

6.2 Regressionsanalyse I: Die lineare Einfachregression

Einfaktorielle Varianzanalyse

1.5 Berechnung von Rangzahlen

Lösungen zur deskriptiven Statistik

Einführung in die Statistik

Kapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit

Statistik I. Prof. Dr. H. Toutenburg

19 Punkte. Aufgabe 1. Einkommen niedrig mittel hoch Männer Frauen Geschlecht. a) Bestimmen Sie die fehlenden Werte!

6 Korrelationsanalyse: Zusammenhangsanalyse stetiger Merkmale

Klausur zu Methoden der Statistik I (mit Kurzlösung) Sommersemester Aufgabe 1

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Vorläufige Musterlösungen (Stand: 21. März 2013) zur Klausur zu. Modul 2 im BSc-Studiengang Psychologie. apl. Prof. Dr. H.-J.

Software oder Tabellen (nicht Thema dieser Veranstaltung).

THEMA: ZUSAMMENHANGSANALYSEN FÜR KATEGORIALE VARIABLEN " TORSTEN SCHOLZ

Statistik I für Studierende der Wirtschaftswissenschaften Übungsblatt 12 Prof. Dr. Christian Heumann WS 2015/16

6. Multivariate Verfahren Übersicht

5.5 PRE-Maße (Fehlerreduktionsmaße) 6

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Vorlesung: Statistik II für Wirtschaftswissenschaft

5.4.2 Kovarianz und Korrelation

Beschreibende Statistik Zweidimensionale (bivariate) Daten

5 Assoziationsmessung in Kontingenztafeln

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Assoziation & Korrelation

Was sind Zusammenhangsmaße?

Einführung in die Korrelationsrechnung

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Statistik I. Sommersemester 2009

FERNUNIVERSITÄT IN HAGEN WIRTSCHAFTSWISSENSCHAFT

Test auf den Erwartungswert

5.5 PRE-Maße (Fehlerreduktionsmaße)

5.3 (Empirische) Unabhängigkeit und χ 2

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Klausurlösungen Statistik

Grundlagen der Statistik

Grundlagen der Statistik I

1 Beispiel zur Methode der kleinsten Quadrate

Univariates Datenmaterial

Einführung in die Statistik

Charakterisierung der Daten: Sind es genug? Sind alle notwendig? Was ist naturgegeben, was von Menschen beeinflusst (beeinflussbar)?

Aufgabe 2. Zudem konnten Sie bereits die folgenden Maße ermitteln: g = 2040 x = 3 xg = 7049 S 2 X = 2, 98.

5.2.3 Grafische Darstellung der gemeinsamen Verteilung. Verschiedene Darstellungsarten, z.b. als 3D-Säulendiagramm der gemeinsamen Häufigkeiten

Skriptteufel Klausurworkshop

1 Deskriptive Statistik

5.3 (Empirische) Unabhängigkeit und χ 2

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

Statistik I. Sommersemester 2009

Vorlesung Grundlagen der Biometrie WS 2011/12 1. Grundbegriffe

Statistik Klausur Wintersemester 2012/2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Statistik I für Betriebswirte Vorlesung 10

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Dozent: Fabian Scheipl Material: H. Küchenhoff LMU München

Beschreibende Statistik Zweidimensionale (bivariate) Daten

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Assoziation & Korrelation

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens

Transkript:

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt Gerhard Tutz, Jan Ulbricht WS 05/0 Lösung Aufgabe 4 Notation: X: Rauchen, Y : chronische Bronchitis S X {ja, nein} {a 1, a }, S Y {ja, nein} {b 1, b } Sei (x i, y j ) : {(X a i ) (Y b j )}, i, j 1, f ij f(x i, y j ) 1 n r1 1 {x ra i }1 {yrb j }, i, j 1,, n 100 Schritt 1: Aufstellen der Kontingenztabelle geg: f 11 0.1 f X Y ( 1) 1 3 f Y X ( 1) 0. ges: relative Häufigkeiten und Randhäufigkeiten Lös: Es gilt f X Y ( 1) 1 3 f X Y (1 1) 1 f X Y ( 1) 3 f Y X ( 1) 0. f Y X (1 1) 1 f Y X ( 1) 0.4 Für bedingte relative Häufigkeit gilt: f X Y (1 1) f 11 f 1 hier: 3 0.1 f 1 f 1 0.15 f Y X (1 1) f 11 f 1 hier: 0.4 0.1 f 1 f 1 0.5 Damit ergibt sich folgende Kontingenztabelle: f i j f ij f j f j f 1j + f j, j 1, f i f i1 + f i, i 1, X : Rauchen Y : chron. Bronchitis f i b 1 ja b nein a 1 ja 0.1 0.15 0.5 a nein 0.05 0.7 0.75 f j 0.15 0.85 1

Schritt : Berechnung eines geeigneten Zusammenhangsmaßes X, Y sind nominalskaliert, Wertebereich der Maßzahl: [0, 1] korrigierter Kontingenzkoeffizient absolute Zellhäufigkeit: h ij nf ij unter Unabhängigkeit zu erwartende Zellhäufigkeit e ij : h i h j n nf i f j korrigierter Kontingenzkoeffizient: mit χ K max von Y, n: Stichprobenumfang Wertebereiche: χ K χ + n, k i1 j1 K : l (h ij e ij ) K K max, (Kontingenzkoeffizient) e ij, (Chi-Quadrat-Koeffizient) M 1 M, M : min{k, l}, k: Anzahl der Kategorien von X, l: Anzahl der Kategorien χ [0, n(min{k, l} 1)], hier: χ [0, 100] [ ] K 0,, hier: K [0, 0.5] K [0, 1] M 1 M Berechnung von χ : Kontingenztabelle der unter Unabhängigkeit zu erwartenden absoluten Häufigkeiten e ij (i, j 1, ): X : Rauchen Y : chron. Bronchitis h i b 1 ja b nein a 1 ja 3.75 1.5 5 a nein 11.5 3.75 75 h j 15 85 100 1.948 1.948 K 1.948+100 0.3743 χ (10 3.75) (15 1.5) (5 11.5) + + 3.75 1.5 11.5 10.417 + 1.838 + 3.47 + 0.17 + (70 3.75) 3.75 K 0.3743 0.5 0.593 Interpretation: Es besteht ein mittlerer Zusammenhang zwischen Rauchen und dem Auftreten von chronischer Bronchitis. Aufgabe 4b) ges: relatives Risiko Unter einer Chance (odds) bzw. einem Risiko versteht man das Verhältnis zwischen dem Auftreten von Y b j1 und Y b j in einer Teilpopulation X a i (o.b.d.a.)

Notation: γ(j 1, j i) γ Y X (b j1, b j a i ) h ij 1 h ij Unter einer relativen Chance (relatives Risiko) versteht man das Verhältnis zwischen den Chancen (Risiken) einer Teilpopulation X a i1 zu den Chancen (Risiken) einer Teilpopulation X a i. Notation: hier: γ(j 1, j i 1, i ) γ Y X (b j1, b j a i1, a i ) h i1 j 1 h i1 j h i1 j 1 h i j h i j 1 h i1 j h i j 1 h i j γ Y X (1, 1) h 11 h 1 10 15 3 Interpretation: von 5 Rauchern entwickeln eine chronische Bronchitis. In 3 von 5 Fällen bleibt der Raucher gesund, in von 5 Fällen entwickelt sich eine chronische Bronchitis. Das Risiko einer chronischen Bronchitis ist damit um 1/5 geringer als die Chance, gesund zu bleiben. γ Y X (1, ) h 1 h 5 70 1 14 Interpretation: Einer von 15 Nichtrauchern entwickelt eine chronische Bronchitis. γ Y X (1, 1, ) 3 1 9.3333 14 Interpretation: Das Risiko von Rauchern, eine chronische Bronchitis zu entwickeln, ist 9.3 mal so hoch wie für Nichtraucher. Lösung Aufgabe 5 Es handelt sich um zwei ordinalskalierte Merkmale Problem: Es liegen Bindungen vor. Bindung: Zwei oder mehr Beobachtungen haben die gleiche Ausprägung des Merkmals X oder Y. Als Rang wird dann der Mittelwert der zu vergebenden Ränge genommen. geeignete Maßzahl: korrigierter Rangkorrelationskoeffizient: mit rsp n(n 1) 1 k i1 s i(s i 1) 1 l j1 r j(rj 1) i1 d i n(n 1), l j1 r j(rj 1) n(n 1) k i1 s i(s i 1) s i r j 1 {xmai }, i 1,..., k, m1 1 {xmrj }, j 1,..., l, m1 d i rg(x i ) rg(y i ) Bemerkung: s i und r j werden nur relevant, wenn Bindungen vorliegen. Folgende Zwischenergebnisse: Person i rg(f i ) rg(t i ) d i d i +7 +7+8 1.5 3 7 0.5 0.5 4 3 1 1 +7+8 3 5 3 7 4 4+5 4 3 4.5 1.5.5 5 8 9 1 1 10 10 0 0 +7+8 7 9 3 7 4 +7 1+ 8.5 1.5 5 5 1+ 9 1 1.5 0.5 0.5 4+5 10 4.5.5.5

Einsetzen: (n 10) rsp 990 1 1 3 44 990 990 3 705 93873 0.77 Interpretation: Es besteht ein deutlicher (linearer) Zusammenhang zwischen F und T in Höhe von r SP 0.77. Lösung Aufgabe Bravais-Pearson-Korrelationskoeffizient für metrisch skalierte Merkmale X und Y : r XY i1 (x i x)(y i y) i1 (x i x) n i1 (y i y) n i1 x iy i i1 x i i1 y i (n i1 x i ( i1 x i) )(n i1 y i ( i1 y i) ) r SP verwendet Rangzahlen (Es dürfen keine Bindungen vorliegen!!!) i1 x i i1 rg(x i) i1 rg(y i) 1 + +... + n n(n+1) i1 x i i1 rg(x i) i1 rg(y i) 1 + +... + n n(n+1)(n+1) i1 x iy i i1 rg(x i)rg(y i ) Es gilt: i1 (rg(x i) rg(y i )) i1 rg(x i) i1 rg(x i)rg(y i ) + i1 rg(y i) Daraus folgt: { } rg(x i )rg(y i ) 1 rg(x i ) + rg(y i ) (rg(x i ) rg(y i )) i1 i1 i1 i1 { } 1 n(n + 1)(n + ) d i, mit d i rg(x i ) rg(y i ). Einsetzen: i1 r XY n n(n+1)(n+1) n i1 d i n (n+1) 4 n n(n+1)(n+1) n (n+1) 4 n (n+1)(n+1) 1 n i1 d i 1 3n (n+1) 1 n (n+1)(n+1) 1 3n (n+1) 1 4n4 + n 3 + 4n n i1 d i 3n4 n 3 3n 4n 4 + n 3 + 4n 3n 4 n 3 3n n4 n n i1 d i n 4 n 1 n i1 d i n (n 1) 1 i1 d i n(n 1)

Lösung Aufgabe 7 Aufgabe 7a) Ausgangspunkt für neue Patente ist im Allgemeinen Forschung. Je höher die Anzahl an Forschern ist, desto höher sollte die Anzahl neuer Patente sein. Es wird daher ein positiver Zusammenhang erwartet. Aufgabe 7b) Sei X: Anzahl der Forscher (unabhängige Variable), Y : Anzahl der Triadepatente (abhängige Variable). Streudiagramm Anzahl Forscher (00, je 1000 Beschäftigte) und Anzahl Triadepatente (00, je 1 Mio Beschäftigte) Anzahl Triadepatente (Y) 0 50 100 150 00 50 300 350 4 5 7 8 9 10 Anzahl Forscher (X) Das Streudiagramm zeigt, daß ein approximativ linearer Zusammenhang zwischen X und Y besteht. Aufgabe 7c) Bravais-Pearson-Korrelationskoeffizient für zwei metrische Merkmale X und Y ist definiert als r XY i1 (x i x)(y i y) i1 (x i x) i1 (y i y) (n n i1 x iy i i1 x i i1 y i i1 x i ( i1 x i) )(n i1 y i ( i1 y i) ) i1 x iy i n xȳ ( i1 x i nx )( i1 y i ny ) r XY ist ein Maß für den linearen Zusammenhang bei metrisch skalierten Variablen Eigenschaften: 1 r XY 1 r XY r Y X (Symmetrie) Für X ax + b, Ỹ cy + d folgt r XỸ r XY (Translationsinvarianz)

Spearmans Rangkorrelationskoeffizient ist definiert als r SP 1 i1 d i (n 1)n mit den Rangdifferenzen d i rg(x i ) rg(y i ), i 1,..., n. r SP ist Maß für linearen Zusammenhang bei mind. ordinalskalierten Merkmalen ohne Bindungen Eigenschaften wie Bravais-Pearson-Korrelationskoeffizient benötigte Werte zur Berechnung von r XY und r SP : Einsetzen (n 10): Land x i y i x i yi x i y i rg(x i ) rg(y i ) d i Belgien 7.9 1.41 45 170.4 7 1 Deutschland.9 77 47.1 779 1911.3 5 8 9 Dänemark 9.3 355 8.49 105 3301.5 9 9 0 Spanien 5.1 4.01 174 14. 0 Frankreich 7.5 14 5.5 89 130 4 4 Irland 5. 139 7.04 1931 7.8 3 3 0 Portugal 3.5 1.5 3 1 1 1 0 GB 5.5 191 30.5 3481 1050.5 4 5 1 Japan 9.9 31 98.01 13031 3573.9 10 10 0 USA 8. 39 73.9 5711 055.4 8 7 1 Summe: 9.3 1990 50.8 51350 15787 1 r XY 10 15787 9.4 1990 (10 50.8 9.4 )(10 51350 1990 ) 1974 38.44 153400 0.8980 Der Wert r XY 0.8980 zeigt einen hohen positiven (linearen) Zusammenhang zwischen der Anzahl an Forschern und der Anzahl an Triadepatenten. Spearmans Rangkorrelationskoeffizient: r SP 1 1 10 99 1 9 990 0.9030 Der Wert r SP 0.9030 zeigt einen starken monotonen Zusammenhang zwischen der Anzahl an Forschern und der Anzahl an Triadepatenten. Aufgabe 7d) Sei Ỹ 1000Y Dann folgt r X Ỹ n i1 x i1000y i i1 x i i1 1000y i (n i1 x i ( i1 x i) )(n i1 (1000y i) ( i1 1000y i) ) 1000(n i1 x iy i i1 x i i1 y i) 1000 (n i1 x i ( i1 x i) )(n i1 y i ( i1 y i) ) r XY

Bravais-Pearson-Korrelationskoeffizient ändert sich nicht Die Ränge ändern sich durch die Transformation nicht, daher bleibt auch Spearmans Rangkorrelationskoeffizient gleich. Aufgabe 7e) Modell der linearen Einfachregression: mit y i β 0 + β 1 x i + ɛ i, i 1,..., n ŷ i β 0 + β 1 x i, β 0, β 1 : Regressionsparameter, ɛ i : i-tes Residuum (Fehlerterm) β 0, β 1 : geschätzte Parameterwerte, Y : Anzahl der Triadepatente, X: Anzahl der Forscher Die Parameterwerte können mit Hilfe der Lösungen der Normalgleichungen geschätzt werden. Es gilt: Für β 0 ergibt sich damit β 0 ȳ β 1 x β 1 s XY s X i1 x iy i i1 x i i1 y i i1 x i ( i1 x i) 15787 9.4 1990 50.8 (9.4) 1319 49.08 8.47 β 0 1 n ( y i β 1 i1 x i ) i1 1 (1990 8.47 9.4) 10 1.409 Die Modellgleichung zur Schätzung von Ŷ lautet damit Ŷ 1.409 + 8.47X Interpretation: Ein zusätzlicher Forscher erhöht die Anzahl der Triadepatente um 8.5. Die Güte des Modells kann durch das Bestimmtheitsmaß R beurteilt werden. Es gilt R rxy 0.8980 R 0.947 94.7 % der Variation in den Daten wird durch das Modell erklärt. Das Modell paßt daher sehr gut zu den Daten.