Wahrscheinlichkeitsrechnung und Statistik für Biologen 9. Lineare Regression

Größe: px
Ab Seite anzeigen:

Download "Wahrscheinlichkeitsrechnung und Statistik für Biologen 9. Lineare Regression"

Transkript

1 Wahrscheinlichkeitsrechnung und Statistik für Biologen 9. Lineare Regression Matthias Birkner & Dirk Metzler Juni 2009

2 Übersicht 1 Lineare Regression: wozu und wie? 2 t-test fuer lineare Zusammenhänge 3 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Beispiel: Mortalität und Einwohnerzahl

3 Übersicht Lineare Regression: wozu und wie? 1 Lineare Regression: wozu und wie? 2 t-test fuer lineare Zusammenhänge 3 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Beispiel: Mortalität und Einwohnerzahl

4 Lineare Regression: wozu und wie? Englisch: Griffon Vulture Gypus fulvus Ga nsegeier photo (c) by Jo rg Hempel

5 Lineare Regression: wozu und wie? Prinzinger, R., E. Karl, R. Bögel, Ch. Walzer (1999): Energy metabolism, body temperature, and cardiac work in the Griffon vulture Gyps vulvus - telemetric investigations in the laboratory and in the field. Zoology 102, Suppl. II: 15 Daten aus der Arbeitsgruppe Stoffwechselphysiologie (Prof. Prinzinger) der Frankfurter Goethe-Universität. Telemetrisches System zur Messung der Herzfrequenz bei Vögeln auch während des Fluges.

6 Lineare Regression: wozu und wie? Prinzinger, R., E. Karl, R. Bögel, Ch. Walzer (1999): Energy metabolism, body temperature, and cardiac work in the Griffon vulture Gyps vulvus - telemetric investigations in the laboratory and in the field. Zoology 102, Suppl. II: 15 Daten aus der Arbeitsgruppe Stoffwechselphysiologie (Prof. Prinzinger) der Frankfurter Goethe-Universität. Telemetrisches System zur Messung der Herzfrequenz bei Vögeln auch während des Fluges. Wichtig für ökologische Fragen: die Stoffwechselrate

7 Lineare Regression: wozu und wie? Prinzinger, R., E. Karl, R. Bögel, Ch. Walzer (1999): Energy metabolism, body temperature, and cardiac work in the Griffon vulture Gyps vulvus - telemetric investigations in the laboratory and in the field. Zoology 102, Suppl. II: 15 Daten aus der Arbeitsgruppe Stoffwechselphysiologie (Prof. Prinzinger) der Frankfurter Goethe-Universität. Telemetrisches System zur Messung der Herzfrequenz bei Vögeln auch während des Fluges. Wichtig für ökologische Fragen: die Stoffwechselrate Messung der Stoffwechselrate aufwändig und nur im Labor möglich.

8 Lineare Regression: wozu und wie? Prinzinger, R., E. Karl, R. Bögel, Ch. Walzer (1999): Energy metabolism, body temperature, and cardiac work in the Griffon vulture Gyps vulvus - telemetric investigations in the laboratory and in the field. Zoology 102, Suppl. II: 15 Daten aus der Arbeitsgruppe Stoffwechselphysiologie (Prof. Prinzinger) der Frankfurter Goethe-Universität. Telemetrisches System zur Messung der Herzfrequenz bei Vögeln auch während des Fluges. Wichtig für ökologische Fragen: die Stoffwechselrate Messung der Stoffwechselrate aufwändig und nur im Labor möglich. Können wir von der Herzfrequenz auf die Stoffwechselrate schließen?

9 Lineare Regression: wozu und wie? griffon vulture, , 16 degrees C metabolic rate [J/(g*h)] heart beats [per minute]

10 Lineare Regression: wozu und wie? griffon vulture, , 16 degrees C metabolic rate [J/(g*h)] heart beats [per minute]

11 Lineare Regression: wozu und wie? 0 0

12 Lineare Regression: wozu und wie? y 3 y 2 y x x x 1 2 3

13 Lineare Regression: wozu und wie? y 3 y 2 y 1 b Achsenabschnitt 0 0 x x x 1 2 3

14 Lineare Regression: wozu und wie? y 3 m Steigung y 2 1 y 1 b Achsenabschnitt 0 0 x x x 1 2 3

15 Lineare Regression: wozu und wie? y 3 m Steigung y 2 y 1 1 y=mx+b b Achsenabschnitt 0 0 x x x 1 2 3

16 Lineare Regression: wozu und wie? y 3 m Steigung y 2 y 1 y y m= 2 1 x x 2 1 x x 2 1 y y y=mx+b b Achsenabschnitt 0 0 x x x 1 2 3

17 Lineare Regression: wozu und wie? y 3 b slope y 2 y 1 y=a+bx a intercept 0 0 x x x 1 2 3

18 Lineare Regression: wozu und wie? 0 0

19 Lineare Regression: wozu und wie? 0 0

20 Lineare Regression: wozu und wie? r n r 1 r 3 r i r 2 0 0

21 Lineare Regression: wozu und wie? r n r 1 r 3 r i r 2 Residuen r = y (a+bx ) i i i 0 0

22 Lineare Regression: wozu und wie? r n r 1 r 3 r i r 2 Residuen r = y (a+bx ) i i i Wähle die Gerade so, dass die Summe der quadrierten Residuen minimal wird! 0 r 2+ r r n 0

23 Lineare Regression: wozu und wie? Definiere die Regressiosgerade y = â + ˆb x durch die Minimierung der Summe der quadrierten Residuen: (â, ˆb) = arg min (y i (a + b x i )) 2 (a,b) Dahinter steckt die Modellvorstellung, dass Werte a, b existieren, so dass für alle Datenpaare (x i, y i ) gilt i y i = a + b x i + ε i, wobei alle ε i unabhängig und normalverteilt sind und alle dieselbe Varianz σ 2 haben.

24 Lineare Regression: wozu und wie? gegebene Daten: Y X y 1 x 1 y 2 x 2 y 3 x 3.. y n x n

25 Lineare Regression: wozu und wie? gegebene Daten: Y X y 1 x 1 y 2 x 2 y 3 x 3.. Modell: es gibt Zahlen a, b, σ 2, so dass y 1 = a + b x 1 + ε 1 y 2 = a + b x 2 + ε 2 y 3 = a + b x 3 + ε 3.. y n x n y n = a + b x n + ε n

26 Lineare Regression: wozu und wie? gegebene Daten: Y X y 1 x 1 y 2 x 2 y 3 x 3.. Modell: es gibt Zahlen a, b, σ 2, so dass y 1 = a + b x 1 + ε 1 y 2 = a + b x 2 + ε 2 y 3 = a + b x 3 + ε 3.. y n x n y n = a + b x n + ε n Dabei sind ε 1, ε 2,..., ε n unabhängig N (0, σ 2 ).

27 Lineare Regression: wozu und wie? gegebene Daten: Y X y 1 x 1 y 2 x 2 y 3 x 3.. Modell: es gibt Zahlen a, b, σ 2, so dass y 1 = a + b x 1 + ε 1 y 2 = a + b x 2 + ε 2 y 3 = a + b x 3 + ε 3.. y n x n y n = a + b x n + ε n Dabei sind ε 1, ε 2,..., ε n unabhängig N (0, σ 2 ). y 1, y 2,..., y n sind unabhängig y i N (a + b x i, σ 2 ).

28 Lineare Regression: wozu und wie? gegebene Daten: Y X y 1 x 1 y 2 x 2 y 3 x 3.. Modell: es gibt Zahlen a, b, σ 2, so dass y 1 = a + b x 1 + ε 1 y 2 = a + b x 2 + ε 2 y 3 = a + b x 3 + ε 3.. y n x n y n = a + b x n + ε n Dabei sind ε 1, ε 2,..., ε n unabhängig N (0, σ 2 ). y 1, y 2,..., y n sind unabhängig y i N (a + b x i, σ 2 ). a, b, σ 2 sind unbekannt, aber nicht zufällig.

29 Lineare Regression: wozu und wie? Wir schätzen a und b, indem wir (â, ˆb) := arg min (y i (a + b x i )) 2 berechnen. (a,b) i

30 Lineare Regression: wozu und wie? Wir schätzen a und b, indem wir (â, ˆb) := arg min (y i (a + b x i )) 2 berechnen. (a,b) i Theorem Man â und ˆb berechnen durch i ˆb = (y i ȳ) (x i x) i (x = i x) 2 und â = ȳ ˆb x. i y i (x i x) i (x i x) 2

31 Lineare Regression: wozu und wie? Wir schätzen a und b, indem wir (â, ˆb) := arg min (y i (a + b x i )) 2 berechnen. (a,b) i Theorem Man â und ˆb berechnen durch i ˆb = (y i ȳ) (x i x) i (x = i x) 2 und â = ȳ ˆb x. i y i (x i x) i (x i x) 2 Bitte merken: Die Gerade y = â + ˆb x geht genau durch den Schwerpunkt der Punktwolke (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ).

32 Lineare Regression: wozu und wie? Beweisskizze zum Theorem Sei g(a, b) = i (y i (a + b x i )) 2. Wir optimieren g, indem wir die Ableitungen von g g(a, b) a g(a, b) b = i = i 2 (y i (a + bx i )) ( 1) 2 (y i (a + bx i )) ( x i ) nach beiden Variablen auf 0 setzen, und erhalten: 0 = i 0 = i (y i (â + ˆbx i )) ( 1) (y i (â + ˆbx i )) ( x i )

33 Lineare Regression: wozu und wie? 0 = i (y i (â + ˆbx i )) 0 = i (y i (â + ˆbx i )) x i kann man ausmultiplizieren zu ( ) ( ) 0 = y i n â ˆb x i 0 = i ( ) ( ) ( y i x i â x i ˆb i i i i x 2 i ) und das Theorem folgt durch Auflösen nach â und ˆb.

34 Lineare Regression: wozu und wie? vulture day heartbpm metabol mintemp maxtemp medtemp / / / / / / / / / / / (14 different days)

35 Lineare Regression: wozu und wie? > model <- lm(metabol~heartbpm,data=vulture, subset=day=="17.05.") > summary(model) Call: lm(formula = metabol ~ heartbpm, data = vulture, subset = day == "17.05.") Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-08 *** heartbpm e-14 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 17 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 17 DF, p-value: 2.979e-14

36 Lineare Regression: wozu und wie? Optimierung der Gelegegröße Beispiel: Der Erbsensamenkäfer Callosobruchus maculatus englisch: Cowpea weevil oder auch bruchid beetle

37 Lineare Regression: wozu und wie? Optimierung der Gelegegröße Beispiel: Der Erbsensamenkäfer Callosobruchus maculatus englisch: Cowpea weevil oder auch bruchid beetle Wilson, K. (1994) Evolution of clutch size in insects. II. A test of static optimality models using the beetle Callosobruchus maculatus (Coleoptera: Bruchidae). Journal of Evolutionary Biology 7: Wie hängt die Überlebenswahrscheinlichkeit von der Gelegegröße ab?

38 Lineare Regression: wozu und wie? Optimierung der Gelegegröße Beispiel: Der Erbsensamenkäfer Callosobruchus maculatus englisch: Cowpea weevil oder auch bruchid beetle Wilson, K. (1994) Evolution of clutch size in insects. II. A test of static optimality models using the beetle Callosobruchus maculatus (Coleoptera: Bruchidae). Journal of Evolutionary Biology 7: Wie hängt die Überlebenswahrscheinlichkeit von der Gelegegröße ab? Mit welcher Gelegegröße wird die erwartete Anzahl Nachkommen optimiert?

39 Lineare Regression: wozu und wie? viability clutchsize

40 Lineare Regression: wozu und wie? viability clutchsize

41 Lineare Regression: wozu und wie? clutchsize * viability clutchsize

42 Lineare Regression: wozu und wie? clutchsize * viability clutchsize

43 Übersicht t-test fuer lineare Zusammenhänge 1 Lineare Regression: wozu und wie? 2 t-test fuer lineare Zusammenhänge 3 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Beispiel: Mortalität und Einwohnerzahl

44 t-test fuer lineare Zusammenhänge Beispiel: Rothirsch (Cervus elaphus) Theorie: Hirschkühe können das Geschlecht ihrer Nachkommen beeinflussen.

45 t-test fuer lineare Zusammenhänge Beispiel: Rothirsch (Cervus elaphus) Theorie: Hirschkühe können das Geschlecht ihrer Nachkommen beeinflussen. Unter dem Gesichtspunkt evolutionär stabiler Strategien ist zu erwarten, dass schwache Tiere eher zu weiblichem und starke Tiere eher zu männlichem Nachwuchs tendieren. Clutton-Brock, T. H., Albon, S. D., Guinness, F. E. (1986) Great expectations: dominance, breeding success and offspring sex ratios in red deer. Anim. Behav. 34,

46 t-test fuer lineare Zusammenhänge > hind rank ratiomales ACHTUNG: Simulierte Daten, die sich an den Daten aus der Originalpublikation lediglich orientieren.

47 t-test fuer lineare Zusammenhänge hind$rank hind$ratiomales

48 t-test fuer lineare Zusammenhänge hind$rank hind$ratiomales

49 t-test fuer lineare Zusammenhänge > mod <- lm(ratiomales~rank,data=hind) > summary(mod) Call: lm(formula = ratiomales ~ rank, data = hind) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-06 *** rank e-09 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 52 degrees of freedom Multiple R-squared: , Adjusted R-squared:

50 t-test fuer lineare Zusammenhänge Modell: Y = a + b X + ε mit ε N (0, σ 2 )

51 t-test fuer lineare Zusammenhänge Modell: Y = a + b X + ε mit ε N (0, σ 2 ) Wie berechnet man die Signifikanz eines Zusammenhangs zwischen dem erklärenden Merkmal X und der Zielgröße Y?

52 t-test fuer lineare Zusammenhänge Modell: Y = a + b X + ε mit ε N (0, σ 2 ) Wie berechnet man die Signifikanz eines Zusammenhangs zwischen dem erklärenden Merkmal X und der Zielgröße Y? Anders formuliert: Mit welchem Test können wir der Nullhypothese b = 0 zu Leibe rücken?

53 t-test fuer lineare Zusammenhänge Modell: Y = a + b X + ε mit ε N (0, σ 2 ) Wie berechnet man die Signifikanz eines Zusammenhangs zwischen dem erklärenden Merkmal X und der Zielgröße Y? Anders formuliert: Mit welchem Test können wir der Nullhypothese b = 0 zu Leibe rücken? Wir haben b durch ˆb geschätzt (und gehen jetzt mal von ˆb 0 aus). Könnte das wahre b auch 0 sein?

54 t-test fuer lineare Zusammenhänge Modell: Y = a + b X + ε mit ε N (0, σ 2 ) Wie berechnet man die Signifikanz eines Zusammenhangs zwischen dem erklärenden Merkmal X und der Zielgröße Y? Anders formuliert: Mit welchem Test können wir der Nullhypothese b = 0 zu Leibe rücken? Wir haben b durch ˆb geschätzt (und gehen jetzt mal von ˆb 0 aus). Könnte das wahre b auch 0 sein? Wie groß ist der Standardfehler unserer Schätzung ˆb?

55 t-test fuer lineare Zusammenhänge y i = a + b x i + ε mit ε N (0, σ 2 ) nicht zufällig: a, b, x i, σ 2 zufällig: ε, y i var(y i ) = var(a + b x i + ε) = var(ε) = σ 2 und y 1, y 2,..., y n sind stochastisch unabhängig.

56 t-test fuer lineare Zusammenhänge nicht zufällig: a, b, x i, σ 2 y i = a + b x i + ε mit ε N (0, σ 2 ) zufällig: ε, y i var(y i ) = var(a + b x i + ε) = var(ε) = σ 2 und y 1, y 2,..., y n sind stochastisch unabhängig. ˆb = i y i(x i x) i (x i x) 2

57 t-test fuer lineare Zusammenhänge nicht zufällig: a, b, x i, σ 2 y i = a + b x i + ε mit ε N (0, σ 2 ) zufällig: ε, y i var(y i ) = var(a + b x i + ε) = var(ε) = σ 2 und y 1, y 2,..., y n sind stochastisch unabhängig. ˆb = i y i(x i x) i (x i x) 2 ( var(ˆb) = var i y ) i(x i x) i (x i x) 2 = var ( i y i(x i x)) ( i (x i x) 2 ) 2

58 t-test fuer lineare Zusammenhänge nicht zufällig: a, b, x i, σ 2 y i = a + b x i + ε mit ε N (0, σ 2 ) zufällig: ε, y i var(y i ) = var(a + b x i + ε) = var(ε) = σ 2 und y 1, y 2,..., y n sind stochastisch unabhängig. ˆb = i y i(x i x) i (x i x) 2 ( var(ˆb) = var i y ) i(x i x) i (x = var ( i y i(x i x)) i x) 2 ( i (x i x) 2 ) 2 i = var (y i) (x i x) 2 i ( i (x = σ 2 (x i x) 2 i x) 2 ) 2 ( i (x i x) 2 ) 2

59 t-test fuer lineare Zusammenhänge nicht zufällig: a, b, x i, σ 2 y i = a + b x i + ε mit ε N (0, σ 2 ) zufällig: ε, y i var(y i ) = var(a + b x i + ε) = var(ε) = σ 2 und y 1, y 2,..., y n sind stochastisch unabhängig. ˆb = i y i(x i x) i (x i x) 2 ( var(ˆb) = var i y ) i(x i x) i (x = var ( i y i(x i x)) i x) 2 ( i (x i x) 2 ) 2 i = var (y i) (x i x) 2 i ( i (x = σ 2 (x i x) 2 i x) 2 ) 2 ( i (x i x) 2 ) 2 = σ 2 / i (x i x) 2

60 t-test fuer lineare Zusammenhänge Tatsächlich ist ˆb Normalverteilt mit Mittelwert b und var(ˆb) = σ 2 / i (x i x) 2

61 t-test fuer lineare Zusammenhänge Tatsächlich ist ˆb Normalverteilt mit Mittelwert b und var(ˆb) = σ 2 / i (x i x) 2 Problem: Wir kennen σ 2 nicht.

62 t-test fuer lineare Zusammenhänge Tatsächlich ist ˆb Normalverteilt mit Mittelwert b und var(ˆb) = σ 2 / i (x i x) 2 Problem: Wir kennen σ 2 nicht. Wir schätzen σ 2 mit Hilfe der beobachten Residuenvarianz durch s 2 i (y i â ˆb ) 2 x i := n 2

63 t-test fuer lineare Zusammenhänge Tatsächlich ist ˆb Normalverteilt mit Mittelwert b und var(ˆb) = σ 2 / i (x i x) 2 Problem: Wir kennen σ 2 nicht. Wir schätzen σ 2 mit Hilfe der beobachten Residuenvarianz durch s 2 i (y i â ˆb ) 2 x i := n 2 Zu beachten ist, dass durch n 2 geteilt wird. Das hat damit zu tun, dass zwei Modellparameter a und b bereit geschätzt wurden, und somit 2 Freiheitsgrade verloren gegangen sind.

64 t-test fuer lineare Zusammenhänge var(ˆb) = σ 2 / i (x i x) 2 Schätze σ 2 durch Dann ist s 2 = i (y i â ˆb ) 2 x i n 2 ˆb b / s i (x i x) 2 Student-t-verteilt mit n 2 Freiheitsgraden und wir können den t-test anwenden, um die Nullhypothese b = 0 zu testen.

65 Übersicht Skalierung der Daten 1 Lineare Regression: wozu und wie? 2 t-test fuer lineare Zusammenhänge 3 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Beispiel: Mortalität und Einwohnerzahl

66 Übersicht Skalierung der Daten Beispiel: Körper- und Gehirngewicht 1 Lineare Regression: wozu und wie? 2 t-test fuer lineare Zusammenhänge 3 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Beispiel: Mortalität und Einwohnerzahl

67 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Daten: Typisches Körpergewicht [kg] und Gehirngewicht [g] von 62 Säugetierarten (und 3 Dinosaurierarten) > data weight.kg. brain.weight.g species extinct african elephant no no no no asian elephant no no no no cat no chimpanzee no

68 Skalierung der Daten Beispiel: Körper- und Gehirngewicht typische Werte bei 62 Saeugeierarten Gehirngewicht [g] Koerpergewicht [kg]

69 Skalierung der Daten Beispiel: Körper- und Gehirngewicht typische Werte bei 65 Saeugeierarten african elephant asian elephant Gehirngewicht [g] 1e 01 1e+00 1e+01 1e+02 1e+03 mouse giraffe horse chimpanzee donkey cow rhesus monkey sheep jaguar pig potar monkey grey goat wolf kangaroo cat rabbit mountain beaver guinea pig mole rat hamster human Triceratops Diplodocus 1e 02 1e+00 1e+02 1e+04 Brachiosa Koerpergewicht [kg]

70 Skalierung der Daten Beispiel: Körper- und Gehirngewicht 1e 02 1e+00 1e+02 1e+04 1e 01 1e+00 1e+01 1e+02 1e+03 typische Werte bei 65 Saeugeierarten Koerpergewicht [kg] Gehirngewicht [g]

71 Skalierung der Daten Beispiel: Körper- und Gehirngewicht > modell <- lm(brain.weight.g~weight.kg.,subset=extinct=="no") > summary(modell) Call: lm(formula = brain.weight.g ~ weight.kg., subset = extinct == "no") Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) * weight.kg <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 60 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 60 DF, p-value: < 2.2e-16

72 Skalierung der Daten Beispiel: Körper- und Gehirngewicht qqnorm(modell$residuals) Normal Q Q Plot Sample Quantiles Theoretical Quantiles

73 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(modell$fitted.values,modell$residuals) modell$residuals e 02 1e+00 1e+02 1e+04 modell$model$weight.kg.

74 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(modell$fitted.values,modell$residuals,log= x ) modell$residuals modell$fitted.values

75 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(modell$model$weight.kg.,modell$residuals) modell$residuals modell$model$weight.kg.

76 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(modell$model$weight.kg.,modell$residuals,log= x ) modell$residuals e 02 1e+00 1e+02 1e+04 modell$model$weight.kg.

77 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Wir sehen, dass die Varianz der Residuen von den angepassten Werten bzw. dem Körpergewicht abhängt. Man sagt, es liegt Heteroskedastizität vor.

78 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Wir sehen, dass die Varianz der Residuen von den angepassten Werten bzw. dem Körpergewicht abhängt. Man sagt, es liegt Heteroskedastizität vor. Das Modell geht aber von Homoskedastizität aus, d.h. die Residuenvarianz soll von den erklärenden Merkmalen (dem Körpergewicht) und den angepassten Werten (annähernd) unabhängig sein.

79 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Wir sehen, dass die Varianz der Residuen von den angepassten Werten bzw. dem Körpergewicht abhängt. Man sagt, es liegt Heteroskedastizität vor. Das Modell geht aber von Homoskedastizität aus, d.h. die Residuenvarianz soll von den erklärenden Merkmalen (dem Körpergewicht) und den angepassten Werten (annähernd) unabhängig sein. Varianzstabilisierende Transformation: Wie können wir die Körper- und Hirnmasse umskalieren, um Homoskedastizität zu erreichen?

80 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Eigentlich ist es ja offensichtlich: Bei Elefanten kann das typischerweise 5 kg schwere Hirn je nach Individuum auch mal 500 g schwerer oder leichter sein. Wenn bei einer Tierart das Hirn typischerweise 5 g schwer ist, wird es nicht um 500 g variieren können, sondern vielleicht ebenfalls um 10%, also ±0.5 g. Die Varianz ist hier also nicht additiv, sondern multiplikatiiv: Hirnmasse = (erwartete Hirnmasse) Zufall Das können wir aber in etwas mit additivem Zufallterm umwandeln, indem wir auf beiden Seiten den (natürlichen) Logarithmus ziehen: log(hirnmasse) = log(erwartete Hirnmasse) + log(zufall)

81 Skalierung der Daten Beispiel: Körper- und Gehirngewicht > logmodell <- lm(log(brain.weight.g)~log(weight.kg.),subset=e > summary(logmodell) Call: lm(formula = log(brain.weight.g) ~ log(weight.kg.), subset = e "no") Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** log(weight.kg.) <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 60 degrees of freedom Multiple R-squared: , Adjusted R-squared:

82 Skalierung der Daten Beispiel: Körper- und Gehirngewicht qqnorm(modell$residuals) Normal Q Q Plot Theoretical Quantiles Sample Quantiles

83 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(logmodell$fitted.values,logmodell$residuals) logmodell$fitted.values logmodell$residuals

84 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(logmodell$fitted.values,logmodell$residuals,log= x ) 1e 03 1e 02 1e 01 1e+00 1e logmodell$fitted.values logmodell$residuals

85 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(weight.kg.[extinct== no ],logmodell$residuals) weight.kg.[extinct == "no"] logmodell$residuals

86 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(weight.kg.[extinct= no ],logmodell$residuals,log= x ) 1e 02 1e+00 1e+02 1e weight.kg.[extinct == "no"] logmodell$residuals

87 Übersicht Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl 1 Lineare Regression: wozu und wie? 2 t-test fuer lineare Zusammenhänge 3 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Beispiel: Mortalität und Einwohnerzahl

88 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Daten: Für 301 US-amerikanische Landkreise (Counties) die Anzahl weißer Einwohnerinnen von 1960 und die Anzahl der Bruskrebstoten aus dieser Gruppe zwischen 1950 und (Aus Rice (2007) Mathematical Statistics and Data Analysis.) > canc deaths inhabitants

89 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Fragestellung: Ist die durchschnittliche Anzahl an Todesopfer proportional zur Einwohnerzahl, d.h. Edeaths = b inhabitants oder hängt das Krebsrisiko von der Größe des Bezirks ab (evtl. wegen Urbanität), so dass ein anderes Modell besser passt? z.b. Edeaths = a + b inhabitants mit a 0.

90 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl > modell <- lm(deaths~inhabitants,data=canc) > summary(modell) Call: lm(formula = deaths ~ inhabitants, data = canc) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e e inhabitants 3.578e e <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: 13 on 299 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 4315 on 1 and 299 DF, p-value: < 2.2e-16

91 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Die additive Konstante ( Achsenabschnitt ) wir auf geschätzt, ist aber nicht signifikant von 0 verschieden.

92 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Die additive Konstante ( Achsenabschnitt ) wir auf geschätzt, ist aber nicht signifikant von 0 verschieden. Man kann also nicht die Nullhypothese verwerfen, dass das Krebsrisiko von der Größe des Bezirks unabhängig ist.

93 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Die additive Konstante ( Achsenabschnitt ) wir auf geschätzt, ist aber nicht signifikant von 0 verschieden. Man kann also nicht die Nullhypothese verwerfen, dass das Krebsrisiko von der Größe des Bezirks unabhängig ist. Aber passt das Modell eigentlich?

94 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl qqnorm(modell$residuals) Normal Q Q Plot Sample Quantiles Theoretical Quantiles

95 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl plot(modell$fitted.values,modell$residuals) modell$residuals modell$fitted.values

96 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl plot(modell$fitted.values,modell$residuals,log= x ) modell$residuals modell$fitted.values

97 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl plot(canc$inhabitants,modell$residuals,log= x ) modell$residuals e+02 2e+03 5e+03 2e+04 5e+04 canc$inhabitants

98 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Wir sehen, dass die Varianz der Residuen von den angepassten Werten bzw. der Einwohnerzahl abhängt. Man sagt, es liegt Heteroskedastizität vor.

99 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Wir sehen, dass die Varianz der Residuen von den angepassten Werten bzw. der Einwohnerzahl abhängt. Man sagt, es liegt Heteroskedastizität vor. Das Modell geht aber von Homoskedastizität aus, d.h. die Residuenvarianz soll von den erklärenden Merkmalen (der Einwohnerzahl) und den angepassten Werten (annähernd) unabhängig sein.

100 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Wir sehen, dass die Varianz der Residuen von den angepassten Werten bzw. der Einwohnerzahl abhängt. Man sagt, es liegt Heteroskedastizität vor. Das Modell geht aber von Homoskedastizität aus, d.h. die Residuenvarianz soll von den erklärenden Merkmalen (der Einwohnerzahl) und den angepassten Werten (annähernd) unabhängig sein. Varianzstabilisierende Transformation: Wie können wir die Einwohnerzahl und die Anzahl der Todesfälle umskalieren, um Homoskedastizität zu erreichen?

101 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Woher kommt die Abhängigkeit der Varianz von der Einwohnerzahl?

102 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Woher kommt die Abhängigkeit der Varianz von der Einwohnerzahl? Ist n die Anzahl der (weißen) Einwohnerinnen und p die Wahrscheinlichkeit, innerhalb von 10 Jahren an Bruskrebs zu sterben, so ist np die erwartete Anzahl solcher Todesfälle, und die Varianz ist n p (1 p) n p (Approximation der Binomial- durch die Poissonverteilung bietet sich an). Die Standardabweichung ist also n p.

103 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Woher kommt die Abhängigkeit der Varianz von der Einwohnerzahl? Ist n die Anzahl der (weißen) Einwohnerinnen und p die Wahrscheinlichkeit, innerhalb von 10 Jahren an Bruskrebs zu sterben, so ist np die erwartete Anzahl solcher Todesfälle, und die Varianz ist n p (1 p) n p (Approximation der Binomial- durch die Poissonverteilung bietet sich an). Die Standardabweichung ist also n p. In einem solchen Fall kann man die Varianz annähernd stabilisieren, indem man sowohl das erklärende Merkmal als auch die Zielgröße durch Wurzelziehen stabilisiert.

104 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Für alle, die es etwas genauer wissen wollen: y = b x + ε y = (b x + ε) 2 = b 2 x + 2 b x ε + ε 2 Die Standardabweichung ist hier nicht genau proportional zu x, aber zumindest hat der Teil 2 b x ε hat eine zu x proportionale Standardabweichung, nämlich 2 b x σ. Der Term ε 2 ist hingegen das σ 2 -fache einer χ 2 1 -verteilten Zufallsvariablen und hat Standardabweichung σ 2 2. Zumindest wenn σ sehr klein ist im Vergleich zu b x, gilt also die Approximation y b 2 x + 2 b x ε und die Standardabweichung von y ist ungefähr proportional zu x.

105 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl > modellsq <- lm(sqrt(deaths~sqrt(inhabitants),data=canc) > summary(modellsq) Call: lm(formula = sqrt(deaths) ~ sqrt(inhabitants), data = canc) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) sqrt(inhabitants) <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 299 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 4051 on 1 and 299 DF, p-value: < 2.2e-16

106 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl qqnorm(modell$residuals) Normal Q Q Plot Sample Quantiles Theoretical Quantiles

107 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl plot(modellsq$fitted.values,modellsq$residuals,log= x ) plot(canc$inhabitants,modellsq$residuals,log= x ) modellsq$fitted.values modellsq$residuals 5e+02 2e+03 5e+03 2e+04 5e canc$inhabitants modellsq$residuals

108 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Der QQ-Plot mit der Normalverteilung sieht nicht perfekt aus, aber immerhin ist die Varianz stabilisiert.

109 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Der QQ-Plot mit der Normalverteilung sieht nicht perfekt aus, aber immerhin ist die Varianz stabilisiert. Das Ergebnis bleibt aber dasselbe: Der Intercept ist nicht signifikant von 0 verschieden. Also kann der erwartete Wert von y proportional zu x sein, was bedeutet, dass auch der erwartete Wert von y ungefähr (!) proportional zu x ist. Also gibt es nach wie vor keinen deutlichen Hinweis auf eine Abhängigkeit zwischen der Einwohnerzahl und der Todesrate.

110 Schlusswort Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Manchmal ist die Suche nach einer geeigneten varianzstabilisierenden Transformation mit viel Herumprobieren verbunden. In vielen Fällen passt die log-transformation.

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Contents Aufgabe 1 1 b) Schätzer................................................. 3 c) Residuenquadratsummen........................................

Mehr

Weiterbildungskurs Stochastik

Weiterbildungskurs Stochastik Hansruedi Künsch Seminar für Statistik Departement Mathematik, ETH Zürich 24. Juni 2009 Inhalt STATISTIK DER BINOMIALVERTEILUNG 1 STATISTIK DER BINOMIALVERTEILUNG 2 Fragestellungen Typische Fragestellungen

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Statistik Einführung // Lineare Regression 9 p.2/72

Statistik Einführung // Lineare Regression 9 p.2/72 Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen Modelle mit Interationsvariablen I Modelle mit Interationsvariablen II In der beim White-Test verwendeten Regressionsfuntion y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 2 1 + β 4 x 2 2 + β 5 x 1 x 2, ist anders

Mehr

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) Interdisziplinäres Seminar Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) WS 2008/09 19.11.2008 Julia Schiele und Lucie Wink Dozenten: Prof. Dr. Bühner, Prof. Dr. Küchenhoff

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Prof. Dr. Karl-Werner Hansmann

Prof. Dr. Karl-Werner Hansmann Die Gelddruck-Maschine der Notenbanken ist für die Bekämpfung der Arbeitslosigkeit ungeeignet. von Prof. Dr. Karl-Werner Hansmann Universität Hamburg Vortrag beim Academic Network der Roland Berger School

Mehr

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) und der Wilcoxon-Test Dirk Metzler 22. Mai 2015 Inhaltsverzeichnis 1 Wiederholung:

Mehr

Varianzanalyse * (1) Varianzanalyse (2)

Varianzanalyse * (1) Varianzanalyse (2) Varianzanalyse * (1) Einfaktorielle Varianzanalyse (I) Die Varianzanalyse (ANOVA = ANalysis Of VAriance) wird benutzt, um Unterschiede zwischen Mittelwerten von drei oder mehr Stichproben auf Signifikanz

Mehr

Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen" Dr. Uwe Waschatz

Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen Dr. Uwe Waschatz Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen" Dr. Uwe Waschatz Inhalt Problembeschreibung Multiple lineare Regressionsanalyse Statistische Versuchsplanung / Design of Experiments

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Klausur Statistik Lösungshinweise

Klausur Statistik Lösungshinweise Klausur Statistik Lösungshinweise Prüfungsdatum: 1. Juli 2015 Prüfer: Etschberger, Heiden, Jansen Studiengang: IM und BW Aufgabe 1 14 Punkte Ein Freund von Ihnen hat über einen Teil seiner Daten, die er

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

1 Statistische Grundlagen

1 Statistische Grundlagen Konzepte in Empirische Ökonomie 1 (Winter) Hier findest Du ein paar Tipps zu den Konzepten in Empirische 1. Wenn Du aber noch etwas Unterstützung kurz vor der Klausur brauchst, schreib uns eine kurze Email.

Mehr

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test 1/29 Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) Matthias Birkner http://www.staff.uni-mainz.de/birkner/biostatistik1516/ 11.12.2015 2/29 Inhalt 1 t-test

Mehr

Nachholklausur STATISTIK II

Nachholklausur STATISTIK II Nachholklausur STATISTIK II Name, Vorname: Matrikel-Nr.: Die Klausur enthält zwei Typen von Aufgaben: T e i l A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens eine

Mehr

Kategoriale abhängige Variablen:

Kategoriale abhängige Variablen: Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell Statistik II

Mehr

Multidimensionale Paarvergleiche. Experten

Multidimensionale Paarvergleiche. Experten Multidimensionale Paarvergleiche V l i h d Ri ik h h Kl i l d Vergleich der Risikowahrnehmung von Kleinanlegern und Experten Agenda Theoretischer Hintergrund Studiendesign Forschungsergebnisse 2 Überblick

Mehr

Zeitreihenanalyse. Teil III: Nichtlineare Zeitreihenmodelle. Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel. Göttingen, Januar 2008 DAX

Zeitreihenanalyse. Teil III: Nichtlineare Zeitreihenmodelle. Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel. Göttingen, Januar 2008 DAX Zeitreihenanalyse Teil III: Nichtlineare Zeitreihenmodelle Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel DAX -10-5 0 5 10 0 200 400 600 800 1000 trading day Göttingen, Januar 2008 Inhaltsverzeichnis

Mehr

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang.

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang. Lehrstuhl für Statistik und empirische Wirtschaftsforschung Fach: Prüfer: Bachelorprüfung Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname Matrikelnr. E-Mail Studiengang

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Statistische Auswertung der Daten von Blatt 13

Statistische Auswertung der Daten von Blatt 13 Statistische Auswertung der Daten von Blatt 13 Problemstellung 1 Graphische Darstellung der Daten 1 Diskussion der Normalverteilung 3 Mittelwerte und deren Konfidenzbereiche 3 Signifikanz der Behandlung

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Klausur STATISTIK 2 für Diplom VWL

Klausur STATISTIK 2 für Diplom VWL Klausur STATISTIK 2 für Diplom VWL Name, Vorname: Matrikel-Nr. Die Klausur enthält zwei Typen von Aufgaben: Teil A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Untersuchungen zum Thema Tracking Error

Untersuchungen zum Thema Tracking Error Untersuchungen zum Thema Tracking Error J. Fulmek 24. August 2003 1 Einleitung Im Folgenden werden folgende Punkte untersucht: 1. verschiedene in der Literatur übliche Definitionen des Tracking Errors

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Survival Analysis (Modul: Lebensdaueranalyse)

Survival Analysis (Modul: Lebensdaueranalyse) Survival Analysis (Modul: Lebensdaueranalyse) ROLAND RAU Universität Rostock, Sommersemester 2015 12. Mai 2015 c Roland Rau Survival Analysis 1 / 24 Hausaufgabe 1 Schreiben Sie die Log-Likelihood Gleichung

Mehr

# # Daten aus einem csv-file einlesen # readerout = reader(open("daten.csv","rb"),delimiter=',');

# # Daten aus einem csv-file einlesen # readerout = reader(open(daten.csv,rb),delimiter=','); -*- coding: utf-8 -*- This Python-program was developed using "Enthought Canopy v. 1.4.1", a Pytho analysis environment, on a MacBook Pro running OS X 10.9.5 written by T. Ihn, D-PHYS ETH Zurich, 5 Oct

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Stochastische Eingangsprüfung, 17.05.2008

Stochastische Eingangsprüfung, 17.05.2008 Stochastische Eingangsprüfung, 17.5.8 Wir gehen stets von einem Wahrscheinlichkeitsraum (Ω, A, P) aus. Aufgabe 1 ( Punkte) Sei X : Ω [, ) eine integrierbare Zufallsvariable mit XdP = 1. Sei Q : A R, Q(A)

Mehr

Gefährdet die ungleiche Verteilung unseres Vermögens den gesellschaftlichen Zusammenhalt?

Gefährdet die ungleiche Verteilung unseres Vermögens den gesellschaftlichen Zusammenhalt? Gefährdet die ungleiche Verteilung unseres Vermögens den gesellschaftlichen Zusammenhalt? Prof. Dr. K.-W. Hansmann Rotary-Vortrag am 22. September 2014 (Die farbigen Graphiken habe ich mit der Progrmmiersprache

Mehr

Biostatistische Studienplanung II. Dr. Matthias Kohl SIRS-Lab GmbH

Biostatistische Studienplanung II. Dr. Matthias Kohl SIRS-Lab GmbH Biostatistische Studienplanung II Dr. Matthias Kohl SIRS-Lab GmbH Inhalt Lineare Modelle: Definition und Beispiele KQ- und robuste Schätzer Diagnostik Ausblick: Mixed-Effects Definition des linearen Modells

Mehr

Die Varianzanalyse ohne Messwiederholung. Jonathan Harrington. Bi8e noch einmal datasets.zip laden

Die Varianzanalyse ohne Messwiederholung. Jonathan Harrington. Bi8e noch einmal datasets.zip laden Die Varianzanalyse ohne Messwiederholung Jonathan Harrington Bi8e noch einmal datasets.zip laden Variablen, Faktoren, Stufen Eine Varianzanalyse ist die Erweiterung von einem t- test t- test oder ANOVA

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei

Mehr

Grundlagen von Versuchsmethodik und Datenanalyse

Grundlagen von Versuchsmethodik und Datenanalyse Grundlagen von Versuchsmethodik und Datenanalyse Der Anfang: Hypothesen über Ursache-Wirkungs-Zusammenhänge Ursache Wirkung Koffein verbessert Kurzzeitgedächtnis Gewaltfilme führen zu aggressivem Verhalten

Mehr

Statistik Musterlösungen

Statistik Musterlösungen Statistik Musterlösungen Regina Tüchler & Achim Zeileis Institut für Statistik & Mathematik Wirtschaftsuniversität Wien 1 Grundbegriffe (1.23) Skript Reaktionen auf Videofilm. Aussagen M, E, P, S h(m)

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Stochastische Prozesse und Zeitreihenmodelle

Stochastische Prozesse und Zeitreihenmodelle Kapitel 12 Stochastische Prozesse und reihenmodelle [ Stochastische Prozesse und reihenmodelle ] Einleitung:.com-Blase an der NASDAQ Department of Statistics and Mathematics WU Wien c 2008 Statistik 12

Mehr

(Repeated-measures ANOVA) path = "Verzeichnis wo Sie anova1 gespeichert haben" attach(paste(path, "anova1", sep="/"))

(Repeated-measures ANOVA) path = Verzeichnis wo Sie anova1 gespeichert haben attach(paste(path, anova1, sep=/)) Varianzanalyse mit Messwiederholungen (Repeated-measures ANOVA) Jonathan Harrington Befehle: anova2.txt path = "Verzeichnis wo Sie anova1 gespeichert haben" attach(paste(path, "anova1", sep="/")) Messwiederholungen:

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

Regression mit Gretl Eine erste Einführung 1

Regression mit Gretl Eine erste Einführung 1 Kurzeinführung in Gretl S. 1 Regression mit Gretl Eine erste Einführung 1 Installation: Gretl für das entsprechende Betriebssystem herunterladen und die Setup-Datei ausführen. Hinweis: Für die Benutzung

Mehr

Statistische Analyse von Ereigniszeiten

Statistische Analyse von Ereigniszeiten Statistische Analyse von Survival Analysis VO Biostatistik im WS 2006/2007 1 2 3 : Leukemiedaten (unzensiert) 33 Patienten mit Leukemie; Zielvariable Überlebenszeit. Alle Patienten verstorben und Überlebenszeit

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Teil II: Einführung in die Statistik

Teil II: Einführung in die Statistik Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu

Mehr

Einführung in statistische Testmethoden

Einführung in statistische Testmethoden Einführung in statistische Testmethoden und die Bearbeitung von Messdaten mit Excel 1. Beispielhafte Einführung in den Gebrauch von Testmethoden 2. Typen von Messwerten, Verteilungen 3. Mittelwert, Varianz,

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Zeitreihen. Statistik II

Zeitreihen. Statistik II Statistik II Wiederholung Literatur -Daten Trends und Saisonalität Fehlerstruktur Statistik II (1/31) Wiederholung Literatur -Daten Trends und Saisonalität Fehlerstruktur Statistik II (1/31) Zum Nachlesen

Mehr

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Methoden Quantitative Datenanalyse

Methoden Quantitative Datenanalyse Leitfaden Universität Zürich ISEK - Andreasstrasse 15 CH-8050 Zürich Telefon +41 44 635 22 11 Telefax +41 44 635 22 19 www.isek.uzh.ch 11. September 2014 Methoden Quantitative Datenanalyse Vorbereitung

Mehr

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.1 Schätzer für Lage- und Skalenparameter und Verteilungsmodellwahl Lageparameter (l(x + a) = l(x) + a): Erwartungswert EX Median von X

Mehr

Kapitel 3: Interpretationen

Kapitel 3: Interpretationen Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...

Mehr

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007 Wirtschaftswissenschaftliches Prüfungsamt DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 006/07 8.0.007 Lösung Prof. Dr. R Friedmann / Dr. R. Hauser Hinweise für die Klausurteilnehmer

Mehr

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang.

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang. Lehrstuhl für Statistik und empirische irtschaftsforschung, SS 2009 ach: Prüfer: Bachelorprüfung Praxis der empirischen irtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname Matrikelnr. E-Mail

Mehr

Einfache statistische Testverfahren

Einfache statistische Testverfahren Einfache statistische Testverfahren Johannes Hain Lehrstuhl für Mathematik VIII (Statistik) 1/29 Hypothesentesten: Allgemeine Situation Im Folgenden wird die statistische Vorgehensweise zur Durchführung

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe 2011. Institut für Statistik Ludwig-Maximilians-Universität München

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe 2011. Institut für Statistik Ludwig-Maximilians-Universität München Gemischte Modelle Fabian Scheipl, Sonja Greven Institut für Statistik Ludwig-Maximilians-Universität München SoSe 2011 Inhalt Amsterdam-Daten: LMM Amsterdam-Daten: GLMM Blutdruck-Daten Amsterdam-Daten:

Mehr

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert. Konstante Modelle: In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert. Der prognostizierte Wert für die Periode T+i entspricht

Mehr

ˆ Einfaches Varianzanalysemodell (X ist kategoriell) ˆ Poisson Mehrgruppenmodell (Y ist ganzzahlig, X ist kategoriell) P Y ( X = x) = P o(λ x )

ˆ Einfaches Varianzanalysemodell (X ist kategoriell) ˆ Poisson Mehrgruppenmodell (Y ist ganzzahlig, X ist kategoriell) P Y ( X = x) = P o(λ x ) apitel 4 Regression 4.1 Allgemeines Regressionsmodell Oft werden in der Statistik die Abhängigkeiten einer Variable Y (genannt Zielgröße oder Variable) von Einflüssen X 1,..., X d (genannt unabhängigen

Mehr

Wahrscheinlichkeitsrechnung und Statistik für Biologen Einführung: Deskriptive Statistik

Wahrscheinlichkeitsrechnung und Statistik für Biologen Einführung: Deskriptive Statistik Wahrscheinlichkeitsrechnung und Statistik für Biologen Einführung: Deskriptive Statistik Martin Hutzenthaler & Dirk Metzler 17. April 2012 Inhaltsverzeichnis 1 Einführung 1 1.1 Konzept und Quellen.........................................

Mehr

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Kap. 9: Regression mit einer binären abhängigen Variablen

Kap. 9: Regression mit einer binären abhängigen Variablen Kap. 9: Regression mit einer binären abhängigen Variablen Motivation Lineares Wahrscheinlichkeitsmodell Probit- und Logit-Regression Maximum Likelihood Empirisches Beispiel: Analyse der HMDA-Daten Ausblick:

Mehr

Einfache Modelle für Paneldaten. Statistik II

Einfache Modelle für Paneldaten. Statistik II Einfache Modelle für daten Statistik II Wiederholung Literatur daten Policy-Analyse II: Statistik II daten (1/18) Literatur Zum Nachlesen Einfache Modelle für daten Wooldridge ch. 13.1-13.4 (im Reader)

Mehr

EINFACHE LINEARE REGRESSION MODUL 13 PROSEMINAR DESKRIPTIVE STATISTIK ANALYSE UND DARSTELLUNG VON DATEN I GÜNTER HAIDER WS 1999/2000

EINFACHE LINEARE REGRESSION MODUL 13 PROSEMINAR DESKRIPTIVE STATISTIK ANALYSE UND DARSTELLUNG VON DATEN I GÜNTER HAIDER WS 1999/2000 INSTITUT FÜR ERZIEHUNGSWISSENSCHAFT - UNIVERSITÄT SALZBURG PROSEMINAR DESKRIPTIVE STATISTIK ANALYSE UND DARSTELLUNG VON DATEN I GÜNTER HAIDER WS 1999/2 MODUL 13 EINFACHE LINEARE REGRESSION Erziehungswissenschaft/Haider

Mehr

5 Varianzanalytische Modelle, komplexere lineare Modell und Random Models

5 Varianzanalytische Modelle, komplexere lineare Modell und Random Models 5 Varianzanalytische Modelle, komplexere lineare Modell und Random Models Auch in diesem Kapitel werden nur wenige statistische Hintergründe geliefert. Der Fokus des Kapitels liegt in der Einübung der

Mehr

Aufgabe 1 10 ECTS. y i x j gering mittel hoch n i Hausrat 200 25 0 225 KFZ 0 10 75 85 Unfall 20 35 90 145 Reiserücktritt 40 5 0 45 n j 260 75 165 500

Aufgabe 1 10 ECTS. y i x j gering mittel hoch n i Hausrat 200 25 0 225 KFZ 0 10 75 85 Unfall 20 35 90 145 Reiserücktritt 40 5 0 45 n j 260 75 165 500 Aufgabe 1 Für die Securance-Versicherung liegen Ihnen die gemeinsamen absoluten Häugkeiten der Merkmale X: Schadenshöhe und Y : Versicherungsart für die letzten 500 gemeldeten Schäden vor. 1. Interpretieren

Mehr

Multivariate Analyse: Einführung in das COX-Modell

Multivariate Analyse: Einführung in das COX-Modell Auswertung Multivariate Analyse: Einführung in das COX-Modell Deskriptive Statistik Häufigkeiten, Univariate Statistiken, Explorative Datenanalyse, Kreuztabellen) Induktive Statistik, Vergleich von Mittelwerten

Mehr

13.5 Der zentrale Grenzwertsatz

13.5 Der zentrale Grenzwertsatz 13.5 Der zentrale Grenzwertsatz Satz 56 (Der Zentrale Grenzwertsatz Es seien X 1,...,X n (n N unabhängige, identisch verteilte zufällige Variablen mit µ := EX i ; σ 2 := VarX i. Wir definieren für alle

Mehr

Statistik I für Betriebswirte Vorlesung 2

Statistik I für Betriebswirte Vorlesung 2 Statistik I für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 16. April 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 2 1 ii) empirische

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen Univariate/ multivariate Ansätze Klaus D. Kubinger Effektgrößen Rasch, D. & Kubinger, K.D. (2006). Statistik für das Psychologiestudium Mit Softwareunter-stützung zur Planung und Auswertung von Untersuchungen

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr