Wahrscheinlichkeitsrechnung und Statistik für Biologen 9. Lineare Regression
|
|
- Ella Fuhrmann
- vor 6 Jahren
- Abrufe
Transkript
1 Wahrscheinlichkeitsrechnung und Statistik für Biologen 9. Lineare Regression Matthias Birkner & Dirk Metzler Juni 2009
2 Übersicht 1 Lineare Regression: wozu und wie? 2 t-test fuer lineare Zusammenhänge 3 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Beispiel: Mortalität und Einwohnerzahl
3 Übersicht Lineare Regression: wozu und wie? 1 Lineare Regression: wozu und wie? 2 t-test fuer lineare Zusammenhänge 3 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Beispiel: Mortalität und Einwohnerzahl
4 Lineare Regression: wozu und wie? Englisch: Griffon Vulture Gypus fulvus Ga nsegeier photo (c) by Jo rg Hempel
5 Lineare Regression: wozu und wie? Prinzinger, R., E. Karl, R. Bögel, Ch. Walzer (1999): Energy metabolism, body temperature, and cardiac work in the Griffon vulture Gyps vulvus - telemetric investigations in the laboratory and in the field. Zoology 102, Suppl. II: 15 Daten aus der Arbeitsgruppe Stoffwechselphysiologie (Prof. Prinzinger) der Frankfurter Goethe-Universität. Telemetrisches System zur Messung der Herzfrequenz bei Vögeln auch während des Fluges.
6 Lineare Regression: wozu und wie? Prinzinger, R., E. Karl, R. Bögel, Ch. Walzer (1999): Energy metabolism, body temperature, and cardiac work in the Griffon vulture Gyps vulvus - telemetric investigations in the laboratory and in the field. Zoology 102, Suppl. II: 15 Daten aus der Arbeitsgruppe Stoffwechselphysiologie (Prof. Prinzinger) der Frankfurter Goethe-Universität. Telemetrisches System zur Messung der Herzfrequenz bei Vögeln auch während des Fluges. Wichtig für ökologische Fragen: die Stoffwechselrate
7 Lineare Regression: wozu und wie? Prinzinger, R., E. Karl, R. Bögel, Ch. Walzer (1999): Energy metabolism, body temperature, and cardiac work in the Griffon vulture Gyps vulvus - telemetric investigations in the laboratory and in the field. Zoology 102, Suppl. II: 15 Daten aus der Arbeitsgruppe Stoffwechselphysiologie (Prof. Prinzinger) der Frankfurter Goethe-Universität. Telemetrisches System zur Messung der Herzfrequenz bei Vögeln auch während des Fluges. Wichtig für ökologische Fragen: die Stoffwechselrate Messung der Stoffwechselrate aufwändig und nur im Labor möglich.
8 Lineare Regression: wozu und wie? Prinzinger, R., E. Karl, R. Bögel, Ch. Walzer (1999): Energy metabolism, body temperature, and cardiac work in the Griffon vulture Gyps vulvus - telemetric investigations in the laboratory and in the field. Zoology 102, Suppl. II: 15 Daten aus der Arbeitsgruppe Stoffwechselphysiologie (Prof. Prinzinger) der Frankfurter Goethe-Universität. Telemetrisches System zur Messung der Herzfrequenz bei Vögeln auch während des Fluges. Wichtig für ökologische Fragen: die Stoffwechselrate Messung der Stoffwechselrate aufwändig und nur im Labor möglich. Können wir von der Herzfrequenz auf die Stoffwechselrate schließen?
9 Lineare Regression: wozu und wie? griffon vulture, , 16 degrees C metabolic rate [J/(g*h)] heart beats [per minute]
10 Lineare Regression: wozu und wie? griffon vulture, , 16 degrees C metabolic rate [J/(g*h)] heart beats [per minute]
11 Lineare Regression: wozu und wie? 0 0
12 Lineare Regression: wozu und wie? y 3 y 2 y x x x 1 2 3
13 Lineare Regression: wozu und wie? y 3 y 2 y 1 b Achsenabschnitt 0 0 x x x 1 2 3
14 Lineare Regression: wozu und wie? y 3 m Steigung y 2 1 y 1 b Achsenabschnitt 0 0 x x x 1 2 3
15 Lineare Regression: wozu und wie? y 3 m Steigung y 2 y 1 1 y=mx+b b Achsenabschnitt 0 0 x x x 1 2 3
16 Lineare Regression: wozu und wie? y 3 m Steigung y 2 y 1 y y m= 2 1 x x 2 1 x x 2 1 y y y=mx+b b Achsenabschnitt 0 0 x x x 1 2 3
17 Lineare Regression: wozu und wie? y 3 b slope y 2 y 1 y=a+bx a intercept 0 0 x x x 1 2 3
18 Lineare Regression: wozu und wie? 0 0
19 Lineare Regression: wozu und wie? 0 0
20 Lineare Regression: wozu und wie? r n r 1 r 3 r i r 2 0 0
21 Lineare Regression: wozu und wie? r n r 1 r 3 r i r 2 Residuen r = y (a+bx ) i i i 0 0
22 Lineare Regression: wozu und wie? r n r 1 r 3 r i r 2 Residuen r = y (a+bx ) i i i Wähle die Gerade so, dass die Summe der quadrierten Residuen minimal wird! 0 r 2+ r r n 0
23 Lineare Regression: wozu und wie? Definiere die Regressiosgerade y = â + ˆb x durch die Minimierung der Summe der quadrierten Residuen: (â, ˆb) = arg min (y i (a + b x i )) 2 (a,b) Dahinter steckt die Modellvorstellung, dass Werte a, b existieren, so dass für alle Datenpaare (x i, y i ) gilt i y i = a + b x i + ε i, wobei alle ε i unabhängig und normalverteilt sind und alle dieselbe Varianz σ 2 haben.
24 Lineare Regression: wozu und wie? gegebene Daten: Y X y 1 x 1 y 2 x 2 y 3 x 3.. y n x n
25 Lineare Regression: wozu und wie? gegebene Daten: Y X y 1 x 1 y 2 x 2 y 3 x 3.. Modell: es gibt Zahlen a, b, σ 2, so dass y 1 = a + b x 1 + ε 1 y 2 = a + b x 2 + ε 2 y 3 = a + b x 3 + ε 3.. y n x n y n = a + b x n + ε n
26 Lineare Regression: wozu und wie? gegebene Daten: Y X y 1 x 1 y 2 x 2 y 3 x 3.. Modell: es gibt Zahlen a, b, σ 2, so dass y 1 = a + b x 1 + ε 1 y 2 = a + b x 2 + ε 2 y 3 = a + b x 3 + ε 3.. y n x n y n = a + b x n + ε n Dabei sind ε 1, ε 2,..., ε n unabhängig N (0, σ 2 ).
27 Lineare Regression: wozu und wie? gegebene Daten: Y X y 1 x 1 y 2 x 2 y 3 x 3.. Modell: es gibt Zahlen a, b, σ 2, so dass y 1 = a + b x 1 + ε 1 y 2 = a + b x 2 + ε 2 y 3 = a + b x 3 + ε 3.. y n x n y n = a + b x n + ε n Dabei sind ε 1, ε 2,..., ε n unabhängig N (0, σ 2 ). y 1, y 2,..., y n sind unabhängig y i N (a + b x i, σ 2 ).
28 Lineare Regression: wozu und wie? gegebene Daten: Y X y 1 x 1 y 2 x 2 y 3 x 3.. Modell: es gibt Zahlen a, b, σ 2, so dass y 1 = a + b x 1 + ε 1 y 2 = a + b x 2 + ε 2 y 3 = a + b x 3 + ε 3.. y n x n y n = a + b x n + ε n Dabei sind ε 1, ε 2,..., ε n unabhängig N (0, σ 2 ). y 1, y 2,..., y n sind unabhängig y i N (a + b x i, σ 2 ). a, b, σ 2 sind unbekannt, aber nicht zufällig.
29 Lineare Regression: wozu und wie? Wir schätzen a und b, indem wir (â, ˆb) := arg min (y i (a + b x i )) 2 berechnen. (a,b) i
30 Lineare Regression: wozu und wie? Wir schätzen a und b, indem wir (â, ˆb) := arg min (y i (a + b x i )) 2 berechnen. (a,b) i Theorem Man â und ˆb berechnen durch i ˆb = (y i ȳ) (x i x) i (x = i x) 2 und â = ȳ ˆb x. i y i (x i x) i (x i x) 2
31 Lineare Regression: wozu und wie? Wir schätzen a und b, indem wir (â, ˆb) := arg min (y i (a + b x i )) 2 berechnen. (a,b) i Theorem Man â und ˆb berechnen durch i ˆb = (y i ȳ) (x i x) i (x = i x) 2 und â = ȳ ˆb x. i y i (x i x) i (x i x) 2 Bitte merken: Die Gerade y = â + ˆb x geht genau durch den Schwerpunkt der Punktwolke (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ).
32 Lineare Regression: wozu und wie? Beweisskizze zum Theorem Sei g(a, b) = i (y i (a + b x i )) 2. Wir optimieren g, indem wir die Ableitungen von g g(a, b) a g(a, b) b = i = i 2 (y i (a + bx i )) ( 1) 2 (y i (a + bx i )) ( x i ) nach beiden Variablen auf 0 setzen, und erhalten: 0 = i 0 = i (y i (â + ˆbx i )) ( 1) (y i (â + ˆbx i )) ( x i )
33 Lineare Regression: wozu und wie? 0 = i (y i (â + ˆbx i )) 0 = i (y i (â + ˆbx i )) x i kann man ausmultiplizieren zu ( ) ( ) 0 = y i n â ˆb x i 0 = i ( ) ( ) ( y i x i â x i ˆb i i i i x 2 i ) und das Theorem folgt durch Auflösen nach â und ˆb.
34 Lineare Regression: wozu und wie? vulture day heartbpm metabol mintemp maxtemp medtemp / / / / / / / / / / / (14 different days)
35 Lineare Regression: wozu und wie? > model <- lm(metabol~heartbpm,data=vulture, subset=day=="17.05.") > summary(model) Call: lm(formula = metabol ~ heartbpm, data = vulture, subset = day == "17.05.") Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-08 *** heartbpm e-14 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 17 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 17 DF, p-value: 2.979e-14
36 Lineare Regression: wozu und wie? Optimierung der Gelegegröße Beispiel: Der Erbsensamenkäfer Callosobruchus maculatus englisch: Cowpea weevil oder auch bruchid beetle
37 Lineare Regression: wozu und wie? Optimierung der Gelegegröße Beispiel: Der Erbsensamenkäfer Callosobruchus maculatus englisch: Cowpea weevil oder auch bruchid beetle Wilson, K. (1994) Evolution of clutch size in insects. II. A test of static optimality models using the beetle Callosobruchus maculatus (Coleoptera: Bruchidae). Journal of Evolutionary Biology 7: Wie hängt die Überlebenswahrscheinlichkeit von der Gelegegröße ab?
38 Lineare Regression: wozu und wie? Optimierung der Gelegegröße Beispiel: Der Erbsensamenkäfer Callosobruchus maculatus englisch: Cowpea weevil oder auch bruchid beetle Wilson, K. (1994) Evolution of clutch size in insects. II. A test of static optimality models using the beetle Callosobruchus maculatus (Coleoptera: Bruchidae). Journal of Evolutionary Biology 7: Wie hängt die Überlebenswahrscheinlichkeit von der Gelegegröße ab? Mit welcher Gelegegröße wird die erwartete Anzahl Nachkommen optimiert?
39 Lineare Regression: wozu und wie? viability clutchsize
40 Lineare Regression: wozu und wie? viability clutchsize
41 Lineare Regression: wozu und wie? clutchsize * viability clutchsize
42 Lineare Regression: wozu und wie? clutchsize * viability clutchsize
43 Übersicht t-test fuer lineare Zusammenhänge 1 Lineare Regression: wozu und wie? 2 t-test fuer lineare Zusammenhänge 3 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Beispiel: Mortalität und Einwohnerzahl
44 t-test fuer lineare Zusammenhänge Beispiel: Rothirsch (Cervus elaphus) Theorie: Hirschkühe können das Geschlecht ihrer Nachkommen beeinflussen.
45 t-test fuer lineare Zusammenhänge Beispiel: Rothirsch (Cervus elaphus) Theorie: Hirschkühe können das Geschlecht ihrer Nachkommen beeinflussen. Unter dem Gesichtspunkt evolutionär stabiler Strategien ist zu erwarten, dass schwache Tiere eher zu weiblichem und starke Tiere eher zu männlichem Nachwuchs tendieren. Clutton-Brock, T. H., Albon, S. D., Guinness, F. E. (1986) Great expectations: dominance, breeding success and offspring sex ratios in red deer. Anim. Behav. 34,
46 t-test fuer lineare Zusammenhänge > hind rank ratiomales ACHTUNG: Simulierte Daten, die sich an den Daten aus der Originalpublikation lediglich orientieren.
47 t-test fuer lineare Zusammenhänge hind$rank hind$ratiomales
48 t-test fuer lineare Zusammenhänge hind$rank hind$ratiomales
49 t-test fuer lineare Zusammenhänge > mod <- lm(ratiomales~rank,data=hind) > summary(mod) Call: lm(formula = ratiomales ~ rank, data = hind) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-06 *** rank e-09 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 52 degrees of freedom Multiple R-squared: , Adjusted R-squared:
50 t-test fuer lineare Zusammenhänge Modell: Y = a + b X + ε mit ε N (0, σ 2 )
51 t-test fuer lineare Zusammenhänge Modell: Y = a + b X + ε mit ε N (0, σ 2 ) Wie berechnet man die Signifikanz eines Zusammenhangs zwischen dem erklärenden Merkmal X und der Zielgröße Y?
52 t-test fuer lineare Zusammenhänge Modell: Y = a + b X + ε mit ε N (0, σ 2 ) Wie berechnet man die Signifikanz eines Zusammenhangs zwischen dem erklärenden Merkmal X und der Zielgröße Y? Anders formuliert: Mit welchem Test können wir der Nullhypothese b = 0 zu Leibe rücken?
53 t-test fuer lineare Zusammenhänge Modell: Y = a + b X + ε mit ε N (0, σ 2 ) Wie berechnet man die Signifikanz eines Zusammenhangs zwischen dem erklärenden Merkmal X und der Zielgröße Y? Anders formuliert: Mit welchem Test können wir der Nullhypothese b = 0 zu Leibe rücken? Wir haben b durch ˆb geschätzt (und gehen jetzt mal von ˆb 0 aus). Könnte das wahre b auch 0 sein?
54 t-test fuer lineare Zusammenhänge Modell: Y = a + b X + ε mit ε N (0, σ 2 ) Wie berechnet man die Signifikanz eines Zusammenhangs zwischen dem erklärenden Merkmal X und der Zielgröße Y? Anders formuliert: Mit welchem Test können wir der Nullhypothese b = 0 zu Leibe rücken? Wir haben b durch ˆb geschätzt (und gehen jetzt mal von ˆb 0 aus). Könnte das wahre b auch 0 sein? Wie groß ist der Standardfehler unserer Schätzung ˆb?
55 t-test fuer lineare Zusammenhänge y i = a + b x i + ε mit ε N (0, σ 2 ) nicht zufällig: a, b, x i, σ 2 zufällig: ε, y i var(y i ) = var(a + b x i + ε) = var(ε) = σ 2 und y 1, y 2,..., y n sind stochastisch unabhängig.
56 t-test fuer lineare Zusammenhänge nicht zufällig: a, b, x i, σ 2 y i = a + b x i + ε mit ε N (0, σ 2 ) zufällig: ε, y i var(y i ) = var(a + b x i + ε) = var(ε) = σ 2 und y 1, y 2,..., y n sind stochastisch unabhängig. ˆb = i y i(x i x) i (x i x) 2
57 t-test fuer lineare Zusammenhänge nicht zufällig: a, b, x i, σ 2 y i = a + b x i + ε mit ε N (0, σ 2 ) zufällig: ε, y i var(y i ) = var(a + b x i + ε) = var(ε) = σ 2 und y 1, y 2,..., y n sind stochastisch unabhängig. ˆb = i y i(x i x) i (x i x) 2 ( var(ˆb) = var i y ) i(x i x) i (x i x) 2 = var ( i y i(x i x)) ( i (x i x) 2 ) 2
58 t-test fuer lineare Zusammenhänge nicht zufällig: a, b, x i, σ 2 y i = a + b x i + ε mit ε N (0, σ 2 ) zufällig: ε, y i var(y i ) = var(a + b x i + ε) = var(ε) = σ 2 und y 1, y 2,..., y n sind stochastisch unabhängig. ˆb = i y i(x i x) i (x i x) 2 ( var(ˆb) = var i y ) i(x i x) i (x = var ( i y i(x i x)) i x) 2 ( i (x i x) 2 ) 2 i = var (y i) (x i x) 2 i ( i (x = σ 2 (x i x) 2 i x) 2 ) 2 ( i (x i x) 2 ) 2
59 t-test fuer lineare Zusammenhänge nicht zufällig: a, b, x i, σ 2 y i = a + b x i + ε mit ε N (0, σ 2 ) zufällig: ε, y i var(y i ) = var(a + b x i + ε) = var(ε) = σ 2 und y 1, y 2,..., y n sind stochastisch unabhängig. ˆb = i y i(x i x) i (x i x) 2 ( var(ˆb) = var i y ) i(x i x) i (x = var ( i y i(x i x)) i x) 2 ( i (x i x) 2 ) 2 i = var (y i) (x i x) 2 i ( i (x = σ 2 (x i x) 2 i x) 2 ) 2 ( i (x i x) 2 ) 2 = σ 2 / i (x i x) 2
60 t-test fuer lineare Zusammenhänge Tatsächlich ist ˆb Normalverteilt mit Mittelwert b und var(ˆb) = σ 2 / i (x i x) 2
61 t-test fuer lineare Zusammenhänge Tatsächlich ist ˆb Normalverteilt mit Mittelwert b und var(ˆb) = σ 2 / i (x i x) 2 Problem: Wir kennen σ 2 nicht.
62 t-test fuer lineare Zusammenhänge Tatsächlich ist ˆb Normalverteilt mit Mittelwert b und var(ˆb) = σ 2 / i (x i x) 2 Problem: Wir kennen σ 2 nicht. Wir schätzen σ 2 mit Hilfe der beobachten Residuenvarianz durch s 2 i (y i â ˆb ) 2 x i := n 2
63 t-test fuer lineare Zusammenhänge Tatsächlich ist ˆb Normalverteilt mit Mittelwert b und var(ˆb) = σ 2 / i (x i x) 2 Problem: Wir kennen σ 2 nicht. Wir schätzen σ 2 mit Hilfe der beobachten Residuenvarianz durch s 2 i (y i â ˆb ) 2 x i := n 2 Zu beachten ist, dass durch n 2 geteilt wird. Das hat damit zu tun, dass zwei Modellparameter a und b bereit geschätzt wurden, und somit 2 Freiheitsgrade verloren gegangen sind.
64 t-test fuer lineare Zusammenhänge var(ˆb) = σ 2 / i (x i x) 2 Schätze σ 2 durch Dann ist s 2 = i (y i â ˆb ) 2 x i n 2 ˆb b / s i (x i x) 2 Student-t-verteilt mit n 2 Freiheitsgraden und wir können den t-test anwenden, um die Nullhypothese b = 0 zu testen.
65 Übersicht Skalierung der Daten 1 Lineare Regression: wozu und wie? 2 t-test fuer lineare Zusammenhänge 3 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Beispiel: Mortalität und Einwohnerzahl
66 Übersicht Skalierung der Daten Beispiel: Körper- und Gehirngewicht 1 Lineare Regression: wozu und wie? 2 t-test fuer lineare Zusammenhänge 3 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Beispiel: Mortalität und Einwohnerzahl
67 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Daten: Typisches Körpergewicht [kg] und Gehirngewicht [g] von 62 Säugetierarten (und 3 Dinosaurierarten) > data weight.kg. brain.weight.g species extinct african elephant no no no no asian elephant no no no no cat no chimpanzee no
68 Skalierung der Daten Beispiel: Körper- und Gehirngewicht typische Werte bei 62 Saeugeierarten Gehirngewicht [g] Koerpergewicht [kg]
69 Skalierung der Daten Beispiel: Körper- und Gehirngewicht typische Werte bei 65 Saeugeierarten african elephant asian elephant Gehirngewicht [g] 1e 01 1e+00 1e+01 1e+02 1e+03 mouse giraffe horse chimpanzee donkey cow rhesus monkey sheep jaguar pig potar monkey grey goat wolf kangaroo cat rabbit mountain beaver guinea pig mole rat hamster human Triceratops Diplodocus 1e 02 1e+00 1e+02 1e+04 Brachiosa Koerpergewicht [kg]
70 Skalierung der Daten Beispiel: Körper- und Gehirngewicht 1e 02 1e+00 1e+02 1e+04 1e 01 1e+00 1e+01 1e+02 1e+03 typische Werte bei 65 Saeugeierarten Koerpergewicht [kg] Gehirngewicht [g]
71 Skalierung der Daten Beispiel: Körper- und Gehirngewicht > modell <- lm(brain.weight.g~weight.kg.,subset=extinct=="no") > summary(modell) Call: lm(formula = brain.weight.g ~ weight.kg., subset = extinct == "no") Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) * weight.kg <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 60 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 60 DF, p-value: < 2.2e-16
72 Skalierung der Daten Beispiel: Körper- und Gehirngewicht qqnorm(modell$residuals) Normal Q Q Plot Sample Quantiles Theoretical Quantiles
73 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(modell$fitted.values,modell$residuals) modell$residuals e 02 1e+00 1e+02 1e+04 modell$model$weight.kg.
74 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(modell$fitted.values,modell$residuals,log= x ) modell$residuals modell$fitted.values
75 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(modell$model$weight.kg.,modell$residuals) modell$residuals modell$model$weight.kg.
76 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(modell$model$weight.kg.,modell$residuals,log= x ) modell$residuals e 02 1e+00 1e+02 1e+04 modell$model$weight.kg.
77 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Wir sehen, dass die Varianz der Residuen von den angepassten Werten bzw. dem Körpergewicht abhängt. Man sagt, es liegt Heteroskedastizität vor.
78 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Wir sehen, dass die Varianz der Residuen von den angepassten Werten bzw. dem Körpergewicht abhängt. Man sagt, es liegt Heteroskedastizität vor. Das Modell geht aber von Homoskedastizität aus, d.h. die Residuenvarianz soll von den erklärenden Merkmalen (dem Körpergewicht) und den angepassten Werten (annähernd) unabhängig sein.
79 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Wir sehen, dass die Varianz der Residuen von den angepassten Werten bzw. dem Körpergewicht abhängt. Man sagt, es liegt Heteroskedastizität vor. Das Modell geht aber von Homoskedastizität aus, d.h. die Residuenvarianz soll von den erklärenden Merkmalen (dem Körpergewicht) und den angepassten Werten (annähernd) unabhängig sein. Varianzstabilisierende Transformation: Wie können wir die Körper- und Hirnmasse umskalieren, um Homoskedastizität zu erreichen?
80 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Eigentlich ist es ja offensichtlich: Bei Elefanten kann das typischerweise 5 kg schwere Hirn je nach Individuum auch mal 500 g schwerer oder leichter sein. Wenn bei einer Tierart das Hirn typischerweise 5 g schwer ist, wird es nicht um 500 g variieren können, sondern vielleicht ebenfalls um 10%, also ±0.5 g. Die Varianz ist hier also nicht additiv, sondern multiplikatiiv: Hirnmasse = (erwartete Hirnmasse) Zufall Das können wir aber in etwas mit additivem Zufallterm umwandeln, indem wir auf beiden Seiten den (natürlichen) Logarithmus ziehen: log(hirnmasse) = log(erwartete Hirnmasse) + log(zufall)
81 Skalierung der Daten Beispiel: Körper- und Gehirngewicht > logmodell <- lm(log(brain.weight.g)~log(weight.kg.),subset=e > summary(logmodell) Call: lm(formula = log(brain.weight.g) ~ log(weight.kg.), subset = e "no") Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** log(weight.kg.) <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 60 degrees of freedom Multiple R-squared: , Adjusted R-squared:
82 Skalierung der Daten Beispiel: Körper- und Gehirngewicht qqnorm(modell$residuals) Normal Q Q Plot Theoretical Quantiles Sample Quantiles
83 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(logmodell$fitted.values,logmodell$residuals) logmodell$fitted.values logmodell$residuals
84 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(logmodell$fitted.values,logmodell$residuals,log= x ) 1e 03 1e 02 1e 01 1e+00 1e logmodell$fitted.values logmodell$residuals
85 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(weight.kg.[extinct== no ],logmodell$residuals) weight.kg.[extinct == "no"] logmodell$residuals
86 Skalierung der Daten Beispiel: Körper- und Gehirngewicht plot(weight.kg.[extinct= no ],logmodell$residuals,log= x ) 1e 02 1e+00 1e+02 1e weight.kg.[extinct == "no"] logmodell$residuals
87 Übersicht Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl 1 Lineare Regression: wozu und wie? 2 t-test fuer lineare Zusammenhänge 3 Skalierung der Daten Beispiel: Körper- und Gehirngewicht Beispiel: Mortalität und Einwohnerzahl
88 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Daten: Für 301 US-amerikanische Landkreise (Counties) die Anzahl weißer Einwohnerinnen von 1960 und die Anzahl der Bruskrebstoten aus dieser Gruppe zwischen 1950 und (Aus Rice (2007) Mathematical Statistics and Data Analysis.) > canc deaths inhabitants
89 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Fragestellung: Ist die durchschnittliche Anzahl an Todesopfer proportional zur Einwohnerzahl, d.h. Edeaths = b inhabitants oder hängt das Krebsrisiko von der Größe des Bezirks ab (evtl. wegen Urbanität), so dass ein anderes Modell besser passt? z.b. Edeaths = a + b inhabitants mit a 0.
90 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl > modell <- lm(deaths~inhabitants,data=canc) > summary(modell) Call: lm(formula = deaths ~ inhabitants, data = canc) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e e inhabitants 3.578e e <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: 13 on 299 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 4315 on 1 and 299 DF, p-value: < 2.2e-16
91 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Die additive Konstante ( Achsenabschnitt ) wir auf geschätzt, ist aber nicht signifikant von 0 verschieden.
92 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Die additive Konstante ( Achsenabschnitt ) wir auf geschätzt, ist aber nicht signifikant von 0 verschieden. Man kann also nicht die Nullhypothese verwerfen, dass das Krebsrisiko von der Größe des Bezirks unabhängig ist.
93 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Die additive Konstante ( Achsenabschnitt ) wir auf geschätzt, ist aber nicht signifikant von 0 verschieden. Man kann also nicht die Nullhypothese verwerfen, dass das Krebsrisiko von der Größe des Bezirks unabhängig ist. Aber passt das Modell eigentlich?
94 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl qqnorm(modell$residuals) Normal Q Q Plot Sample Quantiles Theoretical Quantiles
95 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl plot(modell$fitted.values,modell$residuals) modell$residuals modell$fitted.values
96 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl plot(modell$fitted.values,modell$residuals,log= x ) modell$residuals modell$fitted.values
97 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl plot(canc$inhabitants,modell$residuals,log= x ) modell$residuals e+02 2e+03 5e+03 2e+04 5e+04 canc$inhabitants
98 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Wir sehen, dass die Varianz der Residuen von den angepassten Werten bzw. der Einwohnerzahl abhängt. Man sagt, es liegt Heteroskedastizität vor.
99 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Wir sehen, dass die Varianz der Residuen von den angepassten Werten bzw. der Einwohnerzahl abhängt. Man sagt, es liegt Heteroskedastizität vor. Das Modell geht aber von Homoskedastizität aus, d.h. die Residuenvarianz soll von den erklärenden Merkmalen (der Einwohnerzahl) und den angepassten Werten (annähernd) unabhängig sein.
100 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Wir sehen, dass die Varianz der Residuen von den angepassten Werten bzw. der Einwohnerzahl abhängt. Man sagt, es liegt Heteroskedastizität vor. Das Modell geht aber von Homoskedastizität aus, d.h. die Residuenvarianz soll von den erklärenden Merkmalen (der Einwohnerzahl) und den angepassten Werten (annähernd) unabhängig sein. Varianzstabilisierende Transformation: Wie können wir die Einwohnerzahl und die Anzahl der Todesfälle umskalieren, um Homoskedastizität zu erreichen?
101 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Woher kommt die Abhängigkeit der Varianz von der Einwohnerzahl?
102 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Woher kommt die Abhängigkeit der Varianz von der Einwohnerzahl? Ist n die Anzahl der (weißen) Einwohnerinnen und p die Wahrscheinlichkeit, innerhalb von 10 Jahren an Bruskrebs zu sterben, so ist np die erwartete Anzahl solcher Todesfälle, und die Varianz ist n p (1 p) n p (Approximation der Binomial- durch die Poissonverteilung bietet sich an). Die Standardabweichung ist also n p.
103 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Woher kommt die Abhängigkeit der Varianz von der Einwohnerzahl? Ist n die Anzahl der (weißen) Einwohnerinnen und p die Wahrscheinlichkeit, innerhalb von 10 Jahren an Bruskrebs zu sterben, so ist np die erwartete Anzahl solcher Todesfälle, und die Varianz ist n p (1 p) n p (Approximation der Binomial- durch die Poissonverteilung bietet sich an). Die Standardabweichung ist also n p. In einem solchen Fall kann man die Varianz annähernd stabilisieren, indem man sowohl das erklärende Merkmal als auch die Zielgröße durch Wurzelziehen stabilisiert.
104 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Für alle, die es etwas genauer wissen wollen: y = b x + ε y = (b x + ε) 2 = b 2 x + 2 b x ε + ε 2 Die Standardabweichung ist hier nicht genau proportional zu x, aber zumindest hat der Teil 2 b x ε hat eine zu x proportionale Standardabweichung, nämlich 2 b x σ. Der Term ε 2 ist hingegen das σ 2 -fache einer χ 2 1 -verteilten Zufallsvariablen und hat Standardabweichung σ 2 2. Zumindest wenn σ sehr klein ist im Vergleich zu b x, gilt also die Approximation y b 2 x + 2 b x ε und die Standardabweichung von y ist ungefähr proportional zu x.
105 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl > modellsq <- lm(sqrt(deaths~sqrt(inhabitants),data=canc) > summary(modellsq) Call: lm(formula = sqrt(deaths) ~ sqrt(inhabitants), data = canc) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) sqrt(inhabitants) <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 299 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 4051 on 1 and 299 DF, p-value: < 2.2e-16
106 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl qqnorm(modell$residuals) Normal Q Q Plot Sample Quantiles Theoretical Quantiles
107 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl plot(modellsq$fitted.values,modellsq$residuals,log= x ) plot(canc$inhabitants,modellsq$residuals,log= x ) modellsq$fitted.values modellsq$residuals 5e+02 2e+03 5e+03 2e+04 5e canc$inhabitants modellsq$residuals
108 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Der QQ-Plot mit der Normalverteilung sieht nicht perfekt aus, aber immerhin ist die Varianz stabilisiert.
109 Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Der QQ-Plot mit der Normalverteilung sieht nicht perfekt aus, aber immerhin ist die Varianz stabilisiert. Das Ergebnis bleibt aber dasselbe: Der Intercept ist nicht signifikant von 0 verschieden. Also kann der erwartete Wert von y proportional zu x sein, was bedeutet, dass auch der erwartete Wert von y ungefähr (!) proportional zu x ist. Also gibt es nach wie vor keinen deutlichen Hinweis auf eine Abhängigkeit zwischen der Einwohnerzahl und der Todesrate.
110 Schlusswort Skalierung der Daten Beispiel: Mortalität und Einwohnerzahl Manchmal ist die Suche nach einer geeigneten varianzstabilisierenden Transformation mit viel Herumprobieren verbunden. In vielen Fällen passt die log-transformation.
Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik
Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:
MehrVersuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann
Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Contents Aufgabe 1 1 b) Schätzer................................................. 3 c) Residuenquadratsummen........................................
MehrWeiterbildungskurs Stochastik
Hansruedi Künsch Seminar für Statistik Departement Mathematik, ETH Zürich 24. Juni 2009 Inhalt STATISTIK DER BINOMIALVERTEILUNG 1 STATISTIK DER BINOMIALVERTEILUNG 2 Fragestellungen Typische Fragestellungen
MehrLösung zu Kapitel 11: Beispiel 1
Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten
MehrLineare Modelle in R: Einweg-Varianzanalyse
Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der
MehrStatistik Einführung // Lineare Regression 9 p.2/72
Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression
MehrInhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1
Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...
MehrKorrelation - Regression. Berghold, IMI
Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines
Mehr1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen
Modelle mit Interationsvariablen I Modelle mit Interationsvariablen II In der beim White-Test verwendeten Regressionsfuntion y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 2 1 + β 4 x 2 2 + β 5 x 1 x 2, ist anders
MehrLineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)
Interdisziplinäres Seminar Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) WS 2008/09 19.11.2008 Julia Schiele und Lucie Wink Dozenten: Prof. Dr. Bühner, Prof. Dr. Küchenhoff
Mehr2. Korrelation, lineare Regression und multiple Regression
multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig
MehrKapitel 4: Binäre Regression
Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,
MehrBinäre abhängige Variablen
Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen
MehrModul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.
Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes
MehrKategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II
Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell
MehrProf. Dr. Karl-Werner Hansmann
Die Gelddruck-Maschine der Notenbanken ist für die Bekämpfung der Arbeitslosigkeit ungeeignet. von Prof. Dr. Karl-Werner Hansmann Universität Hamburg Vortrag beim Academic Network der Roland Berger School
MehrWahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test
Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) und der Wilcoxon-Test Dirk Metzler 22. Mai 2015 Inhaltsverzeichnis 1 Wiederholung:
MehrVarianzanalyse * (1) Varianzanalyse (2)
Varianzanalyse * (1) Einfaktorielle Varianzanalyse (I) Die Varianzanalyse (ANOVA = ANalysis Of VAriance) wird benutzt, um Unterschiede zwischen Mittelwerten von drei oder mehr Stichproben auf Signifikanz
MehrStatistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen" Dr. Uwe Waschatz
Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen" Dr. Uwe Waschatz Inhalt Problembeschreibung Multiple lineare Regressionsanalyse Statistische Versuchsplanung / Design of Experiments
Mehr9. Schätzen und Testen bei unbekannter Varianz
9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,
MehrEine Einführung in R: Statistische Tests
Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/
MehrKlausur Statistik Lösungshinweise
Klausur Statistik Lösungshinweise Prüfungsdatum: 1. Juli 2015 Prüfer: Etschberger, Heiden, Jansen Studiengang: IM und BW Aufgabe 1 14 Punkte Ein Freund von Ihnen hat über einen Teil seiner Daten, die er
MehrMultiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)
Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang
Mehr1 Statistische Grundlagen
Konzepte in Empirische Ökonomie 1 (Winter) Hier findest Du ein paar Tipps zu den Konzepten in Empirische 1. Wenn Du aber noch etwas Unterstützung kurz vor der Klausur brauchst, schreib uns eine kurze Email.
MehrBiostatistik, WS 2015/2016 Der zwei-stichproben-t-test
1/29 Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) Matthias Birkner http://www.staff.uni-mainz.de/birkner/biostatistik1516/ 11.12.2015 2/29 Inhalt 1 t-test
MehrNachholklausur STATISTIK II
Nachholklausur STATISTIK II Name, Vorname: Matrikel-Nr.: Die Klausur enthält zwei Typen von Aufgaben: T e i l A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens eine
MehrKategoriale abhängige Variablen:
Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell Statistik II
MehrMultidimensionale Paarvergleiche. Experten
Multidimensionale Paarvergleiche V l i h d Ri ik h h Kl i l d Vergleich der Risikowahrnehmung von Kleinanlegern und Experten Agenda Theoretischer Hintergrund Studiendesign Forschungsergebnisse 2 Überblick
MehrZeitreihenanalyse. Teil III: Nichtlineare Zeitreihenmodelle. Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel. Göttingen, Januar 2008 DAX
Zeitreihenanalyse Teil III: Nichtlineare Zeitreihenmodelle Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel DAX -10-5 0 5 10 0 200 400 600 800 1000 trading day Göttingen, Januar 2008 Inhaltsverzeichnis
MehrAnalytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10
Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten
MehrAllgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch
Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.
MehrBachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang.
Lehrstuhl für Statistik und empirische Wirtschaftsforschung Fach: Prüfer: Bachelorprüfung Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname Matrikelnr. E-Mail Studiengang
Mehrε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?
BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions
Mehra) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.
Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html
MehrStatistische Auswertung der Daten von Blatt 13
Statistische Auswertung der Daten von Blatt 13 Problemstellung 1 Graphische Darstellung der Daten 1 Diskussion der Normalverteilung 3 Mittelwerte und deren Konfidenzbereiche 3 Signifikanz der Behandlung
MehrFortgeschrittene Statistik Logistische Regression
Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E
MehrKlausur STATISTIK 2 für Diplom VWL
Klausur STATISTIK 2 für Diplom VWL Name, Vorname: Matrikel-Nr. Die Klausur enthält zwei Typen von Aufgaben: Teil A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens
MehrGrundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!
Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)
MehrUntersuchungen zum Thema Tracking Error
Untersuchungen zum Thema Tracking Error J. Fulmek 24. August 2003 1 Einleitung Im Folgenden werden folgende Punkte untersucht: 1. verschiedene in der Literatur übliche Definitionen des Tracking Errors
MehrStandardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.
Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall
MehrWillkommen zur Vorlesung Statistik
Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang
MehrSurvival Analysis (Modul: Lebensdaueranalyse)
Survival Analysis (Modul: Lebensdaueranalyse) ROLAND RAU Universität Rostock, Sommersemester 2015 12. Mai 2015 c Roland Rau Survival Analysis 1 / 24 Hausaufgabe 1 Schreiben Sie die Log-Likelihood Gleichung
Mehr# # Daten aus einem csv-file einlesen # readerout = reader(open("daten.csv","rb"),delimiter=',');
-*- coding: utf-8 -*- This Python-program was developed using "Enthought Canopy v. 1.4.1", a Pytho analysis environment, on a MacBook Pro running OS X 10.9.5 written by T. Ihn, D-PHYS ETH Zurich, 5 Oct
MehrRegressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )
Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels
MehrStochastische Eingangsprüfung, 17.05.2008
Stochastische Eingangsprüfung, 17.5.8 Wir gehen stets von einem Wahrscheinlichkeitsraum (Ω, A, P) aus. Aufgabe 1 ( Punkte) Sei X : Ω [, ) eine integrierbare Zufallsvariable mit XdP = 1. Sei Q : A R, Q(A)
MehrGefährdet die ungleiche Verteilung unseres Vermögens den gesellschaftlichen Zusammenhalt?
Gefährdet die ungleiche Verteilung unseres Vermögens den gesellschaftlichen Zusammenhalt? Prof. Dr. K.-W. Hansmann Rotary-Vortrag am 22. September 2014 (Die farbigen Graphiken habe ich mit der Progrmmiersprache
MehrBiostatistische Studienplanung II. Dr. Matthias Kohl SIRS-Lab GmbH
Biostatistische Studienplanung II Dr. Matthias Kohl SIRS-Lab GmbH Inhalt Lineare Modelle: Definition und Beispiele KQ- und robuste Schätzer Diagnostik Ausblick: Mixed-Effects Definition des linearen Modells
MehrDie Varianzanalyse ohne Messwiederholung. Jonathan Harrington. Bi8e noch einmal datasets.zip laden
Die Varianzanalyse ohne Messwiederholung Jonathan Harrington Bi8e noch einmal datasets.zip laden Variablen, Faktoren, Stufen Eine Varianzanalyse ist die Erweiterung von einem t- test t- test oder ANOVA
Mehr8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.
L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:
MehrFAKTORIELLE VERSUCHSPLÄNE. Andreas Handl
FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei
MehrGrundlagen von Versuchsmethodik und Datenanalyse
Grundlagen von Versuchsmethodik und Datenanalyse Der Anfang: Hypothesen über Ursache-Wirkungs-Zusammenhänge Ursache Wirkung Koffein verbessert Kurzzeitgedächtnis Gewaltfilme führen zu aggressivem Verhalten
MehrStatistik Musterlösungen
Statistik Musterlösungen Regina Tüchler & Achim Zeileis Institut für Statistik & Mathematik Wirtschaftsuniversität Wien 1 Grundbegriffe (1.23) Skript Reaktionen auf Videofilm. Aussagen M, E, P, S h(m)
MehrKommentierter SPSS-Ausdruck zur logistischen Regression
Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer
MehrAnalog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.
Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit
MehrBachelorabschlussseminar Dipl.-Kfm. Daniel Cracau
1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank
MehrStochastische Prozesse und Zeitreihenmodelle
Kapitel 12 Stochastische Prozesse und reihenmodelle [ Stochastische Prozesse und reihenmodelle ] Einleitung:.com-Blase an der NASDAQ Department of Statistics and Mathematics WU Wien c 2008 Statistik 12
Mehr(Repeated-measures ANOVA) path = "Verzeichnis wo Sie anova1 gespeichert haben" attach(paste(path, "anova1", sep="/"))
Varianzanalyse mit Messwiederholungen (Repeated-measures ANOVA) Jonathan Harrington Befehle: anova2.txt path = "Verzeichnis wo Sie anova1 gespeichert haben" attach(paste(path, "anova1", sep="/")) Messwiederholungen:
MehrLog-lineare Analyse I
1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln
MehrRegression mit Gretl Eine erste Einführung 1
Kurzeinführung in Gretl S. 1 Regression mit Gretl Eine erste Einführung 1 Installation: Gretl für das entsprechende Betriebssystem herunterladen und die Setup-Datei ausführen. Hinweis: Für die Benutzung
MehrStatistische Analyse von Ereigniszeiten
Statistische Analyse von Survival Analysis VO Biostatistik im WS 2006/2007 1 2 3 : Leukemiedaten (unzensiert) 33 Patienten mit Leukemie; Zielvariable Überlebenszeit. Alle Patienten verstorben und Überlebenszeit
Mehr90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft
Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte
MehrWeitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression
Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen
MehrTeil II: Einführung in die Statistik
Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu
MehrEinführung in statistische Testmethoden
Einführung in statistische Testmethoden und die Bearbeitung von Messdaten mit Excel 1. Beispielhafte Einführung in den Gebrauch von Testmethoden 2. Typen von Messwerten, Verteilungen 3. Mittelwert, Varianz,
MehrKapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung
Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion
MehrZeitreihen. Statistik II
Statistik II Wiederholung Literatur -Daten Trends und Saisonalität Fehlerstruktur Statistik II (1/31) Wiederholung Literatur -Daten Trends und Saisonalität Fehlerstruktur Statistik II (1/31) Zum Nachlesen
MehrUmgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen
Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen
MehrHäufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln
Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder
MehrMethoden Quantitative Datenanalyse
Leitfaden Universität Zürich ISEK - Andreasstrasse 15 CH-8050 Zürich Telefon +41 44 635 22 11 Telefax +41 44 635 22 19 www.isek.uzh.ch 11. September 2014 Methoden Quantitative Datenanalyse Vorbereitung
MehrSchätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N
Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.1 Schätzer für Lage- und Skalenparameter und Verteilungsmodellwahl Lageparameter (l(x + a) = l(x) + a): Erwartungswert EX Median von X
MehrKapitel 3: Interpretationen
Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...
MehrDIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007
Wirtschaftswissenschaftliches Prüfungsamt DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 006/07 8.0.007 Lösung Prof. Dr. R Friedmann / Dr. R. Hauser Hinweise für die Klausurteilnehmer
MehrBachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. E-Mail. Studiengang.
Lehrstuhl für Statistik und empirische irtschaftsforschung, SS 2009 ach: Prüfer: Bachelorprüfung Praxis der empirischen irtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname Matrikelnr. E-Mail
MehrEinfache statistische Testverfahren
Einfache statistische Testverfahren Johannes Hain Lehrstuhl für Mathematik VIII (Statistik) 1/29 Hypothesentesten: Allgemeine Situation Im Folgenden wird die statistische Vorgehensweise zur Durchführung
MehrZusammenhänge zwischen metrischen Merkmalen
Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl
MehrGemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe 2011. Institut für Statistik Ludwig-Maximilians-Universität München
Gemischte Modelle Fabian Scheipl, Sonja Greven Institut für Statistik Ludwig-Maximilians-Universität München SoSe 2011 Inhalt Amsterdam-Daten: LMM Amsterdam-Daten: GLMM Blutdruck-Daten Amsterdam-Daten:
MehrIn konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.
Konstante Modelle: In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert. Der prognostizierte Wert für die Periode T+i entspricht
Mehrˆ Einfaches Varianzanalysemodell (X ist kategoriell) ˆ Poisson Mehrgruppenmodell (Y ist ganzzahlig, X ist kategoriell) P Y ( X = x) = P o(λ x )
apitel 4 Regression 4.1 Allgemeines Regressionsmodell Oft werden in der Statistik die Abhängigkeiten einer Variable Y (genannt Zielgröße oder Variable) von Einflüssen X 1,..., X d (genannt unabhängigen
MehrWahrscheinlichkeitsrechnung und Statistik für Biologen Einführung: Deskriptive Statistik
Wahrscheinlichkeitsrechnung und Statistik für Biologen Einführung: Deskriptive Statistik Martin Hutzenthaler & Dirk Metzler 17. April 2012 Inhaltsverzeichnis 1 Einführung 1 1.1 Konzept und Quellen.........................................
MehrAllgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse
Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter
MehrMultinomiale logistische Regression
Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable
MehrKap. 9: Regression mit einer binären abhängigen Variablen
Kap. 9: Regression mit einer binären abhängigen Variablen Motivation Lineares Wahrscheinlichkeitsmodell Probit- und Logit-Regression Maximum Likelihood Empirisches Beispiel: Analyse der HMDA-Daten Ausblick:
MehrEinfache Modelle für Paneldaten. Statistik II
Einfache Modelle für daten Statistik II Wiederholung Literatur daten Policy-Analyse II: Statistik II daten (1/18) Literatur Zum Nachlesen Einfache Modelle für daten Wooldridge ch. 13.1-13.4 (im Reader)
MehrEINFACHE LINEARE REGRESSION MODUL 13 PROSEMINAR DESKRIPTIVE STATISTIK ANALYSE UND DARSTELLUNG VON DATEN I GÜNTER HAIDER WS 1999/2000
INSTITUT FÜR ERZIEHUNGSWISSENSCHAFT - UNIVERSITÄT SALZBURG PROSEMINAR DESKRIPTIVE STATISTIK ANALYSE UND DARSTELLUNG VON DATEN I GÜNTER HAIDER WS 1999/2 MODUL 13 EINFACHE LINEARE REGRESSION Erziehungswissenschaft/Haider
Mehr5 Varianzanalytische Modelle, komplexere lineare Modell und Random Models
5 Varianzanalytische Modelle, komplexere lineare Modell und Random Models Auch in diesem Kapitel werden nur wenige statistische Hintergründe geliefert. Der Fokus des Kapitels liegt in der Einübung der
MehrAufgabe 1 10 ECTS. y i x j gering mittel hoch n i Hausrat 200 25 0 225 KFZ 0 10 75 85 Unfall 20 35 90 145 Reiserücktritt 40 5 0 45 n j 260 75 165 500
Aufgabe 1 Für die Securance-Versicherung liegen Ihnen die gemeinsamen absoluten Häugkeiten der Merkmale X: Schadenshöhe und Y : Versicherungsart für die letzten 500 gemeldeten Schäden vor. 1. Interpretieren
MehrMultivariate Analyse: Einführung in das COX-Modell
Auswertung Multivariate Analyse: Einführung in das COX-Modell Deskriptive Statistik Häufigkeiten, Univariate Statistiken, Explorative Datenanalyse, Kreuztabellen) Induktive Statistik, Vergleich von Mittelwerten
Mehr13.5 Der zentrale Grenzwertsatz
13.5 Der zentrale Grenzwertsatz Satz 56 (Der Zentrale Grenzwertsatz Es seien X 1,...,X n (n N unabhängige, identisch verteilte zufällige Variablen mit µ := EX i ; σ 2 := VarX i. Wir definieren für alle
MehrStatistik I für Betriebswirte Vorlesung 2
Statistik I für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 16. April 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 2 1 ii) empirische
MehrWebergänzung zu Kapitel 10
Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder
MehrUnivariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen
Univariate/ multivariate Ansätze Klaus D. Kubinger Effektgrößen Rasch, D. & Kubinger, K.D. (2006). Statistik für das Psychologiestudium Mit Softwareunter-stützung zur Planung und Auswertung von Untersuchungen
MehrCommercial Banking Übung 1 Kreditscoring
Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse
Mehr