3 Bivariate Deskription und Exploration von Daten

Größe: px
Ab Seite anzeigen:

Download "3 Bivariate Deskription und Exploration von Daten"

Transkript

1 3 Bivariate Deskription und Exploration von Daten In diesem Kapitel werden Methoden zur Darstellung der gemeinsamen Verteilung von zwei (oder mehreren) verschiedenen Merkmalen behandelt. Von besonderer Bedeutung ist die Analyse des Zusammenhangs zwischen den Variablen. 3.1 Kontingenztabellen Wir betrachten zunächst zwei diskrete Merkmale X und Y. Mögliche Ausprägungen von X: a 1, a 2,..., a k Mögliche Ausprägungen von Y : b 1, b 2,..., b m Statistik_A@statistik.uni-bonn 3 1

2 Erhebung vom Umfang n: (x 1, y 1 ),..., (x n, y n ) gemeinsame Meßwerte von X und Y (x 1, y 1 ),..., (x n, y n ) werden wiederum als Urliste, Roh- oder Primärdaten bezeichnet Absolute und relative Häufigkeiten: h(a i, b j ) = h ij absolute Häufigkeit der Ausprägung (a i, b j ), d.h. Anzahl der (x r, y r ) aus (x 1, y 1 ),..., (x n, y n ) mit x r = a i und y r = b j h 11, h 12,..., h km gemeinsame Verteilung von X und Y in absoluten Häufigkeiten f ij = h ij n relative Häufigkeit von (a i, b j ) f 11, f 12,..., f km gemeinsame Verteilung von X und Y in relativen Häufigkeiten Statistik_A@statistik.uni-bonn 3 2

3 Randverteilungen: h i = h i1 + + h im h j = h 1j + + h kj h 1,..., h k bzw. h 1,..., h m f i = h i /n f j = h j /n f 1,..., f k bzw. f 1,..., f m Randhäufigkeit der Ausprägung a i von X = Anzahl der x r aus x 1,..., x n mit x r = a i Randhäufigkeit der Ausprägung b j von Y = Anzahl der y r aus y 1,..., y n mit y r = b j Randverteilung von X bzw. Y in absoluten Häufigkeiten relative Randhäufigkeit der Ausprägung a i von X relative Randhäufigkeit der Ausprägung b j von Y Randverteilung von X bzw. Y in relativen Häufigkeiten Statistik_A@statistik.uni-bonn 3 3

4 Die gemeinsame Verteilung zweier diskreter Merkmale X und Y wird in der Statistik üblicherweise in einer Kontingenztabelle (man spricht auch von Kontingenztafel) zusammengefasst. Kontingenztabelle: Eine (k m) Kontingenztabelle der absoluten Häufigkeiten besitzt die Form X\Y b 1... b m a 1 h h 1m h 1.. a k h k1... h km h k.. h 1... h m n Eine (k m) Kontingenztabelle der relativen Häufigkeiten besitzt die Form X\Y b 1... b m a 1 f f 1m f a k f k1... f km f k f 1... f m 1 Statistik_A@statistik.uni-bonn 3 4

5 Beispiel: Qualifikation - Arbeitslosigkeit 2 2 Kontingenztabelle X - berufliche Qualifikation (niedrig, hoch) Y - Arbeitslosigkeit (ja, nein) n=100 Personen Kontingenztabelle in absoluten Häufigkeiten: Arbeitslosigkeit Y Qualifikation X ja (b 1 ) nein (b 2 ) RV X niedrig (a 1 ) (h 1 ) hoch (a 2 ) (h 2 ) RV Y 12 (h 1 ) 88 (h 2 ) 100 (n) Kontingenztabelle in relativen Häufigkeiten: Arbeitslosigkeit Qualifikation ja (b 1 ) nein (b 2 ) RV X niedrig (a 1 ) 0,1 0,35 0,45 hoch (a 2 ) 0,02 0,53 0,55 RV Y 0,12 0,88 1 Statistik_A@statistik.uni-bonn 3 5

6 Beispiel: Berufsgruppe - sportliche Betätigung 5 3 Kontingenztabelle (in absoluten Häufigkeiten) X Berufsgruppe (nominalskaliert) Y sportliche Betätigung (ordinalskaliert) n=1000 berufstätige Personen sportliche Betätigung Y Berufsgruppe X kaum manchmal regelmäßig RV X Arbeiter Angestellter Beamter Landwirt sonstiger freier Beruf RV Y Statistik_A@statistik.uni-bonn 3 6

7 Grafische Darstellungen: - Gruppiertes Säulendiagramm (X oder Y dichotom) - 3D-Säulendiagramm Geschlecht männlic weiblich Bar Scheck Karte Bar Scheck Karte z 10 0 männlich weiblich Statistik_A@statistik.uni-bonn 3 7

8 Bedingte Häufigkeiten Aus den gemeinsamen Häufigkeiten h ij bzw. f ij lässt sich nicht unmittelbar auf den Zusammenhang zwischen Merkmalen schließen. Beispiel Qualifikation - Arbeitslosigkeit: f 11 = 0, 1, d.h. 10% der beobachteten Personen sind arbeitslos und haben eine niedrige Qualifikation. Teilgesamtheit aller Personen mit niedriger Qualifikation (d.h. X = a 1 ) in der Studie: 10 von 45 niedrig qualifizierten Personen (22%) sind arbeitslos. Allgemeiner Ansatz: bedingte Häufigkeiten relative Häufigkeiten bezogen auf die Teilgesamtheit aller Beobachtungen mit einem vorgegebenen Wert von X (bzw. Y ) Statistik_A@statistik.uni-bonn 3 8

9 Die bedingte Häufigkeitsverteilung von Y unter der Bedingung X = a i, kurz Y X = a i, ist für j = 1,..., m bestimmt durch f Y (b j X = a i ) = h ij h i = f ij f i Die bedingte Häufigkeitsverteilung von X unter der Bedingung Y = b j, kurz X Y = b j, ist für i = 1,..., k bestimmt durch f X (a i Y = b j ) = h ij h j = f ij f j Es gilt: Für alle a i : m j=1 f Y (b j X = a i ) = 1 Für alle b j : k i=1 f X(a i Y = b j ) = 1 Statistik_A@statistik.uni-bonn 3 9

10 Beispiel: Qualifikation - Arbeitslosigkeit Bedingte Verteilung des Merkmals X (Qualifikation) für gegebene b j (Arbeitslosigkeit) bei 100 Personen Arbeitslosigkeit Y Qualifikation X ja (b 1 ) nein (b 2 ) niedrig (a 1 ) 0,833 0,398 hoch (a 2 ) 0,167 0,602 1,000 1,000 Bedingte Verteilung des Merkmals Y (Arbeitslosigkeit) für gegebene a j (Qualifikation) bei 100 Personen Arbeitslosigkeit Y Qualifikation X ja (b 1 ) nein (b 2 ) niedrig (a 1 ) 0,222 0,778 1,000 hoch (a 2 ) 0,038 0,962 1,000 Statistik_A@statistik.uni-bonn 3 10

11 Beispiel: Berufsgruppe - sportliche Betätigung Bedingte Verteilung des Merkmals Y (sportliche Betätigung) für gegebene a j (Berufsgruppe) bei 1000 Personen sportliche Betätigung Y Berufsgruppe X kaum manchmal regelmäßig RV X Arbeiter 0,56 0,28 0,16 1,00 Angestellter 0,47 0,26 0,26 1,00 Beamter 0,33 0,33 0,33 1,00 Landwirt 0,74 0,14 0,12 1,00 sonstiger freier Beruf 0,44 0,36 0,20 1,00 Statistik_A@statistik.uni-bonn 3 11

12 3.2 Zusammenhangsanalyse in Kontingenztabellen Zur Vereinfachungen betrachten wir zunächst nur eine (2 2) Kontingenztafel X\Y b 1 b 2 a 1 h 11 h 12 h 1 a 2 h 21 h 22 h 2 h 1 h 2 n Unter einer Chance ( Odds ) versteht man das Verhältnis zwischen dem Auftreten von Y = b 1 und Y = b 2 in einer gegebenen Teilgesamtheit X = a i, i {1, 2}. Die (empirische) bedingte Chance gegeben X = a i ist bestimmt durch γ(b 1, b 2 X = a i ) = f Y (b 1 X = a i ) f Y (b 2 X = a i ) = h i1 h i2 Statistik_A@statistik.uni-bonn 3 12

13 Beispiel: Qualifikation - Arbeitslosigkeit γ(ja, nein) X = niedrig qualifizert) = 2 7 γ(ja, nein) X = hoch qualifizert) = 2 53 Folgerung: Für Personen mit niedriger Qualifikation ist das Risiko arbeitslos zu werden 2 : 7, für Personen mit hoher Qualifikation dagegen mit 2 : 53 erheblich kleiner. Ein sehr einfaches Zusammenhangsmaß stellt nun das Kreuproduktverhältnis dar: Kreuzproduktverhältnis Für eine (2 2) Kontingenztafel ist das Kreuzproduktverhältnis (relative Chance, Odds Ratio ) bestimmt durch γ = γ(b 1,b 2 X=a 1 ) γ(b 1,b 2 X=a 2 ) = h 11h 22 h 21 h 12 Statistik_A@statistik.uni-bonn 3 13

14 Interpretation: γ = 1: Chancen in beiden Teilgesamtheiten (X = a 1 und X = a 2 ) gleich γ > 1: Chance in der Teilgesamtheit X = a 1 höher als in der Teilgesamtheit X = a 2 γ < 1: Chance in der Teilgesamtheit X = a 1 niedriger als in der Teilgesamtheit X = a 2 Beispiel: Qualifikation - Arbeitslosigkeit Man erhält γ = = = 7, 6 Das Risiko, arbeitslos zu werden, ist für niedrig Qualifizierte 7, 6 mal höher als für hoch Qualifizierte Statistik_A@statistik.uni-bonn 3 14

15 Verallgemeinerung: Bei k m Kontingenztabellen beschränkt man sich auf jeweils zwei Zeilen X = a i und X = a j und zwei Spalten Y = b r und Y = b s und betrachtet die zugehörigen vier Zellen Die relativen Chancen zwischen X = a i und X = a j in Bezug auf die Chancen von Y = b r und Y = b s sind bestimmt durch das Kreuzproduktverhältnis γ(b r, b s X = a i, X = a j ) = γ(b r,b s X=a i ) γ(b r,b s X=a j ) = h irh js h jr h is Statistik_A@statistik.uni-bonn 3 15

16 Beispiel: Berufsgruppe (X) - Sportliche Betätigung (Y) Zeilen: X = Arbeiter, X = Angestellter Spalten: Y = kaum, Y = regelmäßig kaum regelmäßig Arbeiter Angestellter γ(kaum, regelmäßig X = Arbeiter, X = Angest. ) = = 1, 93 Die Chance kaum sportliche Betätigung zu beobachten ist im Vergleich zu regelmäßige sportliche Betätigung bei Arbeitern 1, 93 mal höher als bei Angestellten. Statistik_A@statistik.uni-bonn 3 16

17 Kontingenz- und χ 2 -Koeffizient Überlegung: Welche Verteilung der Häufigkeiten kann man erwarten, wenn die beiden Merkmale X und Y keinerlei Zusammenhang aufweisen? X\Y b 1... b m a 1 h 1.?. a k h k h 1... h m n Kein Zusammenhang: Es sollte ohne Einfluß sein, in welcher Zeile (d.h. Teilgesamtheit X = a i ) die bedingte Verteilung von Y gegeben X = a i betrachtet wird, f Y (b j a i ) = f j Empirische Unabhängigkeit: X und Y sind voneinander empirisch unabhängig, falls h ij h i = h j n h ij = h i h j n Statistik_A@statistik.uni-bonn 3 17

18 Beispiel: Haarfarbe - Intelligenz X - Haarfarbe (blond, nicht blond) Y - Intelligenz (hoch, niedrig) Kontingenztabelle (n = 100) X\Y hoch niedrig blond nicht blond Bedingte Verteilungen f Y (b j a i ) = h ij h i : X\Y hoch niedrig blond 0,467 0,533 1 nicht blond 0,443 0,557 1 RV Y (rel. Häuf.) 0,45 0,55 1 X und Y sind approximativ empirisch unabhängig Statistik_A@statistik.uni-bonn 3 18

19 Kontingenz- und χ 2 -Koeffizient Zusammenhangsmaß: Diskrepanz zwischen den tatsächlich beobachteten Häufigkeiten h ij und jenen Häufigkeiten h i h j n, die zu erwarten sind, wenn kein Zusammenhang vorliegt. χ 2 -Koeffizient χ 2 = k i=1 m j=1 (h ij h i h j n ) 2 h i h j n χ 2 groß (starke Diskrepanz), wenn X und Y voneinander abhängen χ 2 klein (kleine Diskrepanz), wenn X und Y nicht voneinander abhängen χ 2 erfasst nur die Stärke eines Zusammenhangs, nicht jedoch die Richtung der Wirkungsweise Anmerkung: Für Vierfeldertafeln (d.h. 2 2 Kontingenztabellen) lässt sich die Berechnung von χ 2 vereinfachen: χ 2 = n(h 11h 22 h 12 h 21 ) 2 h 1 h 2 h 1 h 2 Statistik_A@statistik.uni-bonn 3 19

20 kleinstmöglicher Wert: χ 2 = 0 Interpretation: χ 2 0 X und Y sind approximativ empirisch unabhängig (Beispiel: Haarfarbe - Intelligenz) Maximal möglicher Wert: χ 2 = n(m 1) mit M = min{k, m} Interpretation: Stärkstmöglicher Zusammenhang In jeder Spalte der Kontingenztabelle ist genau eine Zeile besetzt Aus der Kenntnis der Ausprägung von X kann die Ausprägung von Y genau vorausgesagt werden. Beispiel: Kindergeld (X) - Existenz von Kindern (Y) n = 100 Paare X\Y kein Kind Kind Kindergeld kein K.geld RV Y (rel. Häuf.) χ 2 = 100 = n (M 1) Statistik_A@statistik.uni-bonn 3 20

21 Problem: Der Maximalwert von χ 2 hängt vom Umfang n der Erhebung und von der Dimension der Kontingenztafel, d.h. von k und m, ab. Normierung sinnvoll Kontingenzkoeffizient: K = χ 2 n+χ 2 mit Wertebereich K [0, M 1 M ], M = min{k, m} Korrigierter Kontingenzkoeffizient: K = K/ M 1 M mit Wertebereich K [0, 1] Statistik_A@statistik.uni-bonn 3 21

22 Eine alternative Normierung führt auf das Assoziationsmaß von Cramér. Assoziationsmaß von Cramér: V = χ 2 n(m 1) mit Wertebereich V [0, 1], M = min{k, m} Beispiel: Qualifikation - Arbeitslosigkeit K = 8, , 096 = 0, 274 K = K/ V = , (2 1) = 0, 387 = 0, 284 Statistik_A@statistik.uni-bonn 3 22

23 Φ-Koeffizient: Φ = h 11h 22 h 12 h 21 h1 h 2 h 1 h 2 mit Wertebereich Φ [ 1, 1] Φ ist nur für Vierfeldertafeln definiert, Φ = V Φ > 0 Kombination von X = a 1, Y = b 1 und X = a 2, Y = b 2 häufiger als Kombination von X = a 1, Y = b 2 und X = a 2, Y = b 1 ; X und Y positiv korreliert Φ < 0 Kombination von X = a 1, Y = b 2 und X = a 2, Y = b 1 häufiger als Kombination von X = a 1, Y = b 1 und X = a 2, Y = b 2 ; X und Y negativ korreliert Beispiel: Qualifikation - Arbeitslosigkeit Φ = V = 0, 284 Statistik_A@statistik.uni-bonn 3 23

24 Beispiel: Haarfarbe - Intelligenz X/Y hoch niedrig blond nicht blond χ 2 = 0, 048, K = 0, 022, K = 0, 031, V = Φ = 0, 022 Beispiel: Kindergeld - Existenz von Kindern X/Y kein Kind Kind Kindergeld kein K.geld RV Y (rel. Häuf.) χ 2 = 100, K = 1 2, K = 1, V = 1, Φ = 1 Statistik_A@statistik.uni-bonn 3 24

25 3.3 Grafische Darstellung quantitativer Merkmale Daten: Messwerte (x 1, y 1 ),..., (x n, y n ) zweier metrisch skalierter Merkmale X und Y Scatterplot (Streudiagramm): Darstellung der Messwerte (x 1, y 1 ),..., (x n, y n ) im xy- Koordinatensystem Verallgemeinerung auf mehr als zwei metrisch skalierte Merkmale: Scatterplotmatrix; 3D-Scatterplot zur Darstellung der gemeinsamen Verteilung dreier metrisch skalierter Merkmale X, Y, Z Statistik_A@statistik.uni-bonn 3 25

26 Ë ØØ ÖÔÐÓØ Alter vs. Stundenlohn Stundenlohn Alter ¹Ë ØØ ÖÔÐÓØ Alter vs. Stundenlohn vs. Ausbildungsjahre (Ausbildung) (Lohn) (Alter) Statistik_A@statistik.uni-bonn 3 26

27 Ë ØØ ÖÔÐÓعŠØÖ Ü Alter Stundenlohn Ausbildungsjahre 3 27

28 Zweidimensionales Histogramm Intervalle (c 0, c 1 ],..., (c k 1, c k ] für Merkmal X Intervalle (d 0, d 1 ],..., (d m 1, d m ] für Merkmal Y Berechnung der Häufigkeiten: h ij = Anzahl der (x r, y r ) aus (x 1, y 1 ),..., (x n, y n ) mit x r (c i 1, c i ] und y r (d j 1, d j ] f ij = h ij /n Zweidimensionales Histogramm: Quader mit den Rechtecken (c i 1, c i ] (d j 1, d j ] als Grundfläche und Höhe f ij (c i c i 1 ) (d j d j 1 ) Statistik_A@statistik.uni-bonn 3 28

29 Beispiel: FES, Großbritannien, 1992 Alter X - 7 Klassen (gleiche Intervallbreiten) Relatives Einkommen Y - 7 Klassen (gleiche Intervallbreiten) relat. Einkommen = Einkommen mittleres Einkommen im Jahr 1992 Statistik_A@statistik.uni-bonn 3 29

30 3.4 Zusammenhangsmaße bei metrischen Merkmalen Erhebung vom Umfang n: (x 1, y 1 ),..., (x n, y n ) Mittelwerte, Standardabweichungen: x = 1 n n i=1 x i, ȳ = 1 n n i=1 y i 1 n s X = n i=1 (x i x) 2 1 n = n i=1 x2 i x2 1 n s Y = n i=1 (y i ȳ) 2 1 n = n i=1 y2 i ȳ2 Maß für den linearen Zusammenhang zwischen X und Y : Bravais-Pearson Korrelationskoeffizient r = r X,Y = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 n i=1 (y i ȳ) 2 = s XY s X s Y s XY = 1 n n i=1 (x i x)(y i ȳ) = 1 n n i=1 x iy i x ȳ heißt empirische Kovarianz Statistik_A@statistik.uni-bonn 3 30

31 Wertebereich von r 1 r 1 r > 0 positive Korrelation, gleichsinniger linearer Zusammenhang Tendenz: Werte (x i, y i ) um eine Gerade mit positiver Steigung liegend r < 0 negative Korrelation, gegensinniger linearer Zusammenhang Tendenz: Werte (x i, y i ) um eine Gerade mit negativer Steigung liegend r = 0 keine Korrelation, unkorreliert, kein linearer Zusammenhang Statistik_A@statistik.uni-bonn 3 31

32 Beispiel: Werbeausgaben (X) - Verkäufe (Y) Verkäufe Ausgaben X 0, 3 0, 7 1, 1 1, 3 2, 6 Y 11, 1 13, 5 15, 0 16, 4 20, 1 r = 0, 98 Statistik_A@statistik.uni-bonn 3 32

33 Beispiel: Wohnfläche (Y) - Miete pro m 2 (X) Wohnfläche Miete m^ X Y r = 0, 92 Statistik_A@statistik.uni-bonn 3 33

34 Schwache Korrelation: r < 0, 5 Mittlere Korrelation: 0, 5 r < 0, 8 Starke Korrelation: 0, 8 r < 1 Perfekte Korrelation: r = 1 Extremfall; die Werte (x i, y i ) liegen auf einer Geraden (positive Steigung, falls r = 1, negative Steigung, falls r = 1) Statistik_A@statistik.uni-bonn 3 34

35 Zusammenhang von Korrelation und Lage der Punktwolke Perfekte Korrelation ( r = 1) Statistik_A@statistik.uni-bonn 3 35

36 Starke Korrelation ( r = 0.8) Statistik_A@statistik.uni-bonn 3 36

37 Schwache Korrelation ( r = 0.2) Statistik_A@statistik.uni-bonn 3 37

38 Keine Korrelation (r = 0) Kein linearer Zusammenhang (r 0) 1.7 income age Statistik_A@statistik.uni-bonn 3 38

39 Spearmans Korrelationskoeffizient Idee: Korrelation von Rängen Rang einer Beobachtung x i rang(x i ) = Platzzahl, die der Wert x i bei größenmäßiger Anordnung aller Werte x 1,..., x n erhält Rang einer Beobachtung y i rang(y i ) = Platzzahl, die der Wert y i bei größenmäßiger Anordnung aller Werte y 1,..., y n erhält Beispiele: x i 0, 3 1, 5 0, 1 0, 8 1, 0 rang(x i ) y i 2, 0 0, 5 0, 9 1, 3 2, 6 rang(y i ) Statistik_A@statistik.uni-bonn 3 39

40 Mögliches Problem: Existenz von Bindungen (engl. Ties ), d.h. von identischen Meßwerten Lösung: Übergang zu Durchschnittsrängen Beispiele: x i 1, 09 2, 17 2, 17 2, 17 3, 02 rang(x i ) y i 0, 5 0, 5 0, 9 1, 3 1, 3 rang(y i ) 1, 5 1, Spearmans Korrelationskoeffizient ergibt sich als der Bravais-Pearson Korrelationskoeffizient angewandt auf die Rangpaare (rang(x 1 ), rang(y 1 )),...,(rang(x n ), rang(y n )) Statistik_A@statistik.uni-bonn 3 40

41 Spearmans Korrelationskoeffizient r SP = n i=1 (rang(x i) rang X )(rang(y i ) rang Y ) n i=1 (rang(x i) rang X ) 2 n i=1 (rang(y i) rang Y ) 2 Für die Mittelwerte gilt rang X = 1 n n i=1 rang(x i ) = n rang Y = 1 n n i=1 rang(y i ) = n Vereinfachte Berechnungsformel (nur anwendbar, wenn keine Bindungen existieren): r SP = 1 6 n i=1 D2 i n(n 2 1) mit den Rangdifferenzen D i = rang(x i ) rang(y i ) Statistik_A@statistik.uni-bonn 3 41

42 Wertebereich von r SP 1 r SP 1 r SP > 0 gleichsinniger monotoner Zusammenhang Tendenz: x groß y groß, x klein y klein r SP < 0 gegensinniger monotoner Zusammenhang Tendenz: x groß y klein, x klein y groß r SP = 0 kein monotoner Zusammenhang Extremfall r SP = 1 streng monoton wachsender Zusammenhang, rang(x 1 ) = rang(y 1 ),..., rang(x n ) = rang(y n ) Extremfall r SP = 1 streng monoton fallender Zusammenhang, rang(y i ) = n + 1 rang(x i ) für alle i = 1,..., n Statistik_A@statistik.uni-bonn 3 42

43 Beispiel: Werbeausgaben (X) - Verkäufe (Y) X 0, 3 0, 7 1, 1 1, 3 2, 6 Y 11, 1 13, 5 15, 0 16, 4 20, rang(x) rang(y) D r SP = 1 0 = 1 Statistik_A@statistik.uni-bonn 3 43

44 Beispiel: Wohnfläche (Y) - Miete pro m X Y r SP = 0, 9 Statistik_A@statistik.uni-bonn 3 44

45 Im Gegensatz zu r XY ist r SP auch für ordinalskalierte Merkmale ein sinnvolles Zusammenhangsmaß. Beispiel: Skiläufer: Zusammenhang zwischen Können im Abfahrtslauf und im Slalom n = 6 Sportler, Plazierungen in den letzten beiden Abfahrts- und Slalomrennen Sportler Abfahrt(X) Slalom (Y) r SP = 0, 26 Statistik_A@statistik.uni-bonn 3 45

46 Scheinkorrelationen Eine hohe Korrelation zwischen zwei Variablen bedeutet nicht notwendigerweise, dass es einen Kausalzusammenhang gibt inhaltliche Überlegungen erforderlich r gibt keinen Hinweis auf die Wirkungsrichtung: X beeinflusst Y oder umgekehrt Auch bei starker Korrelation besteht möglicherweise gar kein direkter Zusammenhang zwischen X und Y beide werden von einer dritten, unbeobachteten Variablen beeinflusst, Scheinkorrelation Beispiel: Wortschatz (X) und Körpergröße (Y) von Kindern Wortschatz Körpergröße r XY = 0, 863 Statistik_A@statistik.uni-bonn 3 46

47 3.5 Regression Lineare Einfachregression Problemstellung: Analysiere den Einfluß einer erklärenden Variable X auf eine Zielvariable Y (X und Y metrisch skaliert) Y - abhängige Variable (Regressand, Zielvariable) z.b.: Konsum, Verkäufe, Ernteerträge, etc. X - unabhängige Variable (Regressor, erklärende Variable) z.b.: Einkommen, Investitionen, Düngemittel, etc. Daten: (x 1, y 1 ),..., (x n, y n ) Statistik_A@statistik.uni-bonn 3 47

48 Beispiel: Ernteertrag von Weizen (Y) in Abhängigkeit von der Menge des eingesetzten Düngemittels (X) in kg/ha Beobachtungen für n = 7 Parzellen X Y Ertrag Duenger Statistik_A@statistik.uni-bonn 3 48

49 Beispiel: Konsumfunktion (x i, y i ) - mittleres Einkommen (x i ) und mittlerer Gesamtkonsum (y i ) in einem Land für ein gegebenes Jahr i Modell von Keynes: y i = β 0 + β 1 x i + Zufallsschwankungen Daten: Gesamtkonsum und Einkommen in Großbritannien von (Einheit: Pfund pro Woche) Konsum Einkommen Statistik_A@statistik.uni-bonn 3 49

50 Einfachster Fall: Es existiert ein linearer Zusammenhang zwischen X und Y Y = β 0 + β 1 X + Zufallsschwankungen y i = β 0 + β 1 x i + ϵ i Problem: Wie bestimmt man die beste Gerade der Form ˆβ 0 + ˆβ 1 X aus den Daten? Beobachtungen angepasste Werte y 1 ŷ 1 = ˆβ 0 + ˆβ 1 x 1 y 2 ŷ 2 = ˆβ 0 + ˆβ 1 x 2 y n ŷ n = ˆβ 0 + ˆβ 1 x n Statistik_A@statistik.uni-bonn 3 50

51 Kriterium: Möglichst kleine Abweichungen zwischen den beobachteten Werten y i und den angepassten (prognostizierten) Werten ŷ i = ˆβ 0 + ˆβ 1 x i Schlechte Anpassung Duenger Gute Anpassung Duenger Statistik_A@statistik.uni-bonn 3 51

52 Die Kleinste-Quadrate-Methode Idee: Minimiere die Summe der quadratischen Differenzen zwischen den beobachteten Werten y i und den angepassten (prognostizierten) Werten ŷ i Kleinste-Quadrate-Methode Bestimme ˆβ 0 und ˆβ 1 durch Minimieren von Q(β 0, β 1 ) = n i=1 (y i ŷ i ) 2 = n i=1 (y i β 0 β 1 x i ) 2 Lösungen: ˆβ 1 = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 ˆβ 0 = ȳ ˆβ 1 x = s XY s 2 X Ausgleichsgerade: Ŷ = ˆβ 0 + ˆβ 1 X Statistik_A@statistik.uni-bonn 3 52

53 Herleitung der Lösungen: Notwendige Bedingung für die Existenz eines Minimums an einem Punkt ( ˆβ 0, ˆβ 1 ): Verschwinden der partiellen Ableitungen 0 = β 0 Q(β 0, β 1 ) (β0,β 1 )=( ˆβ 0, ˆβ 1 ) = 0 = β 1 Q(β 0, β 1 ) (β0,β 1 )=( ˆβ 0, ˆβ 1 ) = n i=1 n i=1 2(y i ˆβ 0 ˆβ 1 x i ) ( 1) 2(y i ˆβ 0 ˆβ 1 x i ) ( x i ) Normalgleichungen n ˆβ 0 + ˆβ 1 n i=1 x i = n i=1 y i ˆβ 0 n i=1 x i + ˆβ 1 n i=1 x 2 i = n x i y i i=1 Die angegebenen Formeln für ˆβ 0 und ˆβ 1 ergeben sich als Lösung der Normalgleichungen Statistik_A@statistik.uni-bonn 3 53

54 Beispiel: Düngemittel - Ernteertrag von Weizen Es ergibt sich: ˆβ 0 = 36, 4, ˆβ 1 = 0, 059 Ausgleichsgerade Ŷ = 36, 4 + 0, 059 X Ertrag Duenger Statistik_A@statistik.uni-bonn 3 54

55 Steigung ˆβ 1 der Ausgleichsgerade: Veränderung von Ŷ, die mit der Veränderung von X um eine Einheit einhergeht. β 1 x x+1 Von besonderer Bedeutung: Vorzeichen von ˆβ 1 entspricht Vorzeichen des Korrelationskoeffizienten r XY r XY = ˆβ 1 s X s Y ˆβ 1 > 0 positive Korrelation, gleichsinniger linearer Zusammenhang ˆβ 1 < 0 negative Korrelation, gegensinniger linearer Zusammenhang ˆβ 1 = 0 X und Y unkorreliert, kein linearer Zusammenhang Statistik_A@statistik.uni-bonn 3 55

56 Wichtige Anmerkung: Wenn ˆβ 1 0, so existiert nicht notwendigerweise ein direkter (kausaler) Zusammenhang zwischen X und Y ( Problem der Scheinkorrelationen) Beispiel: Wortschatz - Körpergröße 35 Wortschatz Groesse Statistik_A@statistik.uni-bonn 3 56

57 Prognose: Mit Hilfe der Ausgleichsgerade läßt sich für jeden Wert x 0 von X der zugehörige Wert y 0 von Y prognostizieren: ŷ 0 = ˆβ 0 + ˆβ 1 x 0 Beispiel: Prognose des Ernteertrags bei einem Einsatz von x 0 = 800 kg/ha Düngemittel: ŷ 0 = 36, 4 + 0, = 83, y x x 0 Statistik_A@statistik.uni-bonn 3 57

58 Das Bestimmtheitsmaß: Residuen Duenger Wegen evtl. Zufallsschwankungen kann man i.allg. nur erwarten, dass ein prognostizierter Wert ŷ i relativ nahe an einem tatsächlichen Messwert y i sein wird. Residuen: ˆϵ i = ŷ i y i Problem: Maßzahl für die Güte des Modells und die zugehörige Prognosegenauigkeit Statistik_A@statistik.uni-bonn 3 58

59 Die Streuungszerlegung n i=1 (y i ȳ) 2 = n i=1 (ŷ i ȳ) 2 + n i=1 (y i ŷ i ) 2 Gesamtstreuung = Erklärte Streuung + Residualstreuung Gesamtstreuung Erklärte Streuung fast perfekte Prognose, y i ŷ i und Residualstreuung 0. Die verschiedenen Werte von Y lassen sich in guter Näherung durch die zugehörigen Werte von X zusammen mit der postulierten linearen Beziehung erklären. Erklärte Streuung 0 Gesamtstreuung Residualstreuung, ŷ i = ˆβ 0 + ˆβ 1 x i ist wertlos zur Prognose von y i Statistik_A@statistik.uni-bonn 3 59

60 Gesamtstreuung Duenger Erklaerte Streuung Duenger Residualstreuung Duenger 3 60

61 Das Bestimmtheitsmaß R 2 = n i=1 (ŷ i ȳ) 2 n i=1 (y i ȳ) 2 = 1 n i=1 (y i ŷ i ) 2 n i=1 (y i ȳ) 2 Wertebereich 0 R 2 1 R 2 = 1 Perfektes Modell, y i = ŷ i = ˆβ 0 + ˆβ 1 x i R 2 = 0 Lineare Einfachregression wertlos zur Modellierung von Y Vereinfachte Berechnung: R 2 = ( sxy s X s Y ) 2 = r 2 XY Beispiel: Dünger (X) - Ertrag (Y) R 2 = 0, 85 Statistik_A@statistik.uni-bonn 3 61

62 1 0 Y X R 2 = 0, Y X R 2 = 0, 51 Statistik_A@statistik.uni-bonn 3 62

63 Y X R 2 = 0, Einkommen Alter R 2 = 0, 02 Statistik_A@statistik.uni-bonn 3 63

64 3.5.2 Erweiterungen der Einfachregression Wir betrachten wiederum den Fall einer einzigen erklärenden Variable X Ziel der Regressionsanalyse ist die Spezifikation eines funktionalen Zusammenhangs zwischen Y und X der Form Y = f(x) (+Zufallsschwankungen) f(x) - Regressionsfunktion Lineare Einfachregression: f(x) = β 0 + β 1 x In manchen Anwendungen ist der Zusammenhang zwischen Y und X von komplexerer Natur, und die Regressionsfunktion ist nicht durch eine Gerade beschreibbar. Statistik_A@statistik.uni-bonn 3 64

65 Die Potenzfunktion X und Y verhälnisskaliert mit positiven Ausprägungen In manchen ökonomischen Anwendungen ist bei der Analyse des Einflusses von X auf Y eher von konstanten Elastizitäten auszugehen. Y wächst (fällt) um einen annähernd konstanten Prozentsatz, wenn X jeweils um einen festen Prozentsatz erhöht wird. Einfachstes Modell Y β 0 X β 1 Für alle c > 0: β 0 (cx) β 1 β 0 (X) β 1 = cβ 1, β 1 - Elastizität Logarithmierung Rückführung auf eine lineare Einfachregression: Y β 0 X β 1 }{{} lny lnβ }{{} 0 Y β 0 +β 1 lnx }{{} X Statistik_A@statistik.uni-bonn 3 65

66 Beispiel: Werbeausgaben (X) - Verkäufe (Y ) X Y Y , 3 11, , 7 13, 5 3 1, 1 15, 0 4 1, 3 16, X 5 1, 8 18, 6 6 2, 6 20, 1 7 3, 4 19, , 2 Ansatz: Y β 0 X β 1 Statistik_A@statistik.uni-bonn 3 66

67 Logarithmierung: }{{} lny lnβ }{{} 0 Y β 0 +β 1 lnx }{{} X 3.0 X = lnx Y = lny 1 1, 20 2, , 36 2, , 10 2, , 26 2, , 59 2, , 96 3, , 22 2, , 39 3, lny lnx ˆβ 1 = n i=1 (x i x )(y i ȳ ) n i=1 (x i x ) 2 = 0, 245 ˆβ 0 = ȳ ˆβ 1 x = 2, 71 Statistik_A@statistik.uni-bonn 3 67

68 Polynomiale Regression Beispiel: Dünger (X) -Ernteertrag (Y ) 7 zusätzliche Beobachtungen Duenger Ansatz: Quadratisches Polynom Y β 0 + β 1 X + β 2 X 2 Kleinste-Quadrate-Methode: ˆβ 0, ˆβ 1 und ˆβ 2 minimieren Q(β 0, β 1, β 2 ) = n (y i β 0 β 1 x i β 2 x 2 i ) 2 i=1 ˆβ 0 = 27, 6, ˆβ 1 = 0, 11, ˆβ 2 = 0, Statistik_A@statistik.uni-bonn 3 68

69 Mögliche weitere Verallgemeinerung: Polynom p-ten Grades Y β 0 + β 1 X + β 2 X β p X p Bestimmung von ˆβ 0,..., ˆβ p mit der Kleinste-Quadrate- Methode Beispiel: Alter (X) - Einkommen (Y ) Ansatz: Y β 0 + β 1 X + β 2 X β 6 X income age Statistik_A@statistik.uni-bonn 3 69

70 3.5.3 Lineare Mehrfachregression (Multiple Regression) In vielen Fällen wird in der Ökonomie der Einfluss mehrerer erklärender Variablen auf eine Zielvariable Y untersucht. Beispiel: Ernteertrag (Y) in Abhängigkeit von der Menge des eingesetzten Düngemittels (X) und der Niederschlagsmenge (Z) Daten: Y X Z Ansatz: Y = β 0 + β 1 X + β 2 Z (+Zufallsschwankungen) Statistik_A@statistik.uni-bonn 3 70

71 Bestimmung der bestmöglichen Koeffizienten durch die Kleinste-Quadrate-Methode: ˆβ 0, ˆβ 1 und ˆβ 2 minimieren n Q(β 0, β 1, β 2 ) = (y i β 0 β 1 x i β 2 z i ) 2 i=1 ˆβ 0 = 28, 1, ˆβ 1 = 0, 038, ˆβ 2 = 0, 83 Angepasste Regressionsfunktion: ŷ i = 28, 1 + 0, 038x i + 0, 83z i R 2 = n i=1 (ŷ i ȳ) 2 n i=1 (y = 0, 98 i ȳ) 2 80 Z=30 70 Z=20 60 Z= Duenger Statistik_A@statistik.uni-bonn 3 71

72 Berechnung der Lösungen: Q(β 0, β 1, β 2 ) minimal an einem Punkt ( ˆβ 0, ˆβ 1, ˆβ 2 ) Verschwinden der partiellen Ableitungen Normalgleichungen n n n n ˆβ 0 + ˆβ 1 x i + ˆβ 2 z i = y i i=1 i=1 i=1 n n n n ˆβ 0 x i + ˆβ 1 x 2 i + ˆβ 2 x i z i = x i y i i=1 i=1 i=1 i=1 n n n n ˆβ 0 z i + ˆβ 1 z i x i + ˆβ 2 z 2 i = z i y i i=1 i=1 i=1 i=1 ˆβ 0, ˆβ 1 und ˆβ 2 ergeben sich als Lösung dieses linearen Gleichungssystems. Statistik_A@statistik.uni-bonn 3 72

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n 3.2. Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare von Merkmalsausprägungen (x, y) Beispiele:

Mehr

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06.

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06. Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt Gerhard Tutz, Jan Ulbricht WS 05/0 Lösung Aufgabe 4 Notation: X: Rauchen, Y : chronische Bronchitis S X {ja, nein} {a 1, a },

Mehr

Zusammenhangsanalyse in Kontingenztabellen

Zusammenhangsanalyse in Kontingenztabellen Zusammenhangsanalyse in Kontingenztabellen Bisher: Tabellarische / graphische Präsentation Jetzt: Maßzahlen für Stärke des Zusammenhangs zwischen X und Y. Chancen und relative Chancen Zunächst 2 2 - Kontingenztafel

Mehr

5 Assoziationsmessung in Kontingenztafeln

5 Assoziationsmessung in Kontingenztafeln 5 Assoziationsmessung in Kontingenztafeln 51 Multivariate Merkmale 51 Multivariate Merkmale Gerade in der Soziologie ist die Analyse eindimensionaler Merkmale nur der allererste Schritt zur Beschreibung

Mehr

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j 1 Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS 2011 Lösung Aufgabe 27 (a) Notation: X: Rauchen, Y : chronische Bronchitis S X {ja, nein} {a 1, a 2 }, S Y {ja, nein} {b

Mehr

Skalenniveaus =,!=, >, <, +, -

Skalenniveaus =,!=, >, <, +, - ZUSAMMENHANGSMAßE Skalenniveaus Nominalskala Ordinalskala Intervallskala Verhältnisskala =,!= =,!=, >, < =,!=, >, ,

Mehr

Statistische Methoden in den Umweltwissenschaften

Statistische Methoden in den Umweltwissenschaften Statistische Methoden in den Umweltwissenschaften Korrelationsanalysen Kreuztabellen und χ²-test Themen Korrelation oder Lineare Regression? Korrelationsanalysen - Pearson, Spearman-Rang, Kendall s Tau

Mehr

Eigene MC-Fragen (Teil II) "Kap. 9 Zusammenhangsmaße

Eigene MC-Fragen (Teil II) Kap. 9 Zusammenhangsmaße Eigene MC-Fragen (Teil II) "Kap. 9 Zusammenhangsmaße 1. Kreuze die richtige Aussage an! positiv sind, ist r stets identisch mit s xy. negativ sind, ist r stets identisch mit s xy. positiv sind, ist das

Mehr

Bivariate Verteilungen [bivariate data]

Bivariate Verteilungen [bivariate data] Bivariate Verteilungen [bivariate data] Zwei Variablen X, Y werden gemeinsam betrachtet, d.h. an jedem Objekt i werden zwei Merkmale beobachtet. Beobachtungswerte sind Paare/Kombinationen von Merkmalsausprägungen

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel. Zusammenfassung und wichtiges zur Prüfungsvorbereitung 9. Dezember 2008 Begriffe Kenntnis der wichtigen Begriffe und Unterscheidung dieser. Beispiele: Merkmal, Merkmalsraum, etc. Skalierung: Nominal etc

Mehr

Einführung in die sozialwissenschaftliche Statistik

Einführung in die sozialwissenschaftliche Statistik Einführung in die sozialwissenschaftliche Statistik Sitzung 4 Bivariate Deskription Heinz Leitgöb in Vertretung von Katrin Auspurg Sommersemester 2015 04.05.2015 Überblick 1. Kontingenztabellen 2. Assoziationsmaße

Mehr

5.5 PRE-Maße (Fehlerreduktionsmaße) 6

5.5 PRE-Maße (Fehlerreduktionsmaße) 6 359 5.5 PRE-Maße (Fehlerreduktionsmaße) 6 5.5.1 Die grundlegende Konstruktion Völlig andere, sehr allgemeine Grundidee zur Beschreibung von Zusammenhängen. Grundlegendes Prinzip vieler statistischer Konzepte.

Mehr

5 Beschreibung und Analyse empirischer Zusammenhänge

5 Beschreibung und Analyse empirischer Zusammenhänge 5 Beschreibung und Analyse empirischer Zusammenhänge 132 5 Beschreibung und Analyse empirischer Zusammenhänge 5.1 Zusammenhänge zwischen kategorialen Merkmalen 137 5.1.1 Kontingenztabellen 137 Verteilungen

Mehr

Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt.

Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt. Bivariate Analyse: Tabellarische Darstellung: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt. Beispiel: Häufigkeitsverteilung

Mehr

Kapitel 5 Wichtige Maßzahlen für den Zusammenhang zwischen Merkmalen

Kapitel 5 Wichtige Maßzahlen für den Zusammenhang zwischen Merkmalen Kapitel 5 Wichtige Maßzahlen für den Zusammenhang zwischen Merkmalen 5.1 Darstellung der Verteilung zweidimensionaler Merkmale 5.2 Maßzahlen für den Zusammenhang zweier nominaler Merkmale 5.3 Maßzahlen

Mehr

Grundlagen der empirischen Sozialforschung

Grundlagen der empirischen Sozialforschung Grundlagen der empirischen Sozialforschung Sitzung 11 - Datenanalyseverfahren Jan Finsel Lehrstuhl für empirische Sozialforschung Prof. Dr. Petra Stein 5. Januar 2009 1 / 22 Online-Materialien Die Materialien

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Januar 2011 BOOTDATA11.GDT: 250 Beobachtungen für die Variablen...

Mehr

3.1 Zusammenhang zwischen einem qualitativen und einem quantitativen Merkmal

3.1 Zusammenhang zwischen einem qualitativen und einem quantitativen Merkmal Kapitel 3 Bivariate Analyse In Kapitel 2 haben wir gesehen, wie man ein Merkmal auswertet. Mit Hilfe statistischer Verfahren kann man aber auch untersuchen, ob zwischen mehreren Merkmalen Abhängigkeiten

Mehr

Karl Entacher. FH-Salzburg

Karl Entacher. FH-Salzburg Ahorn Versteinert Bernhard.Zimmer@fh-salzburg.ac.at Statistik @ HTK Karl Entacher FH-Salzburg karl.entacher@fh-salzburg.ac.at Beispiel 3 Gegeben sind 241 NIR Spektren (Vektoren der Länge 223) zu Holzproben

Mehr

6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale

6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale 6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig und mindestens ordinalskaliert, typischerweise

Mehr

Bivariate Verteilungen

Bivariate Verteilungen Bivariate Verteilungen Tabellarische Darstellung: Bivariate Tabellen entstehen durch Kreuztabulation zweier Variablen. Beispiel: X Y Student(in) Herkunft Fakultät 0001 Europa Jura 000 Nicht-Europa Medizin

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Grundlagen der Statistik

Grundlagen der Statistik www.nwb.de NWB Studium Betriebswirtschaft Grundlagen der Statistik Band 1: Beschreibende Verfahren Von Professor Dr. Jochen Schwarze 12., vollständig überarbeitete Auflage nwb STUDIUM Inhaltsverzeichnis

Mehr

Grundlagen der Statistik I

Grundlagen der Statistik I NWB-Studienbücher Wirtschaftswissenschaften Grundlagen der Statistik I Beschreibende Verfahren Von Professor Dr. Jochen Schwarze 10. Auflage Verlag Neue Wirtschafts-Briefe Herne/Berlin Inhaltsverzeichnis

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Lösungen zur Klausur zur Statistik Übung am

Lösungen zur Klausur zur Statistik Übung am Lösungen zur Klausur zur Statistik Übung am 28.06.2013 Fabian Kleine Staatswissenschaftliche Fakultät Aufgabe 1 Gegeben sei die folgende geordneten Urliste des Merkmals Y. 30 Punkte Y : 5 5 5 5 10 10 10

Mehr

WISTA WIRTSCHAFTSSTATISTIK

WISTA WIRTSCHAFTSSTATISTIK WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 04.06.2013 Zweidimensionale Datensätze 1. Kontingenztabelle

Mehr

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II Statistik II Lineare Regressionsrechnung Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II - 09.06.2006 1 Mit der Kovarianz und dem Korrelationskoeffizienten können wir den statistischen

Mehr

Lösungen zur deskriptiven Statistik

Lösungen zur deskriptiven Statistik Lösungen zur deskriptiven Statistik Aufgabe 1. Bei einer Stichprobe von n = Studenten wurden folgende jährliche Ausgaben (in e) für Urlaubszwecke ermittelt. 1 58 5 35 6 8 1 6 55 4 47 56 48 1 6 115 8 5

Mehr

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz Statistik Der Weg zur Datenanalyse Zweite, verbesserte Auflage Mit 165 Abbildungen und 34 Tabellen Springer Inhaltsverzeichnis Vorwort v 1 Einführung

Mehr

5.3 (Empirische) Unabhängigkeit und χ 2

5.3 (Empirische) Unabhängigkeit und χ 2 5.3 (Empirische) Unabhängigkeit und χ 2 5.3 (Empirische) Unabhängigkeit und χ 2 5.3.1 (Empirische) Unabhängigkeit Durch den Vergleich der bedingten Häufigkeiten mit den Randhäufigkeiten kann man Zusammenhänge

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

5.2.3 Grafische Darstellung der gemeinsamen Verteilung. Verschiedene Darstellungsarten, z.b. als 3D-Säulendiagramm der gemeinsamen Häufigkeiten

5.2.3 Grafische Darstellung der gemeinsamen Verteilung. Verschiedene Darstellungsarten, z.b. als 3D-Säulendiagramm der gemeinsamen Häufigkeiten 5.2.3 Grafische Darstellung der gemeinsamen Verteilung 5.2 Assoziationsmessung in Kontingenztafeln Verschiedene Darstellungsarten, z.b. als 3D-Säulendiagramm der gemeinsamen Häufigkeiten h ij oder normale

Mehr

W-Rechnung und Statistik für Ingenieure Übung 5

W-Rechnung und Statistik für Ingenieure Übung 5 W-Rechnung und Statistik für Ingenieure Übung 5 Grafische/ tabellarische Darstellung für bivariate Daten diskrete Merkmale (qualitativ+ quantitativ diskret) stetige Merkmale (quantitativ stetig) Zusammenhangsmaße

Mehr

Einführung in Quantitative Methoden

Einführung in Quantitative Methoden in Quantitative Methoden Mag. Dipl.Ing. Dr. Pantelis Christodoulides & Mag. Dr. Karin Waldherr SS 2011 Christodoulides / Waldherr in Quantitative Methoden- 2.VO 1/47 Historisches Regression geht auf Galton

Mehr

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik... Inhaltsverzeichnis 1 Über dieses Buch... 11 1.1 Zum Inhalt dieses Buches... 13 1.2 Danksagung... 15 2 Zur Relevanz der Statistik... 17 2.1 Beispiel 1: Die Wahrscheinlichkeit, krank zu sein, bei einer positiven

Mehr

(f(xi ) y i ) 2. minimal ist: man will also die Summe der quadratischen Abweichungen minimieren ... f(x i ) y i, i=1 (t x i) 2

(f(xi ) y i ) 2. minimal ist: man will also die Summe der quadratischen Abweichungen minimieren ... f(x i ) y i, i=1 (t x i) 2 Mathematik für Biologen, Biotechnologen und Biochemiker Lineare Regression Gegeben seien Datenpaare (, ), (, ),, ( n, n ) Wir stellen die Frage, ob sich die Zahlen i als Werte einer linearen Funktion i

Mehr

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Teil III: Statistik Alle Fragen sind zu beantworten. Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Wird

Mehr

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt Statistik I 1. Klausur Wintersemester 2010/2011 Hamburg, 11.02.2011 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................

Mehr

Was sind Zusammenhangsmaße?

Was sind Zusammenhangsmaße? Was sind Zusammenhangsmaße? Zusammenhangsmaße beschreiben einen Zusammenhang zwischen zwei Variablen Beispiele für Zusammenhänge: Arbeiter wählen häufiger die SPD als andere Gruppen Hochgebildete vertreten

Mehr

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten: Verfahren zur Analyse von Nominaldaten Chi-Quadrat-Tests Vier-Felder Kontingenztafel Mehrfach gestufte Merkmale Cramers V, Kontingenzkoeffizient, Phi-Koeffizient Muster aller Chi-Quadrat-Verfahren eine

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:

Mehr

Charakterisierung der Daten: Sind es genug? Sind alle notwendig? Was ist naturgegeben, was von Menschen beeinflusst (beeinflussbar)?

Charakterisierung der Daten: Sind es genug? Sind alle notwendig? Was ist naturgegeben, was von Menschen beeinflusst (beeinflussbar)? 3 Beschreibende Statistik 3.1. Daten, Datentypen, Skalen Daten Datum, Daten (data) das Gegebene Fragen über Daten Datenerhebung: Was wurde gemessen, erfragt? Warum? Wie wurden die Daten erhalten? Versuchsplanung:

Mehr

Die Funktion f wird als Regressionsfunktion bezeichnet.

Die Funktion f wird als Regressionsfunktion bezeichnet. Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht

Mehr

V a r i a b l e X x 1 x 2 x 3 x 4 Σ y y y Σ Variable Y. V a r i a b l e X

V a r i a b l e X x 1 x 2 x 3 x 4 Σ y y y Σ Variable Y. V a r i a b l e X Ausgangsüberlegung: Verschiedene Kontingenztabellen bei gleicher Randverteilung und gleichem Stichprobenumfang n sind möglich. Beispiel: Variable Y V a r i a b l e X x 1 x x 3 x 4 Σ y 1 60 60 y 0 0 y 3

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Statistik ohne Angst vor Formeln

Statistik ohne Angst vor Formeln Statistik ohne Angst vor Formeln Das Studienbuch für Wirtschaftsund Sozialwissenschaftler 4., aktualisierte Auflage Andreas Quatember 1.3 Kennzahlen statistischer Verteilungen 1.3.4 Kennzahlen des statistischen

Mehr

Lineare Regression Blockpraktikum zur Statistik mit R 28. März 2012 Sören Gröttrup Institut für Mathematische Statistik Universität Münster SS 2012

Lineare Regression Blockpraktikum zur Statistik mit R 28. März 2012 Sören Gröttrup Institut für Mathematische Statistik Universität Münster SS 2012 Lineare Regression Blockpraktikum zur Statistik mit R 28. März 2012 Sören Gröttrup Institut für Mathematische Statistik Universität Münster SS 2012 Beispiel: Ausgangsfrage Ziel: Wie wirkt sich die eingesetzte

Mehr

Assoziation & Korrelation

Assoziation & Korrelation Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von 2 Merkmalen stellt sich die Frage, ob es systematische Zusammenhänge oder Abhängigkeiten

Mehr

3. Mehrdimensionale (multivariate) Datenanalyse

3. Mehrdimensionale (multivariate) Datenanalyse 3. Mehrdimensionale (multivariate) Datenanalyse Dr. Antje Kiesel Institut für angewandte Mathematik WS 2011/2012 I Wir wollen nun den Zusammenhang von zwei Merkmalen X und Y mit möglichen Merkmalsausprägungen

Mehr

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

Bivariater Zusammenhang in der Vierfeldertafel PEΣO Bivariater Zusammenhang in der Vierfeldertafel PEΣO 12. Oktober 2001 Zusammenhang zweier Variablen und bivariate Häufigkeitsverteilung Die Bivariate Häufigkeitsverteilung gibt Auskunft darüber, wie zwei

Mehr

Leseprobe. Michael Sachs. Wahrscheinlichkeitsrechnung und Statistik. für Ingenieurstudenten an Fachhochschulen. ISBN (Buch):

Leseprobe. Michael Sachs. Wahrscheinlichkeitsrechnung und Statistik. für Ingenieurstudenten an Fachhochschulen. ISBN (Buch): Leseprobe Michael Sachs Wahrscheinlichkeitsrechnung und Statistik für Ingenieurstudenten an Fachhochschulen ISBN (Buch): 978-3-446-43797-5 ISBN (E-Book): 978-3-446-43732-6 Weitere Informationen oder Bestellungen

Mehr

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für

Mehr

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Institut für Biometrie und klinische Forschung. WiSe 2012/2013 Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie () WiSe /3 Univariate und bivariate Verfahren Univariate

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem

Mehr

Deskriptive Statistik

Deskriptive Statistik Markus Wirtz, Christof Nachtigall Deskriptive Statistik 2008 AGI-Information Management Consultants May be used for personal purporses only or by libraries associated to dandelon.com network. Statistische

Mehr

Assoziation & Korrelation

Assoziation & Korrelation Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von Merkmalen stellt sich die Frage, ob es Zusammenhänge oder Abhängigkeiten zwischen den

Mehr

Didaktisches Seminar über Stochastik. Themen: ffl Korrelation von zwei Zufallsvariablen

Didaktisches Seminar über Stochastik. Themen: ffl Korrelation von zwei Zufallsvariablen Didaktisches Seminar über Stochastik Themen: ffl Gemeinsame Verteilung von zwei Zufallsvariablen ffl Lineare Regression ffl Korrelation von zwei Zufallsvariablen Michael Ralph Pape Mai 1998 1 1 GEMEINSAME

Mehr

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale 1. Grundlagen... 1 1.1 Grundgesamtheit und Untersuchungseinheit................ 1 1.2 Merkmal oder statistische Variable........................ 2 1.3 Datenerhebung.........................................

Mehr

5.3 (Empirische) Unabhängigkeit und χ 2

5.3 (Empirische) Unabhängigkeit und χ 2 5.3 (Empirische) Unabhängigkeit und χ 2 5.3.1 (Empirische) Unabhängigkeit Durch den Vergleich der bedingten Häufigkeiten mit den Randhäufigkeiten kann man Zusammenhänge beurteilen Illustration an einem

Mehr

Bivariate Kreuztabellen

Bivariate Kreuztabellen Bivariate Kreuztabellen Kühnel, Krebs 2001 S. 307-342 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/33 Häufigkeit in Zelle y 1 x 1 Kreuztabellen Randverteilung x 1... x j... x J Σ

Mehr

1. Datei Informationen

1. Datei Informationen 1. Datei Informationen Datei vorbereiten (Daten, Variablen, Bezeichnungen und Skalentypen) > Datei Dateiinformation anzeigen Arbeitsdatei 2. Häufigkeiten Analysieren Deskriptive Statistik Häufigkeiten

Mehr

Statistik I. Sommersemester 2009

Statistik I. Sommersemester 2009 I Sommersemester 2009 I Wiederholung/Einführung χ 2 =?!? I Wiederholung/Einführung χ 2 =?!? Nächste Woche: Maße für ordinale, nominal/intervallskalierte und intervallskalierte Daten I Zum Nachlesen Agresti/Finlay:

Mehr

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen - nominal, ordinal, metrisch In SPSS: - Einfache -> Mittelwerte vergleichen -> Einfaktorielle - Mehrfaktorielle -> Allgemeines lineares Modell -> Univariat In SPSS: -> Nichtparametrische Tests -> K unabhängige

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik Analyse und Modellierung von Daten von Prof. Dr. Rainer Schlittgen Universität Hamburg 12., korrigierte Auflage Oldenbourg Verlag München Inhaltsverzeichnis 1 Statistische Daten

Mehr

1 Beispiel zur Methode der kleinsten Quadrate

1 Beispiel zur Methode der kleinsten Quadrate 1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25

Mehr

Deskriptive Statistik

Deskriptive Statistik Helge Toutenburg Christian Heumann Deskriptive Statistik Eine Einführung in Methoden und Anwendungen mit R und SPSS Siebte, aktualisierte und erweiterte Auflage Mit Beiträgen von Michael Schomaker 4ü Springer

Mehr

Zusammenhangsmaße II

Zusammenhangsmaße II Sommersemester 2009 Wiederholung/ Eine nominale und eine intervallskalierte Variable χ 2 =?!? Übung von Simone Reutzel Heute im HS1, altes ReWi-Haus Zum Nachlesen Agresti/Finlay: Kapitel 8.5, 9.4 Gehring/Weins:

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2016 Prof. Dr. Stefan Etschberger Hochschule Augsburg Weitere smaße skoeffizient: CR g = Anteil,

Mehr

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen

Mehr

Regression und Korrelation

Regression und Korrelation Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen

Mehr

Grundlagen der Statistik

Grundlagen der Statistik Grundlagen der Statistik Übung 2 2010 FernUniversität in Hagen Alle Rechte vorbehalten Fakultät für Wirtschaftswissenschaft Übersicht über die mit den Übungsaufgaben geprüften Lehrzielgruppen Lehrzielgruppe

Mehr

Statistik I. Sommersemester 2009

Statistik I. Sommersemester 2009 I Sommersemester 2009 I χ 2 =?!? Nächste Woche: Maße für ordinale, nominal/intervallskalierte und intervallskalierte Daten I Zum Nachlesen Agresti/Finlay: Kapitel 8.1-8.4 Gehring/Weins: Kapitel 7.1 Schumann:

Mehr

Mathematik III - Statistik für MT(Master)

Mathematik III - Statistik für MT(Master) 3. Regressionsanalyse Fachbereich Grundlagenwissenschaften Prof. Dr. Viola Weiß Wintersemester 0/03 Mathematik III - Statistik für MTMaster 3. Empirische Regressionsgerade Optimalitätskriterium: Die Summe

Mehr

Assoziation & Korrelation

Assoziation & Korrelation Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von 2 Merkmalen stellt sich die Frage, ob es Zusammenhänge oder Abhängigkeiten zwischen den

Mehr

Ziel der linearen Regression

Ziel der linearen Regression Regression 1 Ziel der linearen Regression Bei der linearen Regression wird untersucht, in welcher Weise eine abhängige metrische Variable durch eine oder mehrere unabhängige metrische Variablen durch eine

Mehr

Musterlösung zur Übungsklausur Statistik

Musterlösung zur Übungsklausur Statistik Musterlösung zur Übungsklausur Statistik WMS15B Oettinger 9/216 Aufgabe 1 (a) Falsch: der Modus ist die am häufigsten auftretende Merkmalsausprägung in einer Stichprobe. (b) Falsch: die beiden Größen sind

Mehr

Musterlösung zur Aufgabensammlung Statistik I Teil 3

Musterlösung zur Aufgabensammlung Statistik I Teil 3 Musterlösung zur Aufgabensammlung Statistik I Teil 3 2008, Malte Wissmann 1 Zusammenhang zwischen zwei Merkmalen Nominale, Ordinale Merkmale und Mischungen Aufgabe 12 a) x\ y 1.Klasse 2.Klasse 3.Klasse

Mehr

Alternative Darstellung des 2-Stcihprobentests für Anteile

Alternative Darstellung des 2-Stcihprobentests für Anteile Alternative Darstellung des -Stcihprobentests für Anteile DCF CF Total n 111 11 3 Response 43 6 69 Resp. Rate 0,387 0,3 0,309 Bei Gültigkeit der Nullhypothese Beobachtete Response No Response Total absolut

Mehr

Bivariate Regressionsanalyse

Bivariate Regressionsanalyse Universität Bielefeld 15. März 2005 Kovarianz, Korrelation und Regression Kovarianz, Korrelation und Regression Ausgangspunkt ist folgende Datenmatrix: Variablen 1 2... NI 1 x 11 x 12... x 1k 2 x 21 x

Mehr

Kapitel VIII - Mehrdimensionale Merkmale

Kapitel VIII - Mehrdimensionale Merkmale Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel VIII - Mehrdimensionale Merkmale Deskriptive Statistik Prof. Dr. W.-D. Heller Hartwig Senska Carlo Siebenschuh

Mehr

Übung V Lineares Regressionsmodell

Übung V Lineares Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung

Mehr

Die Regressionsanalyse

Die Regressionsanalyse Die Regressionsanalyse Zielsetzung: Untersuchung und Quantifizierung funktionaler Abhängigkeiten zwischen metrisch skalierten Variablen eine unabhängige Variable Einfachregression mehr als eine unabhängige

Mehr

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 20 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr

Statistik. Ronald Balestra CH St. Peter

Statistik. Ronald Balestra CH St. Peter Statistik Ronald Balestra CH - 7028 St. Peter www.ronaldbalestra.ch 17. Januar 2010 Inhaltsverzeichnis 1 Statistik 1 1.1 Beschreibende Statistik....................... 1 1.2 Charakterisierung von Häufigkeitsverteilungen...........

Mehr

Bivariater Zusammenhang in der Mehrfeldertafel PEΣO

Bivariater Zusammenhang in der Mehrfeldertafel PEΣO Bivariater Zusammenhang in der Mehrfeldertafel PEΣO 9. November 2001 Bivariate Häufigkeitsverteilungen in Mehrfeldertabellen In der Mehrfeldertabelle werden im Gegensatz zur Vierfeldertabelle keine dichotomen

Mehr

Parametrische vs. Non-Parametrische Testverfahren

Parametrische vs. Non-Parametrische Testverfahren Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer

Mehr

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik Regression Dozent: Fabian Scheipl Material: H. Küchenhoff LMU München 39 Einfache lineare Regression Bestimmung der Regressionsgerade

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik Analyse und Modellierung von Daten Von Prof. Dr. Rainer Schlittgen 4., überarbeitete und erweiterte Auflage Fachbereich Materialwissenschaft! der Techn. Hochschule Darmstadt

Mehr

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn Statistikpraktikum Carsten Rezny Institut für angewandte Mathematik Universität Bonn Sommersemester 2014 Mehrdimensionale Datensätze: Multivariate Statistik Multivariate Statistik Mehrdimensionale Datensätze:

Mehr

11. Zusammenhangsmaße für nominale Variablen

11. Zusammenhangsmaße für nominale Variablen Statistik I Übung 11. Zusammenhangsmaße für nominale Variablen Dozent: Jürgen Leibold 1 Evaluation Nominale Zusammenhangsmaße Übersicht Chi-Quadrat Phi Cramers V Nominale Zusammenhangsmaße 3 Randverteilung

Mehr

Bivariate Zusammenhänge

Bivariate Zusammenhänge Bivariate Zusammenhänge Tabellenanalyse: Kreuztabellierung und Kontingenzanalyse Philosophische Fakultät Institut für Soziologie Berufsverläufe und Berufserfolg von Hochschulabsolventen Dozent: Mike Kühne

Mehr

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression Drittvariablenkontrolle in der linearen Regression: Trivariate Regression 14. Januar 2002 In der Tabellenanalyse wird bei der Drittvariablenkontrolle für jede Ausprägung der Kontrollvariablen eine Partialtabelle

Mehr

6. Multivariate Verfahren Übersicht

6. Multivariate Verfahren Übersicht 6. Multivariate Verfahren 6. Multivariate Verfahren Übersicht 6.1 Korrelation und Unabhängigkeit 6.2 Lineare Regression 6.3 Nichtlineare Regression 6.4 Nichtparametrische Regression 6.5 Logistische Regression

Mehr

Regression I. Statistik I. Sommersemester Lineare Regression Zusammenhang und Modell Ein Beispiel: Armut und Gewaltverbrechen Zusammenfassung

Regression I. Statistik I. Sommersemester Lineare Regression Zusammenhang und Modell Ein Beispiel: Armut und Gewaltverbrechen Zusammenfassung Sommersemester 2009 Ein Beispiel: Armut und Gewaltverbrechen Rechtswahl 15 10 5 0 5 10 Arbeitslosigkeit Zum Nachlesen Agresti: 9.1-9.4 Gehring/Weins: 8 Schumann: 8.1-8.2 Was ist ein Zusammenhang? Gemeinsame

Mehr