6. Auswertung mehrdimensionaler Daten

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "6. Auswertung mehrdimensionaler Daten"

Transkript

1 6. Auswertung mehrdimensionaler Daten Bisher: Auswertungsmethoden für Daten eines einzelnen Merkmals, z.b. Diskrete Klassierung Grafische Darstellungen (Verteilungsfunktion) Lagemaße Streungsmaße Schiefemaße 199

2 Jetzt: Methoden zur Auswertung von Daten über mehrere Merkmale gleichzeitig (mehrdimensionale oder multivariate Daten) Ziele: Simultane Beschreibung durch Tabellen und Grafiken Mehrdimensionale Messung von Lage und Streuung Aufdecken von Beziehungen zwischen den Merkmalen (Korrelationen) 200

3 6.1 Grundbegriffe Ausgangssituation: [I] n Merkmalsträger e 1, e 2,..., e n Grundgesamtheit: G = {e 1, e 2,..., e n } 2 Merkmale X und Y, die jeweils am Merkmalsträger e i, i = 1,..., n, beobachtet werden können 201

4 Ausgangssituation: [II] Urliste lautet dann: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) oder in Matrix-Schreibweise (n 2 Matrix) x 1 y 1 x 2. y 2. x n y n 202

5 Beispiel: [I] Ausgaben für Werbung und Absätze von 84 Unternehmen in den USA im Jahr 1990 Merkmale X: Ausgaben für Werbung (in Mill. US-$) Y : Absatz (in Mill. US-$) 203

6 Beispiel: [II] Datensatz: i Werbeausgaben (X) Absätze (Y) Falls X und Y metrisch skaliert sind (wie hier), kann man die n Datenpunkte (x 1, y 1 ),..., (x n, y n ) in einem Streudiagramm darstellen 204

7 Streudiagramm Werbeausgaben gegen Absatzzahlen 560 Absatz in Mill. US-$ (Y) Werbeausgaben in Mill. US-$ (X) 205

8 Jetzt: Betrachte p 2 Merkmale X 1,..., X p mit Beobachtungen (x i1, x i2,..., x ip ) für die Untersuchungseinheit e i Urliste bzw. n p Datenmatrix: (x 11, x 12,..., x 1p ), (x 21, x 22,..., x 2p ),..., (x n1, x n2,..., x np ) x 11 x x 1p x 21 x x 2p x n1 x n2... x np 206

9 6.1.1 Kontingenztafel und Häufigkeiten Gegeben: 2 Merkmale X und Y n 2 Datenmatrix x 1 y 1 x 2. y 2. x n bzw. Urliste mit n Zahlenpaaren y n (x i, y i ), i = 1,..., n, 207

10 Ziel: Beschreibung von absoluten und relativen Häufigkeiten Notation: ξ 1,..., ξ J seien die J möglichen Werte von X η 1,..., η K seien die K möglichen Werte von Y 208

11 Definition 6.1: (Gemeinsame und Randhäufigkeiten) [I] Für jedes j = 1,..., J und k = 1,..., K versteht man 1. unter der gemeinsamen absoluten Häufigkeit die Anzahl n jk aller Datenpaare (x i, y i ) für die gilt x i = ξ j und y i = η k. 2. unter den absoluten Randhäufigkeiten der X-Ausprägung ξ j bzw. der Y -Ausprägung η k die Summen n j = K k=1 n jk bzw. n k = J j=1 n jk. 209

12 Definition 6.1: (Gemeinsame und Randhäufigkeiten) [II] 3. Die gemeinsamen absoluten Häufigkeiten zusammen mit den absoluten Randhäufigkeiten stellt man übersichtlich in der folgenden Häufigkeitstabelle dar, die man Kontingenztafel oder Kontingenztabelle nennt: η 1 η 2.. Y. = η K 1 η K ξ 1 n 11 n n 1(K 1) n 1K n 1 ξ 2 n 21 n X =... n 2(K 1). n 2K. n 2. ξ J 1 n (J 1)1 n (J 1)2... n (J 1)(K 1) n (J 1)K n (J 1) ξ J n J1 n J2... n J(K 1) n JK n J n 1 n 2... n (K 1) n K n 210

13 Beispiel: [I] Erhebung folgender Merkmale bei n = 1000 Personen: Berufszugehörigkeit X Ausmaß sportlicher Betätigung Y 211

14 Beispiel: [II] Kontingenztabelle: Y (sportliche Betätigung) X (Berufsgruppe) nie gelegentlich regelmäßig Arbeiter Angestellte Beamte Landwirte sonstige Offensichtlich: Aus gemeinsamen Häufigkeiten lassen sich Randhäufigkeiten eindeutig bestimmen (Umkehrung gilt nicht!) 212

15 Definition 6.2: (Relative Häufigkeiten, Randverteilung) Für jedes j = 1,..., J und k = 1,..., K heißen 1. f jk = n jk n die gemeinsame relative Häufigkeit von ξ j und η k, 2. f j = K k=1 f jk bzw. f k = J j=1 f jk die relative Randhäufigkeit von ξ j bzw. η k. 3. Die relativen Randhäufigkeiten f 1, f 2,..., f J der Werte von X nennt man die Randverteilung des Merkmals X. Entsprechend bilden die relativen Randhäufigkeiten f 1, f 2,..., f K die Randverteilung des Merkmals Y. 213

16 Kontingenztafel mit relativen Häufigkeiten: η 1 η 2.. Y. = η K 1 η K ξ 1 f 11 f f 1(K 1) f 1K f 1 ξ 2 f 21 f X =... f 2(K 1). f 2K. f 2. ξ J 1 f (J 1)1 f (J 1)2... f (J 1)(K 1) f (J 1)K f (J 1) ξ J f J1 f J2... f J(K 1) f JK f J f 1 f 2... f (K 1) f K 1 214

17 Bemerkung: Offensichtlich gilt: J K j=1 k=1 f jk = J j=1 f j = K k=1 f k = 1 (Die Summe über den relativen Randhäufigkeiten eines jeden Merkmals ist 1) 215

18 Kontingenztabelle mit relativen Häufigkeiten für das obige Beispiel: Y (sportliche Betätigung) X (Berufsgruppe) nie gelegentlich regelmäßig Arbeiter Angestellte Beamte Landwirte sonstige

19 6.1.2 Bedingte Verteilungen Jetzt: Weiteres wichtiges Konzept der mehrdimensionalen Datenanalyse Definition 6.3: (Bedingte relative Häufigkeiten) Für ein festes k {1,..., K} sowie für jedes j = 1,..., J nennt man die Größe f j Y =ηk = f jk f k die bedingte relative Häufigkeit von ξ j unter der Bedingung Y = η k. 217

20 Bemerkung: Die bedingte relative Häufigkeit f j Y =ηk ist die relative Häufigkeit der X-Ausprägung ξ j in der Teilgesamtheit aller derjenigen Einheiten, welche die Y -Ausprägung η k aufweisen, denn f j Y =ηk = f jk f k = Definition 6.4: (Bedingte Verteilung) n jk n n k n = n jk n k Gemäß Definition 6.3 kann man insgesamt J bedingte relative Häufigkeiten betrachten: f 1 Y =ηk, f 2 Y =ηk,..., f J Y =ηk. Die Gesamtheit dieser J Werte heißt die bedingte Verteilung von X unter (der Bedingung) Y = η k. 218

21 Bemerkungen: [I] Analog zu Definition 6.3 definiere für ein festes j {1,..., J} sowie für beliebige k = 1,..., K f k X=ξj = f jk f j. Diese Größe heißt bedingte relative Häufigkeit von η k unter (der Bedingung) X = ξ j. Analog zu Definition 6.4 heißt f 1 X=ξj, f 2 X=ξj,..., f K X=ξj die bedingte Verteilung von Y unter X = ξ j 219

22 Bemerkungen: [II] Offensichtlich gilt: J j=1 K k=1 f j Y =ηk = f k X=ξj = J j=1 K k=1 n jk n k = 1 n jk n j = 1 für jedes k = 1,..., K für jedes j = 1,..., J 220

23 Beispiel: (Berufsgruppe Sport, vgl. Folien 211 ff.) Gesucht: [I] Verteilung der sportlichen Aktivität bei Arbeitern oder statistisch ausgedrückt: Die bedingte Verteilung von Y unter X = ξ 1 f 1 X=ξ1 = n 11 = 240 n f 2 X=ξ1 = n 12 = 120 n f 3 X=ξ1 = n 13 n 1 = = (nie) = (gelegentlich) = (regelmäßig) 221

24 Gesucht: [II] Verteilung der Berufsgruppen bei regelmäßig Aktiven oder statistisch ausgedrückt: Die bedingte Verteilung von X unter Y = η 3 f 1 Y =η3 = f 2 Y =η3 = f 3 Y =η3 = f 4 Y =η3 = f 5 Y =η3 = = (Arbeiter) = (Angestellte) = (Beamte) = (Landwirte) = (sonstige) 222

25 6.1.3 Deskriptive Unabhängigkeit Jetzt: Frage nach dem Zusammenhang zwischen X und Y Definition 6.5: (Deskriptive Unabhängigkeit) Die Merkmale X und Y heißen deskriptiv unabhängig, falls sich für alle j = 1,..., J und für alle k = 1,..., K die gemeinsamen relativen Häufigkeiten als Produkt der relativen Randhäufigkeiten ergeben, d.h. falls gilt f jk = f j f k. 223

26 Beispiel: (Geschlecht (X) gewählte Partei (Y )) Kontingenztafel mit absoluten Häufigkeiten: Y (Partei) X (Geschlecht) A B C männlich weiblich

27 Kontingenztafel mit relativen Häufigkeiten: Y (Partei) X (Geschlecht) A B C männlich weiblich f 11 = 0.20 = = f 1 f 1 f 12 = 0.12 = = f 1 f 2 f 13 = 0.08 = = f 1 f 3 f 21 = 0.30 = = f 2 f 1 f 22 = 0.18 = = f 2 f 2 f 23 = 0.12 = = f 2 f 3 Fazit: X und Y sind deskriptiv unabhängig 225

28 Betrachte nun: Bedingte Verteilungen von X unter Y = η 1, Y = η 2, Y = η 3 Bedingte Verteilungen von Y unter X = ξ 1, X = ξ 2 Bedingte Verteilungen von X: [I] unter Y = η 1 : f 1 Y =η1 = f 11 f 1 = = 0.40 f 2 Y =η1 = f 21 f 1 = =

29 Bedingte Verteilungen von X: [II] unter Y = η 2 : f 1 Y =η2 = f 12 f 2 = = 0.40 f 2 Y =η2 = f 22 f 2 = = 0.60 unter Y = η 3 : f 1 Y =η3 = f 13 f 3 = = 0.40 f 2 Y =η3 = f 23 f 3 = =

30 Offensichtlich: Bedingte Verteilungen von X unter Y = η 1, Y = η 2, Y = η 3 sind alle gleich Man überprüft leicht, dass die bedingten Verteilungen von Y unter X = ξ 1, X = ξ 2 ebenfalls beide gleich sind 228

31 Allgemein gilt: X und Y sind genau dann deskriptiv unabhängig, sobald eine der folgenden äquivalenten Bedingungen erfüllt ist: Für alle j = 1,..., J und alle k = 1,..., K gilt: f jk = f j f k (= Definition 6.5) Für alle j = 1,..., J und alle k = 1,..., K gilt: Für alle j = 1,..., J gilt: n jk = n j n k n f j Y =η1 = f j Y =η2 =... = f j Y =ηk = f j Für alle k = 1,..., K gilt: f k X=ξ1 = f k X=ξ2 =... = f k X=ξJ = f k 229

32 6.1.4 Arithmetische Mittel und Varianzen Annahmen: X und Y sind metrisch skaliert (sinnvolle Arithmetik) Daten liegen in Kontingenztafeln vor (absolute oder relative Häufigkeiten) 230

33 Jetzt: Übertragung von Mittelwert und Varianz auf mehrdimensionale Daten Mittelwert- und Varianzbildung über Rand- bzw. bedingte Verteilungen Definition 6.6: (Arithmetische Mittel) Die arithmetischen Mittel von X und Y sind definiert als die arithmetischen Mittel der jeweiligen Randverteilung: x = 1 n J j=1 ξ j n j = J j=1 ξ j f j, y = 1 n K k=1 η k n k = K k=1 η k f k. 231

34 Bemerkung: In mehrdimensionalen Datensätzen sind die arithmetischen Mittel einzelner Merkmale einfach die Mittelwerte der einzelnen Datenreihen Definition 6.7: (Bedingte arithmetische Mittel) Das bedingte arithmetische Mittel von X unter Y = η k (k fest) sowie das bedingte arithmetische Mittel von Y unter X = ξ j (j fest) sind jeweils definiert als die arithmetischen Mittel der entsprechenden bedingten Verteilungen von X und Y : x k = 1 n k J j=1 ξ j n jk = J j=1 ξ j f j Y =ηk, y j = 1 n j K k=1 η k n jk = K k=1 η k f k X=ξj. 232

35 Bemerkungen: Sind X und Y deskriptiv unabhängig, so stimmen sämtliche bedingte Verteilungen von X mit der Randverteilung von X überein (vgl. Folie 229). Da das bedingte arithmetische Mittel von X unter Y = η k der Mittelwert der entsprechenden bedingten Verteilung von X ist, stimmt im Fall der deskriptiven Unabhängigkeit für jedes k der bedingte Mittelwert x k mit dem gewöhnlichen Mittelwert überein: x 1 = x 2 =... = x K = x Analog gilt im Fall der deskriptiven Unabhängigkeit für die bedingten Mittelwerte von Y : y 1 = y 2 =... = y J = y 233

36 Jetzt: Definition von Varianzen und bedingten Varianzen von X und Y Definition 6.8: (Varianz) Die Varianzen von X und Y sind definiert als die Varianzen der jeweiligen Randverteilungen, d.h. s 2 X = 1 n s 2 Y = 1 n J j=1 K k=1 ( ξj x ) 2 nj = 1 n (η k y) 2 n k = 1 n J j=1 K k=1 ξ 2 j n j x 2, η 2 k n k y

37 Bemerkung: In mehrdimensionalen Datensätzen sind die Varianzen der einzelnen Merkmale einfach die Varianzen der einzelnen Datenreihen Definition 6.9: (Bedingte Varianz) Die bedingte Varianz von X unter Y = η k (k fest) sowie die bedingte Varianz von Y unter X = ξ j (j fest) sind definiert als die Varianzen der entsprechenden bedingten Verteilungen von X und Y : s 2 X Y =η k = s 2 Y X=ξ j = J j=1 K k=1 ( ξj x k ) 2 n jk n k = ( ηk y j ) 2 n jk n j = J j=1 K k=1 ξ 2 j njk n k x 2 k, η 2 k njk n j y 2 j. 235

38 Bemerkungen: Sind X und Y deskriptiv unabhängig, so stimmen sämtliche bedingte Verteilungen von X mit der Randverteilung von X überein (vgl. Folie 229). Da die bedingte Varianz von X unter Y = η k die Varianz der entsprechenden bedingten Verteilung von X ist, stimmt im Fall der deskriptiven Unabhängigkeit für jedes k die bedingte Varianz s 2 X Y =η mit der gewöhnlichen k Varianz überein: s 2 X Y =η 1 = s 2 X Y =η 2 =... = s 2 X Y =η K = s 2 X Analog gilt im Fall der deskriptiven Unabhängigkeit für die bedingten Varianzen von Y : s 2 Y X=ξ 1 = s 2 Y X=ξ 2 =... = s 2 Y X=ξ J = s 2 Y 236

39 Beispiel: (Wohnraum) Betrachte n = 1000 Wohnungen Merkmale: X: Anzahl der Wohnräume pro Wohnung Y : Anzahl der Personen pro Wohnung 237

40 Y = 1 Y = 2 Y = 3 Y = 4 Y = 5 X = X = X = X = X = Berechnung von (bedingten) Mittelwerten und Varianzen Im Proseminar 238

41 6.2 Zusammenhangsmaße Gegeben: Zwei Merkmale X und Y mit Urliste der Länge n Gesucht: Maßzahl für den Zusammenhang zwischen X und Y 239

42 Beispiele: Zusammenhang zwischen Körpergröße (X) und Körpergewicht (Y ) Zusammenhang zwischen Inflationsrate (X) und Arbeitslosenquote (Y ) (Phillips-Kurve) Zusammenhang zwischen Arbeitslosigkeit (X) und Wirtschaftswachstum (Y ) (Okunsches Gesetz) 240

43 Wichtiges Charakteristikum: Datenniveau von X und Y Metrische Skalierung Ordinale Skalierung Nominale Skalierung 241

44 6.2.1 Metrische Daten: Korrelationskoeffizient Situation: X und Y sind metrisch skaliert Urliste: (x 1, y 1 ),..., (x n, y n ) Frage: Wie hängen X und Y zusammen? 242

45 Zunächst: Betrachte für ein festes i {1,..., n} die Größe T 1 = (x i x) (y i y) Offensichtlich gilt: T 1 > 0 = x i und y i sind beide jeweils größer oder beide jeweils kleiner als ihre Mittelwerte T 1 < 0 = x i und y i verhalten sich jeweils umgekehrt bzgl. ihrer Lage zum jeweiligen Mittelwert 243

46 Jetzt: Summenbildung über alle Daten T 2 = n i=1 (x i x) (y i y) T 2 0: = Die positiven Summanden in T 2 überwiegen die negativen erheblich. Zu hohen bzw. niedrigen x i gehören tendenziell hohe bzw. niedrige y i (positiver Zusammenhang) 244

47 Summenbildung über alle Daten: [II] T 2 0: = Die negativen Summanden in T 2 überwiegen die positiven erheblich. Zu hohen bzw. niedrigen x i gehören tendenziell nun niedrige bzw. hohe y i (negativer Zusammenhang) T 2 0: = Positive und negative Summanden in T 2 heben sich tendenziell auf. Zu hohen ( niedrigen ) x i gehören nun sowohl niedrige als auch hohe y i (kein Zusammenhang) 245

48 Definition 6.10: (Kovarianz) Die Kovarianz zwischen X und Y ist definiert durch s XY = 1 n n i=1 (x i x) (y i y) = 1 n n i=1 x i y i x y. Bemerkungen: [I] Die Kovarianz s XY ist symmetrisch, d.h. s XY = s Y X 246

49 Bemerkungen: [II] Die Kovarianz eines Merkmals mit sich selbst ist gleich der Varianz des Merkmals: s XX = 1 n n i=1 (x i x) 2 = s 2 X Liegt die Datenurliste in Form einer Häufigkeitstabelle vor, so ist die Kovarianz gegeben durch s XY = 1 n = 1 n J K j=1 k=1 J K j=1 k=1 ( ξj x ) (η k y) n jk ξ j η k n jk x y 247

50 Jetzt: Normierung der Kovarianz s XY durch Division durch das Produkt der Standardabweichungen von X und Y 248

51 Definition 6.11: (Korrelationskoeffizient von Bravais-Pearson) Der Korrelationskoeffizient zwischen X und Y ist definiert durch r XY = = s XY s 2 X n i=1 s 2 Y n i=1 = n i=1 n i=1 (x i x) (y i y) (x i x) 2 x i y i n x y x 2 i n x2 n i=1 n i=1 y 2 i n y2. (y i y) 2 249

52 Bemerkungen: [I] Der Korrelationskoeffizient r XY ist symmetrisch : r XY = r Y X Der Korrelationskoeffizient ist normiert, d.h. es gilt immer 1 r XY 1 Wenn r XY = 0 ist, so sagt man: Die Merkmale X und Y sind unkorreliert 250

53 Bemerkungen: [II] Sind X und Y deskriptiv unabhängig, so gilt: r XY = 0 (Deskrip. Unabhängigkeit impliziert Unkorreliertheit) Vorsicht: Die Umkehrung gilt im allgemeinen nicht (Unkorreliertheit (r XY = 0) impliziert nicht die deskriptive Unabhängigkeit von X und Y ) Ist r XY = 1 oder r XY = 1, so sagt man: Die Merkmale X und Y sind perfekt korreliert 251

54 Zentrales Resultat: Es gilt r XY = 1 genau dann, wenn es Zahlen a > 0, b R gibt, so dass y i = a x i + b für alle i = 1,..., n gilt (Alle Daten liegen auf einer Geraden mit positiver Steigung) Es gilt r XY = 1 genau dann, wenn es Zahlen a < 0, b R gibt, so dass y i = a x i + b für alle i = 1,..., n gilt (Alle Daten liegen auf einer Geraden mit negativer Steigung) 252

55 Offensichtlich: Der Korrelationskoefizient r XY ist ein Maß für den linearen Zusammenhang zwischen X und Y Vorsicht: r XY = 0 (bzw. r XY 0) bedeutet nur, dass kein (bzw. nur ein schwacher) linearer Zusammenhang zwischen X und Y besteht. Es können aber trotzdem starke andere (nichtlineare) Zusammenhänge zwischen X und Y bestehen 253

56 Korrelation zwischen X und Y: Korrelation zwischen X und Y2: Y 0 Y X X Korrelation zwischen X und Y1: Korrelation zwischen X und Y3: Y Y X X

57 Weitere Aspekte zur Korrelation: [I] Korrelation und Kausalität Scheinkorrelation: Die zu untersuchenden Merkmale X und Y hängen beide von einem 3. Merkmal Z ab, das nicht Gegenstand der Untersuchung ist. Ein hoher Wert für r XY kann daher zustandekommen, weil sowohl X als auch Y von Z abhängen (indirekter Zusammenhang) Beispiel: X: Wortschatz eines Kindes Y : Körpergröße eines Kindes Z: Alter eines Kindes 255

58 Weitere Aspekte zur Korrelation: [II] Nonsens-Korrelation: Hohe Korrelation zwischen völlig sachfremden Merkmalen X und Y Beispiel: Hohe Korrelation zwischen (menschlicher) Geburtenrate (X) einer Region und deren Population von Klapperstörchen (Y ) 256

59 6.2.2 Ordinale Daten: Rangkorrelationskoeffizient Jetzt: X und Y sind ordinal skaliert = Berechnung von arithmetischem Mittel Varianz und Kovarianz nicht sinnvoll Gesucht: Sinnvolles Korrelationsmaß für ordinale Daten 257

60 Zunächst Zusatzannahme: Alle Daten eines Merkmals sind verschieden, d.h. x i x j und y i = y j für alle i = j Damit: Einfache Definition der Rangzahl einer Merkmalsausprägung x i bzw. y i 258

61 Definition 6.12: (Rangzahl eines Datenpunktes) Gegeben seien die ungeordnete Urliste x 1,..., x n sowie die geordnete Urliste x (1) < x (2) <... < x (n) eines Merkmals X. Unter der Rangzahl (kurz: Rang) eines Datenwertes x i, in Zeichen R X (x i ), versteht man die Position, die x i in der geordneten Urliste einnimmt, d.h. R X (x i ) = r, falls x i = x (r). 259

62 Zahlenbeispiel: Ungeordnete Urliste x 1 x 2 x 3 x 4 x 5 x Geordnete Urliste x (1) x (2) x (3) x (4) x (5) x (6) (= x 1 ) (= x 4 ) (= x 2 ) (= x 5 ) (= x 3 ) (= x 6 ) Damit ergeben sich folgende Rangzahlen: R X (x 1 ) = 1, R X (x 2 ) = 3, R X (x 3 ) = 5, R X (x 4 ) = 2, R X (x 5 ) = 4, R X (x 6 ) = 6 260

63 Sinnvolles Korrelationsmaß für ordinale Daten: Korrelationskoeffizient aus Definition 6.11 angewendet auf die Ränge R X (x i ) und R Y (y i ) Definition 6.13: (Rangkorrelationskoeff. von Spearman) Es bezeichnen R X und R Y die arithmetischen Mittel der Rangzahlen der Merkmale X und Y. Der Rangkorrelationskoeffizient zwischen X und Y ist definiert durch n ( RX (x i ) R X ) ( RY (y i ) R Y ) r R XY = i=1 n i=1 ( RX (x i ) R X ) 2 n i=1 ( RY (y i ) R Y )

64 Man beachte: Für die arithmetischen Mittel R X und R Y gilt: R X = R Y = 1 n Hieraus folgt: r R XY = n i=1 n i=1 n ( i=1 i = 1 n n ( (n + 1) 2 R X (x i ) n R X (x i ) n ) 2 ) = n ( n R Y (y i ) n i=1 ( (vgl. Folie 27) ) R Y (y i ) n ) 2 262

65 Bemerkungen: Es gibt weitere, äquivalente Formeln für r R XY, z.b. r R XY = n i=1 n i=1 R X (x i ) 2 R X (x i ) R Y (y i ) n (n + 1)2 4 n i=1 n (n + 1)2 4 R Y (y i ) 2 n (n + 1)2 4 Sind alle x i und y i verschieden (wie hier zunächst angenommen), so ergibt sich die vereinfachte Formel r R,OB XY = 1 6 n i=1 [R X (x i ) R Y (y i )] 2 n (n 2 1) 263

66 Beispiel: (Schulnoten) 6 Schüler haben folgende Punktzahlen auf einer von 1 bis 10 reichenden Ordinalskala für Klausuren in Mathematik (X) und Physik (Y ) erreicht: Es gilt: x 1 x 2 x 3 x 4 x 5 x 6 y 1 y 2 y 3 y 4 y 5 y r R XY = rr,ob XY = (6 2 1) =

67 Wichtige Eigenschaften von r R XY : [I] r R XY ist symmetrisch, d.h. rr XY = rr Y X rxy R ist invariant gegenüber streng monoton wachsenden Transformationen: Sind f und g streng monoton wachsende Funktionen und überführt man die Ursprungsdaten (x i, y i ) in x i = f(x i) und y i = g(y i) für alle i = 1,..., n so gilt für alle i: und damit R X (x i ) = R X(x i ) R Y (y i ) = R Y (y i ) r R XY = rr X Y 265

68 Wichtige Eigenschaften von r R XY : [II] r R XY ist normiert: 1 r R XY 1 Extremfälle: r R XY = 1 R X(x i ) = R Y (y i ) für alle i = 1,..., n (völlig gleich gerichteter monoton wachsender Zusammenhang) r R XY = 1 R X(x i ) = n R Y (y i )+1 für alle i = 1,..., n (völlig gegenläufiger monoton fallender Zusammenhang) 266

69 Jetzt: Berücksichtigung von Bindungen durch Anwendung der Methode der Durchschnittsränge Zahlenbeispiel: [I] Ungeordnete Urliste x 1 x 2 x 3 x

70 Zahlenbeispiel: [II] Geordnete Urliste x (= (1) x 3 ) x (= (2) x 1 ) x (= (3) x 4 ) x (= (4) x 2 ) Vergabe von Rängen R X (x 3 ) = 1, R X (x 1 ) = 2, R X (x 4 ) = 3 } {{ } (wegen x 1 = x 4 = 3.7) R X (x 1 ) = 2.5, R X (x 4 ) = 2.5, R X (x 2 ) = 4 268

71 Bei Auftreten von Bindungen: Vergabe von Durchschnittsrängen sowohl für die x i als auch die y i Die vereinfachte Formel r R,OB zulässig XY (vgl. Folie 263) nicht mehr Stattdessen: Anwendung der äquivalenten Formeln für rxy R Folien 262, 263 auf den 269

72 6.2.3 Nominale Daten: Kontingenzkoeffizient Jetzt: X und Y sind nominal skaliert Daten in Kontingenztafel (absolute Häufigkeiten) Geeignetes Zusammenhangsmaß: Der Kontingenzkoeffizient 270

73 Vorüberlegung: X und Y sind deskriptiv unabhängig, wenn n jk = n j n k n für alle j = 1,..., J und k = 1,..., K (vgl. Folie 229) Abweichungsmaß von der deskriptiven Unabhängigkeit: χ 2 = J K j=1 k=1 ( n jk n j n k n n j n k n ) 2 = n J K j=1 k=1 n 2 jk n j n k 1 271

74 Bemerkung: Damit χ 2 definiert ist, muss gelten: n j > 0 und n k > 0 für alle j und alle k. Ist einer der beiden Ausdrücke für irgendein j oder k gleich 0, so können die zugehörigen Merkmalswerte ξ j bzw. η k aus der Kontingenztafel gestrichen werden Jetzt: Normierung von χ 2 liefert Kontingenzkoeffizient 272

75 Definition 6.14: (Kontingenzkoeffizient) Als Zusammenhangsmaß zwischen den nominal skalierten Merkmalen X und Y verwendet man den Kontingenzkoeffizienten, der definiert ist als C XY = χ 2 χ 2 + n min{j, K} min{j, K} 1. Bemerkung: Der Kontingenzkoeffizient C XY ist streng monoton wachsend in χ 2 und normiert, d.h. 0 C XY 1 273

76 Zentrales Ergebnis: Der Kontingenzkoeffizient C XY wird genau dann gleich 0, wenn χ 2 = 0 gilt, d.h. genau dann, wenn X und Y deskriptiv unabhängig sind Weitere Bemerkungen: Gilt C XY = 1, so spricht man von einem vollständigen Zusammenhang zwischen X und Y C XY misst nur die Stärke des Zusammenhangs zwischen X und Y, nicht jedoch die Richtung Jedoch misst C XY beliebige Zusammenhänge, also nicht nur lineare (wie r XY ) oder monotone wie r R XY 274

77 Zur praktischen Anwendung von r XY, r R XY, C XY : Unterschiedliche Datenniveaus von X und Y : Wähle Zusammenhangsmaß für das schwächste Datenniveau der Variablen X und Y (vgl. Folie 276) Ermittlung des allgemeinen Zusammenhangs von X und Y : Verwende C XY 275

78 Behandlung unterschiedlicher Datenniveaus: Y Nominal Ordinal Metrisch X Nominal C XY C XY C XY Ordinal C XY r R XY r R XY Metrisch C XY r R XY r XY 276

79 6.3 Deskriptive Regression Bedeutung des Begriffes Regression : Untersuchung des Zusammenhangs zwischen einer abhängigen Variablen (auch Regressand oder endogene Variable) und einer oder mehrerer unabhängiger Variablen (auch Regressoren oder exogene Variablen) Allgemeines mathematisches Modell: Y = f(x 1, X 2,..., X k ; β) + u 277

80 Bezeichnungen: Y : abhängige Variable, Regressand X: unabhängige Variablen, Regressoren f( ): funktionaler Zusammenhang β: unbekannter Parametervektor u: Fehler 278

81 Ziel der Regressionsrechnung: Möglichst genaue Aussagen über den Zusammenhang zwischen Regressand und Regressor(en) Beispiele: [I] Keynesianische Konsumfunktion Y = privater Konsum a = autonomer Konsum b = marginale Konsumquote X = verfügbares Einkommen Y = a + b X + u 279

82 Beispiele: [II] Zusammenhang zwischen Inflation und Geldmengenwachstum (Quantitätstheorie) Y = a + b X + u Y = Inflationsrate X = Wachstumsrate der Geldmenge (M2) Zusammenhang zwischen Inflation und Arbeitslosigkeit (Phillipskurve) Y = a + b 1 X + u Y = Inflationsrate X = Arbeitslosenquote (Vorsicht: f ist eine Hyperbel, nicht-linear) 280

83 Hier: Nur lineare Funktionen, d.h. Y = a + b X + u (vgl. Abschnitt 6.3.2) 281

84 6.3.1 Regression 1. Art Zunächst: Y wird zurückgeführt (regressiert) auf verschiedene Ausprägungen von X (ohne funktionalen Zusammenhang) Voraussetzungen: Y ist metrisch skaliert (mindestens intervallskaliert) X ist beliebig skaliert mit möglichen Ausprägungen ξ 1,..., ξ J 282

85 Jetzt: Bilde die bedingten Mittelwerte y j unter der Bedingung X = ξ j für j = 1,..., J (vgl. Definition 6.7, Folie 232) Definition 6.15: (Deskriptive Regression 1. Art) Die J Paare (ξ j, y j ), j = 1,..., J, nennt man deskriptive Regression 1. Art von Y auf X. 283

86 Beispiel: (Haushaltseinkommen) [I] Y : verfügbares Haushalts-Nettoeinkommen (Durchschnitte) X: Haushaltstyp 284

87 Beispiel: (Haushaltseinkommen) [II] Daten: Einkommen Y Anz. Haushalte j Haushaltstyp X (in DM) (in (1000) 1 Selbständige Beamte Angestellte Arbeiter Arbeitslose Nichterwerbstätige Summe:

88 Hier: Regressionsergebnis dargestellt als Balkendiagramm j=1 j=2 j=3 j=4 j=5 j=6 286

89 Offensichtlich: Durch die J Ausprägungen von X kann die Grundgesamtheit in J Teilgesamtheiten zerlegt werden Die J Teilgesamtheiten haben die Umfänge n 1, n 2,..., n J = Anwendung der Additionssätze für arithmetische Mittel und Varianzen des Merkmals Y (vgl. Abschnitt 4.3.4) 287

90 Es gilt: y = 1 n J j=1 y j n j s 2 Y = 1 n J s 2 Y X=ξ n j j + 1 n } j=1 {{ } =sint 2 J ( yj y ) 2 nj } j=1 {{ } =s 2 ext Hieraus: Maßzahl für den Erklärungswert der unabhängigen Variablen X für die abhängige Variable Y 288

91 Definition 6.16: (Bestimmtheitsmaß) Die Größe B = s2 ext s 2 Y heißt Bestimmtheitsmaß der deskriptiven Regression 1. Art. Bemerkungen: [I] Es gilt stets: 0 B 1 289

92 Bemerkungen: [II] Es gilt B = 0 genau dann, wenn s 2 ext = 0, d.h. wenn y 1 = y 2 =... = y J = y = Alle bedingten Mittel y j sind gleich = X hat keinen Erklärungswert für Y Es gilt B = 1 genau dann, wenn s 2 Y = s2 ext und s2 int = 0 = Für alle bedingten Varianzen gilt s 2 Y X=ξ j = 0 = X hat höchsten Erklärungswert für Y 290

93 Bemerkungen: [III] B gibt den Anteil der durch die Regression 1. Art erklärten Varianz an der Gesamtvarianz von Y an 291

94 6.3.2 Regression 2. Art: Die lineare Einfachregression Jetzt: X und Y sind beide metrisch skaliert Ziel: Erklärung der Abhängigkeit zwischen X und Y Gerade durch eine 292

95 Ausgangssituation: Urliste (x 1, y 1 ),..., (x n, y n ) Regressionsgleichung y i = a + b x i + u i (i = 1,..., n) a, b sind aus den Daten zu bestimmende Parameter u i ist die Abweichung (auch Fehler oder Residuum) 293

96 Problemstellung: Bestimme die Parameter a und b aus den Daten derart, dass ein geeignet definiertes Abweichungsmaß für die Residuen minimal wird Definition 6.17: (Lineare Einfachregression) Das Regressionsproblem von Folie 293 nennt man lineare Einfachregression von Y auf X. Beispiel: Zusammenhang zwischen Ausgaben für Werbung (X) und den Absätzen (Y ) gemessen an 84 Unternehmen in den USA im Jahr

97 Lineare Einfachregression Absatz = * Werbeausgaben + Fehler 560 Absatz in Mill. US-$ Werbeausgaben in Mill. US-$ 295

98 Jetzt: Sinnvolle Ermittlung der Parameter a und b aus den Daten (x 1, y 1 ),..., (x n, y n ) Dafür zunächst: Geeignetes Abweichungsmaß für die Residuen u i = y i (a + b x i ) (vertikaler Abstand des Datenpunktes (x i, y i ) von der Regressionsgeraden) 296

99 Sinnvolles Abstandsmaß ist: Q(α, β) = n i=1 [y i (α + β x i )] 2 Bemerkungen: Die Größen α, β R sind formaler Ersatz für die unbekannten Parameter a, b Die unbekannten Parameter a, b der Regressionsgeraden werden gleich durch spezielle Wahlen von α bzw. β ermittelt 297

100 Jetzt: Ermittle a und b durch Minimierung des Abstandsmaßes Q(α, β) bezüglich α und β Bemerkungen: a und b werden also derart gewählt, dass die Summe der quadrierten Abstände zwischen den Datenpunkten (x i, y i ) und der Regressionsgeraden minimal wird Die Regressionsgerade y i = a + b x i beschreibt dann die (x i, y i )-Punktwolke im Sinne des gewählten Abstandsmaßes optimal 298

101 Jetzt: Mathematische Bestimmung der Parameter a und b Formaler Ablauf: [I] Bilde die (partiellen) Ableitungen von Q(α, β) n α Q(α, β) = 2 i=1 n β Q(α, β) = 2 i=1 [y i (α + β x i )] ( 1) [y i (α + β x i )] ( x i ) 299

102 Formaler Ablauf: [II] Die jeweiligen Nullstellen der partiellen Ableitungen (bezeichnet mit a und b) liefern das potenzielle Minimum (d.h. die gesuchten Parameterwerte) (notwendige Bedingung) Es bleibt zu überprüfen, ob die Nullstellen tatsächlich ein Minimum darstellen (hinreichende Bedingung) 300

103 Endergebnisse: Die gesuchten Nullstellen ergeben sich als b = n i=1 n i=1 x i y i n x y x 2 i n x2 = s XY s 2 X = r XY sy s X, a = y b x Definition 6.18: (Kleinste-Quadrate-Methode) Die obige Vorgehensweise zur Bestimmung der Regressionskoeffizienten a und b nennt man die Methode der Kleinsten Quadrate. 301

104 Offensichtlich: Zur Berechnung der Kleinste-Quadrate-Koeffizienten benötigt man nur die 4 Größen x, y, s 2 X und s XY 302

105 Bemerkungen: Für die Regressionsgerade gilt also: y(x) = a + b x = y s XY x s 2 } {{ X } = a Für die Regresssionsgerade gilt somit: y(x) = y + s XY s 2 } {{ X } = b = Die Regressionsgerade verläuft durch den Punkt (x, y) x Interpretation der Regressionsgeraden nicht für alle x-werte sinnvoll 303

106 Beispiel: X = Werbeausgaben, Y = Absätze, n = 84 Es gilt: x = , y = , s 2 X = , s XY = Damit ergibt sich: b = = a = =

107 Erinnerung: Bestimmtheitsmaß B bei Regression 1. Art beschreibt Anteil an der Varianz s 2 Y, der durch die Regression erklärt wird Jetzt: Übetragung dieses Konzeptes auf Regression 2. Art Betrachte dazu: Werte der Regressionsgerade (ŷ i ) an den Stellen x i : ŷ i = a + b x i, i = 1,..., n 305

108 Offensichtlich gilt für die y-daten: y i = a + b x i + u i = ŷ i + u i Bedeutung: Datenwert y i ist Summe aus Wert auf Regressionsgeraden plus Fehler Nun gilt folgende Varianzzerlegung: s 2 Y = s2 Ŷ + s2 U 306

109 Fazit: Varianz der Y -Werte lässt sich in 2 Teile zerlegen s 2 Ŷ : Varianz der exakt auf der Regressionsgeraden liegenden Werte ŷ i (den durch die Regression erklärten Teil der Varianz der Y -Werte sy 2 ) s 2 U : Varianz der Residuen u i (Residualvarianz oder den durch die Regression nicht erklärten Teil der Varianz der Y -Werte s 2 Y ) 307

110 Definition 6.19: (Bestimmtheitsmaß) Das Bestimmtheitsmaß der deskriptiven Regression 2. Art definiert man als R 2 = s2 Ŷ s 2 Y = 1 s2 U s 2 Y. Bemerkungen: [I] Das R 2 ist der Anteil an der Varianz der y-werte, der durch die Regression erklärt wird Es gilt: 0 R

111 Bemerkungen: [II] R 2 = 0: Es ist dann s 2 U = s2 Y, d.h. die Residualvarianz entspricht exakt der Varianz der y-werte. Die Regression selbst liefert keinen Erklärungsbeitrag für die y-werte R 2 = 1: Es ist dann s 2 Ŷ = s2 Y. Die Regression erklärt die Varianz der y-werte vollständig (Alle Punkte (x i, y i ) liegen auf der Regressionsgeraden) 309

112 Bemerkungen: [III] Praktische Berechnungsmöglichkeit: R 2 = s XY s 2 X s 2 Y 2 = (r XY ) 2 (R 2 entspricht dem Quadrat des Korrelationskoeffizienten von Bravais-Pearson) 310

113 Beispiel: Im Beispiel Werbeausgaben Absatz gilt: R 2 = s XY s 2 X = s 2 Y 2 = ( )

114 6.4 Lineare Mehrfachregression Jetzt: Übertragung des Konzeptes auf k Regressoren X 1,..., X k (alle metrisch) Regressionsmodell: y i = a + b 1 x 1i b k x ki + u i, i = 1,..., n 312

115 Analog zu Abschnitt 6.3.2: Kleinste-Quadrate-Methode: mit Q(α, β 1,..., β k ) = min Q(α, β 1,..., β k ) α,β 1,...,β k n i=1 [y i (α + β 1 x 1i β k x ki )] 2 Definition des R 2 : R 2 = s2 Ŷ s 2 Y = 1 s2 U s 2 Y 313

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Datenanalyse mit Excel. Wintersemester 2013/14

Datenanalyse mit Excel. Wintersemester 2013/14 Datenanalyse mit Excel 1 KORRELATIONRECHNUNG 2 Korrelationsrechnung Ziel der Korrelationsrechnung besteht im bivariaten Fall darin, die Stärke des Zusammenhangs zwischen zwei interessierenden statistischen

Mehr

Korrelation (II) Korrelation und Kausalität

Korrelation (II) Korrelation und Kausalität Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Teil I: Deskriptive Statistik

Teil I: Deskriptive Statistik Teil I: Deskriptive Statistik 2 Grundbegriffe 2.1 Merkmal und Stichprobe 2.2 Skalenniveau von Merkmalen 2.3 Geordnete Stichproben und Ränge 2.1 Merkmal und Stichprobe An (geeignet ausgewählten) Untersuchungseinheiten

Mehr

4. Auswertung eindimensionaler Daten

4. Auswertung eindimensionaler Daten 4. Auswertung eindimensionaler Daten Ziel dieses Kapitels: Präsentation von Methoden zur statistischen Auswertung eines einzelnen Merkmals 64 Bezeichnungen (Wiederholung): Merkmalsträger: e 1,..., e n

Mehr

5 Zusammenhangsmaße, Korrelation und Regression

5 Zusammenhangsmaße, Korrelation und Regression 5 Zusammenhangsmaße, Korrelation und Regression 5.1 Zusammenhangsmaße und Korrelation Aufgabe 5.1 In einem Hauptstudiumsseminar des Lehrstuhls für Wirtschafts- und Sozialstatistik machten die Teilnehmer

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale

6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale 6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig und mindestens ordinalskaliert, typischerweise

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Linearer Zusammenhang von Datenreihen

Linearer Zusammenhang von Datenreihen Linearer Zusammenhang von Datenreihen Vielen Problemen liegen (möglicherweise) lineare Zusammenhänge zugrunde: Mein Internetanbieter verlangt eine Grundgebühr und rechnet minutenweise ab Ich bestelle ein

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt

Mehr

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n 3.2. Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare von Merkmalsausprägungen (x, y) Beispiele:

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel. Zusammenfassung und wichtiges zur Prüfungsvorbereitung 9. Dezember 2008 Begriffe Kenntnis der wichtigen Begriffe und Unterscheidung dieser. Beispiele: Merkmal, Merkmalsraum, etc. Skalierung: Nominal etc

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Januar 2011 BOOTDATA11.GDT: 250 Beobachtungen für die Variablen...

Mehr

WISTA WIRTSCHAFTSSTATISTIK

WISTA WIRTSCHAFTSSTATISTIK WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 04.06.2013 Zweidimensionale Datensätze 1. Kontingenztabelle

Mehr

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II Statistik II Lineare Regressionsrechnung Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II - 09.06.2006 1 Mit der Kovarianz und dem Korrelationskoeffizienten können wir den statistischen

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Dokumentation. estat Version 2.0

Dokumentation. estat Version 2.0 Dokumentation estat Version 2.0 Installation Die Datei estat.xla in beliebiges Verzeichnis speichern. Im Menü Extras AddIns... Durchsuchen die Datei estat.xla auswählen. Danach das Auswahlhäkchen beim

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

4. Erstellen von Klassen

4. Erstellen von Klassen Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl

Mehr

Teil I Beschreibende Statistik 29

Teil I Beschreibende Statistik 29 Vorwort zur 2. Auflage 15 Vorwort 15 Kapitel 0 Einführung 19 0.1 Methoden und Aufgaben der Statistik............................. 20 0.2 Ablauf statistischer Untersuchungen..............................

Mehr

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 9.. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83 Die Grundfrage bei der Anwendung des Satzes über implizite Funktionen betrifft immer die folgende Situation: Wir haben eine Funktion f : V W und eine Stelle x

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Analyse bivariater Kontingenztafeln

Analyse bivariater Kontingenztafeln Analyse bivariater Kontingenztafeln Werden zwei kategoriale Merkmale mit nicht zu vielen möglichen Ausprägungen gemeinsam analysiert, so kommen zur Beschreibung der gemeinsamen Verteilung im allgemeinen

Mehr

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell 1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:

Mehr

Assoziation & Korrelation

Assoziation & Korrelation Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von 2 Merkmalen für jeden Merkmalsträger stellt sich die Frage, ob es systematische Zusammenhänge

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Anwendungen der Differentialrechnung

Anwendungen der Differentialrechnung KAPITEL 3 Anwendungen der Differentialrechnung 3.1 Lokale Maxima und Minima Definition 16: Sei f : D R eine Funktion von n Veränderlichen. Ein Punkt x heißt lokale oder relative Maximalstelle bzw. Minimalstelle

Mehr

Einführung in statistische Analysen

Einführung in statistische Analysen Einführung in statistische Analysen Andreas Thams Econ Boot Camp 2008 Wozu braucht man Statistik? Statistik begegnet uns jeden Tag... Weihnachten macht Deutschen Einkaufslaune. Im Advent überkommt die

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j 1 Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS 2011 Lösung Aufgabe 27 (a) Notation: X: Rauchen, Y : chronische Bronchitis S X {ja, nein} {a 1, a 2 }, S Y {ja, nein} {b

Mehr

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1 Korrelation Die Korrelationsanalyse zeigt Zusammenhänge auf und macht Vorhersagen möglich Was ist Korrelation? Was sagt die Korrelationszahl aus? Wie geht man vor? Korrelation ist eine eindeutige Beziehung

Mehr

Auswertung und Darstellung wissenschaftlicher Daten (1)

Auswertung und Darstellung wissenschaftlicher Daten (1) Auswertung und Darstellung wissenschaftlicher Daten () Mag. Dr. Andrea Payrhuber Zwei Schritte der Auswertung. Deskriptive Darstellung aller Daten 2. analytische Darstellung (Gruppenvergleiche) SPSS-Andrea

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.) ue biostatistik: nichtparametrische testverfahren / ergänzung 1/6 h. Lettner / physik Statistische Testverfahren Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Mehr

Übungsklausur. Bitte wählen Sie fünf Aufgaben aus! Aufgabe 1. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr.

Übungsklausur. Bitte wählen Sie fünf Aufgaben aus! Aufgabe 1. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr. Gert Zöller Übungsklausur Hilfsmittel: Taschenrechner, Formblatt mit Formeln. Lösungswege sind stets anzugeben. Die alleinige Angabe eines

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Sommersemester 2008. Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Sommersemester 2008. Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Sommersemester 2008 Aufgabe 1 I) Einige Mitarbeiter

Mehr

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung. Lineare Gleichungen mit einer Unbekannten Die Grundform der linearen Gleichung mit einer Unbekannten x lautet A x = a Dabei sind A, a reelle Zahlen. Die Gleichung lösen heißt, alle reellen Zahlen anzugeben,

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der

Mehr

Felix Klug SS 2011. 2. Tutorium Deskriptive Statistik

Felix Klug SS 2011. 2. Tutorium Deskriptive Statistik 2. Tutorium Deskriptive Statistik Felix Klug SS 2011 Skalenniveus Weitere Beispiele für Skalenniveus (Entnommen aus Wiederholungsblatt 1.): Skalenniveu Nominalskala Ordinalskala Intervallskala Verhältnisskala

Mehr

1. Lineare Regression (Ausgleichsgerade)

1. Lineare Regression (Ausgleichsgerade) Carl-Engler-Schule Karlsruhe Lineare Regression 1 (6) 1. Lineare Regression (Ausgleichsgerade) 1.1 Was ist eine Ausgleichsgerade? Die Ausgleichsgerade ist ein Ausgleichs-Verfahren zur Kurvenanpassung (Approximation).

Mehr

TÜV Service tested Prüfgrundlagen

TÜV Service tested Prüfgrundlagen TÜV Service tested Prüfgrundlagen 60 Grundsätzliche Prüfgrundlagen Für die Auszeichnung TÜV Service tested müssen drei Voraussetzungen erfüllt sein: 1. Die Gesamtzufriedenheit muss von den Kunden des Unternehmens

Mehr

Methoden Quantitative Datenanalyse

Methoden Quantitative Datenanalyse Leitfaden Universität Zürich ISEK - Andreasstrasse 15 CH-8050 Zürich Telefon +41 44 635 22 11 Telefax +41 44 635 22 19 www.isek.uzh.ch 11. September 2014 Methoden Quantitative Datenanalyse Vorbereitung

Mehr

Grundlagen der Statistik

Grundlagen der Statistik Grundlagen der Statistik Übung 2 2010 FernUniversität in Hagen Alle Rechte vorbehalten Fakultät für Wirtschaftswissenschaft Übersicht über die mit den Übungsaufgaben geprüften Lehrzielgruppen Lehrzielgruppe

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 9B a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Man kann erwarten, dass der Absatz mit steigendem Preis abnimmt, mit höherer Anzahl der Außendienstmitarbeiter sowie mit erhöhten

Mehr

5 Beschreibung und Analyse empirischer Zusammenhänge

5 Beschreibung und Analyse empirischer Zusammenhänge 5 Beschreibung und Analyse empirischer Zusammenhänge 132 5 Beschreibung und Analyse empirischer Zusammenhänge 5.1 Zusammenhänge zwischen kategorialen Merkmalen 137 5.1.1 Kontingenztabellen 137 Verteilungen

Mehr

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06.

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06. Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt Gerhard Tutz, Jan Ulbricht WS 05/0 Lösung Aufgabe 4 Notation: X: Rauchen, Y : chronische Bronchitis S X {ja, nein} {a 1, a },

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009. Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009. Statistik mit SPSS Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Korrelationsanalysen Kovariation und Kovarianz Korrelation: - Interpretation

Mehr

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik: . Einführung und statistische Grundbegriffe Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik: Quantitative Information Graphische oder tabellarische Darstellung von Datenmaterial

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt - 17 - Die Frage ist hier also: Für welche x R gilt x = x + 1? Das ist eine quadratische Gleichung für x. Es gilt x = x + 1 x x 3 = 0, und man kann quadratische Ergänzung machen:... ( ) ( ) x x + = 3 +

Mehr

Kapitel 7: Zweidimensionale Häufigkeitsverteilungen

Kapitel 7: Zweidimensionale Häufigkeitsverteilungen Kapitel 7: Zweidimensionale Häufigkeitsverteilungen 1. Regression und Korrelation... 192 2. Darstellung mehrdimensionaler Datensätze... 193 a) Verbundene Beobachtungen, gemeinsame Verteilung... 193 b)

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Eigene MC-Fragen (Teil II) "Kap. 9 Zusammenhangsmaße

Eigene MC-Fragen (Teil II) Kap. 9 Zusammenhangsmaße Eigene MC-Fragen (Teil II) "Kap. 9 Zusammenhangsmaße 1. Kreuze die richtige Aussage an! positiv sind, ist r stets identisch mit s xy. negativ sind, ist r stets identisch mit s xy. positiv sind, ist das

Mehr

12. Bivariate Datenanalyse. In den Kapiteln 4-11 wurden univariate Daten betrachtet:

12. Bivariate Datenanalyse. In den Kapiteln 4-11 wurden univariate Daten betrachtet: 12. Bivariate Datenanalyse Während einer nur Zahlen im Kopf hat, kann er nicht auf den Kausalzusammenhang kommen Anonymus In den Kapiteln 4-11 wurden univariate Daten betrachtet: Von univariaten Daten

Mehr

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte 50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien

Mehr

Teil II: Einführung in die Statistik

Teil II: Einführung in die Statistik Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Statistik. Ronald Balestra CH St. Peter

Statistik. Ronald Balestra CH St. Peter Statistik Ronald Balestra CH - 7028 St. Peter www.ronaldbalestra.ch 17. Januar 2010 Inhaltsverzeichnis 1 Statistik 1 1.1 Beschreibende Statistik....................... 1 1.2 Charakterisierung von Häufigkeitsverteilungen...........

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

1. Einleitung. Ziel der Vorlesung: Einführung in deskriptive Statistik + Wirtschaftsstatistik. Internet-Seite der Vorlesung:

1. Einleitung. Ziel der Vorlesung: Einführung in deskriptive Statistik + Wirtschaftsstatistik. Internet-Seite der Vorlesung: 1. Einleitung Ziel der Vorlesung: Einführung in deskriptive Statistik + Wirtschaftsstatistik Internet-Seite der Vorlesung: http://www1.wiwi.uni-muenster.de/oeew/ Studium Veranstaltungen im Wintersemester

Mehr

3.3 Eigenwerte und Eigenräume, Diagonalisierung

3.3 Eigenwerte und Eigenräume, Diagonalisierung 3.3 Eigenwerte und Eigenräume, Diagonalisierung Definition und Lemma 3.3.1. Sei V ein K-Vektorraum, φ End K (V ), λ K. Wir defnieren den zu λ gehörigen Eigenraum von φ als Dies ist ein Unterraum von V.

Mehr

Interne und externe Modellvalidität

Interne und externe Modellvalidität Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 20 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr

$ % + 0 sonst. " p für X =1 $

$ % + 0 sonst.  p für X =1 $ 31 617 Spezielle Verteilungen 6171 Bernoulli Verteilung Wir beschreiben zunächst drei diskrete Verteilungen und beginnen mit einem Zufallsexperiment, indem wir uns für das Eintreffen eines bestimmten Ereignisses

Mehr

Vorlesung. Funktionen/Abbildungen 1

Vorlesung. Funktionen/Abbildungen 1 Vorlesung Funktionen/Abbildungen 1 1 Grundlagen Hinweis: In dieser Vorlesung werden Funktionen und Abbildungen synonym verwendet. In der Schule wird eine Funktion häufig als eindeutige Zuordnung definiert.

Mehr

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch 1 2 - Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch Badewannenkurve. -mit der Badewannenkurve lässt

Mehr

Die Funktion f wird als Regressionsfunktion bezeichnet.

Die Funktion f wird als Regressionsfunktion bezeichnet. Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Karl Entacher. FH-Salzburg

Karl Entacher. FH-Salzburg Ahorn Versteinert Bernhard.Zimmer@fh-salzburg.ac.at Statistik @ HTK Karl Entacher FH-Salzburg karl.entacher@fh-salzburg.ac.at Beispiel 3 Gegeben sind 241 NIR Spektren (Vektoren der Länge 223) zu Holzproben

Mehr

Weiterbildungskurs Stochastik

Weiterbildungskurs Stochastik Hansruedi Künsch Seminar für Statistik Departement Mathematik, ETH Zürich 24. Juni 2009 Inhalt STATISTIK DER BINOMIALVERTEILUNG 1 STATISTIK DER BINOMIALVERTEILUNG 2 Fragestellungen Typische Fragestellungen

Mehr

1 Darstellen von Daten

1 Darstellen von Daten 1 Darstellen von Daten BesucherInnenzahlen der Bühnen Graz in der Spielzeit 2010/11 1 Opernhaus 156283 Hauptbühne 65055 Probebühne 7063 Ebene 3 2422 Next Liberty 26800 Säulen- bzw. Balkendiagramm erstellen

Mehr

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher Planen mit mathematischen Modellen 00844: Computergestützte Optimierung Leseprobe Autor: Dr. Heinz Peter Reidmacher 11 - Portefeuilleanalyse 61 11 Portefeuilleanalyse 11.1 Das Markowitz Modell Die Portefeuilleanalyse

Mehr

Kleine Einführung in die lineare Regression mit Excel

Kleine Einführung in die lineare Regression mit Excel Kleine Einführung in die lineare Regression mit Excel Grundoperationen mit Excel Werte mit Formeln berechnen Bsp.: Mittelwert und Standardabweichung Das $-Zeichen Beispielauswertung eines Versuches Daten

Mehr

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit: 1. Welche der folgenden Kenngrößen, Statistiken bzw. Grafiken sind zur Beschreibung der Werteverteilung des Merkmals Konfessionszugehörigkeit sinnvoll einsetzbar? A. Der Modalwert. B. Der Median. C. Das

Mehr

6Korrelationsanalyse:Zusammenhangsanalysestetiger Merkmale

6Korrelationsanalyse:Zusammenhangsanalysestetiger Merkmale 6Korrelationsanalyse:Zusammenhangsanalysestetiger Merkmale 6.1 Korrelationsanalyse 6.1 Korrelationsanalyse Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig

Mehr

Analyse klassierter Daten: Vor der Analyse fasst man jeweils mehrere Merkmalsausprägungen in (Merkmalswerte-)Klassen zusammen.

Analyse klassierter Daten: Vor der Analyse fasst man jeweils mehrere Merkmalsausprägungen in (Merkmalswerte-)Klassen zusammen. 4. Analyse univariater Daten: Übersicht Mathematik ist die Wissenschaft der reinen Zahl, Statistik die der empirischen Zahl Von univariaten Daten spricht man, wenn bei der Datenerhebung nur ein Merkmal

Mehr

Aufgabe 1. Zunächst wird die allgemeine Tangentengleichung in Abhängigkeit von a aufgestellt:

Aufgabe 1. Zunächst wird die allgemeine Tangentengleichung in Abhängigkeit von a aufgestellt: Aufgabe 1 1.1. Bestimmung von D max : 1. Bedingung: x >0 ; da ln(x) nur für x > 0 definiert ist. 2. Bedingung: Somit ist die Funktion f a nur für x > 0 definiert und sie besitzt eine Definitionslücke an

Mehr