Univariates Datenmaterial

Univariates Datenmaterial 1.6.1 Deskriptive Statistik Zufallstichprobe: Umfang n, d.h. Stichprobe von n Zufallsvariablen o Merkmal/Zufallsvariablen: Y = {Y 1, Y 2,..., Y n } o Realisationen/Daten: x = {y 1, y 2,..., y n } o Ausprägungen: a 1 < a 2 <... < a k, k n Deskriptive Statistik: Aufarbeitung der Daten o Tabellarisch (Werte, relative und kumulative Häufigkeiten) o Graphisch: Stabdiagramm, Kreisdiagramm, Histogramm 1

Lageparameter 1.6.1 Deskriptive Statistik Abhängig vom Skalierungsniveau der Variable Nominale Daten o Modalwert: häufigster Wert Ordinale Daten o Median: teilt n gegebene Werte in die 50% kleineren bzw. größeren Beobachtungen o Quantil: z ist p-quantil, falls p-fache der Beobachtungen kleiner gleich z sind Kardinale Daten o Mittelwert (arithmetisches Mittel): ȳ = 1 n n i=1 y i 2

Streuungsparameter 1.6.1 Deskriptive Statistik Spannweite: max(y i ) - min(y i ) Interquartilsspanne: Differenz zwischen 0.75-Quantil (3. Quartil) und 0.25-Quantil (1. Quartil) Kardinale Daten o Empirische Varianz: s 2 = 1 n 1 n i=1 (y i ȳ) 2 o Mittlere quadratische Abweichung: s 2 mqa = 1 n n i=1 (y i ȳ) 2 o Standardabweichung: s = s 2 o Variationskoeffizient: s ȳ 3

Mehrdimensionales Datenmaterial 1.6.1 Deskriptive Statistik Beispiel: zwei Merkmale/ Zufallsvariablen: Daten: ( x1 y 1 ), ( x2 y 2 ),, ( xn y n ) ( X1 Y 1 ), ( X2 Y 2 ),, ( Xn Y n ) Datenaufbereitung o nominale oder ordinale/kardinale Daten mit wenigen Ausprägungen: Kontingenztabelle o kardinale/ordinale Daten mit wenigen Ausprägungen (stetige Daten): Streudiagramm/Scatterplot 4

Streudiagramm 1.6.1 Deskriptive Statistik 5

Korrelation 1.6.1 Deskriptive Statistik Ordinale Daten o Rangkorrelationkoeffizient (Spearman): r SP r SP = n i=1 (rg(x i) rk x )(rg(y i ) rg y ) n i=1 (rg(x n i) rg x ) 2 i=1 (rg(y i) rg y ) 2 Kardinale Daten o Korrelationkoeffizient (Pearson): 1 r xy 1 r xy = n i=1 (x i x)(y i ȳ) Cov(x, y) n i=1 (x i x) 2 n i=1 (y = i ȳ) 2 s x s y 6

Kovarianz und Korrelation 1.6.1 Deskriptive Statistik Kardinale Daten o Kovarianz von x und y: Cov(x, y) = s xy Cov(x, y) = s xy = 1 n 1 n (x i x)(y i ȳ) i=1 Kovarianz und Korrelation beschreiben die lineare Abhängigkeit/ Beziehung von zwei Variablen bzw. den relevanten Daten Korrelation ist im Gegensatz zur Kovarianz ein normiertes Maß: 1 r xy 1 o r xy = 1: perfekter positiver linearer Zusammenhang o r xy = 1: perfekter negativer linearer Zusammenhang o r xy = 0: kein linearer Zusammenhang 7

Varianz-Kovarianz Matrix 1.6.1 Deskriptive Statistik Varianz-Kovarianz Matrix von x und y ( ) s 2 x s x,y s x,y s 2 y Merke: Cov(x, y) = Cov(y, x) bzw. s x,y = s y,x 8

Wahrscheinlichkeitstheorie/ Stochastik Modellieren ökonomische Phänomene als Ergebnis von Zufallsexperimenten Ökonomischen Variablen werden entsprechend als Zufallsvariablen interpretiert o Zufallsvariablen werden durch Verteilungen (z.b. Normalverteilung) und deren Charakteristika beschrieben (z.b. Erwartungswert und Varianz) o Verteilung repräsentiert Eigenschaften der interessierenden Grundgesamtheit (z.b. Grundgesamtheit aller Arbeitnehmer im Rahmen einer Arbeitsmarktstudie) Kollektion von ökonomischen Variablen (z.b. Lohn von 10 Arbeitnehmern) wird als Kollektion von Zufallsvariablen interpretiert (Stichprobe) 9

Wahrscheinlichkeitstheorie/ Stochastik Wieso? o Wollen etwas über die Eigenschaften der Grundgesamtheit (z.b. Streuung der Löhne) lernen Anwendung von Schätzern o Stochastische Modellierung erlaubt uns die sinnvolle Evaluation von Schätzern und Interpretation von Schätzergebnissen o Durch Verteilungssannahmen werden Eigenschaften der Grundgesamtheit,,parametrisiert o Schätzer schätzen die Parameter o Wir können die Eigenschaften der Schätzer ableiten o Wir können Aussagen darüber machen, ob Schätzergebnisse relevant (signifikant) verschieden von einer Referenz sind (Statistische Tests) Referenz: Stock & Watson: Kap. 2.1-2.4 10

Zufallsexperiment Annahme: beobachtete Ereignisse sind Ergebnis eines Zufallsexperiment/ Zufallsprozess,,Computerabstürze während des Schreibens einer Seminararbeit o Ergebnisse: sich gegenseitig ausschließende Resultate eines Zufallsexperimentes kein, 1, 2, 3,..., Computerabstürze o Jedem Ergebnis kann eine Wahrscheinlichkeit zugeordnet werden o Ergebnismenge: Menge aller möglichen Ergebnise o Ereignis: Untermenge der Ergebnismenge Ereignis:,,Der Computer stürzt nicht mehr als einmal ab = Menge bestehend aus den Ergebnissen,,kein und,,1 Absturz 11

Zufallsvariablen Zufallsvariable: numerische Zusammenfassung eines zufälligen Ergebnisses ZV:,,Anzahl der Computerabstürze o diskrete ZVen: ZV nimmt nur eine diskrete Menge an Werten an z.b. 0, 1,... Computerabstürze o stetige ZVen: ZV kann unendliche viele Werte (in einem Interval) annehmen z.b. Haushaltseinkommen, Aktienkurse,... o Hinweis: Die meisten,,stetigen ökonomischen Variablen, wie z.b. Einkommen, werden nur als stetig modelliert, sind es im strengen Sinne aber nicht. Grund: die Einheiten, z.b. Währung, sind nicht beliebig teilbar. Zufallsvariablen können durch Verteilungen beschrieben werden: Unterscheidung in diskrete und stetige Variablen ist wichtig 12

Diskrete Zufallsvariablen Wahrscheinlichkeitsfunktion o Liste aller möglichen Werte y i einer ZVen und deren Wahrscheinlichkeiten P (Y = y i ) o Summe der W.keiten = 1 (Kumulative) Verteilungsfunktion o Wahrscheinlichkeit, dass ZVe kleiner oder gleich einem Wert c ist P (Y c) = i:y i c P (Y = y i) = F (c) Beispiele: fiktive Verteilung für Computerabstürze, Bernoulli-Verteilung 13

Stetige Zufallsvariablen (Kumulative) Verteilungsfunktion o Definiert wie für diskrete Variablen o Beispiel: fiktive Verteilung für Fahrzeit zwischen Wohnung und Uni, Normalverteilung Dichtefunktion (Wahrscheinlichkeitsdichte) o Formal: Ableitung der Verteilungsfunktion f(c) = F (c) o Fläche unter der Dichtefunktion zwischen zwei Punkten a und b (Integral) gibt Wahrscheinlichkeit an, dass Wert der ZVe zwischen a und b liegt: P (a Y b) o Merke: P (Y = a) = P (a) = 0 für stetige Zufallsvariablen! 14

Verteilungsannahmen Die wahren Verteilungen von Zufallsvariablen sind unbekannt Häufig nehmen wir eine spezifische Verteilung an, z.b. Normalverteilung o Problem: Daten widersprechen oft der Verteilungsannahme o Lösung: Keine spezifischen Verteilungsannahme, sondern nur Annahmen über Erwartungswert und Varianz einer Zufallsvariable (Existenz, manchmal auch konkrete Werte) o Merke: Erwartungswert und Varianz sind Eigenschaften, die aus der Verteilung der Zufallsvariable abgeleitet werden bzw. Verteilung näher charakterisieren! Konzentrieren uns bei Erläuterungen zu Erwartungswert und Varianz auf diskrete ZVen o stetige ZVen: Summen werden durch Integrale ersetzt 15

Erwartungswert Erwartungswert: mittlerer (durchschnittlicher) Wert, den eine Zufallsvariable nach unendlich vielen Wiederholungen eines Zufallsexperimentes annimmt Lageparameter der Verteilung der Zufallsvariable o Notation: E(Y ) = µ Y, der Wert µ Y ist üblicherweise unbekannt o E(Y ) = y 1 p 1 + y 2 p 2 + + y k p k = k i=1 y ip i o Beispiele: erwartete Anzahl von Computerabstürzen, Erwartungswert einer Bernoulli-ZVe 16

Varianz und Standardabweichung Maße für Streuung der Verteilung o Notation Varianz: Var(Y ) = σy 2 Standardabweichung: σ Y o Var(Y ) = E[(Y µ Y ) 2 ] = k i=1 (y i µ Y ) 2 p i o Beispiele: Varianz der Anzahl von Computerabstürzen, Varianz einer Bernoulli-ZVe 17

Lineare Funktion einer Zufallsvariable Lineare Funktion der Zufallsvariablen X: Y = a + bx a, b sind Konstanten Y ist folglich auch eine Zufallsvariable Erwartungswert und Varianz von Y? o E(Y ) = µ Y = a + be(x) = a + bµ X o Var(Y ) = σy 2 = b2 Var(X) = b 2 σx 2 18

Zwei Zufallsvariablen Die meisten ökonomisch interessanten Fragen betreffen zwei oder mehrere Variablen o Finden Uniabsolventen leichter einen Arbeitsplatz als als Bewerber ohne Uniabschluß? o Ist die Einkommensverteilung für Männer und Frauen unterschiedlich? Wir müssen Verteilung mehrerer Zufallsvariablen (z.b. Ausbildung/ Einkommen und Einkommen/Geschlecht) gleichzeitig berücksichtigen. Konzepte: gemeinsame, marginale und bedingte Wahrscheinlichkeitsverteilung 19

Gemeinsame und marginale Verteilung Gemeinsame Wahrscheinlichkeitsverteilung gibt Wahrscheinlichkeit an, dass die ZVen X und Y gleichzeitig die Werte x und y annehmen P (X = x, Y = y) o Beispiel: Gemeinsame Verteilung von Wetterbedingungen und Fahrzeit Marginale Wahrscheinlichkeitsverteilung einer ZVe Y ist ein anderer Name für die Wahrscheinlichkeitsfunktion von Y o Marginale Verteilung ergibt sich aus gemeinsamer Verteilung durch Addition der W.keiten aller Ereignisse für die Y einen bestimmten Wert annimmt P (Y = y) = l i=1 P (X = x i, Y = y) 20

Bedingte Verteilung, Erwartungswert und Varianz Bedingte Verteilung von Y gegeben X Verteilung von Y gegeben, dass eine andere Zufallsvariable X einen spezifischen Wert annimmt P (X = x, Y = y) o P (Y = y X = x) = P (X = x) o Beispiel: Bedingte Verteilung der Fahrzeit gegeben, dass es regnet Bedingter Erwartungswert von Y gegeben X o Wird unter Verwendung bedingter Verteilung bestimmt o E(Y X = x) = k i=1 y ip (Y = y i X = x) Bedingte Varianz von Y gegeben X ist die Varianz der bedingten Verteilung von Y gegeben X 21

o Var(Y X = x) = k i=1 [y i E(Y X = x)] 2 P (Y = y i X = x) 22

Gesetz der iterierten Erwartungen Herleitung des unbedingten Erwartungswertes über den bedingten Erwartungswert E(Y ) = E[E(Y X)] o Implikation: E(Y X) = 0 E(Y ) = E[E(Y X)] = E[0] = 0 23

Unabhängigkeit von Zufallsvariablen X und Y sind unabhängig verteilt bzw. unabhängig, falls Informationen über eine Variable keine Information über die andere Variable liefert o Bedingte Verteilung von Y gegeben X entspricht marginaler Verteilung von Y o P (Y = y X = x) = P (Y = y) o Implikation: P (Y = y, X = x) = P (X = x)p (Y = y) 24

Kovarianz und Korrelation Kovarianz ist lineares Abhängigkeitsmaß der Zufallsvariablen X und Y Cov(X, Y ) = σ XY = E[(X µ X )(Y µ Y )] = k i=1 l (x i µ X )(y j µ Y )P (X = x i, Y = y j ) j=1 Korrelation ist normiertes lineares Abhängigkeitsmaß ρ X,Y = Cov(X, Y ) Var(X)Var(Y ) = σ XY σ X σ Y, 1 ρ X,Y 1 25

Unabhängigkeit, Korrelation und bedingter Erwartungswert Unabhängigkeit von X und Y Cov(X, Y ) = ρ X,Y = 0 o Umkehrung gilt nicht! E(Y X) = E(Y ) Cov(X, Y ) = ρ X,Y = 0 o Umkehrung gilt nicht! 26

Summen von Zufallsvariablen E(X + Y ) = E(X) + E(Y ) = µ X + µ Y Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ) = σ 2 X + σ2 Y + σ XY o Falls X und Y unabhängig oder unkorrelliert sind: Var(X + Y ) = σ 2 X + σ2 Y Weitere Eigenschaften von Summen von Zufallsvariablen: siehe Key Concept 2.3 in Stock & Watson 27

Verteilungen von Zufallsvariablen Normalverteilung: charakterisiert durch Erwartungswert und Varianz: Y N(µ, σ 2 ) Standardnormalverteilung: µ = 0 und σ 2 = 1 Z = (Y µ)/σ Z N(0, 1) o Berechnung von Wahrscheinlichkeiten mit Normalverteilung: siehe Key Concept 2.4 und Figure 2.6 in Stock & Watson Weitere Verteilungen o Chi 2 -Verteilung mit m Freiheitsgraden Z 1,... Z m sind unabhängig N(0, 1) m i=1 Z2 i χ2 m o t-verteilung mit m Freiheitsgraden Z N(0, 1) und W χ 2 m sind unabhängig Z/ W/m t m 28