Statistische Grundbegriffe

1.2 Statistische Grundbegriffe und Datenarten Statistische Grundbegriffe Merkmalsträger (Beobachtungseinheit) o Individuen, Haushalte, Unternehmen, Länder Merkmal (Variable) o Alter, Einkommen, Gewinn, BIP Merkmalsausprägung (Wert der Variable) o 25 Jahre, 50.000 e im Jahr, 4 Mrd. e im Jahr, 551 Mrd. e im 4. Quartal 2003 1

1.2 Statistische Grundbegriffe und Datenarten Datenarten: Skalierungsniveau Nominalskala: Ist A verschieden von B? o Ausprägungen können lediglich unterschieden werden (Beispiel: Kaufentscheidung modelliert mit Hilfe von Dummyvariable: Kauf = 1 und kein Kauf = 0) Ordinalskala (Rangskala): Ist A größer als B? o Ausprägungen können zusätzlich auch in eine Rangordnung gebracht werden (Beispiel: Kundenzufriedenheit) 2

1.2 Statistische Grundbegriffe und Datenarten Datenarten: Skalierungsniveau Kardinalskala o Ausmaß der Unterschiede kann angegeben und interpretiert werden o Intervallskala: Um wieviel differieren A und B? Abstände können verglichen werden (Beispiel: Temperaturdifferenz, aber 0 Grad Celsius bedeutet nicht,,keine Temperatur ) o Verhältnisskala: Um das wie vielfache ist A größer als B? zusätzlich natürlicher Nullpunkt (Beispiele: Preis, Länge, Gewicht) 3

Datenarten 1.2 Statistische Grundbegriffe und Datenarten Diskrete vs. stetige Merkmale o Diskret: nominalskalierte Merkmale sowie alle Merkmale, denen ein Zählvorgang zugrunde liegt (Beispiel: Besucherzahl) o Stetig: beliebig genauer (fiktiver) Messvorgang (Beispiele: Körpergröße, Gewinn) Aggregationsebene o Gesamtwirtschaftlich/Makrodaten (Beispiele: BIP, Inflation) o Individualdaten/ Mikrodaten (Beispiele: Lohn eines Arbeitnehmer, Produktpreis) 4

1.2 Statistische Grundbegriffe und Datenarten Datenarten: Querschnitts- und Zeitreihendaten Querschnittsdaten o Daten bzgl. verschiedener Einheiten (Beispiele: Individuen, Haushalte, Firmen) zu einem gegebenen Zeitpunkt o Häufig: Annahme einer Zufallsstichprobe/Unabhängigkeit (Beispiel: Stichprobe von 1000 Arbeitnehmer,,gezogen aus der Grundgesamtheit aller Arbeitnehmer ) o Reihenfolge der Daten nicht bedeutend o Symbol: x i, i = 1,..., n, d.h. es gibt n Querschnittseinheiten 5

1.2 Statistische Grundbegriffe und Datenarten Datenarten: Querschnitts- und Zeitreihendaten Zeitreihendaten o Daten für eine oder mehrere Variablen über die Zeit (Beispiele: Inflationsrate vom 1. Quartal 1990 bis 4. Quartal 1999, Dax-Index vom 03.01.2006-30.06.2006) o Häufig: hohe Abhängigkeit (Korrelation) über die Zeit (Beispiel: BIP) o Reihenfolge der Daten ist bedeutsam o Symbol: x t, t = 1,..., T, d.h. es gibt T Beobachtungspunkte o Datenfrequenz: täglich, wöchentlich, monatlich, vierteljährlich, jährlich o Saisonale Effekte 6

1.2 Statistische Grundbegriffe und Datenarten Datenarten: Gepoolte Querschnitts- und Paneldaten Gepoolte Querschnittsdaten o Daten von verschiedenen Querschnittseinheiten für mehrere Zeitpunkte (Beispiel: Haushaltsstichproben in den Jahren 1996 und 1998) o Gemeinsame Analyse mehrerer Zufallsstichproben: Höhere Anzahl von Beobachtungen Analyse von Veränderungen über die Zeit (Beispiel: Analyse der Effekte der Gesundheitsreform von 1997 mit Hilfe von Daten aus 1996 und 1998) 7

1.2 Statistische Grundbegriffe und Datenarten Datenarten: Gepoolte Querschnitts- und Paneldaten Paneldaten o Daten von gleichen Querschnittseinheiten für mehrere Zeitpunkte (Beispiel: Sozio-ökonomische Panel (SOEP) des DIW) o Paneldaten erlauben Kontrolle von so genannten,,unbeobachteten Individualeffekten Analyse von zeitverzögerten Effekten (Beispiel: Investition in Abhängigkeit von Firmencharakteristika aus Vorperioden) 8

1.3 Datenquellen, -erhebung, und -transformationen Datenquellen Amtliche Statistik o Statistisches Bundesamt, Eurostat, EZB, Bundesbank, Bundesagentur für Arbeit Nichtamtliche Statistik o Sachverständigenrat zur Begutachtung der gesamtwirtschaftlichen Entwicklung, VGR des DIW, OECD, UNO, IWF, Weltbank Haushalts- und Unternehmensbefragungen o SOEP, Konjunkturindikatoren (z.b. Geschäftsklimaindex des ifo Instituts), Befragung von Finanzmarktexperten durch das ZEW Spieltheoretische und andere Experimente 9

1.3 Datenquellen, -erhebung, und -transformationen Datenerhebung Befragungen o Beispiele: Haushalts- und Unternehmenspanel, Umfragen Meldepflichten von Unternehmen und Institutionen o Beispiele: Amtliche Statistiken, EZB/Bundesbank, Finanzbehörden Automatische (computergestützte) Erfassung o Beispiele: Finanzmarktdaten (Börsenkurse, Optionspreise etc.) Sonstige Erhebungen o Beispiele: Firmeninterne Erfassung von Daten, Einzelhandelspreise als Basis für Preisindexberechnung Wichtige theoretische Basis: Stichprobentheorie 10

1.3 Datenquellen, -erhebung, und -transformationen Auswahl geeigneter Daten: Probleme Messen die Daten die ökonomisch relevante Größe? o Beispiel: Wirtschaftsaktivität vs. BIP Datenqualität: Sind Messfehler wahrscheinlich? o Beispiele: Falsche Angabe von Einkommen bei Haushaltsbefragungen, Tipp- und Schreibfehler Dürfen wir Variablen im ökonometrischen Modell aufgrund mangelnder Datenverfügbarkeit auslassen? o Beispiele: Fähigkeit/Intelligenz in Lohnmodellen, Tag der Prüfung im Rahmen von Leistungsstudien (z.b. PISA) 11

1.3 Datenquellen, -erhebung, und -transformationen Auswahl geeigneter Daten: Probleme Enstprechen die ökonometrischen Modellannahmen den Dateneigenschaften? o Beispiel: Unabhängigkeit der Stichprobe Konsequenzen für empirische/ökonometrische Analyse? o Bestimmung der Effekte von z.b. Messfehlern o Entwicklung und Anwendung von adäquaten ökonometrischen Methoden 12

Elementare Datentransformationen 1.3 Datenquellen, -erhebung, und -transformationen Querschnittsdaten: Quotenbildung o Beispiel: Bruttowertschöpfung in Sektor k, x k, k = 1,..., K x k Anteil von Sektor k: q k = K j=1 x k = 1,..., K j, Zeitreihendaten: Bildung von Indexreihe o Beispiel: Bruttowertschöpfung in Sektor k, x kt, für die Jahre 1991-2005, t = 1,..., 10 Indexreihe für x kt für Basisjahr 1991, d.h. Index=100 in 1991 i kt = (x kt /x k1 ) 100, t = 1,..., 10, i k1 = 100, 13

Elementare Datentransformationen 1.3 Datenquellen, -erhebung, und -transformationen Zeitreihendaten: Wachstumsraten o Beispiel: vierteljährliches BIP-Wachstum zwischen 1991:1-1999:4 BIP-Zeitreihe: x t, t = 1,..., 40 Zeitreihe der BIP-Wachstumsraten: r t = x t x t 1 x t 1, t = 2,..., 40 Bestimmung der Wachstumsraten erst ab der zweiten Beobachtung möglich! Wachstumsrate über mehrere Perioden entspricht nicht der Summe der einperiodigen Wachstumsraten: wegen Zinseszinseffekt 14

Elementare Datentransformationen 1.3 Datenquellen, -erhebung, und -transformationen Log-Transformation o Basisvariable x, log-transformation: ln(x) o Regressionsmodelle: Interpretation der Koeffizienten als Semielastizität bzw. Elastizität bei Verwendung von logarithmierten Variablen o Varianzglättung, falls Varianz mit Niveau der Variable ansteigt o Bildung von (Log-)Wachstumsraten als Differenz von Logarithmen: Zeitreihe der BIP-(Log-)Wachstumsraten: rl t = ln(x t ) ln(x t 1 ) Beachte: rl t = ln(x t ) ln(x t 1 ) r t, falls r t klein ist Log-Wachstumsrate über mehrere Perioden ergibt sich als Summe der einperiodigen Log-Wachstumsraten 15

Reale vs. nominale Variablen 1.3 Datenquellen, -erhebung, und -transformationen Nominale Variable y und Preisindex p Reale Variable x = (y/p) 100 Typische Anwendung für Zeitreihenvariablen: Nominales und reales BIP o Nominale BIP-Zeitreihe: y t, t = 1,..., T o Preisindexzeitreihe: p t, t = 1,..., T, mit p 1 = 100 o Reale BIP-Zeitreihe: x t = (y t /p t ) 100, t = 1,..., T 16

Datenzugang 1.4 Computergestütze Datenanalyse Die meisten Daten sind in elektronischer Form verfügbar o Makro- und Finanzmarktdaten via CD oder Internetdatenbanken: Eurostat, Statistisches Bundesamt, EZB, International Statistical Yearbook (IMF), Main Economic Indicators (OECD), Thomson Datastream, EcoWin, Yahoo-Finanzen etc.. o Mikrodatensätze mit Haushalts- oder Unternehmensdaten Datenschutz: eingeschränkter Zugang Beispiele für nichtelektronischen Datenzugang o Viele der o.g. Institutionen veröffentlichen Daten auch in gedruckter Form o,,historische Statistiken wie z.b. Handelstatistik des Deutschen Reiches 17

Software 1.4 Computergestütze Datenanalyse Tabellenkalkulationsprogramme: Deskriptive Analyse Statistik- und Ökonometrieprogramme: STATA, EViews, R, GAUSS o Dateneinlesen o Umfangreiche Datenanalyse: Regressionsanalyse u.a. komplexe statistische und ökonometrische Methoden o Programmierung von nicht implementierten Methoden o Simulationen zur Evaluation von statistischen Verfahren, z.b. Tests 18

Zufallsvariablen 1.4 Rolle der Stochastik Annahme: Betrachtete Variablen sind zufällig, d.h. stochstisch Beispiel Lohngleichung für Arbeitnehmer Motivation I o Stichprobe von 1000 Arbeitnehmer aus Grundgesamtheit aller Arbeitnehmer o Stichprobe bezüglich Lohn: {W 1,..., W 1000 } o Zufällige Auswahl Lohn von Arbeitnehmer i, W i, ist eine Zufallsvariable 19

Zufallsvariablen: Motivation II 1.4 Rolle der Stochastik Ökonomisches Lohnmodell W = f(ausbildung, Berufserfahrung, Umfang von Qualifizierung, Fähigkeit) Ökonometrisches Lohnmodell W = β 0 + β 1 ausb + β 2 befahr + β 3 quali + U Gründe für Berücksichtigung von Fehlerterm U o Intrinsische Zufälligkeit: ökonomisches Modell gilt nicht exakt o Messfehler, schlechte Proxyvariablen (z.b. Ausbildungszeit) o ausgelassene Variablen (z.b. Fähigkeit) o falsche funktionale Form (z.b. lineare Form) 20

Zufallsvariablen: Motivation II 1.4 Rolle der Stochastik Sinnvolle/Notwendige Annahme: Effekte des Fehlerterms sind nicht systematisch, sondern zufällig U ist eine Zufallsvariable, z.b. mit U (0, σ 2 ) Wenn U eine Zufallsvariable ist, dann ist auch W eine Zufallsvariable, wegen W = β 0 + β 1 ausb + β 2 befahr + β 3 quali + U Unterschiedliche Annahmen bzgl. erklärender Variablen ausb, bef ahr, quali o Realistisch: auch Zufallsvariablen o Häufig: deterministisch Variablen, um Eigenschaften von ökonometrischen Methoden (Schätzer, Tests) einfacher herleiten zu können 21

Stochastischer Modellrahmen 1.4 Rolle der Stochastik Welche Konsequenz hat der stochastische Modellrahmen? Wie können wir den stochastische Modellrahmen nutzen, um etwas über die Grundgesamtheit zu lernen? 22

1.4 Rolle der Stochastik Stochastischer Modellrahmen: Konsequenz Unterscheide Zufallsvariablen und Daten Beispiel: Zufallsexperiment zu Durchschnittsalter der EVWL-Studenten o Grundgesamtheit: Alle EVWL-Studenten o Zufällige Auswahl von 10 Studenten Jeder Student hat gleiche Chance, einzelne Auswahlentscheidungen sind unabhängig =,,Ziehen mit Zurücklegen o Zufallsstichprobe: {Y 1,..., Y 10 } mit Y i = Alter von Student i, Y i ist eine Zufallsvariable o Nach Auswahl: Daten bzw. Realisationen (y 1,..., y 10 ) liegen vor; Sie sind nicht zufällig! o Daten variieren je nach Stichprobe 23

1.4 Rolle der Stochastik Stochastischer Modellrahmen: Inferenz Wir verwenden Daten um auf Eigenschaften der Grundgesamtheit (hier: Durchschnittsalter µ) zu schließen: Inferenz Schätzer/Schätzregel: Arithmetisches Mittel der Stichprobenvariablen o Ȳ = 1 10 i=1 10 Y i o Ȳ ist eine Zufallsvariable, da es eine Funktion von Zufallsvariablen ist Schätzwert/Schätzung: Arithmetisches Mittel der Daten o ȳ = 1 10 i=1 10 y i o ȳ ist keine Zufallsvariable, sondern ein Zahlenwert 24

1.4 Rolle der Stochastik Stochastischer Modellrahmen: Inferenz Stochastischer Modellrahmen erlaubt Evaluation ökonometrischer Verfahren, z.b. von Schätzern (aber auch Entwicklung von Verfahren) Relevante Frage: Ist unser(e) Schätzer/Schätzregel gut? o Idee: Können unendlich viele Stichproben ziehen unendlich viele Schätzwerte o Machen wir im Mittel einen Fehler, d.h. gilt E[Ȳ ] = µ oder nicht? o Abstrakte Eigenschaft: oft nur eine Stichprobe verfügbar o Ableitung der Eigenschaften von Schätzern ist eine der Hauptaufgaben der Ökonometrie: verlangt Kenntnisse über Wahrscheinlichkeitstheorie und induktiver Statistik Konkreter Schätzwert ist richtig oder falsch! Wir wissen es aber nie! o Es gilt immer: E[ȳ] = ȳ, da ȳ nicht zufällig 25