Modelle mit diskreten abhängigen Variablen

Größe: px
Ab Seite anzeigen:

Download "Modelle mit diskreten abhängigen Variablen"

Transkript

1 Kapitel 19 Modelle mit diskreten abhängigen Variablen 19.1 Vorbemerkungen Bisher sind wir stets davon ausgegangen, dass die abhängige Variable y intervallskaliert ist. Zusätzlich haben wir meist angenommen, dass die Störterme ε i normalverteilt sind. Sehr häufig ist diese Annahme aber nicht erfüllt und die abhängige Variable ist in irgendeiner Form beschränkt. In solchen Fällen spricht man von Limited Dependent Variables (LDV). In diesem Kapitel werden wir einige solcher Fälle und die damit einhergehenden Probleme diskutieren. 1 Zum Beispiel haben wir bisher Dummy-Variablen (auch bekannt als binäre, dichotome oder qualitative Variablen) ausschließlich als erklärende Variablen (auf der rechten Seite der Regressionsgleichungen) zugelassen. Solche qualitative Variablen können aber auch als abhängige Variable interessieren, z.b. kauft ein Kunde mit bestimmten Charakteristika ein Produkt oder kauft er es nicht, lässt sich jemand scheiden oder nicht, geht eine Firma in Konkurs oder nicht, usw. Es gibt zahlreiche Arten von diskreten abhängigen Variablen, die wichtigsten Fälle sind: Binäre abhängige Variablen: z.b. Kaufentscheidungen (ja/nein), Konkurse, lineares Wahrscheinlichkeitsmodell, Probit- / Logit Modelle; Ordinale abhängige Variablen: z.b. Schulnoten, Zustimmungsgrade,... Ordered Probit- / Logit Modelle; Nominale abhängige Variablen: z.b. Wahl eines Schultyps, eines Transportmittels,... Multinominale Logit Modelle; Zensierte oder gestutzte abhängige Variablen (censored or truncated): z.b. Arbeitsangebot kann nicht negativ sein, Einkommen über einer bestimmten Höhe werden in der Einkommenssteuerstatistik nicht einzeln ausgewiesen,... z.b. Tobit-Modelle 1 Dieses Kapitel folgt eng dem Lehrbuch von Long (1997). 1

2 Empirische Wirtschaftsforschung 2 Zähldaten: z.b. Anzahl der Kinder einer Frau, Zahl der Regierungswechsel in einer Periode,... Solche Daten treten häufig auf, wenn individuelles Verhalten beobachtet wird, deshalb werden Schätzverfahren für solche Daten üblicherweise der Mikroökonometrie zugerechnet. Da in diesen Fällen die Annahmen des klassischen linearen Regressionsmodells meist verletzt sind, wurden für diese Daten eigene Modelle entwickelt, die häufig auf der Maximum Likelihood Methode beruhen. Bevor wir uns aber ausführlich mit diesen Methoden beschäftigen, werden wir uns vorher noch kurz mit einem sehr einfachen Modell befassen, nämlich der Anwendung von OLS bei abhängigen Dummy Variablen Das Lineare Wahrscheinlichkeitsmodell (LPM) Beim Linearen Wahrscheinlichkeitsmodell (Linear Probability Model, LPM) wird das Modell mit einer binären abhängigen Variable einfach mit OLS geschätzt. 2 Angenommen wir interessieren uns dafür, welche Personen sich nach einer Verkaufsveranstaltung entschließen das Produkt zu kaufen, oder genauer, wie welche persönliche Charakteristika die Kaufwahrscheinlichkeit beeinflussen. Dazu könnten wir eine Zufallsstichprobe ziehen und die Personen befragen, ob sie das Produkt gekauft haben (y), sowie nach den interessierenden Charakteristika wie z.b. Einkommen (I), Alter (A), Bildungsniveau (E). Das Modell lautet wobei y i = y i = β 1 +β 2 I i +β 3 A i +β 4 E i +ε i { 1 wenn Person i das Produkt gekauft hat, 0 wenn Person i das Produkt nicht gekauft hat. Natürlich können auch erklärende Variablen qualitativ sein, z.b. das Geschlecht. Wennwirmitx i diei-tezeilederx Matrixbezeichnen(x i istalsoeinspaltenvektor, und x i ein 1 k Zeilenvektor mit den Daten für Beobachtungseinheit i) können wir das Modell schreiben als y i = x i β +ε i Dieses Modell kann prinzipiell mit OLS geschätzt werden (auch wenn dies Probleme mit sich bringt, mehr dazu später). Abbildung 19.1 zeigt das lineare Wahrscheinlichkeitsmodell (LPM) für den bivariatenfall.diepunktezeigendierealisationenvony (y i = 0odery i = 1).Diedurchgezogene (blaue)( Linie ist dasergebnis einer OLS-Regression undzeigt ŷ i = β 1 + β 2 x i. Die entsprechende PRF beschreibt den bedingten Erwartungswert E(y i x i ) = β 1 + β 2 x i. 2 Man kann zeigen, dass das LPM eng mit der statistischen Diskriminanzanalyse verwandt ist (siehe z.b. Maddala and Lahiri, 2009, 332f).

3 Empirische Wirtschaftsforschung 3 Dieser Erwartungswert hat eine interessante Interpretation. Da y nur zwei Werte annehmen kann, 0 oder 1, ist der bedingte Erwartungswert E(y i x i ) = [1 Pr(y i = 1 x i )]+[0 Pr(y i = 0 x i )] = Pr(y i = 1 x i ) wobei Pr die Wahrscheinlichkeit bezeichnet, mit der das Ereignis eintritt. Der Erwartungswert der binären Variable kann also als bedingte Wahrscheinlichkeit interpretiert werden, mit der das Ereignis y i = 1 für gegebene x i eintritt. Also gilt Pr(y i = 1) = ŷ i = x iβ Dies erklärt den Namen des LPM. Im LPM können die marginalen Effekte wie üblich interpretiert werden y = Pr(y i = 1) x h x h = β h d.h. β h gibt an, wie eine marginale Änderung der Variable x h die Eintrittswahrscheinlichkeit des Ereignisses beeinflusst. Wenn D eine Dummyvariable ist und der Vektor x i die restlichen erklärenden Variablen enthält ist wie üblich die Differenz der Erwartungswerte zu bilden Pr(y i = 1) = E(y i x i,d i = 1) E(y i x i,d i = 0) Daten: y x y E(y x) 50 ε 1 ε 0 x 100 x Abbildung 19.1: Das Linear Probability Model Beispiel: Ein bekanntes Beispiel für die Analyse einer diskreten abhängigen Variable stammt von Fair (1978). Dieser wertete das mittels Fragebögen erhobene Seitensprungverhalten seiner verheirateten Mitbürger aus. Da wir diesen Datensatz noch öfters verwenden werden sind in Tabelle 19.1 die deskriptiven Statistiken der Variablen zusammengefasst. Tabelle 19.2 zeigt die Anwendung einer einfachen OLS-Regression auf diese Daten, d.h. das Lineare Wahrscheinlichkeitsmodell, und Abbildung 19.2 das Histogramm der gefitteten Werte, d.h. der prognostizierten Wahrscheinlichkeiten.

4 Empirische Wirtschaftsforschung 4 Tabelle 19.1: Deskriptive Statistik zu Fair, Ray C. (1978), A Theory of Extramarital Affairs, Journal of Political Economy, Vol 86 No 1, Variable Mean Max. Min. Std. Dev. Description EMA Extramarital Affairs, 0 = no, 1 = yes, Sex = female, 1 = male, Age Age YMar No. of years married Kids Children, 0 = no, 1 = yes Relig How religious, 5 = very, 1 = anti Educ Education, from 9 (low) to 20 (high) Occ Occupation (1-7) RMar Rate marriage, from 5 = very happy to 1 = very unhappy n = 601, Survey data of first time married people. Tabelle 19.2: Das Lineare Wahrscheinlichkeitsmodell (OLS) Dependent Variable: EMA Method: Least Squares Included observations: 601 White Heteroskedasticity-Consistent Standard Errors & Covariance Variable Coefficient Std. Error t-stat. Prob. C b SEX b AGE b YMAR b KIDS b RELIG b EDUC b OCC b RMAR b R-squared Log likelihood Adjusted R-squared Akaike info criterion S.E. of regression Schwarz criterion Sum squared resid F-statistic Durbin-Watson Stat Prob(F-statistic)

5 Empirische Wirtschaftsforschung Series: EMA_F Sample Observations 601 Mean Median Maximum Minimum Std. Dev Skewness Kurtosis Jarque-Bera Probability Abbildung 19.2: Histogram der prognostizierten Wahrscheinlichkeiten Probleme mit dem linearen Wahrscheinlichkeitsmodell Das lineare Wahrscheinlichkeitsmodell ist verblüffend einfach und wie die Praxis zeigt in vielen Fällen erstaunlich robust, weshalb es oft vernünftig ist zur ersten Orientierung mit einem solchen Modell zu beginnen. Leider hat es auch einige Nachteile: Die prognostizierten Wahrscheinlichkeiten können größer als Eins oder kleiner als Null sein, was natürlich der Definition einer Wahrscheinlichkeit widerspricht. Abbildung 19.2 mit dem Histogram der prognostizierten Werte zeigt, dass in dem Beispiel von Fair (1978) eine Reihe negativer Seitensprungwahrscheinlichkeiten vorhergesagt werden. Die unterstellte lineare Funktionsform ist häufig unrealistisch. Wenn z.b. bestimmt werden soll, mit welcher Wahrscheinlichkeit Frauen berufstätig sind, unterstellt das LPM, dass ein erstes Kind einer Frau den gleichen Einfluss auf die Wahrscheinlichkeit für die Berufstätigkeit hat wie ein viertes Kind. Heteroskedastizität: Man kann zeigen, dass die Varianz einer binären Variable y i mit Mittelwert µ immer µ(1 µ) ist. 3 Im Regressionsmodell ist der bedingte Erwartungswert E(y i x i ) = x iβ. Die bedingte Varianz von y ist deshalb von X abhängig var(y i x i ) = Pr(y i = 1 x i )[1 Pr(y i = 1 x i )] = x i β(1 x i β) d.h. das Modell ist heteroskedastisch. Deshalb ist das LPM nicht effizient und die Standardfehler sind verzerrt. Dieses Problem lässt sich durch die Anwendung eines FGLS Schätzers 4 (Feasible Generalized Least Squares), oder noch einfacher durch heteroskedastie-konsistente (White-) Standardfehler zumindest wesentlich mildern. 3 Warum? Sei y eine Dummy Variable mit E(y) = µ. Per Definition gilt var(y) = E(y µ) 2 = E(y 2 ) 2µE(y) + µ 2. Da y nur die Werte 0 und 1 annehmen kann gilt y 2 = y. Einsetzen von E(y) = µ gibt var(y) = µ µ 2 = µ(1 µ). 4 Man schätzt die gefitteten Werte ŷ i, berechnet daraus die Gewichte w i = ŷ i (1 ŷ i ), und regressiert y i /w i auf x i /w i.

6 Empirische Wirtschaftsforschung 6 Die Störterme sind nicht normalverteilt: Die Störterme sind die Differenz zwischen realisierten Werten und dem bedingten Erwartungswert ε i = y i E(y i x i ). In Abbildung 19.1 (Seite 3) ist der Störterm für einen Wert x eingezeichnet. Da y nur 0 oder 1 sein kann, ist der entsprechende Störterm entweder ε 1 = 1 E(y x ) oder ε 0 = 0 E(y x ). Diese Störterme können deshalb nicht normalverteilt sein. Dies beeinflusst zwar nicht die Unverzerrtheit des OLS Schätzers, aber die Teststatistiken sind in kleinen Stichproben ungültig. Einige der Probleme des LPM lassen sich beseitigen, wenn man eine Funktion wählt die sicher stellt, dass der bedingte Erwartungswert d.h. die Wahrscheinlichkeit im [0,1] Intervall liegt Pr(y i = 1 x i) = E(y i x i) = F(x iβ) wobei x iβ Indexfunktion genannt wird und F eine Transformationsfunktion ist, die folgende Eigenschaft erfüllt: F( ) = 0. F( ) = 1, df(x) dx f(x) 0 (dies impliziert 0 < F(z) < 1 z x) Eine solche Funktion F kann natürlich niemals linear sein, sondern wird meist S- förmig angenommen. Deshalb sind die marginalen Effekte nicht konstant, weshalb die Parameter dieser Modelle wie wir später sehen werden deutlich schwieriger zu interpretieren sind als die des LPM. y LPM 1.0 Logit x 100 x Abbildung 19.3: Vergleich LPM- und Logit Modell 19.3 Eine Interpretation: Latente Variablen Ein wesentliches Problem des LPM besteht darin, dass die prognostizierten Wahrscheinlichkeiten nicht im [0, 1] Intervall liegen müssen, sowie, dass konstante mar-

7 Empirische Wirtschaftsforschung 7 ginale Effekte häufig theoretisch unplausibel sind. Deshalb liegt es nahe eine Funktionsform zu wählen, die diese Probleme vermeidet. Meistens wird eine S-förmige Funktionsform gewählt wie in Abbildung In diesem Abschnitt werden wir versuchen eine plausible Begründung für eine solche Funktionsform zu geben, und anschließend werden wir uns mit der Schätzung und Interpretation der Parameter beschäftigen. Für das Verständnis ist es am einfachsten, wenn wir uns vorstellen, dass die beobachtbare binäre Variable y von einer zugrundeliegenden unbeobachtbaren intervallskalierten Variable y erzeugt wird. Falls die abhängige Variable y z.b. angibt, ob jemand eine Kauf getätigt hat oder nicht, könnte die latente intervallskalierte Variable y interpretiert werden als Kaufneigung ; oder wenn y angibt, ob eine Firma zahlungsunfähig wurde, könnte y als Liquidität oder etwas ähnliches interpretiert werden. Eine solche dahinterliegende unbeobachtbare Variable wird latente Variable genannt. Wir werden im weiteren solche latente Variablen mit einem hochgestellten kennzeichnen. Das Strukturmodell sei y i = x iβ +ε i mit y i = { 1 wenn y i > τ, 0 wenn y i τ. wobei τ einen (beliebigen) Schwellenwert (treshold oder cutoff point) bezeichnet. Meist wird τ = 0 angenommen, da sich die Wahl eines anderen (beliebigen) Schwellenwerts bei der Schätzung nur auf den Wert des Interzepts auswirkt, welches aber nur selten von Interesse ist. Die Wahrscheinlichkeit, dass für ein gegebenes x i die abhängige Variable y i den Wert 1 annimmt, kann für τ = 0 als Wert der Verteilungsfunktion an der Stelle x i β berechnet werden, denn Pr(y i = 1 x i ) = Pr(y > 0 x i ) = Pr(x iβ +ε i > 0 x i) = Pr(ε i > x i β x i ) = Pr(ε i x i β x i ) = F(x i β x i ) (der letzte Schritt folgt aus der Symmetrie der Normalverteilung). Diese Herleitung wird in Abbildung 19.4 grafisch veranschaulicht. Man beachte, dass auch für E(y x i) > τ und deshalb E(y x i) = 1 das tatsächlich beobachtete y i gleich Null sein kann (d.h. y i = 0), wenn nämlich ε i hinreichend negativ ist. Wir werden außerdem später sehen, dass σ in diesen Modellen nicht berechnet werden kann (d.h. nicht identifizierbar ist), sondern nur das Verhältnis β/σ.

8 Empirische Wirtschaftsforschung 8 y E(y x) x i β τ y = 0 y = 1 τ = 0 x i x Dichte Pr(y = 0) Pr(y = 1) Pr(y = 0) Pr(y = 1) Pr(y = 1) = F(xβ) Pr(y = 0) 0 x y i β y = xβ +ε Pr(y = 1) = Pr(xβ +ε > 0) x i β 0 ε = y xβ Pr(y = 1) = Pr(ε > xβ) 0 x i β ε = xβ y Pr(y = 1) = Pr(ε xβ) = F(xβ) Abbildung 19.4: Latente Variable Pr(y i = 1 x i ) = F(βx i ) Die obere Grafik von Abbildung 19.5 (Seite 9) zeigt die Verteilung des Störterms ε für 5 verschiedene x. Die schraffierte Fläche gibt die auf x bedingte Eintrittswahrscheinlichkeit Pr(y i = 1 x i ) an, die in der unteren Abbildung aufgetragen ist. Dies ist offensichtlich eine Verteilungsfunktion Probit- und Logit Modelle Benötigt wird also eine Transformationsfunktion F die sicherstellt, dass F(x iβ) in das Intervall [0, 1] fällt. Die beiden am häufigsten verwendeten Funktionen, die diese Annahme erfüllen, sind die Verteilungsfunktionen der Normal- und der logistischen Verteilung. Probit: verwendet für F die Verteilungsfunktion der Standardnormalverteilung: x Pr(y i = 1) = Φ(x i β) = i β x i β ( ) 1 z 2 φ(z)dz = 2π exp dz 2

9 Empirische Wirtschaftsforschung 9 y 8 7 y = 0 y = 1 τ E(y x) τ x 1 Pr(y = 1 x) Abbildung 19.5: Interpretation als latente Variable : die schraffierte Fläche der oberen Abbildung ist als Verteilungsfunktion in der unteren Abbildung dargestellt. wobei Φ (Phi) die Verteilungsfunktion (cdf für Cumulative Distribution Function ) und φ (phi) die Dichtefunktion (pdf für Probability Density Function ) der Standardnormalverteilung ist. Logit: basiert auf der Verteilungsfunktion (cdf) der logistischen Verteilung: Pr(y i = 1) = Λ(x iβ) = exp(x i β) 1+exp(x i β) wobei Λ(Lambda) die Verteilungsfunktion (cdf) der standard-logistischen Verteilung mit Mittelwert 0 und Varianz π 2 /3 ist. Die Dichtefunktion (pdf) der logistischen Verteilung ist nebenbei erwähnt λ(x exp(x i iβ) = β) [1+exp(x i β)]2

10 Empirische Wirtschaftsforschung 10 Die Schätzung beider Modelle erfolgt mittels Maximum Likelihood. Die Wahrscheinlichkeit Pr(y i = 1 x i) = F(x iβ) wobeif improbitmodelldiecdfφundimlogitmodelldiecdfλist(vgl.abbildung 19.4, Seite 8). Pr(y i = 1 x i ) = F(x i β) Pr(y i = 0 x i) = 1 F(x iβ) Wenn die Stichprobenziehungen unabhängig sind (i.i.d. sampling) ist die gemeinsame Wahrscheinlichkeit Pr(y 1,y 2,...,y n X) = [1 F(x i β)] [F(x i β)] {i,y i =0} {i,y i =1} Dadiebeobachteteny i AusprägungeneinesBinomialprozessessindistdieLikelihood Funktion für n Beobachtungen n L(β y,x) = [F(x iβ)] y i [1 F(x iβ)] 1 y i i=1 Die Log-Likelihood Funktion ist das Produkt der individuellen Likelihoodbeiträge lnl i n lnl = {y i ln[f(x i β)]+(1 y i)ln[1 F(x i β)]} i=1 Man beachte, dass der Wert dieser Log-Likelihood Funktion nie positiv sein kann, da 0 F( ) 1 impliziert, dass ln[f( ) 0] und ln[1 F( ) 0]. Die Bedingungen erster Ordnung sind lnl β = n i=1 [ yi f i f i +(1 y i ) F i (1 F i ) ] x i! = 0 wobei f i = df i /d(x iβ) die Dichtefunktion (pdf) ist, also φ für das Probit und λ für das Logit Modell. Die Parameter β dieses Modells können mit Hilfe iterativer Verfahren geschätzt werden. Die Log-Likelihood Funktion könnte z.b. in EViews (oder jedem anderen geeigneten Programm 5 einfach maximiert werden (hier für das Probit) logl LL1 Log-Likelihood Objekt LL1 anlegen OLS Schätzungen als Startwerte setzen eq1.ls y c x logl1 LL1.append xb = c(1) + c(2)*x LL1.append logl1 = + LL1.ml show LL1 (EMA ist die abhängige Dummyvariable Extramarital Affairs ) aber selbstverständlich sind entsprechende Routinen einfacher mit dem Befehl eqname.probit list of variables aufgerufen werden. 5 Für R Beispiele siehe z.b. Kleiber wwz.unibas.ch/fileadmin/wwz/redaktion/statistik/downloads/lehre/mikro/folien/binary.pdf

11 Empirische Wirtschaftsforschung 11 Beispiel: Tabelle 19.3 und 19.4 zeigen Probit- bzw. Logitschätzungen für die bereits früher zitierte Arbeit von Fair (1978) über außerehelicher Beziehungen (für die Definition der Variablen siehe Seite 4). Tabelle 19.3: Probit-Schätzung von Fair (1978) Dependent Variable: EMA Method: ML - Binary Probit (Quadratic hill climbing) Sample: Included observations: 601 Convergence achieved after 5 iterations Covariance matrix computed using second derivatives Variable Coefficient Std. Error z-stat. Prob. C b SEX b AGE b YMAR b KIDS b RELIG b EDUC b OCC b RMAR b Mean dependent var S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood Hannan-Quinn criter Restr. log likelihood Avg. log likelihood LR statistic (8 df) McFadden R-squared Probability(LR stat) 4.87E 11 Obs with Dep=0 451 Total obs 601 Obs with Dep=1 150 Achtung: Der Maximum Likelihood Schätzansatz bricht zusammen, wenn für eine Linearkombination x i β der erklärenden Variablen gilt { y i = 0 wenn x i β < 0, und y i = 1 wenn x iβ > 0 Dies bedeutet, dass in einer graphischen Abbildung die Beobachtungen durch eine Gerade (oder Hyperebene) perfekt getrennt werden können. Dieses Problem ist als Perfect Classifier Problem oder (Quasi-)Vollständige Separation bekannt (siehe z.b. Davidson and MacKinnon, 2003, 458).

12 Empirische Wirtschaftsforschung 12 Tabelle 19.4: Logit-Schätzung von Fair 1978 Dependent Variable: EMA Method: ML - Binary Logit (Quadratic hill climbing) Sample: Included observations: 601 Convergence achieved after 5 iterations Covariance matrix computed using second derivatives Variable Coefficient Std. Error z-stat. Prob. C b SEX b AGE b YMAR b KIDS b RELIG b EDUC b OCC b RMAR b Mean dependent var S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood Hannan-Quinn criter Restr. log likelihood Avg. log likelihood LR statistic (8 df) McFadden R-squared Probability(LR stat) 3.25E 11 Obs with Dep=0 451 Total obs 601 Obs with Dep= Identifizierbarkeit und Vergleich der Koeffizienten von Probit- & Logitmodellen Wir haben bereits früher gezeigt (siehe latente Variablen), dass Pr(y = 1 x) = Pr(y > 0 x) = Pr(xβ +ε i > 0 x) = Pr(ε i > xβ x) Man kann nun einfach eine Standardisierung vornehmen, indem man ε i durch σ dividiert (ε i /σ ist standardnormalverteilt mit Mittelwert 0 undstandardabweichung

13 Empirische Wirtschaftsforschung 13 1) ( ) Pr(y i = 1 x i ) = Pr εi σ > β x i σ ( ) εi = Pr σ β x i σ [ ( )] β = F x i σ Dies führt zur Likelihood Funktion ( ) β n [ ( L σ y,x = F bzw. Log-Likelihood Funktion lnl = n i=1 i=1 { [ ( y i ln F x i )] β σ x i )] yi [ ( β 1 F σ x i β σ [ ( +(1 y i )ln 1 F )] 1 yi x i )]} β σ Man beachte, dass β und σ hier immer nur gemeinsam als β/σ auftreten. Deshalb kann nur das Verhältnis β/σ berechnet werden, nicht aber die getrennten Werte β und σ. Man sagt, β und σ sind nicht einzeln identifiziert, sodern nur das Verhältnis β/σ ist identifiziert. Intuitiv kann man sich vorstellen, dass die latente Variable y im Strukturmodell y i = x iβ +ε i nicht beobachtbar ist, deshalb kann die Varianz von y nicht aus den beobachteten Daten berechnet werden. Tatsächlich kann man eine beliebige Varianz σ annehmen und dazu den entsprechenden Koeffizientenvektor β berechnen. Aus Einfachkeitsgründen hat es sich eingebürgert, für das Probitmodell eine Varianz von Eins (σp 2 = 1) und für das Logitmodell eine Varianz π 2 /3 (σl 2 = π2 /3) anzunehmen. Der Grund für diese Annahmen liegt einzig und alleine in der damit zu erzielenden Einfachheit. Also Probit: Standardnormalverteilung mit µ = 0 und var(ε) = 1 ε i N(0,1) Logit: Standard-logistische Verteilung mit µ = 0 und var(ε) = π 2 /3 ε i L(0,π 2 /3) (L bezeichne die logistische Verteilung) Abbildung 19.6 zeigt die Dichte und Verteilungsfunktionen dieser beiden Verteilungen. Die geschätzten Koeffizienten werden sich deshalb im Logit- und Probitmodell unterscheiden ˆβ P ˆβ L 1 π2 /3

14 Empirische Wirtschaftsforschung 14 Dichtefunktionen: Verteilungsfunktionen: Standardnormalverteilung Standardlogistische Verteilung Standardisierte logist. Verteilung Abbildung 19.6: Standardnormale & standard-logistische Verteilung Deshalb würden wir näherungsweise erwarten, dass ˆβ L π 2 /3 ˆβ P 1.81ˆβ P Nach Amemiya (1981) sollte man eher einen Wert von 1.6 verwenden, da für diesen Wert die Verteilungsfunktionen am ähnlichsten sind (vgl. Long, 1997, 47f) ˆβ L 1.6ˆβ P Diese Approximation funktioniert für Wahrscheinlichkeiten zwischen 0.1 und 0.9 recht gut. Für einen Vergleich der Koeffizienten des Logit Modells mit den Koeffizienten des linearen Wahrscheinlichkeitsmodells (LPM) empfiehlt Amemiya die Logit Koeffizienten mit 0.25 zu multiplizieren (vgl. Vogelvang 2005, S. 244; Greene 2003, S. 676).

15 Empirische Wirtschaftsforschung 15 Als grobe Faustregel gilt (Cameron & Trivedi 2005, 473) ˆβ Logit 4 ˆβ OLS ˆβ Probit 2.5 ˆβ OLS ˆβ Logit 1.6 ˆβ Probit Tabelle 19.5 zeigt die geschätzten Koeffizienten und deren p-werte (Prob.) für das LPM, Probit- und Logitmodell. Tabelle 19.5: Vergleich der Modelle Fair (1978) Variable LPM Prob. Probit Prob. Logit Prob. C SEX AGE YMAR KIDS RELIG EDUC OCC RMAR Wichtig ist, dass dadurch zwar die geschätzten Parameter in einem gewissen Sinne willkürlich sind (d.h. von der identifizierenden Annahme über die Varianz abhängig sind), dass dies aber keine Auswirkungen auf die Wahrscheinlichkeiten (predicted probabilities) hat. Dies kann für das Logit Modell einfach gezeigt werden. Die Verteilungsfunktion für die standardisierte logistische Verteilung (d.h. mit µ = 0 und σ 2 = 1) ist Λ s (ε) = exp[(π/ 3)ε] 1+exp[(π/ 3)ε] (diese standardisierte logistische Verteilungsfunktion ist in Abbildung 19.6 punktiert eingezeichnet). Wenn wir das Strukturmodell durch σ dividieren y + i σ = x i β σ + ε i σ hat ε i /σ eine standardisierte logistische Verteilung ( ) ( Λ s εi ) exp π ε i 3 σ = ( ) σ 1+exp da σ = π/ 3 ist aber π 3 ε i σ

16 Empirische Wirtschaftsforschung 16 ( Λ s εi ) = exp(ε i) σ 1+exp(ε i ) = Λ(ε i) Deshalb hängt die geschätzte Eintrittswahrscheinlichkeit eines Ereignisses Pr(y i = 1 x) nicht von der Annahme über die Varianz von ε i ab! Gleiches gilt für das Probit Modell Interpretation der Parameter Während die Schätzung der Modelle weitgehend von der entsprechenden Software übernommen wird und deshalb kaum Probleme bereitet ist die Interpretation der Ergebnisse deutlich komplexer als im Fall der linearen Regression. Abbildungen 19.7 und 19.8 verdeutlichen das Problem. Bei einer linearen Regression (Abbildung 19.7) sind die marginalen Effekte konstant und eine Dummy-Variable führt zu einer einfachen Parallelverschiebung der Regressionsgerade im Ausmaß des Koeffizienten der Dummy. Wie aus Abbildung 19.8 ersichtlich ist gilt dies nicht für nicht-lineare Modelle. Tatsächlich gehört eine kompakte Darstellung der Ergebnisse zu den schwierigeren Teilen einer Probit- oder Logit Analyse. y D = 0 D = 1 y i = β 1 +β 2 x i +β 3 D i β 2 β 2 β 3 β 2 β 3 β 2 x 1 x 2 x Abbildung 19.7: Interpretation der Parameter des linearen Regressionsmodells (LPM) Die Abbildungen 19.9 und zeigen die Funktion Pr(y i = 1 x i ) = F(β 1 +β 2 x i ) für unterschiedliche β 1, bzw. β 2. Man beachte, dass eine Erhöhung des Interzepts β 1 zu einer Linksverschiebung führt (der Grund dafür sollte aus Abbildung 19.5 ersichtlich sein).

17 Empirische Wirtschaftsforschung 17 y y i = f(α 1 +α 2 x i +α 3 D i ) = exp(α 1+α 2 x i +α 3 D i ) [1+exp(α 1 +α 2 x i +α 3 D i )] D = 0 D = 1 δ 4 δ 3 δ 6 δ 2 δ 5 δ 1 x 1 x 2 x Abbildung 19.8: Interpretation der Parameter des Logit Modells Pr(y = 1) β 1 = 10 β 1 = 5 β 1 = 0 β 1 = +5 β 1 = +10 (β 2 = 1) Abbildung 19.9: Parameter β 1 des Logit Modells Abbildung zeigt den multivariaten Fall Pr(y i = 1 x i) = F(β 1 +β 2 x i1 +β 3 x i2 ) Interpretation unter Verwendung der berechneten Wahrscheinlichkeiten Man kann nun die Schätzergebnisse verwenden um für bestimmte Werte von x i die entsprechenden Wahrscheinlichkeiten zu berechnen. Pr(y i = 1 x i ) = F(x iˆβ) = 1 F( x iˆβ)

18 Empirische Wirtschaftsforschung 18 Pr(Y = 1) β 2 = 0.1 β 2 = 0.3 β 2 = 1 β 2 = 2 β 2 = 0.5 (β 1 = 0) Abbildung 19.10: Parameter β 2 des Logit Modells 1 PHY=1»XL X2 X Abbildung 19.11: Das multivariate Logit Modell Für jedes Individuum existiert eine individuelle Wahrscheinlichkeit, d.h. die Wahrscheinlichkeiten sind beobachtungsspezifisch. Man kann nun einfach über die Wahrscheinlichkeiten aller Individuen mitteln, zum Beispiel kann man aus den Daten von Fair (1978) mit Hilfe einer Logit-Schätzung eine mittlere Seitensprungwahrscheinlichkeit von berechnen. Dies ist der Mittelwert der gefitteten Wahrscheinlichkeiten. In EViews erhalten Sie diesen Mittelwert z.b. mit equation eq1.logit ema c sex age ymar kids relig educ occ rmar eq1.fit ema_fit coef(1) m1 show m1 Man kann alternativ aber auch die Wahrscheinlichkeiten im Mittelwert der jeweiligen

19 Empirische Wirtschaftsforschung 19 x berechnen, d.h. Pr(y i = 1 x ) = F( x ˆβ). Dafür erhält man aus den Fair (1978) Daten einen Wert von Diesen Wert können Sie in EViews z.b. berechnen, indem Sie aus der Equation Toolbar View - Representations wählen, den Output mit Substituted Coefficients mit Copy & Paste in ein Programm-Fenster kopieren und dort Variablennamen ersetzen; für dieses Beispiel 6 coef(1) m2 = + - _ + + _ - + _ + - _ show m2 Interessanter sind jedoch häufig die Bereiche der Wahrscheinlichkeiten für unterschiedliche Werte von x. Die minimale und maximale Wahrscheinlichkeit in der Stichprobe ist definiert als min Pr(y i = 1 x i ) = min F(x iˆβ) i max Pr(y i = 1 x i) = max i F(x iˆβ) Dies sind die Werte für das Individuum mit der höchsten und das Individuum mit der niedrigsten Wahrscheinlichkeit. In EViews erhalten Sie diese einfach aus den oben berechneten gefitteten Werten z.b. mit ema_min1 bzw. ema_max1 Die Werte für das Fair-Beispiel finden Sie in der ersten Zeile von Tabelle Man kann auch den Bereich der Wahrscheinlichkeiten für die minimalen (bzw. maximalen) Wert jeder einzelnen x-variable berechnen, ungeachtet dessen, ob es tatsächlich ein Individuum mit solchen extremen Merkmalsausprägungen in der Stichprobe gibt. Dabei ist das Vorzeichen der geschätzten β h zu berücksichtigen x h = { min i x ki wenn β h 0, max i x ki wenn β h < 0 x h = { max i x ki wenn β h 0, min i x ki wenn β h < 0 wobei x h die zu verwendenden Werte von x ih für die Berechnung der minimalen und x h diewerte fürdieberechnung der maximalen Wahrscheinlichkeit bezeichnet. In der zweiten Zeile von Tabelle 19.6 finden sich die entsprechenden minimalen und maximalen Wahrscheinlichkeiten Pr(y = 1 x) = F( x ˆβ) und Pr(y = 1 x) = F( x ˆβ) Man beachte, dass diesen Wahrscheinlichkeiten vermutlich kein Individuum der Stichprobe entspricht, und dass die so berechneten Wahrscheinlichkeiten sehr empfindlich auf Ausreißer reagieren. 6 Das underline Zeichen am Zeilenende (!) erlaubt einen Befehl über mehrere Zeilen zu schreiben.

20 Empirische Wirtschaftsforschung 20 Diese Bereiche der Wahrscheinlichkeiten sind nützlich, um das Ausmaß der Nicht- Linearität abzuschätzen. Wenn diese gefitteten Wahrscheinlichkeiten z.b. alle zwischen 0.2 und 0.8 liegen können sie vermutlich durch ein lineares Modell möglicherweise einigermaßen gut angenähert werden. Ebenso, wenn der Bereich zwischen minimalen und maximalen Wert sehr klein ist. Tabelle 19.6: Bereich der gefitteten Wahrscheinlichkeiten für das Logit Modell (nach Fair 1978) Variable Min. Max. Diff. Pr(y i = 1 x i ) Pr(y i = 1 x min/max ) SEX AGE YMAR KIDS RELIG EDUC OCC RMAR Als nächstes kann man den Einfluss der einzelnen erklärenden Variablen untersuchen, indem man für jedes x h den minimalen und maximalen Wert einsetzt und für alle anderen Variablen jeweils den Mittelwert einsetzt ( x ist ein Vektor mit den Durchschnitten aller x Variablen außer der Variable x h ). Die Differenzen Diff h = Pr(y = 1 x,maxx h ) Pr(y = 1 x,minx h ) sind für unser Beispiel in Tabelle 19.6 ab Zeile 3 angegeben. Eine kleine Differenz bedeutet, dass eine Veränderung dieser Variable keinen großen Einfluss auf die prognostizierten Wahrscheinlichkeiten hat. Schließlich ist es wichtig, ob die maximalen und minimalen Werte in einen Bereich fallen, in denen die Kurve einigermaßen linear ist, oder in einen Bereich starker Nicht-Linearität. Häufig ist es nützlich, die Wahrscheinlichkeiten über einen Bereich einer Variablen graphisch darzustellen. Obwohl in unserem Beispiel das Geschlecht keinen signifikanten Erklärungsbeitrag leistet und deshalb nicht interpretiert werden sollte wollen wir im Moment davon absehen um die Methode zu demonstrieren. Abbildung zeigt die gefittetet Wahrscheinlichkeiten getrennt für Männer und Frauen (d.h. für SEX = 1 bzw. SEX = 0) über das Alter, wobei für alle anderen Variablen der Mittelwert eingesetzt wurde. Offensichtlich nehmen die Wahrscheinlichkeiten für beide Geschlechter mit dem Alter ab, aber auch der Unterschied zwischen Männern und Frauen wird kleiner. In Abbildung wird dasselbe über die Ehejahre gezeigt (für das Alter und alle anderen Variablen wird der Mittelwert eingesetzt). Hier wird der Unterschied zwischen Männern und Frauen offensichtlich nicht geringer, sondern nimmt mit den Ehejahren sogar zu. Man beachte aber, dass die gewählte Funktionsform keine Änderung des Vorzeichens zulässt.

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze Lehrstuhl für Statistik und empirische irtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im ach Ökonometrie im S 20/2 Lösungsskizze Aufgabe (.5 Punkte) Sie verfügen über einen Datensatz, der Informationen

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Kap. 9: Regression mit einer binären abhängigen Variablen

Kap. 9: Regression mit einer binären abhängigen Variablen Kap. 9: Regression mit einer binären abhängigen Variablen Motivation Lineares Wahrscheinlichkeitsmodell Probit- und Logit-Regression Maximum Likelihood Empirisches Beispiel: Analyse der HMDA-Daten Ausblick:

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

Multivariate Analyseverfahren

Multivariate Analyseverfahren Multivariate Analyseverfahren Logistische Regression Prof. Dr. Stein 14.01.2014 & 20.01.2014 1 / 62 Inhaltsverzeichnis 1 Grundidee 2 3 4 5 2 / 62 Der Erklärungsgegenstand Soziale Forschungsgegenstände

Mehr

Klausur STATISTIK 2 für Diplom VWL

Klausur STATISTIK 2 für Diplom VWL Klausur STATISTIK 2 für Diplom VWL Name, Vorname: Matrikel-Nr. Die Klausur enthält zwei Typen von Aufgaben: Teil A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Aufgabe 1: Betrachtet wird folgendes Modell zur Erklärung des Managergehalts salary durch den Umsatz sales, die Eigenkapitalrendite roe und die

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I Institut für Soziologie Dipl.-Soz. Methoden 2 Logistische Regression I Programm Ergänzung zu letzter Sitzung: Interpretation nichtlinearer Effekte Anwendungsbereich der logistischen Regression Entwicklung

Mehr

Einfache Hypothesentests für multiple Regressionen

Einfache Hypothesentests für multiple Regressionen Kapitel 6 Einfache Hypothesentests für multiple Regressionen Economists have inherited from the physical sciences the myth that scientific inference is objective, and free of personal prejudice. This is

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Binäre Auswahlmodelle (Logit, Probit,...)

Binäre Auswahlmodelle (Logit, Probit,...) Binäre Auswahlmodelle (Logit, Probit,...) 27. November 204 In diesem Kapitel führen wir eine Klasse von Modellen für binäre Auswahlprobleme ein, deren wichtigste Vertreter das Logit- und das Probit-Modell

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

Abschlussklausur (60 Minuten), 15. Juli 2014

Abschlussklausur (60 Minuten), 15. Juli 2014 Prof. Dr. Amelie Wuppermann Volkswirtschaftliche Fakultät Universität München Sommersemester 2014 Empirische Ökonomie 1 Abschlussklausur (60 Minuten), 15. Juli 2014 Bearbeitungshinweise Die Bearbeitungszeit

Mehr

Kapitel 8. Dummy Variablen. Let us remember the unfortunate econometrician

Kapitel 8. Dummy Variablen. Let us remember the unfortunate econometrician Kapitel 8 Dummy Variablen Let us remember the unfortunate econometrician who, in one of the major functions of his system, had to use a proxy for risk and a dummy for sex. (Machlup, 974, 892) Dummy Variablen

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Vergleich von KreditRisk+ und KreditMetrics II Seminar Portfoliokreditrisiko

Vergleich von KreditRisk+ und KreditMetrics II Seminar Portfoliokreditrisiko Vergleich von KreditRisk+ und KreditMetrics II Seminar Portfoliokreditrisiko Jan Jescow Stoehr Gliederung 1. Einführung / Grundlagen 1.1 Ziel 1.2 CreditRisk+ und CreditMetrics 2. Kreditportfolio 2.1 Konstruktion

Mehr

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen 4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Untersuchungen zum Thema Tracking Error

Untersuchungen zum Thema Tracking Error Untersuchungen zum Thema Tracking Error J. Fulmek 24. August 2003 1 Einleitung Im Folgenden werden folgende Punkte untersucht: 1. verschiedene in der Literatur übliche Definitionen des Tracking Errors

Mehr

Klausur Sommersemester 2010

Klausur Sommersemester 2010 Klausur Sommersemester 2010 Lehrstuhl: Wirtschaftspolitik Prüfungsfach: Empirische Wirtschaftsforschung Prüfer: Prof. Dr. K. Kraft Datum: 04.08.2010 Hilfsmittel: Nicht-programmierbarer Taschenrechner Klausurdauer:

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse Multiple Regression II: Signifikanztests,, Multikollinearität und Kohortenanalyse Statistik II Übersicht Literatur Kausalität und Regression Inferenz und standardisierte Koeffizienten Statistik II Multiple

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Evaluation der Normalverteilungsannahme

Evaluation der Normalverteilungsannahme Evaluation der Normalverteilungsannahme. Überprüfung der Normalverteilungsannahme im SPSS P. Wilhelm; HS SPSS bietet verschiedene Möglichkeiten, um Verteilungsannahmen zu überprüfen. Angefordert werden

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

adjusted R 2 korrigiertes Bestimmtheitsmaß, korrigiertes R 2 Bias, Verzerrung coefficient of determination Bestimmtheitsmaß, R 2

adjusted R 2 korrigiertes Bestimmtheitsmaß, korrigiertes R 2 Bias, Verzerrung coefficient of determination Bestimmtheitsmaß, R 2 acceptance region Annahmebereich adjusted R 2 korrigiertes Bestimmtheitsmaß, korrigiertes R 2 alternative hypothesis Alternativhypothese asymptotic distribution asymptotische Verteilung asymptotic normal

Mehr

Zeitreihen. Statistik II

Zeitreihen. Statistik II Statistik II Wiederholung Literatur -Daten Trends und Saisonalität Fehlerstruktur Statistik II (1/31) Wiederholung Literatur -Daten Trends und Saisonalität Fehlerstruktur Statistik II (1/31) Zum Nachlesen

Mehr

Spezifikations- & Datenprobleme

Spezifikations- & Datenprobleme Kapitel 14 Spezifikations- & Datenprobleme Man is impelled to invent theories to account for what happens in the world. Unfortunately, he is not quite intelligent enough, in most cases, to find correct

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Multivariate Zeitreihenanalyse mit EViews 4.1

Multivariate Zeitreihenanalyse mit EViews 4.1 Multivariate Zeitreihenanalyse mit EViews 4.1 Unterlagen für LVen des Instituts für Angewandte Statistic (IFAS) Johannes Kepler Universität Linz Stand: 30. Mai 2005, Redaktion: Frühwirth-Schnatter 1 Deskriptive

Mehr

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression 6.0 Logistische Regression 6.1 Das binäre Modell 6.1 Das binäre Modell Sei x der Vektor der Einflussgrößen mit einem Eins-Element, um die Regressionskonstante zu modellieren. Angenommen, es gilt das Regressionsmodell:

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

$ % + 0 sonst. " p für X =1 $

$ % + 0 sonst.  p für X =1 $ 31 617 Spezielle Verteilungen 6171 Bernoulli Verteilung Wir beschreiben zunächst drei diskrete Verteilungen und beginnen mit einem Zufallsexperiment, indem wir uns für das Eintreffen eines bestimmten Ereignisses

Mehr

Semiparametrisches Kredit Scoring

Semiparametrisches Kredit Scoring Semiparametrisches Kredit Scoring Marlene Müller Fraunhofer Institut für Techno- und Wirtschaftsmathematik (ITWM) Kaiserslautern Bernd Rönz, Wolfgang Härdle Center for Applied Statistics and Economics

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler DAS THEMA: INFERENZSTATISTIK II INFERENZSTATISTISCHE AUSSAGEN Standardfehler Konfidenzintervalle Signifikanztests Standardfehler der Standardfehler Interpretation Verwendung 1 ZUR WIEDERHOLUNG... Ausgangspunkt:

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

Master of Science in Pflege

Master of Science in Pflege Master of Science in Pflege Modul: Statistik Einfache und multiple Regressionsanalyse / Logistische Regressionsanalyse November 2012 Prof. Dr. Jürg Schwarz Folie 2 Programm 28. November 2012: Vormittag

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at Koeffizienten der Logitanalyse Kurt Holm Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at 1 Kurt Holm Koeffizienten der Logitanalyse Eine häufig gestellte Frage lautet:

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Survival Analysis (Modul: Lebensdaueranalyse)

Survival Analysis (Modul: Lebensdaueranalyse) Survival Analysis (Modul: Lebensdaueranalyse) ROLAND RAU Universität Rostock, Sommersemester 2015 12. Mai 2015 c Roland Rau Survival Analysis 1 / 24 Hausaufgabe 1 Schreiben Sie die Log-Likelihood Gleichung

Mehr

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell: Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y

Mehr

Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression

Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression Generalisierte lineare Modelle Statistik 3 im Nebenfach Friedrich Leisch Institut für Statistik Ludwig-Maximilians-Universität München WS 2010/2011 basierend auf Fahrmeir, Kneib & Lang (2007) 4 Generalisierte

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Notiz zur logistischen Regression

Notiz zur logistischen Regression Kapitel 1 Notiz zur logistischen Regression 1.1 Grundlagen Bei dichotomen abhängigen Variablen ergeben sich bei einer normalen linearen Regression Probleme. Während man die Ausprägungen einer dichotomen

Mehr

Kapitel 3: Interpretationen

Kapitel 3: Interpretationen Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer

Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer 1 Einleitung Im Rahmen des SST wird teilweise vereinfachend angenommen, dass der Zusammenhang zwischen der Veränderung des risikotragenden

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 2 28.02.2008 1 Inhalt der heutigen Übung Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben 2.1: Häufigkeitsverteilung 2.2: Tukey Boxplot 25:Korrelation

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/31 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.1 Schätzer für Lage- und Skalenparameter und Verteilungsmodellwahl Lageparameter (l(x + a) = l(x) + a): Erwartungswert EX Median von X

Mehr

Varianzanalyse * (1) Varianzanalyse (2)

Varianzanalyse * (1) Varianzanalyse (2) Varianzanalyse * (1) Einfaktorielle Varianzanalyse (I) Die Varianzanalyse (ANOVA = ANalysis Of VAriance) wird benutzt, um Unterschiede zwischen Mittelwerten von drei oder mehr Stichproben auf Signifikanz

Mehr

Unsupervised Kernel Regression

Unsupervised Kernel Regression 9. Mai 26 Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung

Mehr

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/35 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

6.1 Grundbegriffe und historischer Hintergrund

6.1 Grundbegriffe und historischer Hintergrund Kapitel 6 Regression 61 Grundbegriffe und historischer Hintergrund Bedeutung der Regression: Eines der am häufigsten verwendeten statistischen Verfahren Vielfache Anwendung in den Sozialwissenschaften

Mehr

Kapitel 23 Lineare Regression

Kapitel 23 Lineare Regression Kapitel 23 Lineare Regression Sowohl einfache als auch multiple Regressionsanalysen können Sie mit dem Befehl STATISTIK REGRESSION LINEAR... durchführen. Dabei lassen sich mit Hilfe diverser Optionen zahlreiche

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Regression mit Gretl Eine erste Einführung 1

Regression mit Gretl Eine erste Einführung 1 Kurzeinführung in Gretl S. 1 Regression mit Gretl Eine erste Einführung 1 Installation: Gretl für das entsprechende Betriebssystem herunterladen und die Setup-Datei ausführen. Hinweis: Für die Benutzung

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

BEDIENUNGSANLEITUNG FÜR AMOS (Letzte Änderung: Mittwoch, 10. Februar 2001)

BEDIENUNGSANLEITUNG FÜR AMOS (Letzte Änderung: Mittwoch, 10. Februar 2001) AMOS - Bedienungsanaleitung 1 BEDIENUNGSANLEITUNG FÜR AMOS (Letzte Änderung: Mittwoch, 10. Februar 2001) A. Aufbau einer Inputdatei (Excel-Arbeitsblatt), welche eine Kovarianz- bzw. Korrelationsmatrix

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

1 wenn i weiblich, w i = 0 sonst.

1 wenn i weiblich, w i = 0 sonst. Kapitel 10 Multikollinearität God abhors a naked singularity. (Stephen Hawking) 10.1 Problem Von Multikollinearität, bzw. Kollinearität, spricht man, wenn zwei oder mehrere erklärende x Variablen hoch

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Fallbeispiel: Kreditscoring

Fallbeispiel: Kreditscoring Fallbeispiel: Kreditscoring Stefan Lang 14. Juni 2005 SS 2005 Datensatzbeschreibung (1) Ziel Untersuchung der Bonität eines Kunden in Abhängigkeit von erklärenden Variablen Zielvariable Bonität des Kunden:

Mehr

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8 . Aufgabe: Für zwei verschiedene Aktien wurde der relative Kurszuwachs (in % beobachtet. Aus den jeweils 20 Quartaldaten ergaben sich die folgenden Box-Plots. Box-and-Whisker Plot Aktie Aktie 2-0,2 0,8,8

Mehr

Computer Vision: Optische Flüsse

Computer Vision: Optische Flüsse Computer Vision: Optische Flüsse D. Schlesinger TUD/INF/KI/IS Bewegungsanalyse Optischer Fluss Lokale Verfahren (Lukas-Kanade) Globale Verfahren (Horn-Schunck) (+ kontinuierliche Ansätze: mathematische

Mehr

Übungen zur Veranstaltung Statistik 2 mit SPSS

Übungen zur Veranstaltung Statistik 2 mit SPSS Raum 22, Tel. 39 4 Aufgabe 5. Wird der neue Film MatchPoint von Woody Allen von weiblichen und männlichen Zuschauern gleich bewertet? Eine Umfrage unter 00 Kinobesuchern ergab folgende Daten: Altersgruppe

Mehr

Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung

Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung Eine Einführung für Anwender - Marcel Erlinghagen - Gelsenkirchen, Oktober 2003 Gliederung

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Monte Carlo Methoden in Kreditrisiko-Management

Monte Carlo Methoden in Kreditrisiko-Management Monte Carlo Methoden in Kreditrisiko-Management P Kreditportfolio bestehend aus m Krediten; Verlustfunktion L = n i=1 L i; Die Verluste L i sind unabhängig bedingt durch einen Vektor Z von ökonomischen

Mehr

Stichprobenauslegung. für stetige und binäre Datentypen

Stichprobenauslegung. für stetige und binäre Datentypen Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung

Mehr

Biostatistische Studienplanung II. Dr. Matthias Kohl SIRS-Lab GmbH

Biostatistische Studienplanung II. Dr. Matthias Kohl SIRS-Lab GmbH Biostatistische Studienplanung II Dr. Matthias Kohl SIRS-Lab GmbH Inhalt Lineare Modelle: Definition und Beispiele KQ- und robuste Schätzer Diagnostik Ausblick: Mixed-Effects Definition des linearen Modells

Mehr