Deskriptive Statistik und Explorative Datenanalyse

Größe: px
Ab Seite anzeigen:

Download "Deskriptive Statistik und Explorative Datenanalyse"

Transkript

1 Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA , überarbeitete und erweiterte Auflage springer-gablerde

2 Cleff Deskriptive Statistik und Explorative Datenanalyse, 3 Auflage 2015 Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler 2 Foliensammlung zu Kapitel 5 Springer Gabler Wiesbaden 2015

3 Deskriptive Statistik und Explorative Datenanalyse (5) Regressionsanalyse - Bivariate Regression - Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

4 Wovon hängt die Nachfrage eines Kleides ab? 1 Gleitender Durchschnitt (ungewichtet) Kleid FJ06 = (Kleid FJ05 + Kleid FJ04 + Kleid FJ03 ) / 3 2 Gleitender Durchschnitt (gewichtet) Kleid FJ00 = (0,2 * Kleid FJ03 + 0,3 * Kleid FJ04 + 0, 5 * Kleid FJ05 ) 3 (Lineare) Regression Kleid FJ06 = f(kleid FJXX; X; Y; Z) Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

5 Welche Variablen haben einen Einfluss auf die Nachfrage? 1 Absatz eines äquivalenten Kleides in der Vorperiode (in Mengeneinheiten) 2 Größe der Abbildung des Kleides im Katalog (in qcm) 3 Preis bzw Preiskategorie eines Produktes 4 Werbebudget 5 Ist Claudia Schiffer das Modell (ja/nein) 6 Sind Kleider in dieser Saison modern 7 Wie modern ist die Farbe (ordinal: sehr moderne bis nicht moderne Farbe) Beispiel: Für 100 Kostüme / Kleider errechnen wir eine Prognose 1 mit Hilfe der Äquivalentmethode (1) und 2 mit Hilfe der Abbildungsmethode (2) Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

6 Nachfrageprognose nach Äquivalentmethode Tatsächliche Nachfrage in der Periode (t) r = 0,42 Fehlmengenkosten Überschuss Nachfrage für ein Äquivalent in der Vorperiode (t 1) Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

7 Nachfrageprognose mit Bildgröße Stützbereich r=0,95 82 = Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

8 Beispiel: Wie hoch ist die Nachfrage? Zwei Kleider zum Preis von ca 200- sollen zu Beginn der Frühjahressaison eingekauft werden Der Lagerhalter hat folgende Informationen: Kleid A wird im Hauptkatalog auf einer Fläche von 70 qcm und Kleid B auf 50 qcm abgebildet Der Erwartungswert der Nachfrage lässt sich mit Hilfe der Methode der linearen Regression wie folgt prognostizieren: Lösung: Der Lagerhalter prognostiziert folgende Absätze: Kleid A: 285 (= ,1 * 70) Kleid B: 243 (= ,1 * 50) Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

9 Lineare Regression: Welche Fragen sind zu klären? 1 Welche Regel soll für die Bestimmung der Regressionsgeraden gelten? Grundlage minimaler Fehler Wie lässt sich die Regressionsgeraden algebraisch bestimmen? Zusammenhang zwischen Regression und Korrelation? Bestimmung der Koeffizienten mit Excel 2 Regression mit mehr als einer unabhängigen Variable 3 Abpassungsgüte: Wie gut ist die Regression bzw welchen Fehler mache ich bei der Annahme der Regression? 4 Was bedeutet eigentlich linear? 5 Hebelwirkung von einzelnen Beobachtungen Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

10 Welche Regel soll für die Bestimmung der Regressionsgeraden gelten? Tatsächliche Nachfrage in der Periode (t) Größe der Abbildung im Hauptkatalog dieser Saison (t) (in qcm) Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

11 Es gibt nur EINE Regressionsgeraden The least squares line is unique for each sample Tatsächliche Nachfrage in der Periode (t) Größe der Abbildung im Hauptkatalog dieser Saison (t) (in qcm) Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

12 OLS: Die Wirkung von Ausreißern Regression 2 Regression 3 Veränderung für Regression 2 Veränderung für Regression 3 2 OLS Fitting the Line Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

13 Welche Regel soll für die Bestimmung der Regressionsgeraden gelten? Fehler sollen sich nicht aufheben, der gesamte Fehler soll minimiert werden jedes Verfahren soll nur eine mögliche Regressionsgeraden generieren Vorherrschendes Verfahren: Methode der kleinsten Quadrate Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

14 Wie lässt sich die Regressionsgeraden algebraisch ermitteln? Die Herleitung = Regressionsgerade geht immer durch den Schwerpunkt Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

15 Wie lässt sich die Regressionsgeraden algebraisch ermitteln? Die Herleitung in (i) Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

16 Wie lässt sich die Regressionsgeraden algebraisch ermitteln? Die Herleitung in (ii) Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

17 Es gilt also: aus: Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

18 Regressionsrechnung mit Excel Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

19 Datenanalyse mit Excel Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

20 Regressionsrechnung mit Excel Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

21 Regressionsrechnung mit Excel Beispiel (2): Alter und Wortschatz bei Kindern Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

22 Regressionsrechnung: Die Anpassungsgüte der Regression Tatsächliche Nachfrage in der Periode (t) Größe der Abbildung im Hauptkatalog dieser Saison (t) (in qcm) Durch die Regression erklärter Anteil Gesamte Streuung Unerklärter Anteil Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

23 Regressionsrechnung: Anpassungsgüte der Regression Gesamte Streuung Durch die Regression erklärter Anteil Unerklärter Anteil TSS total sum of squares (Gesamte Quadratsumme) RSS explained sum of squares (QS der Regression) ESS residual sum of squares (Fehlerquadratsumme) Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

24 Anpassungsgüte der Regression Gesamte durchschnittliche Abweichung (TSS) Je größer RSS im Verhältnis zu TSS, um so besser ist die Regression Teil, der durch Regression erklärt wird (RSS) Je kleiner ESS im Verhältnis zu TSS, um so besser ist die Regression Unerklärter Teil (ESS) Var(y=Absatz) Bivariate Regression ( Simple Regression ): Schnittmenge=Erklärungsanteil Var(x 1 =Abbildungsgröße) Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

25 Wie gut ist nun die Regression? Um ein unabhängiges Maß für die Güte einer Regression zu bekommen, wird die Summe der quadrierten Abweichungen der Regression (zum Mittelwert) [RSS] in das Verhältnis zur Summe der gesamten quadrierten Abweichungen (zum Mittelwert) [TSS] gesetzt Man erhält das Bestimmtheitsmaß Je näher der Wert bei 1 liegt, um so besser ist die Regression Je näher der Wert bei 0 liegt, um so schlechter ist die Regression Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

26 Wie gut ist nun die Regression? Interpretation des Bestimmtheitsmaßes: R 2 =0,91: Die Variable Abbildung im Hauptkatalog erklärt 91% der Variable Absatz Das Bestimmtheitsmaß gibt den Anteil der durch X erklärten Varianz von Y an Für den linearen Fall gilt außerdem: R 2 =r 2 Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

27 Deskriptive Statistik und Explorative Datenanalyse (5) Regressionsanalyse - Multivariate Regression - Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

28 Multivariate Regression: Warum alles nur mit einer Variable erklären? 2 Erklärungsvariablen Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

29 Multivariate Regression: Warum alles nur mit einer Variable erklären? Var(y=Absatz) E Var(y=Absatz) A B C F D G Var(x 1 =Abbildungsgröße) Var(x 1 =Abbildungsgröße) Var(x 2 =Vorjahresabsatz) Bivariate Regression ( Simple Regression ): Schnittmenge=Erklärungsanteil Multiple Regression ( Multiple Regression ): Schnittmenge Abbildungsgröße wird kleiner Gesamterklärung Absatz wird aber größer Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

30 Datenanalyse mit Excel Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

31 Datenanalyse mit Excel Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

32 Datenanalyse mit Excel Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

33 Anpassungsgüte: Adjustiertes Bestimmtheitsmaß Ungeübte Anwender der Regressionsanalyse könnten nun auf die Idee kommen, möglichst viele erklärende Variablen in das Modell zu integrieren, um das Bestimmtheitsmaß nach oben zu treiben Welchen Wert hätte das Bestimmtheitsmaß eigentlich angenommen, wenn wir anstelle der Verkaufszahlen eines äquivalenten Kleides aus der Vorperiode eine völlig verrückte Variable wie das jeweilige Körpergewicht der Näherin hinzugefügt hätten Gemäß Definition wäre das Bestimmtheitsmaß im schlechtesten Fall konstant bei 0,91 geblieben, denn nach wie vor würde die Abbildungsgröße im Katalog ihre Erklärungskraft behalten Die Hinzunahme einer weiteren erklärenden Variable (x-variable) führt nicht zu einer Verbesserung des Modells Im Gegenteil: Dies wiederspricht dem Konstruktionsziel von Modellen, einen Sachverhalt mit möglichst wenigen Einflussvariablen zu erklären Durch wahllose Hinzunahme zus Variablen steigt die Gefahr, dass sich unter den Variablen solche mit keiner Erklärungskraft befinden ( Überparametrisierung des Modells) Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

34 Anpassungsgüte: Adjustiertes Bestimmtheitsmaß In der Praxis wird deshalb häufig ein korrigiertes Bestimmtheitsmaß berechnet, das die Überparametrisierung eines Modells gewissermaßen bestraft Mit jeder weiteren hinzugenommenen Variable erhöht sich der Bestrafungsabschlag Bezeichnet man n als Anzahl der Beobachtungen und k die Anzahl der im Modell berücksichtigten Variablen (inklusive der Konstanten), berechnet sich das korrigierte Bestimmtheitsmaß wie folgt: Es lohnt sich nur dann eine zusätzliche Variable in das Modell aufzunehmen, wenn der dadurch zusätzlich gewonnene Erklärungswert größer als der Bestrafungsabschlag des korrigierten Bestimmtheitsmaßes ist Bei der Konstruktion von Modellen sollte die Hinzunahme neuer Variablen dann beendet werden, wenn das korrigierte Bestimmtheitsmaß nicht mehr gesteigert werden kann Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

35 Regressionsrechnung: Datenanalyse mit Excel Vorher ohne Nachfrage t-2: 0,9704 Vorher ohne Nachfrage t-2: 0,9405 Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

36 Regressionsrechnung mit unabhängiger Dummy-Variablen Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

37 Regressionsrechnung mit unabhängiger Dummy-Variablen + 2 =149 o =142,9 Parallele Verschiebung nach oben um 2 =6,1 Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

38 Deskriptive Statistik und Explorative Datenanalyse (5) Regressionsanalyse - Nichtlineare Regression - Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

39 Die Bedeutung des Begriffes LINEAR Y Variable Y Variable Y Variable y = 1+1*x X Variable X Variable X Variable y = 1+12*x-09*x 2 y = 1+19*x-4*x *x 3 Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

40 Die Bedeutung des Begriffes LINEAR Y Variable Y Variable Y Variable X Variable y = *x -1-2*x 3 X Variable X Variable y = 1+025*x-1 y = 1+025*x -2 Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

41 Beispiel einer nicht-linearen Regression burgerxls Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

42 Beispiel einer nicht-linearen Regression Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

43 Beispiel 2 einer nicht-linearen Regression Streudiagramm Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

44 Beispiel 2 einer nicht-linearen Regression Streudiagramm Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

45 Beispiel 2 einer nicht-linearen Regression Streudiagramm x Achse unlogarithmiert aber x Werte logarithmiert Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

46 Deskriptive Statistik und Explorative Datenanalyse (5) Regressionsanalyse - Regressionsdiagnostik - Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

47 Regressionsdiagnostik Um systematische Fehler in einer Regression zu vermeiden und die Qualität einer Regression zu erhöhen, sollten bestimmte Kriterien an den Fehlerterm gestellt werden: 1 Positive und negative Werte heben sich gegenseitig auf Diese Bedingung ist in der Regressionsrechnung automatisch erfüllt 2 Die unabhängigen Variablen (x-variablen) der Regression korrelieren nicht mit dem Fehlerterm (u) Beispielsweise sollte der Fall nicht auftreten, bei dem in bestimmten Bereichen der x-achse Abweichungen nur in eine Richtung (z B nur nach oben) auftreten Dies würde bedeuten, dass die y-werte systematisch über- bzw unterschätzt würden Ein Vorschlag zur Lösung dieses Problems findet sich im nächsten Punkt 3 Ähnlich ist nämlich die Forderung, dass die Fehlerterme nicht untereinander korrelieren sollten: Cov( ; )=0 i j Man nennt dies auch die Bedingung einer fehlenden Autokorrelation Es bedeutet zunächst nichts anderes, als dass keine Systematik zwischen Fehlertermen auftreten darf Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

48 Regressionsdiagnostik: Autokorrelation u Autokorrelation X u Autokorrelation X u Autokorrelation X u Keine Autokorrelation X Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

49 Regressionsdiagnostik: Homoskedastizität Um systematische Fehler in einer Regression zu vermeiden und die Qualität einer Regression zu erhöhen, sollten bestimmte Kriterien an den Fehlerterm gestellt werden: 1 Positive und negative Werte heben sich gegenseitig auf Diese Bedingung ist in der Regressionsrechnung automatisch erfüllt 2 Die unabhängigen Variablen (x-variablen) der Regression korrelieren nicht mit dem Fehlerterm (u) Beispielsweise sollte der Fall nicht auftreten, bei dem in bestimmten Bereichen der x-achse Abweichungen nur in eine Richtung (z B nur nach oben) auftreten Dies würde bedeuten, dass die y-werte systematisch über- bzw unterschätzt würden Ein Vorschlag zur Lösung dieses Problems findet sich im nächsten Punkt 3 Ähnlich ist nämlich die Forderung, dass die Fehlerterme nicht untereinander korrelieren sollten: Cov( ; )=0 i j Man nennt dies auch die Bedingung einer fehlenden Autokorrelation Es bedeutet zunächst nichts anderes, als dass keine Systematik zwischen Fehlertermen auftreten darf 4 Die Varianz für jedes ist konstant: Var( )= Diese Voraussetzung wird als Varianzhomogenität oder Homoskedastizität (homo steht für gleich bzw gleichartig und Skedastizität für die Varianz) bezeichnet Ist diese Bedingung nicht erfüllt, spricht man von Varianzungleichheit oder Heteroskedastizität Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

50 Regressionsdiagnostik: Homoskedastizität Homoskedastizität Heteroskedastizität Heteroskedastizität Y Y Y X X X Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

51 Regressionsdiagnostik: Multikollinearität Um systematische Fehler in einer Regression zu vermeiden und die Qualität einer Regression zu erhöhen, sollten bestimmte Kriterien an den Fehlerterm gestellt werden: 1 Positive und negative Werte heben sich gegenseitig auf Diese Bedingung ist in der Regressionsrechnung automatisch erfüllt 2 Die unabhängigen Variablen (x-variablen) der Regression korrelieren nicht mit dem Fehlerterm (u) 3 Ähnlich ist nämlich die Forderung, dass die Fehlerterme nicht untereinander korrelieren sollten: Cov( ; )=0 i j Man nennt dies auch die Bedingung einer fehlenden Autokorrelation 4 Die Varianz für jedes ist konstant: Var( )= Diese Voraussetzung wird als Varianzhomogenität oder Homoskedastizität (homo steht für gleich bzw gleichartig und Skedastizität für die Varianz) bezeichnet 5 Bei Regressionen mit mehr als einer unabhängigen x-variablen dürfen die unabhängigen x-variablen keinen Zusammenhang aufweisen Wird der Zusammenhang zwischen zwei oder mehr x-variablen zu groß, tritt eine sogenannte Multikollinearität auf, welche die Regressionsergebnisse verfälscht Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

52 Was ist Multikollinearität? Ein Beispiel für perfekte Multikollinearität Variablen Bruttopreis und Nettopreis korrelieren perfekt miteinander Veränderungen der einen Variable implizieren äquivalente Veränderungen der anderen Variable Es kommt also nicht zu einem Zugewinn an Information Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

53 Was ist Multikollinearität? Ein Beispiel für perfekte Multikollinearität Die Invertierbarkeit setzt voraus, dass die Matrix X einen vollen Rang aufweist Im Falle perfekter Multikollinearität sind aber mindestens zwei Spalten der Matrix linear abhängig, so dass keine Invertierung durchgeführt werden kann -> keine Lösung Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

54 Was ist Multikollinearität? Ein Beispiel für Multikollinearität Perfekte Multikollinearität kommt in der Praxis nur sehr selten vor I d R sind solche perfekte Korrelationen zwischen zwei Variablen inhaltlich zu erklären In der Praxis sind Multikollinearitäten high but not perfect Wenn also von Multikollinearität der Variablen gesprochen wird, versteht man darunter eine sogenannte imperfect multicollinearity Multikollinearität ist also nicht die Frage des Auftretens oder Nichtauftretens sondern eine Frage des Grades Nehmen wir deshalb einmal folgendes Beispiel an: Gegeben ist 1 der Marktanteil unseres Produktes (Superbenzin SPARAL) 2 der Preis unseres Produktes (Superbenzin SPARAL) 3 der Preis unseres Konkurrenzproduktes (Superbenzin JETY), der sich allerdings fast genau so entwickelt hat, wie der Preis unseres Produktes: Preis des Konkurrenzproduktes=Preis des eigenen Produktes + Normal(01) Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

55 Was ist Multikollinearität? Ein Beispiel für Multikollinearität Preise entwickeln sich in gleichen Mustern Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

56 Was ist Multikollinearität? Ein Beispiel für Multikollinearität Zunächst: Marktanteil=f(Eigener Preis) Model R R Square Adjusted R Square Std Error of the Estimate 1,723(a),522,503,07258 Sum of Mean Model Squares df Square F Sig 1 Regression,144 1,144 27,338,000(a) Residual,132 25,005 Total, Unstandardized Coefficients Standardized Coefficients Model B Std Error Beta t Sig 1 (Constant) 1,442,201 7,171,000 Netto-Preis eigenes Produkt (Superbenzin SPARAL) -,871,167 -,723-5,229,000 Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

57 Was ist Multikollinearität? Ein Beispiel für Multikollinearität Marktanteil=f(Eigener Preis, Preis Konkurrenz) R 2 nimmt kaum zu Obwohl der F-Test eine Signifikanz des gesamten Modells ausweist, ist keiner der Regressoren signifikant Falsches Vorzeichen beim Konkurrenzpreis Größe des Regressors schwankt stark Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

58 Was ist Multikollinearität? Ein Beispiel für Multikollinearität Marktanteil=f(Eigener Preis, Preis Konkurrenz) mit und ohne Beobachtung 27 Regressionskoeffizienten instabil Unstandardized Coefficients Standardized Coefficients B Std Error Beta t Sig (Constant) 1,324,226 5,866,000 Netto-Preis eigenes Produkt (Superbenzin -,559,433 -,470-1,290,210 SPARAL) Preis des Konkurrenten (Superbenzin JETY) -,188,330 -,207 -,568,576 Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

59 Wie erkenne ich Multikollinearität genau? Multikollinearität kann in einer Stichprobe vorliegen, auch wenn in der Grundgesamtheit die entsprechenden Variablen nicht multikollinear sind Multikollinearität muss somit nicht nur ein Phänomen der Grundgesamtheit, sondern kann auch ein Phänomen der Stichprobe sein Die Feststellung von Multikollinearität kann nicht über ein einziges Multikollinearitätsmaß erfolgen Vielmehr erfolgt die Betrachtung der Vielzahl der vorangegangenen Beobachtungen bei Multikollinearität Darüber hinaus lassen sich zwei weitere Methoden anwenden 1 Auxiliary Regressions, bzw 2 Variance Inflation Factor (VIF) Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

60 Wie erkenne ich Multikollinearität genau? Auxiliary Regressions Da Multikollinearität dann auftritt, wenn eine oder mehr Variablen in einem linearen Zusammenhang mit einer weiteren Variable stehen, kann dieses Problem durch eine Regression der verschiedenen unabhängigen Variablen untereinander festgestellt werden Beispiel: Sie haben fünf unabhängige Variablen Sie bilden folgende Auxiliary Regressions : 1 x 1 =f(x 2 ; x 3 ; x 4 ; x 5 ) 2 x 2 =f(x 1 ; x 3 ; x 4 ; x 5 ) 3 x 3 =f(x 1 ; x 2 ; x 4 ; x 5 ) 4 x 4 =f(x 1 ; x 2 ; x 3 ; x 5 ) 5 x 5 =f(x 1 ; x 2 ; x 3 ; x 4 ) Für jeder der fünf Regressionen erhalten Sie ein R 2 Mit Hilfe der F-Statistik kann überprüft werden, ob das R 2 ungleich null ist Wenn nicht, liegt tendenziell Multikollinearität vor Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

61 Wie erkenne ich Multikollinearität genau? Tolerance / VIF Das Konzept des Variance Inflation Factors (VIF) baut auf der Idee der Auxiliary Regression auf: Je größer das für jede unabhängige Variable (Regressor) ermittelte R 2, um so größer ist die Multikollinearität Das bedeutet: Je kleiner die Tolerance (der nicht erklärte Teil), um so eher liegt Multikollinearität vor Je größer VIF ist, um so eher liegt Multikollinearität vor Warum Variance Inflation : Multikollinearität erhöht die Varianz der Regressionskoeffizienten und verringert dadurch die Signifikanz Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

62 Wie erkenne ich Multikollinearität genau? Das Beispiel Auxiliary Regression der unabhängigen Variablen Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

63 VIF Wie erkenne ich Multikollinearität genau? Das Beispiel Unstandardized Coefficients Standardized Coefficients Collinearity Statistics Std Error Beta t Sig Tolerance VIF B (Constant) 1,446,206 7,023,000 Netto-Preis eigenes Produkt (Superbenzin SPARAL) Preis des Konkurrenten (Superbenzin JETY) -,799,393 -,663-2,035,053,187 5,348 -,065,319 -,066 -,202,841,187 5,348 Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

64 Zusammenfassung: Multikollinearität 1 Multikollinearität ist nicht zwangsläufig schlecht Wenn es darum geht, Werte einer abhängigen Variable (z B bei einem Forecasting) zu schätzen, spielt Multikollinearität keine verzerrende oder negative Rolle Wenn es aber darum geht, die Signifikanz von Einflussvariablen zu prüfen, führt Multikollinearität zu falschen Schlussfolgerungen 2 Multikollinearität kann nur beseitigt werden, in dem einer der korrelierenden Variablen aus der Regression entfernt wird ( dropping ), die korrelierenden Variablen mit Hilfe der Faktorenanalyse zu einer Variable zusammengefasst werden ( Transformation ) Eine neue Stichprobe oder zusätzliche Objekte/Subjekte in die bestehende Stichprobe gezogen werden (im Falle einer Multikollinearität, die aufgrund des Samples zustande gekommen ist die theoretischen Zusammenhänge des Modells neu überlegt werden ( Rethinking the model ) Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

65 Lineare Regression: Aufgabe Sie arbeiten in der Marktforschungsabteilung eines Herstellers von Babynahrung In einem Marktforschungsprojekt haben Sie den Absatz Ihres Produktes in verschiedenen Märkten ermittelt Sie schätzen die Einflussfaktoren auf den Absatz mit Hilfe der unten angegebenen Regression 1 Berechnen Sie das Bestimmtheitsmaß 2 Sie möchten einen durchschnittlichen Absatz auf 3905 Stück bringen Zu welchem Preis müssen Sie Ihr Produkt durchschnittlich abgeben, wenn der Konkurrenzpreis bei 1,50 liegt? 3905= ,3x-3057,1*1,5 x=1,40 Cleff Deskriptive Statistik und Explorative Datenanalyse Springer Gabler PLUS Zusatzinformationen zu Medien von Springer Gabler

Statistik II Übung 1: Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der

Mehr

Statistik II Übung 1: Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden

Mehr

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden

Mehr

2. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für earny3 und kidsunder6yr3 und kommentieren Sie diese kurz.

2. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für earny3 und kidsunder6yr3 und kommentieren Sie diese kurz. Statistik II Übung : Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (6-24 Jahre alt) und der Anzahl der unter

Mehr

Lineare Modelle in R: Klassische lineare Regression

Lineare Modelle in R: Klassische lineare Regression Lineare Modelle in R: Klassische lineare Regression Achim Zeileis 2009-02-20 1 Das Modell Das klassische lineare Regressionsmodell versucht den Zusammenhang zwischen einer abhängigen Variablen (oder Responsevariablen)

Mehr

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden

Mehr

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden

Mehr

Annahmen des linearen Modells

Annahmen des linearen Modells Annahmen des linearen Modells Annahmen des linearen Modells zusammengefasst A1: Linearer Zusammenhang: y = 0 + 1x 1 + 2x 2 + + kx k A2: Zufallsstichprobe, keine Korrelation zwischen Beobachtungen A3: Erwartungswert

Mehr

Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen

Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen Analyse von Querschnittsdaten Spezifikation der unabhängigen Variablen Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Annahmen gegeben? kategoriale Variablen Datum 3.0.004 0.0.004

Mehr

Ziel der linearen Regression

Ziel der linearen Regression Regression 1 Ziel der linearen Regression Bei der linearen Regression wird untersucht, in welcher Weise eine abhängige metrische Variable durch eine oder mehrere unabhängige metrische Variablen durch eine

Mehr

Übung V Lineares Regressionsmodell

Übung V Lineares Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung

Mehr

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist Eigene MC-Fragen SPSS 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist [a] In der Variablenansicht werden für die betrachteten Merkmale SPSS Variablen definiert. [b] Das Daten-Editor-Fenster

Mehr

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X. Lineare Regression Einfache Regression Beispieldatensatz: trinkgeld.sav Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X. H0: Y lässt sich nicht durch X erklären, das heißt

Mehr

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) 3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =

Mehr

Hypothesentests mit SPSS

Hypothesentests mit SPSS Beispiel für eine einfache Regressionsanalyse (mit Überprüfung der Voraussetzungen) Daten: bedrohfb_v07.sav Hypothese: Die Skalenwerte auf der ATB-Skala (Skala zur Erfassung der Angst vor terroristischen

Mehr

Das Lineare Regressionsmodell

Das Lineare Regressionsmodell Das Lineare Regressionsmodell Bivariates Regressionsmodell Verbrauch eines Pkw hängt vom Gewicht des Fahrzeugs ab Hypothese / Theorie: Je schwerer ein Auto, desto mehr wird es verbrauchen Annahme eines

Mehr

Syntax. Ausgabe *Ü12. *1. corr it25 with alter li_re kontakt.

Syntax. Ausgabe *Ü12. *1. corr it25 with alter li_re kontakt. Syntax *Ü2. *. corr it25 with alter li_re kontakt. *2. regression var=it25 alter li_re kontakt/statistics /dependent=it25 /enter. regression var=it25 li_re kontakt/statistics /dependent=it25 /enter. *3.

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest.

1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest. Statistik II Übung 3: Hypothesentests Diese Übung beschäftigt sich mit der Anwendung diverser Hypothesentests (zum Beispiel zum Vergleich der Mittelwerte und Verteilungen zweier Stichproben). Verwenden

Mehr

Vorlesung 4: Spezifikation der unabhängigen Variablen

Vorlesung 4: Spezifikation der unabhängigen Variablen Vorlesung 4: Spezifikation der unabhängigen Variablen. Fehlspezifikation der unabhängigen Variablen. Auswirkungen einer Fehlspezifikation a. auf die Erwartungstreue der Schätzung b. auf die Effizienz der

Mehr

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II Statistik II Lineare Regressionsrechnung Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II - 09.06.2006 1 Mit der Kovarianz und dem Korrelationskoeffizienten können wir den statistischen

Mehr

Analyse von Querschnittsdaten. Signifikanztests I Basics

Analyse von Querschnittsdaten. Signifikanztests I Basics Analyse von Querschnittsdaten Signifikanztests I Basics Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004

Mehr

Die Regressionsanalyse

Die Regressionsanalyse Die Regressionsanalyse Zielsetzung: Untersuchung und Quantifizierung funktionaler Abhängigkeiten zwischen metrisch skalierten Variablen eine unabhängige Variable Einfachregression mehr als eine unabhängige

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 9B a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Man kann erwarten, dass der Absatz mit steigendem Preis abnimmt, mit höherer Anzahl der Außendienstmitarbeiter sowie mit erhöhten

Mehr

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg Übungsklausur Lineare le Prof. Dr. H. Toutenburg Aufgabe Ein lineares Regressionsmodell mit der abhängigen Variablen Körpergröße und der unabhängigen Variablen Geschlecht wurde einmal mit der dummykodierten

Mehr

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen. Kapitel 3 Schließende lineare Regression 3.1. Einführung induktiv Fragestellungen Modell Statistisch bewerten, der vorher beschriebenen Zusammenhänge auf der Basis vorliegender Daten, ob die ermittelte

Mehr

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode? Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2

Mehr

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen

Mehr

Test von Hypothesen: Signifikanz des Zusammenhangs (F-Test)

Test von Hypothesen: Signifikanz des Zusammenhangs (F-Test) Test von Hyothesen: Signifikanz des Zusammenhangs (F-Test) Die Schätzung der Regressionsfunktion basiert auf Daten einer Stichrobe Inwiefern können die Ergebnisse dieser Schätzung auf die Grundgesamtheit

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Korrelation vs. Regression 2. Ziele der Regressionsanalyse 3. Syntax für

Mehr

Wiederholungsübungen zu den Kapiteln 7 bis 11

Wiederholungsübungen zu den Kapiteln 7 bis 11 Mittelwert-Tests Übung Wiederholungsübungen zu den Kapiteln 7 bis 11 In dieser Übung wird der Datensatz 4 verwendet. In dem (fiktiven) Datensatz sind für 50 Personen vier Variablen erfasst: das Geschlecht,

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie

Mehr

B. Regressionsanalyse [progdat.sav]

B. Regressionsanalyse [progdat.sav] SPSS-PC-ÜBUNG Seite 9 B. Regressionsanalyse [progdat.sav] Ein Unternehmen möchte den zukünftigen Absatz in Abhängigkeit von den Werbeausgaben und der Anzahl der Filialen prognostizieren. Dazu wurden über

Mehr

Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse II: Lineare multiple Regression

Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse II: Lineare multiple Regression Institut für Soziologie Christian Ganser Methoden 2 Regressionsanalyse II: Lineare multiple Regression Inhalt 1. Anwendungsbereich 2. Vorgehensweise bei multipler linearer Regression 3. Beispiel 4. Modellannahmen

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 20 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr

Empirische Wirtschaftsforschung in R

Empirische Wirtschaftsforschung in R Empirische Wirtschaftsforschung in R Schätzung der keynesianischen Geldnachfragefunktion auf Basis von Daten der dänischen Volkswirtschaft Jonas Richter-Dumke Universität Rostock, Institut für Volkswirtschaftslehre

Mehr

Gliederung. 1. Einführung. Heute schon Musik gehört?

Gliederung. 1. Einführung. Heute schon Musik gehört? Regressionsanalyse Technische Universität Chemnitz Seminar: Forschungsmethodik und Evalua

Mehr

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 1. Aufgabe: Für 25 der größten Flughäfen wurde die Anzahl der abgefertigten Passagiere in den Jahren 2009 und 2012 erfasst. Aus den Daten (Anzahl

Mehr

Die Funktion f wird als Regressionsfunktion bezeichnet.

Die Funktion f wird als Regressionsfunktion bezeichnet. Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht

Mehr

Statistik II Übung 3: Hypothesentests

Statistik II Übung 3: Hypothesentests Statistik II Übung 3: Hypothesentests Diese Übung beschäftigt sich mit der Anwendung diverser Hypothesentests (zum Beispiel zum Vergleich der Mittelwerte und Verteilungen zweier Stichproben). Verwenden

Mehr

Lineare Regression mit einem Regressor: Einführung

Lineare Regression mit einem Regressor: Einführung Lineare Regression mit einem Regressor: Einführung Quantifizierung des linearen Zusammenhangs von zwei Variablen Beispiel Zusammenhang Klassengröße und Testergebnis o Wie verändern sich Testergebnisse,

Mehr

Kurs Empirische Wirtschaftsforschung

Kurs Empirische Wirtschaftsforschung Kurs Empirische Wirtschaftsforschung 5. Bivariates Regressionsmodell 1 Martin Halla Institut für Volkswirtschaftslehre Johannes Kepler Universität Linz 1 Lehrbuch: Bauer/Fertig/Schmidt (2009), Empirische

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst mit dem R Commander A Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist

Mehr

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer John Komlos Bernd Süssmuth Empirische Ökonomie Eine Einführung in Methoden und Anwendungen 4y Springer 1 Einführung 1 1.1 Ökonometrie 1 2 Vorüberlegungen und Grundbegriffe 7 2.1 Statistik als Grundlage

Mehr

Statistik Einführung // Lineare Regression 9 p.2/72

Statistik Einführung // Lineare Regression 9 p.2/72 Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression

Mehr

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften

Mehr

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen Breusch-Pagan-Test I Ein weiterer Test ist der Breusch-Pagan-Test. Im Gegensatz zum Goldfeld-Quandt-Test ist es nicht erforderlich, eine (einzelne) Quelle der Heteroskedastizität anzugeben bzw. zu vermuten.

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS Sommersemester 2009, Statistik mit SPSS 28. August 2009 28. August 2009 Statistik Dozentin: mit Anja SPSS Mays 1 Überblick 1. Korrelation vs. Regression 2. Ziel der Regressionsanalyse 3. Syntax für den

Mehr

Seminar zur Energiewirtschaft:

Seminar zur Energiewirtschaft: Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable

Mehr

Diagnostik von Regressionsmodellen (1)

Diagnostik von Regressionsmodellen (1) Diagnostik von Regressionsmodellen (1) Bei Regressionsanalysen sollte immer geprüft werden, ob das Modell angemessen ist und ob die Voraussetzungen eines Regressionsmodells erfüllt sind. Das Modell einer

Mehr

1 Beispiel zur Methode der kleinsten Quadrate

1 Beispiel zur Methode der kleinsten Quadrate 1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25

Mehr

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II. IV. Hypothesentests. Martin Huber Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur

Mehr

1 Einführung Ökonometrie... 1

1 Einführung Ökonometrie... 1 Inhalt 1 Einführung... 1 1.1 Ökonometrie... 1 2 Vorüberlegungen und Grundbegriffe... 7 2.1 Statistik als Grundlage der Empirischen Ökonomie... 7 2.2 Abgrenzung und Parallelen zu den Naturwissenschaften...

Mehr

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt: Beispiele zum Üben und Wiederholen zu Wirtschaftsstatistik 2 (Kurs 3) 1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt: Haushaltseinkommen 12 24 30 40 80 60

Mehr

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. 21. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. 21. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit 2. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle In vielen Untersuchungen soll eine komplexere Beziehungsstruktur untersucht werden.

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 1 Multivariate Verfahren Diese Selbstkontrollarbeit bezieht sich auf die Kapitel 1 bis 4 der Kurseinheit 1 (Multivariate Statistik) des Kurses Multivariate Verfahren (883). Hinweise:

Mehr

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 27 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr

1 Gliederung Zeitreihenökonometrie. Angewandte Ökonometrie (Folien) Zeitreihenökonometrie Universität Basel, FS 09. Dr. Sylvia Kaufmann.

1 Gliederung Zeitreihenökonometrie. Angewandte Ökonometrie (Folien) Zeitreihenökonometrie Universität Basel, FS 09. Dr. Sylvia Kaufmann. Angewandte Ökonometrie (Folien) Zeitreihenökonometrie Universität Basel, FS 09 Dr Sylvia Kaufmann Februar 2009 Angewandte Ökonometrie, Sylvia Kaufmann, FS09 1 1 Gliederung Zeitreihenökonometrie Einführung

Mehr

Statistische Methoden in den Umweltwissenschaften

Statistische Methoden in den Umweltwissenschaften Statistische Methoden in den Umweltwissenschaften Korrelationsanalysen Kreuztabellen und χ²-test Themen Korrelation oder Lineare Regression? Korrelationsanalysen - Pearson, Spearman-Rang, Kendall s Tau

Mehr

Statistik II Übung 3: Hypothesentests Aktualisiert am

Statistik II Übung 3: Hypothesentests Aktualisiert am Statistik II Übung 3: Hypothesentests Aktualisiert am 12.04.2017 Diese Übung beschäftigt sich mit der Anwendung diverser Hypothesentests (zum Beispiel zum Vergleich der Mittelwerte und Verteilungen zweier

Mehr

Kapitel 5. Prognose. Zeitreihenanalyse wird aus drei Gründen betrieben: Beschreibung des Verlaufs von Zeitreihen.

Kapitel 5. Prognose. Zeitreihenanalyse wird aus drei Gründen betrieben: Beschreibung des Verlaufs von Zeitreihen. Kapitel 5 Prognose Josef Leydold c 2006 Mathematische Methoden V Prognose 1 / 14 Lernziele Aufgabe der Prognose Problemtypen Ablauf einer Prognoseaufgabe Zeitreihe Josef Leydold c 2006 Mathematische Methoden

Mehr

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers 4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Crashkurs Einführung Biostatistik

Crashkurs Einführung Biostatistik Crashkurs Einführung Biostatistik Prof. Burkhardt Seifert Abteilung Biostatistik, ISPM Universität Zürich Deskriptive Statistik Wahrscheinlichkeitsrechnung, ersuchsplanung Statistische Inferenz Prinzip

Mehr

Musterlösung. Modulklausur Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn

Mehr

Prognoseintervalle für y 0 gegeben x 0

Prognoseintervalle für y 0 gegeben x 0 10 Lineare Regression Punkt- und Intervallprognosen 10.5 Prognoseintervalle für y 0 gegeben x 0 Intervallprognosen für y 0 zur Vertrauenswahrscheinlichkeit 1 α erhält man also analog zu den Intervallprognosen

Mehr

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Statistik II Wiederholung Literatur Kategoriale Unabhängige, Interaktion, nicht-lineare Effekte

Mehr

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden Inhaltsverzeichnis Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3 Warum Statistik? 3 Checkpoints 4 Daten 4 Checkpoints 7 Skalen - lebenslang wichtig bei der Datenanalyse

Mehr

Datenanalyse mit Excel und Gretl

Datenanalyse mit Excel und Gretl Dozent: Christoph Hindermann christoph.hindermann@uni-erfurt.de Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 1 Teil 2: Gretl Datenanalyse mit Excel und Gretl Teil Titel 2: Gretl 2 Modellannahmen

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Empirische Wirtschaftsforschung Prof. Dr. Bernd Süßmuth Universität Leipzig Institut für Empirische Wirtschaftsforschung Volkswirtschaftslehre, insbesondere Ökonometrie 6.. Herleitung des OLS-Schätzers

Mehr

» S C H R I T T - F Ü R - S C H R I T T - A N L E I T U N G «M U L T I P L E L I N E A R E R E G R E S S I O N M I T S P S S / I B M Daniela Keller

» S C H R I T T - F Ü R - S C H R I T T - A N L E I T U N G «M U L T I P L E L I N E A R E R E G R E S S I O N M I T S P S S / I B M Daniela Keller » SCHRITT-FÜR-SCHRITTANLEITUNG«MULTIPLE LINEARE REGRESSION MIT SPSS/IBM Daniela Keller Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM Impressum 2016 Statistik und Beratung Dipl.-Math. Daniela

Mehr

Statistik II. Regressionsanalyse. Statistik II

Statistik II. Regressionsanalyse. Statistik II Statistik II Regressionsanalyse Statistik II - 23.06.2006 1 Einfachregression Annahmen an die Störterme : 1. sind unabhängige Realisationen der Zufallsvariable, d.h. i.i.d. (unabh.-identisch verteilt)

Mehr

Projekt Kaffeemaschine Welche Faktoren beeinflussen das Geschmacksurteil?

Projekt Kaffeemaschine Welche Faktoren beeinflussen das Geschmacksurteil? AKULTÄT ANGEWANDTE SOZIALWISSENSCHATEN PRO. DR. SONJA HAUG Projekt Kaffeemaschine Welche aktoren beeinflussen das Geschmacksurteil? Ausgehend von der Verkostung an der Hochschule Regensburg und der dabei

Mehr

6.4 Kointegration Definition

6.4 Kointegration Definition 6.4 Kointegration 6.4.1 Definition Nach Engle und Granger (1987): Wenn zwei oder mehrere Variablen I(1) sind, eine Linearkombination davon jedoch I() ist, dann sind die Variablen kointegriert. Allgemein:

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Empirische Analysen mit dem SOEP

Empirische Analysen mit dem SOEP Empirische Analysen mit dem SOEP Methodisches Lineare Regressionsanalyse & Logit/Probit Modelle Kurs im Wintersemester 2007/08 Dipl.-Volksw. Paul Böhm Dipl.-Volksw. Dominik Hanglberger Dipl.-Volksw. Rafael

Mehr

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Statistik II Literatur Kategoriale Unabhängige, Interaktion, nicht-lineare Effekte : Schätzung Statistik

Mehr

Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell

Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003-1 Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell von XENOPHOB auf V247 und POSTMAT, MATERIAL Für unsere

Mehr

Multiple Regression Mais-NP Zweidimensionale lineare Regression Data Display Dreidimensionale lineare Regression Multiple Regression

Multiple Regression Mais-NP Zweidimensionale lineare Regression Data Display Dreidimensionale lineare Regression Multiple Regression Multiple Regression! Zweidimensionale lineare Regression Modell Bestimmung der Regressionsebene Multiples Bestimmtheitsmaß Test des Bestimmtheitsmaßes Vertrauensintervalle für die Koeffizienten Test des

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Ausgangsdaten Bundesliga 2008/2009 Gegeben: Daten zu den 18 Vereinen der ersten Bundesliga

Mehr

Einführung in die Statistik für Politikwissenschaftler Wintersemester 2011/2012

Einführung in die Statistik für Politikwissenschaftler Wintersemester 2011/2012 Einführung in die Statistik für Politikwissenschaftler Wintersemester 2011/2012 Es können von den Antwortmöglichkeiten alle, mehrere, eine oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort

Mehr

Inhaltsverzeichnis. Vorwort

Inhaltsverzeichnis. Vorwort V Vorwort XI 1 Zum Gebrauch dieses Buches 1 1.1 Einführung 1 1.2 Der Text in den Kapiteln 1 1.3 Was Sie bei auftretenden Problemen tun sollten 2 1.4 Wichtig zu wissen 3 1.5 Zahlenbeispiele im Text 3 1.6

Mehr

Nachschreibklausur im Anschluss an das SS 2009

Nachschreibklausur im Anschluss an das SS 2009 Nachschreibklausur im Anschluss an das SS 2009 08. Oktober 2009 Lehrstuhl: Prüfungsfach: Prüfer: Hilfsmittel: Klausurdauer: Wirtschaftspolitik Empirische Wirtschaftsforschung Prof. Dr. K. Kraft Nicht-programmierbarer

Mehr

5 Multivariate stationäre Modelle

5 Multivariate stationäre Modelle 5 Multivariate stationäre Modelle 5.1 Autoregressive distributed lag (ADL) 5.1.1 Das Modell und dessen Schätzung Im vorangehenden Kapitel führten wir mit der endogenen verzögerten Variablen, y t 1, als

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Regressionsanalysen mit Stata

Regressionsanalysen mit Stata Regressionsanalysen mit Stata Wiederholung: Deskriptive Analysen - Univariate deskriptive Analysen (Häufigkeitsauszählungen einer Variablen) - Multivariate deskriptive Analysen (Untersuchung gemeinsamer

Mehr

I. Deskriptive Statistik 1

I. Deskriptive Statistik 1 I. Deskriptive Statistik 1 1. Einführung 3 1.1. Grundgesamtheit und Stichprobe.................. 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................

Mehr

Das lineare Regressionsmodell

Das lineare Regressionsmodell Universität Ulm 89069 Ulm Germany Prof. Dr. Werner Smolny Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Institutsdirektor Das ökonomische

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Januar 2011 BOOTDATA11.GDT: 250 Beobachtungen für die Variablen...

Mehr

Bivariate Zusammenhänge

Bivariate Zusammenhänge Bivariate Zusammenhänge 40 60 80 Bivariater Zusammenhang: Zusammenhang zwischen zwei Variablen weight (kg) Gibt es einen Zusammenhang zwischen Größe & Gewicht? (am Beispieldatensatz) Offensichtlich positiver

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Statistische Messdatenauswertung

Statistische Messdatenauswertung Roland Looser Statistische Messdatenauswertung Praktische Einführung in die Auswertung von Messdaten mit Excel und spezifischer Statistik-Software für naturwissenschaftlich und technisch orientierte Anwender

Mehr

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen. Aufgabe 1 (25 Punkte Zur Schätzung des Werbe-Effekts in einem Getränke-Unternehmen wird das folgende lineare Modell aufgestellt: Dabei ist y t = β 1 + x t2 β 2 + e t. y t : x t2 : Umsatz aus Getränkeverkauf

Mehr