5.4.2 Kovarianz und Korrelation

Größe: px
Ab Seite anzeigen:

Download "5.4.2 Kovarianz und Korrelation"

Transkript

1 Zusammenhangsanalyse bivariater quasi-stetiger Merkmale Kovarianz und Korrelation Wie misst man den Zusammenhang zwischen metrischen Merkmalen? Betrachte den Mittelpunkt der Daten ( x, ȳ) und dazu konkordante/diskordante Paare. Eine Beobachtung i mit Ausprägung (x i, y i ) ist konkordant zu ( x, ȳ), spricht also für einen gleichgerichteten Zusammenhang wenn x i > x und y i > ȳ oder also zusammengefasst wenn x i < x und y i < ȳ (x i x) (y i ȳ) > 0. diskordant zu ( x, ȳ), spricht also für einen gegengerichteten Zusammenhang, wenn Zusammenhang wenn x i < x und y i > ȳ oder also zusammengefasst wenn x i > x und y i < ȳ (x i x) (y i ȳ) < 0. Wegen des metrischen Skalenniveaus sind auch die Abstände interpretierbar. (x i x) (y i ȳ) gibt also sozusagen die Stärke der Konkordanz bzw. Diskordanz an. (x i x)(y i ȳ) ist positiv, wenn große (kleine) X-Werte mit großen (kleinen) Y - Werten einhergehen (gleichgerichteter Zusammenhang). (x i x)(y i ȳ) ist negativ, wenn große (kleine) X-Werte mit kleinen (großen) Y - Werten einhergehen (gegengerichteter Zusammenhang). = Definiere als Zusammenhangsmaß die durchschnittliche Konkordanz/Diskordanz Definition: Gegeben sei ein bivariates Merkmal (X, Y ) mit metrisch skalierten Variablen X und Y mit s 2 X > 0 und s2 Y > 0. Dann heißen Cov(X, Y ) := 1 n (empirische) Kovarianz von X und Y, (x i x) (y i ȳ)

2 Kapitel 5. Analyse von Zusammenhängen 103 ϱ(x, Y ) := (x i x) (y i ȳ) n (x i x) 2 n (y i ȳ) 2 (empirischer) Korrelationskoeffizient nach Bravais und Pearson von X und Y, und Bestimmtheitsmaß von X und Y. R 2 XY := (ϱ(x, Y )) 2 (5.11) Bemerkungen: Die Kovarianz Cov(X, Y ) ist nicht maßstabsunabhängig. Wird beispielsweise X in DM statt in Euro gemessen, so gilt Cov( X, Y ) 2 Cov(X, Y ). Das Teilen durch die Standardabweichungen normiert die Kovarianz und macht sie maßstabsunabhängig. 1 n (x i x) s 2 X (y i ȳ) s 2 Y = ϱ(x, Y ) Also ist der Korrelationskoeffizient die durchschnittliche standardisierte Konkordanzstärke. Die empirische Kovarianz ist eine Verallgemeinerung der empirischen Varianz. Die Kovarianz eines Merkmals mit sich selbst ist genau die empirische Varianz: Cov(X, X) = 1 n = 1 n (x i x) (x i x) (x i x) 2 = s 2 x Man sieht hier auch, dass die Größe der Kovarianz für sich genommen schlecht/unanschaulich zu interpretieren ist. Für den Korrelationskoeffizienten hingegen gilt: und insbesondere ρ(x, X) = 1. 1 ϱ(x, Y ) 1. Viele der (un)angenehmen Eigenschaften der Varianz (z.b. Ausreißerempfindlichkeit) gelten in analoger Weise. Es gilt auch ein Verschiebungssatz: Cov(X, Y ) = 1 n x i y i xȳ

3 Zusammenhangsanalyse bivariater quasi-stetiger Merkmale und damit Zur Erinnerung: ϱ(x, Y ) = x i y i n x ȳ. n x 2 i n x2 n yi 2 n ȳ2 s X = 1 n x 2 i x 2. Beispiel: Zunächst inhaltsleere Zahlenbeispiele, zur Interpretation später. Gegeben seien die Datenpaare Es gilt: x = 30 und ȳ = 120, sowie x i y i n x2 i = 4678 yi 2 = n x iy i = n = 5 Basierend auf diesen Hilfsgrößen berechnet sich die Korrelationskoeffizient gemäß Verschiebungssatz als ϱ(x, Y ) = n x iy i n x ȳ n x2 i n x2 n y2 i n ȳ2 = Gegeben seien die Datenpaare Es gilt: x = 20 und ȳ = und damit x i y i x i y i Cov(X, Y ) = 1 n xi y i xȳ = ( ) = Für den Korrelationskoeffizienten ergibt sich damit ebenfalls ϱ(x, Y ) = 0! = 0

4 Kapitel 5. Analyse von Zusammenhängen 105 Bemerkungen: Es gilt ϱ = 1, genau dann wenn Y = ax + b mit a 0, d.h. X und Y stehen in einem perfekten linearen Zusammenhang. Ist ϱ = 0 (und äquivalent dazu Cov(X, Y )), so nennt man X und Y unkorreliert. Es besteht dann keinerlei linearer Zusammenhang. Die Betonung der Linearität des Zusammenhangs ist wesentlich. Es kann durchaus sein, dass sogar ein perfekter, aber eben nichtlinearer (sondern z.b. quadratischer) Zusammenhang besteht und ϱ(x, Y ) = 0 gilt. Allgemein zeigt ϱ und R 2 die Stärke eines linearen Zusammenhangs an, also wie gut sich die Datenpaare (x 1, y 1 ),..., (x n, y n ) durch eine Gerade beschreiben lassen. Insgesamt kann der Wert des Korrelationskoeffizienten folgendermaßen interpretiert werden: ϱ XY 0: kein (linearer) Zusammenhang. ϱ XY > 0: positive Korrelation, gleichgerichteter (linearer) Zusammenhang. ϱ XY < 0: negative Korrelation, gegengerichteter (linearer) Zusammenhang. ϱ XY 0.5: schwache Korrelation. 0.5 < ϱ XY 0.8: mittlere Korrelation. ϱ XY > 0.8: starke Korrelation.

5 Zusammenhangsanalyse bivariater quasi-stetiger Merkmale R 2 ist ein PRE-Maß, das misst, welchen Anteil der gesamten Variation sich durch einen linearen Zusammenhang beschreiben lässt. (Näheres dazu im Abschnitt über die Regression.) Die Zusammenhangsmaße sind invariant gegenüber Vertauschen von Y und X messen also insbesondere keine gerichteten Zusammenhänge: ϱ(x, Y ) = ϱ(y, X) R XY = R Y X Im Gegensatz zur Kovarianz sind ϱ(x, Y ) und RXY 2 invariant gegenüber streng monoton steigenden linearen Transformationen. Genauer gilt mit X := a X + b und Ỹ := c Y + d ϱ( X, Ỹ ) = ϱ(x, Y ) falls a c > 0 und ϱ( X, Ỹ ) = ϱ(x, Y ) falls a c < 0. Die Korrelation ist also sozusagen maßstabsunabhängig. Es spielt zum Beispiel für die Stärke des Zusammenhangs zwischen Erwerbsarbeit und Hausarbeit spielt es keine Rolle, ob man die Zeit in Minuten, Stunden oder Tagen misst. Beispiel: Mietspiegel Beispiele aus Jann (2002) S.87ff Arbeitsstunden und Erwerbseinkommen: moderater positiver Zusammenhang. Arbeitsstunden und Haushalt: moderater negativer Zusammenhang. Vertragliche und geleistete Wochenarbeitsstunden: hoch positiv korreliert (Punkte liegen sehr nahe an bester Gerade ).

6 Kapitel 5. Analyse von Zusammenhängen Weitere Korrelationskoeffizienten Anwendung des Korrelationskoeffizienten nach Bravais-Pearson auf dichotome nominale Merkmale Liegen dichotome nominale Merkmale, d.h. Merkmale mit nur zwei ungeordneten Ausprägungen vor (z.b. ja/nein), und kodiert man die Ausprägung mit 0 und 1, so kann man die Formel des Korrelationskoeffizienten nach Bravais-Pearson sinnvoll anwenden. Man erhält den sogenannten Punkt-Korrelationskoeffizienten, der identisch zu Φ aus (5.10) ist. Im Fall einer dichotomen und einer metrischen Variablen ergibt sich bei Anwendung des Korrelationskoeffizienten nach Bravais-Pearson die sogenannte Punkt-biseriale Korrelation. (vgl. etwa Jann (2002, S.90f) oder Wagschal (1999, Kap 10.8).) Rangkorrelationskoeffizient nach Spearman Wir betrachten ein bivariates Merkmal (X, Y ), wobei X und Y nur ordinalskaliert sind, aber viele unterschiedlichen Ausprägungen besitzen. Der Korrelationskoeffizient von Bravais-Pearson darf nicht verwendet werden, da hier die Abstände nicht interpretierbar sind. ( x, ȳ) wären willkürliche Zahlen, ebenso (x i x), (y i ȳ). Natürliche Skala für ordinale Daten soll die Ordnung widerspiegeln Ränge betrachten und diese als intervallskaliert (d.h. insbes. als gleichabständig) betrachten (nicht unumstritten!). Liegen keine Bindungen vor, dann rechnet man statt mit (x i, y i ),...,n mit (rg(x i ), rg(y i )) i = 1,..., n. Dabei ist rg(x i ) = j : x i = x (j), d.h. der Rang rg(x i ) ist die Nummer, die x i in der geordneten Urliste x (1) x (2)... x (n) einnimmt (analog für rg(y i )). Beispiel: x i rg(x i ) Liegen sogenannte Bindungen vor, d.h. haben mehrere Einheiten dieselbe Ausprägung der Variablen X oder der Variablen Y, so nimmt man den Durchschnittswert der in Frage kommenden Ränge (Achtung: etwas anderer Begriff der Bindung als in Kapitel 5.3). Beispiel: x i Rang 1 3 oder 4 3 oder rg(x i ) Wende nun den Korrelationskoeffizienten nach Bravais-Pearson auf die Rangdaten an.

7 Zusammenhangsanalyse bivariater quasi-stetiger Merkmale Definition: ( ) 2 n + 1 rg(x i ) rg(y i ) n 2 ϱ S,XY := n ( ) 2 n + 1 ( n + 1 (rg(x i )) 2 n (rg(y i )) 2 2 n 2 heißt (empirischer) Rangkorrelationskoeffizient nach Spearman. Bemerkungen: Liegen keine Bindungen vor, so gilt wobei d i := rg(x i ) rg(y i ). 6 d 2 i ϱ S,XY = 1 n(n 2 1). Wichtig für Interpretation: Da ϱ S,XY sich aus der Anwendung von ϱ XY auf Rangdaten ergibt, behalten die entsprechenden Bemerkungen zum Bravais-Pearson-Korrelationskoeffizienten auf die Ränge bezogen ihre Gültigkeit. Insbesondere gilt 1 ϱ S,XY 1 und ϱ S,XY ist analog zu interpretieren. Im Gegensatz zum Korrelationskoeffizienten von Bravais-Pearson misst der Rangkorrelationskoeffizient nicht nur lineare, sondern allgemeiner monotone Zusammenhänge. Die Anwendung der Rangtransformation bewirkt in gewisser Weise eine Linearisierung monotoner Zusammenhänge. Die Bildung von Rängen ist unempfindlich gegenüber Ausreißern, so dass auch der Rangkorrelationskoeffizient ausreißerresistent ist. ) 2 Beispiel: (fiktiv, Zahlen aus Jann, 2002/2005) Zwei Gutachter sollen das autoritäre Verhalten von 5 Gruppenmitgliedern vergleichen, indem sie Scores auf einer Skala zwischen 0 und 100 vergeben. Dies ist ein typischer Fall einer Ordinalskala; die Abstände sind nicht direkt interpretierbar, sondern nur die Reihenfolge! Man berechne den Rangkorrelationskoeffizienten nach Spearman für die Merkmale X und Y mit X Einstufung durch Gutachter 1 Y Einstufung durch Gutachter 2 Person i X: Gutachter Y : Gutachter rg(x i ) rg(y i )

8 Kapitel 5. Analyse von Zusammenhängen 109 ϱ S,XY = = ( ) 2 n + 1 rg(x i ) rg(y i ) n 2 n ( ) 2 n + 1 ( n + 1 (rg(x i )) 2 n (rg(y i )) 2 2 n 2 ( ) 5 ( ) ( ( 5+1 = )2 ) 2 2 )2 Bemerkung: Analog zur punkt-biserialen Korrelation gibt es auch eine biseriale Rangkorrelation zur Beschreibung des Zusammenhangs zwischen einer dichotomen nominalen und einer quasi-stetigen ordinalen Variable (vgl. Wagschal, 1999, Kap 10.7).

9 Kapitel 6 Regression 6.1 Grundbegriffe und historischer Hintergrund Bedeutung der Regression: Eines der am häufigsten verwendeten statistischen Verfahren. Vielfache Anwendung in den Sozialwissenschaften. Grundidee der Interpretation bleibt in verwandter Weise bei vielen allgemeineren Modellen erhalten, die hier nicht betrachtet werden (können). Motivation: Wir betrachten zunächst zwei metrische Variablen X und Y. Der Korrelationskoeffizient nach Bravais-Pearson misst die Stärke des linearen Zusammenhangs zwischen X und Y, beantwortet also die Frage Wie gut lassen sich Ausprägungen (x i, y i ), i = 1,..., n durch eine Gerade beschreiben? Die Regression geht nun einen Schritt weiter: Wie sieht die am besten passende Gerade aus? Analyse und Beschreibung des Zusammenhangs. Zusätzliche Ziele: Prognose: gegeben sei ein Punkt x. Wo liegt dem Modell nach das dazugehörige ŷ? (z.b. x Erwerbsarbeit in Stunden einer neuen Person, wieviel Hausarbeit in Stunden ist zu erwarten?) Elastizität: Wie stark wirkt sich eine Änderung von X um eine Einheit auf Y aus? (Wird die Erwerbsarbeit um eine Stunde reduziert, wieviel mehr Hausarbeit ist zu erwarten?) Die Regression ist ein erster Schritt in die etwas höhere Statistik. Fast alle gängigen Verfahren sind im weiteren Sinne Regressionsmodelle (allerdings oft nicht linear). Viele Grundideen zur Interpretation gelten in verwandter Form auch für andere Regressionsmodelle. 110

10 Kapitel 6. Regression 111 Bei der Regressionsanalyse wird die Symmetrie des Zusammenhangs i.a. aufgegeben, d.h. nun wird ein gerichteter Zusammenhang der Form X Y betrachtet. Bezeichnungen: X unabhängige Variable exogene Variable erklärende Variable Stimulus Einflußgröße Prädiktor Kovariable Y abhängige Variable endogene Variable zu erklärende Variable Response Zielgröße 6.2 Lineare Einfachregression: Grundmodell und Kleinste- Quadrate-Prinzip Idee: Versuche, Y als einfache Funktion f von X zu beschreiben: Einfachste Möglichkeit: f linear, also Y f(x). Y a + b X. Für die beobachteten Datenpunkte soll also für jedes i = 1,..., n gelten y i a + b x i Normalerweise besteht kein perfekter linearer Zusammenhang, so dass ein unerklärter Rest ε i in die Modellgleichung mit aufgenommen wird (In Statistik 2 werden wir ε i als zufälligen Fehler interpretieren): y i = a + b x i + ε i. Dies ist das Modell der linearen Einfachregression. a und b sind unbekannte Größen, die sogenannten Regressionsparameter, die anhand der Daten bestimmt werden müssen. Bestimme â, ˆb so, dass alle Abweichungen der Daten von der Gerade möglichst klein werden, d.h. so, dass die Summe der quadratischen Differenzen zwischen den Punkten y i und der Gerade ŷ i = â + ˆb x i minimal wird. D.h. minimiere das Kleinste Quadrate (KQ) Kriterium (y i â ˆbx i ) 2 bezüglich â und ˆb.

11 Lineare Einfachregression: Grundmodell und Kleinste-Quadrate-Prinzip Definition: Gegeben seien zwei metrische Merkmale X und Y und das Modell der linearen Einfachregression y i = a + bx i + ε i, i = 1,..., n. Dann bestimme man â und ˆb so, dass mit ˆε i := y i ŷ i = y i (â + ˆbx i ) das Kleinste-Quadrate-Kriterium minimal wird. Die optimalen Werte â und ˆb heißen KQ-Schätzungen, ˆε i bezeichnet das i-te (geschätzte) Residuum. ˆε 2 i Bemerkungen: Durch das Quadrieren tragen sowohl positive als auch negative Abweichungen von der Regressionsgeraden zum KQ-Kriterium bei. Das Quadrieren bewirkt außerdem, dass große Abweichungen überproportional stark berücksichtigt werden. Die KQ-Schätzer sind in diesem Sinne ausreißeranfällig. Satz: Für die KQ-Schätzer gilt (x i x)(y i ȳ) i) ˆb Cov(X, Y ) = = s 2 (x i x) 2 X ii) â = ȳ ˆb x, iii) n ˆε i = 0. = ϱ X,Y s Y s X, Bemerkungen: Hat man standardisierte Variablen X und Y (gilt also s X = s Y = 1), so ist ˆb genau ρ X,Y. Die mittlere Abweichung von der Regressionsgeraden ist Null. Diese Eigenschaft kann auch verwendet werden, um die korrekte Berechnung der KQ-Schätzer zu überprüfen. Basierend auf den Schätzern â und ˆb kann der Wert der abhängigen Variablen Y auch für neue, unbeobachtete Werte der Kovariablen X berechnet werden (Prognose): ŷ = â + ˆbx.

12 Kapitel 6. Regression 113 Interpretation der Regressionsgeraden: â ist der Achsenabschnitt, also der Wert der Gerade, der zu x = 0 gehört. Er lässt sich oft als Grundniveau interpretieren. ˆb ist die Steigung (Elastizität): Um wieviel erhöht sich y bei einer Steigerung von x um eine Einheit? ŷ (Punkt auf der Gerade) ist der Prognosewert zu x. Fiktives Ökonomisches Beispiel zur Klärung: Kaffeeverkauf auf drei Flohmärkten X Anzahl verkaufter Tassen Kaffee Y zugehöriger Gewinn (Preis Verhandlungssache) Man bestimme die Regressionsgerade und interpretiere die erhaltenen KQ-Schätzungen! Welcher Gewinn ist bei zwölf verkauften Tassen zu erwarten? i x i y i y i ȳ x i x (x i x) x = 10 ȳ = 10 = 0 = 0 ˆb = (x i x)(y i ȳ) = (x i x) 2 0 ( 1) ( 5) 2 = = 2.1 Mit der Erhöhung der Menge X um eine Einheit erhöht sich der Gewinn Y um 2.1 Einheiten, also ist ˆb so etwas wie der durchschnittliche Gewinn pro Tasse. â = ȳ ˆb x = = 11 Grundlevel, Gewinn bei 0 Tassen, Fixkosten (z.b. Standgebühr) Vohergesagte Werte ŷ i = â + ˆbx i und Residuen ˆε i = y i ŷ i : ŷ 1 = = 10 ˆε 1 = 1 ŷ 2 = = 20.5 ˆε 2 = 0.5 ŷ 3 = = 0.5 ˆε 3 = 0.5 Zur Kontrolle: ˆɛ 1 + ˆɛ 2 + ˆɛ 3 = 0 Prognose: x = 12 = ŷ = â + ˆb x = = 14.2

13 Modellanpassung: Bestimmtheitsmaß und Residualplots 6.3 Modellanpassung: Bestimmtheitsmaß und Residualplots Wie gut lässt sich die abhängige Variable Y durch die Kovariable X erklären? Wie gut passt der lineare Zusammenhang zwischen X und Y? PRE-Ansatz: Modell 1: Vorhersage von Y ohne X. Prognostiziere für jede Beobachtung den Mittelwertȳ Dabei gemachter Gesamtfehler: SQT := (y i ȳ) 2 (Gesamtstreuung / Gesamtvariation der y i : sum of squares total ). Modell 2: Vorhersage von Y mit X. Vorhersage basierend auf den KQ-Schätzern: Dabei gemachter Gesamtfehler: ŷ i = â + ˆb x i SQR := (ŷ i y i ) 2 (Residualstreuung / Residualvariation: sum of squared residuals ). Die Differenz SQE := SQT SQR nennt man die durch das Regressionsmodel erklärte Streuung ( sum of squares explained ). Man kann zeigen, dass gilt SQE = (ŷ i ȳ) 2. Streuungszerlegung: SQT = SQR + SQE (analog zur Streuungszerlegung bei gruppierten Daten).

14 Kapitel 6. Regression 115 Bestimmtheitsmaß: Der PRE-Ansatz liefert das Gütekriterium SQT SQR SQT = SQE SQT. Diese Größe bezeichnet man als Bestimmtheitsmaß. In der Tat gilt (nach etwas längerer Rechnung): SQE SQT = R2 XY d.h. dies ist genau das Bestimmtheitsmaß aus Definition (5.11). Es gibt also drei Arten, R 2 XY R 2 XY zu verstehen: 1. über den Korrelationskoeffizienten R 2 XY = (ρ(x, Y ))2 (vgl. (5.11)), 2. als PRE-Maß gemäß obiger Herleitung, oder 3. als Verhältnis der durch die Regression erklärten Variation und der Gesamtvariation. gibt also an, wie gut sich der Zusammenhang durch die Gerade beschreiben lässt. Eigenschaften: Es gilt: 0 RXY 2 1. RXY 2 = 0: Es wird keine Streuung erklärt, d.h. es gibt keinen (linearen) Zusammenhang zwischen X und Y. RXY 2 = 1: Die Streuung wird vollständig erklärt. Alle Beobachtungen liegen tatsächlich auf einer Geraden. Residualplots Eine wichtige optische Möglichkeit, die Anpassung zu beurteilen, beruht auf dem Studium der geschätzten Residuen ˆε i. Sie sollen unsystematisch um 0 streuen Zeigt sich eine Systematik, so war der lineare Ansatz unangemessen, und es ist größte Vorsicht bei der Interpretation geboten!

15 Modellanpassung: Bestimmtheitsmaß und Residualplots Linearisierende Transformationen: Sehr häufig wirkt die Variable X nicht direkt linear auf die Variable Y (Streudiagramm anschauen!). Akzeptanz Redezeit in Minuten sehr hohe/sehr niedrige Werte ungünstig; analog Herzinfarktrisiko und Proteinaufnahme Umsatz Zeit zyklische Wirkung (insb. X Zeit, Y z.b. Umsatz Speiseeis) Ertrag Erstes Gossensches Gesetz: Abnehmender Grenznutzen Aufwand oder: Engelsches Gesetz: Aufwendungen für Lebensmittel in Abhängigkeit vom Einkommen Aggression Provokation Schwellenwertmodell Häufige Anwendung in der Epidemiologie (Belastung Wirkung) Viele (nicht alle) der auf den ersten Blick nichtlinearen Modelle lassen sich durch geeignete

16 Kapitel 6. Regression 117 Variablentransformationen in die lineare Regressionsrechnung einbetten. Entscheidend ist, dass das Wirken der Parameter linear ist!. Der Ansatz g(y i ) = a + b h(x i ) + ε i lässt sich auch völlig analog mit dem KQ-Prinzip behandeln: Definiere dazu die Merkmale Y = g(y ) und X = h(x) und betrachte y i = a + b x i + ε i b bzw. ˆb geben dann allerdings nicht direkt die Stärke der Elastizität von Y bezüglich X an, sondern die von Y bezüglich X. Eine geeignete Interpretation erhält man über den Ansatz: b = Y Änderung in Y = X Änderung in X So lassen sich auch die oben dargestellten Situationen mit linearen Regressionstechniken { lösen. Man wählt etwa X = X 2, X = sin(x), X = ln X oder X 0 X τ = X τ X > τ mit bekanntem Schwellenwert τ. Entscheidend ist die Linearität in den Parametern a und b. Im Gegensatz dazu ist der Ansatz kein lineares Regressionsmodell. y i = a + b 2 x i + ε i Echte nichtlineare Modelle ergeben sich aus der Theorie der generalisierten linearen Modelle, die insbesondere auch für kategoriales oder ordinales Y geeignet sind. 6.4 Multiple lineare Regression Verallgemeinerung der linearen Einfachregression: Betrachte mehrere unabhängige metrische Variablen X 1, X 2,..., X p gemeinsam, da typischerweise ja kein monokausaler Zusammenhang vorliegt. Modellgleichung: y = a + b 1 x 1i + b 2 x 2i b p x pi + ε i. Dabei bezeichnet x i1 den für die i-te Beobachtung beobachteten Wert der Variablen X 1, x i2 den Wert der Variablen X 2, usw.

17 Multiple lineare Regression Interpretation: Die Interpretation von a und b 1,..., b p erfolgt analog zu oben, insbesondere ist b j die Änderung in Y, wenn X j um eine Einheit vergrößert wird und alle anderen Größen gleich bleiben ( ceteris paribus Effekt ). Üblich ist allerdings eine andere Notation für die Regressionskoeffizienten: a β 0, b 1 β 1,. b p β p, KQ-Prinzip: Die Schätzung von β 0, β 1,..., β p erfolgt wieder über das KQ-Prinzip: Bestimme ˆβ 0, ˆβ 1, ˆβ 2,..., ˆβ p so, dass mit der Ausdruck minimal wird. ˆε i = y i ŷ i := y i ( ˆβ 0 + ˆβ 1 x 1i + ˆβ 2 x 2i ˆβ p x pi ) Die Schätzungen ˆβ 0, ˆβ 1,..., ˆβ p sind nur mit Matrizenrechnung einfach darzustellen und insbesondere nur noch schwierig von Hand zu berechnen. ˆε 2 i Bestimmtheitsmaß: Analog zur linearen Einfachregression lässt sich ein Bestimmtheitsmaß R 2 = SQE SQT über die Streuungszerlegung definieren. In der multiplen Regression verwendet man allerdings meistens das korrigierte Bestimmtheitsmaß R 2 := 1 n 1 n p 1 (1 R2 ) das die Anzahl der in das Modell mit einbezogenen Variablen mit berücksichtigt. Das übliche R 2 steigt auch durch das Einführen irrelevanter Variablen an. SPSS-Output einer multiplen Regression: Coefficients a Unstandardized Coefficients Model B Std. Error t Sig. 1 (Constant) ˆβ0 ˆσ 0 T 0 p-wert X 1 ˆβ1 ˆσ 1 T 1 X 2 ˆβ2 ˆσ 2 T X p ˆβp ˆσ p T p a Dependent Variable: Y

18 Kapitel 6. Regression 119 Im Rahmen von Statistik 1 ist nur die Spalte B mit den unstandardisierten Koeffizienten ˆβ 0, ˆβ 1, ˆβ 2,..., ˆβ p relevant. Anmerkung: SPSS gibt auch noch die standardisierten Koeffizienten aus, das sind die Schätzer, wenn man die Variablen vorher standardisiert. Bei der linearen Einfachregression findet man hier den Korrelationskoeffizienten von Bravais Pearson wieder. 6.5 Nominale Einflussgrößen Dichotome Kovariable Bisher wurden Y, X 1, X 2,..., X p als metrisch vorausgesetzt. Ähnlich wie für Korrelationskoeffizienten können dichotome Variablen, sofern sie mit 0 und 1 kodiert sind, ebenfalls als Einflussgrößen zugelassen werden können. Die zugehörigen Koeffizienten geben dann an, um wieviel sich Y ceteris paribus erhöht, wenn die entsprechende Kovariable den Wert 1 statt 0 hat. Beispiel: mit Einfluss von Arbeitszeit und Geschlecht auf das Einkommen. y i = β 0 + β 1 x 1i + β 2 x 2i + ε i Interpretation: Für die Frauen hingegen gilt X 1 = { 1 männlich 0 weiblich X 2 = (vertragliche) Arbeitszeit Y = Einkommen Die geschätzte Gerade für die Männer lautet: ŷ i = ˆβ 0 + ˆβ ˆβ 2 x 2i. ŷ i = ˆβ 0 + ˆβ ˆβ 2 x 2i = ˆβ 0 + ˆβ 2 x 2i y } ˆβ { β2 ˆ 1 ˆβ 0 { x 2

19 Nominale Einflussgrößen Interaktionseffekte Wechselwirkung zwischen Kovariablen lassen sich durch den Einbezug des Produkts als zusätzliche Kovariable modellieren y i = β 0 + β 1 x 1i + β 2 x 2i + β 3 x 1i x 2i + ε i β 3 gibt den Interaktions- oder Wechselwirkungseffekt an. Dieser lässt sich insbesondere bei dichotomen Kovariablen einfach interpretieren. Fortsetzung des Beispiels: Form Die geschätzte Regressionsgerade hat bei den Männern die und bei den Frauen die Form ŷ i = ˆβ 0 + ˆβ ˆβ 2 x 2i + ˆβ 3 1 x 2i = ˆβ 0 + ˆβ 1 + ( ˆβ 2 + ˆβ 3 ) x 2i ŷ i = ˆβ 0 + ˆβ ˆβ 2 x 2i + ˆβ 3 0 x 2i = ˆβ 0 + ˆβ 2 x 2i. y 1 ˆβ 2 + ˆβ 3 ˆβ2 + ˆβ 3 Stundenlohn der Männer 1 ˆβ 1 { } ˆβ2 ˆβ 2 Stundenlohn der Frauen 1 ˆβ 0 { x 2 ˆβ 1 ist der Unterschied im Grundlevel, ˆβ 3 der Unterschied in der Steigung Dummykodierung Betrachten wir nun ein nominales Merkmal X mit q Kategorien, z.b. Parteipräferenz 1 CDU/CSU oder FDP X = 2 SPD oder Grüne 3 Sonstige

20 Kapitel 6. Regression 121 Man darf X nicht einfach mit Werten 1 bis 3 besetzen, da es sich um ein nominales Merkmal handelt. Idee: mache aus der einen Variable mit k (hier 3) Ausprägungen k 1 (hier 2) Variablen mit den Ausprägungen ja/nein ( ˆ=0/1). Diese Dummyvariablen dürfen dann in der Regression verwendet werden. { 1 CDU/CSU oder FDP X 1 = 0 andere { 1 SPD oder Grüne X 2 = 0 andere Beachte, durch die Ausprägungen von X 1 und X 2 sind alle möglichen Ausprägungen von X vollständig beschrieben: Beispiel zur Interpretation: Y : Score auf Autoritarismusskala X bzw. X 1, X 2 : Parteienpräferenz X 3 : Einkommen X Text X 1 X 2 1 CDU/CSU, FDP SPD, Grüne Sonstige 0 0 y i = β 0 + β 1 x 1i + β 2 x 2i + β 3 x 3i + ε i β 0 : Grundniveau β 1 : ceteris paribus Effekt (Erhöhung des Grundniveaus) von CDU/CSU oder FDP β 2 : ceteris paribus Effekt (Erhöhung des Grundniveaus) von SPD oder Grünen β 3 : ceteris paribus Effekt des Einkommens 6.6 Varianzanalyse Ist ein nominales Merkmal X mit insgesamt k verschiedenen Ausprägungen die einzige unabhängige Variable, so führt die Regressionsanalyse mit den entsprechenden k 1 Dummyvariablen auf die sogenannte (einfaktorielle) Varianzanalyse. Als Schätzwert ŷ i ergibt sich für jede Einheit i genau der Mittelwert aller Werte y i, die zu Einheiten l gehören, die dieselben Ausprägungen bei dem Merkmal X, also den

21 Varianzanalyse zugehörigen Dummyvariablen X 1,..., X k 1, haben. D.h. man bildet k Gruppen bezüglich X, und ŷ i ist der Mittelwert der Gruppe, zu der i gehört. Beispiel: Y X Autoritarismusscore Parteienpräferenz X 1 CDU/CSU oder FDP, X 2 SPD oder Grüne, X 3 Sonstiges Ist z.b. x i = 1, d.h. Einheit i ist CDU/CSU- oder FDP-Anhänger, dann ergibt sich ŷ i als Mittelwert des Scores aller CDU/CSU oder FDP Anhänger Die Streuungszerlegung (y i ȳ) 2 = (ŷ i ȳ) 2 + (y i ŷ i ) 2 der linearen Regression vereinfacht sich in diesem Fall und hat eine ganz charakteristische Form: Indiziert man die Beobachtungen um und betrachtet die k Gruppen, so hat man in der j-ten Gruppe n j Beobachtungen y 1j, y 2j,..., y nj j und den Gruppenmittelwert ȳ j. Damit erhält man: n k j (y ij ȳ) 2 = j=1 k n j (ȳ j ȳ) 2 + j=1 n k j (y ij ȳ j ) 2. j=1 Dies ist genau die Streuungszerlegung aus Kapitel Das zugehörige Bestimmtheitsmaß wird üblicherweise mit η 2 bezeichnet: η 2 = SQE SQT = k n j (ȳ j ȳ) 2 j=1 n j. k (y ij ȳ j ) 2 j=1 η 2 und η = η 2 werden auch als Maße für den Zusammenhang zwischen einer metrischen Variable und einer nominalen Variable verwendet. Mehr dazu in Statistik II...

6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale

6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale 6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig und mindestens ordinalskaliert, typischerweise

Mehr

6.2 Regressionsanalyse I: Die lineare Einfachregression

6.2 Regressionsanalyse I: Die lineare Einfachregression 6.2 Regressionsanalyse I: Die lineare Einfachregression 6.2.1 Grundbegriffe und Hintergrund Bedeutung der Regression: Eines der am häufigsten verwendeten statistischen Verfahren. Vielfache Anwendung in

Mehr

6 Korrelationsanalyse: Zusammenhangsanalyse stetiger. Merkmale

6 Korrelationsanalyse: Zusammenhangsanalyse stetiger. Merkmale 6 Korrelationsanalyse: Zusammenhangsanalyse stetiger Merkmale 6.1 Korrelationsanalyse Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig und mindestens

Mehr

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale 6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale 397 6.1 Korrelationsanalyse Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig

Mehr

6 Korrelationsanalyse: Zusammenhangsanalyse stetiger Merkmale

6 Korrelationsanalyse: Zusammenhangsanalyse stetiger Merkmale 6 Korrelationsanalyse: Zusammenhangsanalyse stetiger Merkmale 6.1 Korrelationsanalyse 6.1 Korrelationsanalyse Jetzt betrachten wir bivariate Merkmale (X, Y), wobei sowohl X als auch Y stetig bzw. quasi-stetig

Mehr

6.1 Grundbegriffe und historischer Hintergrund

6.1 Grundbegriffe und historischer Hintergrund Kapitel 6 Regression 61 Grundbegriffe und historischer Hintergrund Bedeutung der Regression: Eines der am häufigsten verwendeten statistischen Verfahren Vielfache Anwendung in den Sozialwissenschaften

Mehr

6Korrelationsanalyse:Zusammenhangsanalysestetiger Merkmale

6Korrelationsanalyse:Zusammenhangsanalysestetiger Merkmale 6Korrelationsanalyse:Zusammenhangsanalysestetiger Merkmale 6.1 Korrelationsanalyse 6.1 Korrelationsanalyse Jetzt betrachten wir bivariate Merkmale (X, Y ), wobei sowohl X als auch Y stetig bzw. quasi-stetig

Mehr

2.5 Lineare Regressionsmodelle

2.5 Lineare Regressionsmodelle 2.5.1 Wiederholung aus Statistik I Gegeben Datenpunkte (Y i, X i ) schätze die beste Gerade Y i = β 0 + β 1 X i, i = 1,..., n. 2 Induktive Statistik 409 Bsp. 2.30. [Kaffeeverkauf auf drei Flohmärkten]

Mehr

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests. 0 Einführung 1 Wahrscheinlichkeitsrechnung 2 Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung 5 Hypothesentests 6 Regression Lineare Regressionsmodelle Deskriptive Statistik:

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Die Funktion f wird als Regressionsfunktion bezeichnet.

Die Funktion f wird als Regressionsfunktion bezeichnet. Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht

Mehr

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j 1 Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS 2011 Lösung Aufgabe 27 (a) Notation: X: Rauchen, Y : chronische Bronchitis S X {ja, nein} {a 1, a 2 }, S Y {ja, nein} {b

Mehr

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm y Aufgabe 3 Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6 a) Zur Erstellung des Streudiagramms zeichnet man jeweils einen Punkt für jedes Datenpaar (x i, y i ) aus der zweidimensionalen

Mehr

Einführung in die Induktive Statistik: Regressionsanalyse

Einführung in die Induktive Statistik: Regressionsanalyse Einführung in die Induktive Statistik: Regressionsanalyse Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Regressionsanalyse Ziel: Analyse

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n 3.2. Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare von Merkmalsausprägungen (x, y) Beispiele:

Mehr

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06.

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06. Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt Gerhard Tutz, Jan Ulbricht WS 05/0 Lösung Aufgabe 4 Notation: X: Rauchen, Y : chronische Bronchitis S X {ja, nein} {a 1, a },

Mehr

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II Statistik II Lineare Regressionsrechnung Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II - 09.06.2006 1 Mit der Kovarianz und dem Korrelationskoeffizienten können wir den statistischen

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Statistik 7.1 Korrelationsanalyse Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Sommersemester 2012 7 Regressions- und Korrelationsanalyse Kovarianz Pearson-Korrelation Der (lineare)

Mehr

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik Regression Dozent: Fabian Scheipl Material: H. Küchenhoff LMU München 39 Einfache lineare Regression Bestimmung der Regressionsgerade

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Januar 2011 BOOTDATA11.GDT: 250 Beobachtungen für die Variablen...

Mehr

Musterlösung. Modulklausur Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

1 Beispiel zur Methode der kleinsten Quadrate

1 Beispiel zur Methode der kleinsten Quadrate 1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25

Mehr

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 1. Aufgabe: Für 25 der größten Flughäfen wurde die Anzahl der abgefertigten Passagiere in den Jahren 2009 und 2012 erfasst. Aus den Daten (Anzahl

Mehr

Lineare Regression. Kapitel Regressionsgerade

Lineare Regression. Kapitel Regressionsgerade Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell

Mehr

Versuchsplanung und multivariate Statistik Sommersemester 2018

Versuchsplanung und multivariate Statistik Sommersemester 2018 Versuchsplanung und multivariate Statistik Sommersemester 2018 Vorlesung 11: Lineare und nichtlineare Modellierung I Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 6.6.2018

Mehr

Kapitel XI - Korrelationsrechnung

Kapitel XI - Korrelationsrechnung Universität Karlsruhe (TH) Institut für Statistik und Mathematische Wirtschaftstheorie Kapitel XI - Korrelationsrechnung Markus Höchstötter Uni Karlsruhe Karlsruhe, SS 2008 Kapitel XI - Korrelationsrechnung

Mehr

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik... Inhaltsverzeichnis 1 Über dieses Buch... 11 1.1 Zum Inhalt dieses Buches... 13 1.2 Danksagung... 15 2 Zur Relevanz der Statistik... 17 2.1 Beispiel 1: Die Wahrscheinlichkeit, krank zu sein, bei einer positiven

Mehr

5.5 PRE-Maße (Fehlerreduktionsmaße) 6

5.5 PRE-Maße (Fehlerreduktionsmaße) 6 359 5.5 PRE-Maße (Fehlerreduktionsmaße) 6 5.5.1 Die grundlegende Konstruktion Völlig andere, sehr allgemeine Grundidee zur Beschreibung von Zusammenhängen. Grundlegendes Prinzip vieler statistischer Konzepte.

Mehr

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften

Mehr

Eigene MC-Fragen (Teil II) "Kap. 9 Zusammenhangsmaße

Eigene MC-Fragen (Teil II) Kap. 9 Zusammenhangsmaße Eigene MC-Fragen (Teil II) "Kap. 9 Zusammenhangsmaße 1. Kreuze die richtige Aussage an! positiv sind, ist r stets identisch mit s xy. negativ sind, ist r stets identisch mit s xy. positiv sind, ist das

Mehr

Bivariate Regressionsanalyse

Bivariate Regressionsanalyse Universität Bielefeld 15. März 2005 Kovarianz, Korrelation und Regression Kovarianz, Korrelation und Regression Ausgangspunkt ist folgende Datenmatrix: Variablen 1 2... NI 1 x 11 x 12... x 1k 2 x 21 x

Mehr

Das Lineare Regressionsmodell

Das Lineare Regressionsmodell Das Lineare Regressionsmodell Bivariates Regressionsmodell Verbrauch eines Pkw hängt vom Gewicht des Fahrzeugs ab Hypothese / Theorie: Je schwerer ein Auto, desto mehr wird es verbrauchen Annahme eines

Mehr

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010

Mehr

Karl Entacher. FH-Salzburg

Karl Entacher. FH-Salzburg Ahorn Versteinert Bernhard.Zimmer@fh-salzburg.ac.at Statistik @ HTK Karl Entacher FH-Salzburg karl.entacher@fh-salzburg.ac.at Beispiel 3 Gegeben sind 241 NIR Spektren (Vektoren der Länge 223) zu Holzproben

Mehr

Einführung in Quantitative Methoden

Einführung in Quantitative Methoden in Quantitative Methoden Mag. Dipl.Ing. Dr. Pantelis Christodoulides & Mag. Dr. Karin Waldherr SS 2011 Christodoulides / Waldherr in Quantitative Methoden- 2.VO 1/47 Historisches Regression geht auf Galton

Mehr

Mathematik III - Statistik für MT(Master)

Mathematik III - Statistik für MT(Master) 3. Regressionsanalyse Fachbereich Grundlagenwissenschaften Prof. Dr. Viola Weiß Wintersemester 0/03 Mathematik III - Statistik für MTMaster 3. Empirische Regressionsgerade Optimalitätskriterium: Die Summe

Mehr

Übung V Lineares Regressionsmodell

Übung V Lineares Regressionsmodell Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung

Mehr

Deskriptive Beschreibung linearer Zusammenhänge

Deskriptive Beschreibung linearer Zusammenhänge 9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation PEΣO 12. November 2001 Von der Tabellenanalyse zur Regression Die bivariate Verteilung zweier metrischer Variablen kann konzeptionell

Mehr

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt: Beispiele zum Üben und Wiederholen zu Wirtschaftsstatistik 2 (Kurs 3) 1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt: Haushaltseinkommen 12 24 30 40 80 60

Mehr

Biostatistik 101 Korrelation - Regressionsanalysen

Biostatistik 101 Korrelation - Regressionsanalysen Good Data don't need statistics Biostatistik 101 Korrelation - Regressionsanalysen Carl Herrmann IPMB Uni Heidelberg & DKFZ B080 carl.herrmann@uni-heidelberg.de Korrelation Sind Alter und Blutdruck miteinander

Mehr

5.5 PRE-Maße (Fehlerreduktionsmaße)

5.5 PRE-Maße (Fehlerreduktionsmaße) 5.5 PRE-Maße (Fehlerreduktionsmaße) 5.5.1 Die grundlegende Konstruktion Völlig andere, sehr allgemeine Grundidee zur Beschreibung von Zusammenhängen. Grundlegendes Prinzip vieler statistischer Konzepte.

Mehr

Eine Einführung in R: Das Lineare Modell

Eine Einführung in R: Das Lineare Modell Eine Einführung in R: Das Lineare Modell Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 6. Januar 2009 Bernd Klaus, Verena Zuber

Mehr

Elementare Regressionsrechnung

Elementare Regressionsrechnung Elementare Regressionsrechnung Motivation: Streudiagramm zweier metrisch skalierter Merkmale X und Y Y X Dr. Karsten Webel 107 Ziel: Erfassung des Zusammenhangs zwischen X und Y durch eine Gerade der Form

Mehr

Bivariate Verteilungen [bivariate data]

Bivariate Verteilungen [bivariate data] Bivariate Verteilungen [bivariate data] Zwei Variablen X, Y werden gemeinsam betrachtet, d.h. an jedem Objekt i werden zwei Merkmale beobachtet. Beobachtungswerte sind Paare/Kombinationen von Merkmalsausprägungen

Mehr

i =1 i =2 i =3 x i y i 4 0 1

i =1 i =2 i =3 x i y i 4 0 1 Aufgabe (5+5=0 Punkte) (a) Bei einem Minigolfturnier traten 6 Spieler gegeneinander an. Die Anzahlen der von ihnen über das gesamte Turnier hinweg benötigten Schläge betrugen x = 24, x 2 = 27, x = 2, x

Mehr

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit

Mehr

Eine Einführung in R: Das Lineare Modell

Eine Einführung in R: Das Lineare Modell Eine Einführung in R: Das Lineare Modell Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 29. November 2012 Bernd Klaus, Verena Zuber,

Mehr

5 Beschreibung und Analyse empirischer Zusammenhänge

5 Beschreibung und Analyse empirischer Zusammenhänge 5 Beschreibung und Analyse empirischer Zusammenhänge 132 5 Beschreibung und Analyse empirischer Zusammenhänge 5.1 Zusammenhänge zwischen kategorialen Merkmalen 137 5.1.1 Kontingenztabellen 137 Verteilungen

Mehr

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff. Vorlesung: Lineare Modelle Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München SoSe 205 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen.

Mehr

Statistik II für Betriebswirte Vorlesung 8

Statistik II für Betriebswirte Vorlesung 8 Statistik II für Betriebswirte Vorlesung 8 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 3. Dezember 2018 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 8 Version:

Mehr

Inhaltsverzeichnis (Ausschnitt)

Inhaltsverzeichnis (Ausschnitt) 4 Zweidimensionale Daten Inhaltsverzeichnis (Ausschnitt) 4 Zweidimensionale Daten Häufigkeitsverteilungen unklassierter Daten Häufigkeitsverteilungen klassierter Daten Bedingte Häufigkeitsverteilungen

Mehr

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell 1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Korrelation vs. Regression 2. Ziele der Regressionsanalyse 3. Syntax für

Mehr

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers 4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis

Mehr

Skalenniveaus =,!=, >, <, +, -

Skalenniveaus =,!=, >, <, +, - ZUSAMMENHANGSMAßE Skalenniveaus Nominalskala Ordinalskala Intervallskala Verhältnisskala =,!= =,!=, >, < =,!=, >, ,

Mehr

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation DAS THEMA: KORRELATION UND REGRESSION Korrelation Regression Wenn Daten nicht ohne einander können Korrelation Korrelation Kovarianz Pearson-Korrelation Voraussetzungen für die Berechnung die Höhe der

Mehr

Blockpraktikum zur Statistik mit R

Blockpraktikum zur Statistik mit R Blockpraktikum zur Statistik mit R 17. September 2014 Johannes Blank Institut für Mathematische Statistik Universität Münster WS 14/15 Beispiel: Ausgangsfrage Ziel: Wie wirkt sich die eingesetzte Menge

Mehr

Name Vorname Matrikelnummer Unterschrift

Name Vorname Matrikelnummer Unterschrift Dr. Hans-Otfried Müller Institut für Mathematische Stochastik Fachrichtung Mathematik Technische Universität Dresden Klausur Statistik II (Sozialwissenschaft, Nach- und Wiederholer) am 26.10.2007 Gruppe

Mehr

Schätzung im multiplen linearen Modell VI

Schätzung im multiplen linearen Modell VI Schätzung im multiplen linearen Modell VI Wie im einfachen linearen Regressionsmodell definiert man zu den KQ/OLS-geschätzten Parametern β = ( β 0, β 1,..., β K ) mit ŷ i := β 0 + β 1 x 1i +... β K x Ki,

Mehr

Eine Einführung in R: Das Lineare Modell

Eine Einführung in R: Das Lineare Modell Eine Einführung in R: Das Lineare Modell Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 9. Dezember 2010 Bernd Klaus, Verena Zuber

Mehr

Charakterisierung der Daten: Sind es genug? Sind alle notwendig? Was ist naturgegeben, was von Menschen beeinflusst (beeinflussbar)?

Charakterisierung der Daten: Sind es genug? Sind alle notwendig? Was ist naturgegeben, was von Menschen beeinflusst (beeinflussbar)? 3 Beschreibende Statistik 3.1. Daten, Datentypen, Skalen Daten Datum, Daten (data) das Gegebene Fragen über Daten Datenerhebung: Was wurde gemessen, erfragt? Warum? Wie wurden die Daten erhalten? Versuchsplanung:

Mehr

Die Regressionsanalyse

Die Regressionsanalyse Die Regressionsanalyse Zielsetzung: Untersuchung und Quantifizierung funktionaler Abhängigkeiten zwischen metrisch skalierten Variablen eine unabhängige Variable Einfachregression mehr als eine unabhängige

Mehr

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression Drittvariablenkontrolle in der linearen Regression: Trivariate Regression 14. Januar 2002 In der Tabellenanalyse wird bei der Drittvariablenkontrolle für jede Ausprägung der Kontrollvariablen eine Partialtabelle

Mehr

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Rückblick Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen Ridge Regression vermeidet Überanpassung, indem einfachere Modelle mit

Mehr

Statistische Methoden in den Umweltwissenschaften

Statistische Methoden in den Umweltwissenschaften Statistische Methoden in den Umweltwissenschaften Korrelationsanalysen Kreuztabellen und χ²-test Themen Korrelation oder Lineare Regression? Korrelationsanalysen - Pearson, Spearman-Rang, Kendall s Tau

Mehr

Zusammenhangsmaße II

Zusammenhangsmaße II Sommersemester 2009 Eine nominale und eine intervallskalierte Variable χ 2 =?!? Übung von Simone Reutzel Heute im HS1, altes ReWi-Haus Zum Nachlesen Agresti/Finlay: Kapitel 8.5, 9.4 Gehring/Weins: Kapitel

Mehr

Lineare Modelle in R: Klassische lineare Regression

Lineare Modelle in R: Klassische lineare Regression Lineare Modelle in R: Klassische lineare Regression Achim Zeileis 2009-02-20 1 Das Modell Das klassische lineare Regressionsmodell versucht den Zusammenhang zwischen einer abhängigen Variablen (oder Responsevariablen)

Mehr

Zusammenhangsmaße II

Zusammenhangsmaße II Sommersemester 2009 Wiederholung/ Eine nominale und eine intervallskalierte Variable χ 2 =?!? Übung von Simone Reutzel Heute im HS1, altes ReWi-Haus Zum Nachlesen Agresti/Finlay: Kapitel 8.5, 9.4 Gehring/Weins:

Mehr

Stochastik Praktikum Lineare Modelle

Stochastik Praktikum Lineare Modelle Stochastik Praktikum Lineare Modelle Thorsten Dickhaus Humboldt-Universität zu Berlin 06.10.2010 Übersicht 1 Einfache lineare Regression 2 Multiple lineare Regression 3 Varianzanalyse 4 Verallgemeinerte

Mehr

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für

Mehr

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg Übungsklausur Lineare le Prof. Dr. H. Toutenburg Aufgabe Ein lineares Regressionsmodell mit der abhängigen Variablen Körpergröße und der unabhängigen Variablen Geschlecht wurde einmal mit der dummykodierten

Mehr

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20 Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 20 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)

Mehr

Eine Firma will den Zusammenhang zwischen Werbungskosten und Absatz untersuchen. Dazu nimmt sie zunächst eine Stichprobe dieser beiden Merkmale

Eine Firma will den Zusammenhang zwischen Werbungskosten und Absatz untersuchen. Dazu nimmt sie zunächst eine Stichprobe dieser beiden Merkmale Wirtschaftswissenschaftliches Zentrum 4 Universität Basel Statistik Dr. Thomas Zehrt Regression Motivation Eine Firma will den Zusammenhang zwischen Werbungskosten und Absatz untersuchen. Dazu nimmt sie

Mehr

Vorlesung: Multivariate Statistik für Psychologen

Vorlesung: Multivariate Statistik für Psychologen Vorlesung: Multivariate Statistik für Psychologen 7. Vorlesung: 05.05.2003 Agenda 2. Multiple Regression i. Grundlagen ii. iii. iv. Statistisches Modell Verallgemeinerung des Stichprobenmodells auf Populationsebene

Mehr

Hypothesentests mit SPSS

Hypothesentests mit SPSS Beispiel für eine einfache Regressionsanalyse (mit Überprüfung der Voraussetzungen) Daten: bedrohfb_v07.sav Hypothese: Die Skalenwerte auf der ATB-Skala (Skala zur Erfassung der Angst vor terroristischen

Mehr

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem

Mehr

Kurs Empirische Wirtschaftsforschung

Kurs Empirische Wirtschaftsforschung Kurs Empirische Wirtschaftsforschung 5. Bivariates Regressionsmodell 1 Martin Halla Institut für Volkswirtschaftslehre Johannes Kepler Universität Linz 1 Lehrbuch: Bauer/Fertig/Schmidt (2009), Empirische

Mehr

Lineare Regression Blockpraktikum zur Statistik mit R 28. März 2012 Sören Gröttrup Institut für Mathematische Statistik Universität Münster SS 2012

Lineare Regression Blockpraktikum zur Statistik mit R 28. März 2012 Sören Gröttrup Institut für Mathematische Statistik Universität Münster SS 2012 Lineare Regression Blockpraktikum zur Statistik mit R 28. März 2012 Sören Gröttrup Institut für Mathematische Statistik Universität Münster SS 2012 Beispiel: Ausgangsfrage Ziel: Wie wirkt sich die eingesetzte

Mehr

Grundlagen der Statistik I

Grundlagen der Statistik I NWB-Studienbücher Wirtschaftswissenschaften Grundlagen der Statistik I Beschreibende Verfahren Von Professor Dr. Jochen Schwarze 10. Auflage Verlag Neue Wirtschafts-Briefe Herne/Berlin Inhaltsverzeichnis

Mehr

Fragen. Einführung in die induktive Statistik. Übersicht. Lineare Einfachregression

Fragen. Einführung in die induktive Statistik. Übersicht. Lineare Einfachregression Fragen Welche Unsicherheitsfaktoren beeinflussen die Schätzung einer Regressionsgeraden? Einführung in die induktive Statistik Friedrich Leisch Institut für Statistik Ludwig-Maximilians-Universität München

Mehr

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen. Gliederung Grundidee Einfaches lineares Modell KQ-Methode (Suche nach der besten Geraden) Einfluss von Ausreißern Güte des Modells (Bestimmtheitsmaß R²) Multiple Regression Noch Fragen? Lineare Regression

Mehr

(x i x) 2. (x i a) 2, x i x med. x i a. i=1. 3 Lage- und Streuungsmaße 134

(x i x) 2. (x i a) 2, x i x med. x i a. i=1. 3 Lage- und Streuungsmaße 134 Lagemaße als Lösung eines Optimierungsproblems 3.1 Lagemaße Gegeben sei die Urliste x 1,...,x n eines intervallskalierten Merkmals X, die zu einer Zahl a zusammengefasst werden soll. Man könnte sagen,

Mehr

Grundlagen der Statistik

Grundlagen der Statistik www.nwb.de NWB Studium Betriebswirtschaft Grundlagen der Statistik Band 1: Beschreibende Verfahren Von Professor Dr. Jochen Schwarze 12., vollständig überarbeitete Auflage nwb STUDIUM Inhaltsverzeichnis

Mehr

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3. Reparametrisierung des Modells Gegeben sei das Modell (2.1) mit (2.5) unter der linearen Restriktion Aβ = c mit A R a p, rg(a) = a, c R a. Wir betrachten die lineare Restriktion als Gleichungssystem. Die

Mehr