Statistik Einführung // Lineare Regression 9 p.2/72



Ähnliche Dokumente
Korrelation - Regression. Berghold, IMI

Inhaltsverzeichnis. Regressionsanalyse. - Stand vom:

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Musterlösung zu Serie 14

Binäre abhängige Variablen

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

Tutorial: Homogenitätstest

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am Autor: Ludwig Bothmann

Einführung in statistische Analysen

9. Schätzen und Testen bei unbekannter Varianz

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe Institut für Statistik Ludwig-Maximilians-Universität München

Korrelation (II) Korrelation und Kausalität

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Lineare Modelle in R: Einweg-Varianzanalyse

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Interne und externe Modellvalidität

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Grundlagen der Inferenzstatistik

Zusammenhänge zwischen metrischen Merkmalen

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Willkommen zur Vorlesung Statistik

Kapitel 4: Binäre Regression

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Quantitative Methoden der Bildungsforschung

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Kontingenzkoeffizient (nach Pearson)

1.3 Die Beurteilung von Testleistungen

Fortgeschrittene Statistik Logistische Regression

Einfache Varianzanalyse für abhängige

Stichprobenauslegung. für stetige und binäre Datentypen

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Zeichen bei Zahlen entschlüsseln

Ausarbeitung des Seminarvortrags zum Thema

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

2.Tutorium Generalisierte Regression

Statistische Auswertung:

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Prognoseintervalle für y 0 gegeben x 0

4. Erstellen von Klassen

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Forschungsstatistik I

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), Michael Roers (Übung),

Einfache statistische Auswertungen mit dem TI-Nspire

Fachhochschule Düsseldorf Wintersemester 2008/09

Gefährdet die ungleiche Verteilung unseres Vermögens den gesellschaftlichen Zusammenhalt?

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Professionelle Seminare im Bereich MS-Office

Wachstum 2. Michael Dröttboom 1 LernWerkstatt-Selm.de

2. Mai Geldtheorie und -politik. Die Risiko- und Terminstruktur von Zinsen (Mishkin, Kapitel 6)

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Financial Leverage. und die unendliche Rendite des Eigenkapitals und ihr Risiko

Repetitionsaufgaben Wurzelgleichungen

Theoretische Grundlagen der Informatik WS 09/10

Survival of the Fittest Wie statistische Modelle an Daten angepasst werden

Modul G.1 WS 07/08: Statistik Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Statistische Thermodynamik I Lösungen zur Serie 1

Mikroökonomik 9. Vorlesungswoche

Modellierung biologischer. Christian Maidorfer Thomas Zwifl (Seminar aus Informatik)

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Vorkurs Mathematik Übungen zu Polynomgleichungen

Auswertung und Lösung

Einfache statistische Auswertungen mit dem Programm SPSS

Abitur 2007 Mathematik GK Stochastik Aufgabe C1

einfache Rendite

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Multinomiale logistische Regression

Übungen Programmieren 1 Felix Rohrer. Übungen

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Risikomanagement im Gesundheitswesen Eine ökonomische Nutzen-Analyse unter Einbezug der Haftpflichtversicherungsprämien

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 3 1. Semester ARBEITSBLATT 3 RECHNEN MIT GANZEN ZAHLEN

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Simplex-Umformung für Dummies

Value at Risk Einführung

Biostatistik 101 Korrelation - Regressionsanalysen

Transkript:

Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression 9 p.0/72 Lernziele 1. Beschreiben lineares Regressionsmodell. 2. Geben die einzelnen Modellierungsschritte an. 3. Erklären die (gewöhnliche) Methode der kleinsten Quadrate, (gewöhnliche Kleinste-Quadrate-Methode). 4. Berechnen Regressionskoeffizienten. 5. Prognostizieren die Antwort -Variable. Sie wird auch als Repsonse -, abhängige, zu erklärende Variable, oder Regressand bezeichnet. 6. Interpretieren einen Computerausdruck. Statistik Einführung // Lineare Regression 9 p.1/72 Modelle Statistik Einführung // Lineare Regression 9 p.2/72

1. Die Repräsentation einer Auswahl von Phänomenen. 2. Ein quantitatives Modell ist eine formale (mathematische) Darstellung einer Auswahl von Phänomenen. 3. Es beschreibt oft Zusammenhänge zwischen Variablen. 4. Tpen von Modellen: Deterministische Modelle Stochastische Modelle Statistik Einführung // Lineare Regression 9 p.3/72 Deterministische Modelle 1. Formulieren Hpothesen über eakte Zusammenhänge. 2. Sind geeignet, wenn der Prognosefehler vernachlässigbar ist. Beispiele: Kraft = Masse Beschleunigung F m a Energie = Masse Lichtgeschwindigkeit 2 E m c 2 Statistik Einführung // Lineare Regression 9 p.4/72 Stochastische Modelle 1. Formulieren Hpothesen über 2 Komponenten Deterministische Komponente Zufälligen Fehler 2. Beispiel: Das Verkaufsvolumen, Y, ist 10 mal so groß wie die Werbeausgaben, X, plus einem zufälligen Fehler, ɛ. Y 10 X ɛ Der zufällige Fehler, ɛ, wird durch Faktoren bestimmt, die nicht durch die Werbeausgaben beeinflusst werden: Wetter, Konkurrenzangebote, Konjunkturzklus, Änderungen im Distributionsnetz, Kunde Maer hat im Lotto gewonnen,.... Statistik Einführung // Lineare Regression 9 p.5/72

Stochastische Modelle Andere Modelle Statistik Einführung // Lineare Regression 9 p.6/72 Regressionsmodelle Statistik Einführung // Lineare Regression 9 p.7/72 Tpen von stochastischen Modellen Stochastische Modelle Regressionsmodelle Korrelationsmodelle Regressionsmodelle Korrelationsmodelle Andere Modelle Statistik Einführung // Lineare Regression 9 p.8/72

1. Beantworten die Frage: Wie sieht der Zusammenhang zwischen Variablen aus? 2. Die Gleichung besteht aus: Eine numerische, abhängige (Response-) Variable, Y. Was soll erklärt (prognostiziert) werden? Eine oder mehrere numerische oder kategoriale, unabhängige (erklärende) Variable, X 1, X 2,.... Was hilft Y zu erklären (prognostizieren)? 3. Hauptsächlich verwendet für: Schätzen und Testen: Gibt es einen Zusammenhg. zwischen den Variablen? Wie stark ist der Zusammenhang? Prognose Statistik Einführung // Lineare Regression 9 p.9/72 Regression // Modellierungsschritte 1. Hpothese über die deterministische Komponente. 2. Schätzen die unbekannten Parameter im Modell. 3. Spezifizieren die Wahrscheinlichkeitsverteilung des Fehlerterms. Schätzen die Standardabweichung des Fehlers. 4. Überprüfen das Modell. 5. Verwenden das Modell für die Prognose. Statistik Einführung // Lineare Regression 9 p.10/72 Modellspezifikation Statistik Einführung // Lineare Regression 9 p.11/72

Hpothese über die deterministische Komponente. 2. Schätzen die unbekannten Parameter im Modell. 3. Spezifizieren die Wahrscheinlichkeitsverteilung des Fehlerterms. Schätzen die Standardabweichung des Fehlers. 4. Überprüfen das Modell. 5. Verwenden das Modell für die Prognose. Statistik Einführung // Lineare Regression 9 p.12/72 Spezifikation eines Modells 1. Definieren die Variablen, die im Modell aufgenommen werden sollen. Konzeptuell Empirisch z.b., Werbeausgaben, Preis z.b., Listenpreis, tatsächlicher Verkaufspreis Messung c, Einheiten,... ; tägl., monatl.,... 2. Hpothesen über die Art des Zusammenhangs Erwartete Effekte: Funktionale Form: Interaktionen Größe der Koeffizienten, Vorzeichen linear oder nicht-linear Statistik Einführung // Lineare Regression 9 p.13/72 Modellspezifikation basiert auf Theorie Theorie des Gebiets (Substanzwissenschaften): Verhaltenswissenschaften, Konsumtheorie, Theorie der Firma,.... Mathematische Theorie: Zur Quantifizierung, zur Modellierung von Maimierungsverhalten,.... Vorhergehende Forschung: Z.B., publizierte Arbeiten dazu. Plausibilität, Hausverstand, begründbare Erfahrung. Statistik Einführung // Lineare Regression 9 p.14/72

Verkäufe in Stk. positiv linear negativ linear Y a b log X logistische Sättigungsfunktion Werbeausgaben Statistik Einführung // Lineare Regression 9 p.15/72 Tpen von Regressionsmodellen Regressionsmodelle Einfache 1 erklärende Variable Multiple 2+ erklärende Variablen Linear Nichtlinear Linear Nichtlineare Statistik Einführung // Lineare Regression 9 p.16/72 Lineares Regressionsmodell Statistik Einführung // Lineare Regression 9 p.17/72

Regressionsmodelle Einfache 1 erklärende Variable Multiple 2+ erklärende Variablen Linear Nichtlinear Linear Nichtlineare Statistik Einführung // Lineare Regression 9 p.18/72 Linearer Zusammenhang a b Veränderung in Veränderung in -Interzept a 0 Steigung b Veränderung in Veränderung in Statistik Einführung // Lineare Regression 9 p.19/72 Lineares Regressionsmodell 1. Der Zusammenhang zwischen den Variablen ist eine lineare Funktion. Interzept in GG Steigung in GG Zufälliger Fehler Y i β 0 β 1 X i ɛ i Abhängige (Response-) Variable Unabhängige (erklärende) Variable Statistik Einführung // Lineare Regression 9 p.20/72

Grundgesamtheit Unbekannter Zusammenhang β 0, β 1 unbekannt Y i β 0 β 1 X i ɛ i Stichprobe (Zufallsauswahl) i ˆβ 0 ˆβ 1 i ˆɛ i Statistik Einführung // Lineare Regression 9 p.21/72 Lineares Modell in der Grundgesamtheit 0 ɛ i Y i Datenpunkte der Grundgesamtheit β 0 β 1 X i ɛ i Zufälliger Fehler E Y i X i β 0 β 1 X i Statistik Einführung // Lineare Regression 9 p.22/72 Lineares Modell in der Stichprobe 0 ˆɛ i Beobachtete Werte i ˆβ 0 ˆβ 1 i ˆɛ i Zufälliger Fehler ŷ i ˆβ 0 ˆβ 1 i Nicht in der Stichprobe Statistik Einführung // Lineare Regression 9 p.23/72

Schätzung der Parameter: Methode der kleinsten Quadrate Statistik Einführung // Lineare Regression 9 p.24/72 Regression // Modellierungsschritte 1. Hpothese über die deterministische Komponente. Schätzen die unbekannten Parameter im Modell. 3. Spezifizieren die Wahrscheinlichkeitsverteilung des Fehlerterms. Schätzen die Standardabweichung des Fehlers. 4. Überprüfen das Modell. 5. Verwenden das Modell für die Prognose. Statistik Einführung // Lineare Regression 9 p.25/72 Streudiagramm 1. Graphische Darstellung aller Paare i, i. 2. Gibt einen Eindruck über die Anpassungsgüte des Modells. 0 Statistik Einführung // Lineare Regression 9 p.26/72

Wie würden Sie eine Gerade durch die Punkte(wolke) legen? Wie bestimmt man die Gerade, die am besten passt? 0 Statistik Einführung // Lineare Regression 9 p.27/72 Methode der kleinsten Quadrate 1. Bester Fit (Beste Anpassung) bedeutet, dass die Differenz zwischen tatsächlichen -Werten und vorhergesagten (modellierten) Werten, ŷ, minimal ist. Aber: positive Differenzen löschen negative aus. Daher wird die quadratische Abweichung verwendet. n i 1 i ŷ i 2 n ɛi 2 i 1 min 2. Die Methode der kleinsten Quadrate minimiert die Summe der quadrierten Differenzen. (Engl.: (ordinar) least squares, (O)LS) Statistik Einführung // Lineare Regression 9 p.28/72 Kleinste-Quadrate (LS) graphisch LS minimiert n ˆɛ i 2 ˆɛ 2 1... ˆɛ 2 6 i 1 3 ˆβ 0 ˆβ 1 3 ˆɛ 3 0 ˆɛ 1 ˆɛ 2 ˆɛ 3 ˆɛ 4 ˆɛ 5ˆɛ 6 ŷ i ˆβ 0 ˆβ 1 i Statistik Einführung // Lineare Regression 9 p.29/72

Vorhersagegleichung ŷ i ˆβ 0 ˆβ 1 i Schätzer für die Steigung ˆβ 1 n i i i i n i 2 i 2 Schätzer für den -Interzept ˆβ 0 ȳ ˆβ 1 Statistik Einführung // Lineare Regression 9 p.30/72 Berechnungstabelle 2 2 1 1 2 1 2 1 1 1 2 2 2 2 2 2 2 2..... n n 2 n 2 n n n i i 2 i 2 i i i Statistik Einführung // Lineare Regression 9 p.31/72 Interpretation der Koeffizienten 1. Steigung, ˆβ 1 Das geschätzte ändert sich um ˆβ 1, wenn um eine Einheit erhöht wird. Wenn ˆβ 1 2, dann steigen die Verkäufe,, um 2 Einheiten für jede Einheit mehr in den Werbeausgaben,. 2. -Interzept, ˆβ 0 ˆβ 0 ist der durchschnittliche Wert von, wenn 0. Ist ˆβ 0 4, so werden 4 Verkaufseinheiten erwartet, wenn keine Werbeausgaben gemacht werden. Statistik Einführung // Lineare Regression 9 p.32/72

Sie sind ein Marketinganalst für Haribo. Sie sammeln folgende Daten: Monat Werbeausgaben Verkäufe (1000 c) (Einheiten) 1 1 1 2 2 1 3 3 2 4 4 2 5 5 4 Wie sieht die Beziehung zwischen Verkäufen und Werbeausgaben aus? Statistik Einführung // Lineare Regression 9 p.33/72 Streudiagramm: Werbung vs. Verkäufe Vorhersagegleichung ŷ i ˆβ 0 ˆβ 1 i... Verkäufe... Werbeausgaben in 1000 c 0 Statistik Einführung // Lineare Regression 9 p.34/72 Berechnungstabelle: Beispiel 2 2 1 1 1 1 1 2 1 4 1 2 3 2 9 4 6 4 2 16 4 8 5 4 25 16 20 15 10 55 26 37 Statistik Einführung // Lineare Regression 9 p.35/72

Schätzer für die Steigung ˆβ 1 n i i n 2 i i i i 2 5 37 15 10 5 55 15 2 0.70 Schätzer für den -Interzept ˆβ 0 ȳ ˆβ 1 2 0.70 3 0.10 Statistik Einführung // Lineare Regression 9 p.36/72 Interpretation der Schätzung Das geschätzte Modell lautet: i ˆβ 0 ˆβ 1 i ˆɛ i bzw. ŷ i 0.10 0.7 i 1. Steigung, ˆβ 1 Das Verkaufsvolumen,, steigt im Durchschnitt um 0.7 Einheiten pro eingesetzte Einheit Werbeausgaben,. 2. -Interzept, ˆβ 0 Das durchschnittliche Verkaufsvolumen ist die Werbeausgaben Null sind. 0.10, wenn (In der Prais erwartet man auch eine geringe Verkaufsmenge, wenn keine Werbung gemacht wird.) Statistik Einführung // Lineare Regression 9 p.37/72 Computer Output // R > =c(1,2,3,4,5) > =c(1,1,2,2,4) > lm( ) Call: lm(formula = ) Coefficients: (Intercept) -0.1 0.7 ˆβ 0 ˆβ 1 Statistik Einführung // Lineare Regression 9 p.38/72

Wahrscheinlichkeitsverteilung des Fehlerterms Statistik Einführung // Lineare Regression 9 p.39/72 Regression // Modellierungsschritte 1. Hpothese über die deterministische Komponente. 2. Schätzen die unbekannten Parameter im Modell. Spezifizieren die Wahrscheinlichkeitsverteilung des Fehlerterms. Schätzen die Standardabweichung des Fehlers. 4. Überprüfen das Modell. 5. Verwenden das Modell für die Prognose. Statistik Einführung // Lineare Regression 9 p.40/72 Lineare Regression // Annahmen 1. Das Mittel der Wahrscheinlichkeitsverteilung des Fehlers ist Null. 2. Die Wahrscheinlichkeitsverteilung des Fehlers hat eine konstante Varianz. (Unabhängig von ) 3. Der Fehler ist normalverteilt. 4. Die Fehler sind unabhängig von einander. Statistik Einführung // Lineare Regression 9 p.41/72

f ˆɛ 1 2 Statistik Einführung // Lineare Regression 9 p.42/72 Variation im (Zufalls-) Fehler 1. Die Varianz des Fehlers ist die Varianz der Differenz zwischen aktuellem und modelliertem ŷ. 2. Die Variation im Fehler wird gemessen durch die Stichprobenstandardabweichung von ˆɛ, s ɛ. 3. Die Größe der Variation im Fehler beeinflusst: Parametersignifikanz Vorhersagegenauigkeit 4. Die Variation im Fehler steht für die Unsicherheit im Modell. Sie entsteht durch Effekte, die nicht durch das Modell erfasst werden. Statistik Einführung // Lineare Regression 9 p.43/72 Maße für die Variation in der Regression 1. Gesamtsumme der Abweichungsquadrate (in ) Variation der beobachteten -Werte um dessen Mittel ȳ. Dt.: Summe der quadratischen Abweichungen total, SQT. Engl.: Total sum of squares, SS. 2. Erklärte Variation Variation, die durch die Beziehung von und entsteht. Dt.: Erklärte Abweichungsquadratsumme, SQE. Engl.: Sum of squares in the regression, SSR. 3. Unerklärte Variation Variation, die nicht in der Regression erklärt wird. Dt.: Abweichungsquadratsumme der Residuen, SQR. Engl.: Sum of squares in the errors, SSE. Statistik Einführung // Lineare Regression 9 p.44/72

Unerklärte Abweichungsquadratsumme i i ŷ i 2 Gesamte Abweichungsquadratsumme i ȳ 2 0 ŷ i ˆβ 0 ˆβ 1 i Erklärte Abweichungsquadratsumme ŷ i ȳ 2 SQ-Gesamt = SQ-Erklärt + SQ-Unerklärt SS SSR SSE i ȳ 2 ŷ i ȳ 2 i ŷ i 2 ȳ Statistik Einführung // Lineare Regression 9 p.45/72 Bestimmtheitsmaß Anteil der Variation, die durch die Beziehung zwischen und erklärt wird. 0 r 2 1 r 2 erklärte Variation gesamte Variation SSR SS ŷ i ȳ 2 i ȳ 2 SQE SQT Eine andere Darstellung: r 2 1 unerklärte Variation gesamte Variation 1 SQR SQT 1 SSE SS 1 i ŷ i 2 i ȳ 2 r 2 1 i 2 ˆβ 0 i ˆβ 1 i i i 2 1 n i 2 Statistik Einführung // Lineare Regression 9 p.46/72 Bestimmtheitsmaß // Beispiele eakter linearer Zusammenhang r 2 1 eakter linearer Zusammenhang r 2 1 kein linearer Zusammenhang r 2 0 schwacher Zusammenhang r 2 0.31 Statistik Einführung // Lineare Regression 9 p.47/72

Sie sind ein Marketinganalst für Haribo. Sie schätzen ŷ i 0.1 0.7 i wobei... Verkäufe und... Werbeausgaben in 1000 c sind. Die Daten dazu sind: Monat Werbeausgaben Verkäufe (1000 c) (Einheiten) 1 1 1 2 2 1 3 3 2 4 4 2 5 5 4 Statistik Einführung // Lineare Regression 9 p.48/72 Berechnungstabelle: Beispiel 2 2 1 1 1 1 1 2 1 4 1 2 3 2 9 4 6 4 2 16 4 8 5 4 25 16 20 15 10 55 26 37 ŷ i ˆβ 0 ˆβ 1 i 0.10 0.70 i r 2 1 i 2 ˆβ 0 i ˆβ 1 i i i 2 1 n i 2 1 26 0.10 10 0.70 37 0.817 26 1 5 10 2 Wie ist das Bestimmtheitsmaß von r 2 0.817 zu interpretieren? Statistik Einführung // Lineare Regression 9 p.49/72 Computer Output // R > summar(lm( )) Call: lm(formula = ) Residuals: r 2 1 2 3 4 5 4.000e-01-3.000e-01-3.237e-17-7.000e-01 6.000e-01 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.1000 0.6351 0.157 0.8849 0.7000 0.1915 3.656 0.0354 * -- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.6055 on 3 degrees of freedom Multiple R-Squared: 0.8167, Adjusted R-squared: 0.7556 F-statistic: 13.36 on 1 and 3 DF, p-value: 0.03535 Statistik Einführung // Lineare Regression 9 p.50/72

Modellüberprüfung Statistik Einführung // Lineare Regression 9 p.51/72 Regression // Modellierungsschritte 1. Hpothese über die deterministische Komponente. 2. Schätzen die unbekannten Parameter im Modell. 3. Spezifizieren die Wahrscheinlichkeitsverteilung des Fehlerterms. Schätzen die Standardabweichung des Fehlers. Überprüfen das Modell. 5. Verwenden das Modell für die Prognose. Statistik Einführung // Lineare Regression 9 p.52/72 Test des Steigungsparameters 1. ˆβ 1 ist ein Indikator für den linearen Zusammenhang zwischen und. 2. Hängt von der Steigung, β 1, in der Grundgesamtheit (wahrem Modell) ab. 3. Hpothesen H 0 : β 1 0 (Kein linearer Zusammenhang) H A : β 1 0 (Linearer Zusammenhang) 4. Theoretische Basis ist die Stichprobenverteilung der Steigung. Statistik Einführung // Lineare Regression 9 p.53/72

0 Stichprobenverteilung S β1 Alle möglichen Stichproben-Steigungen Stichpr. 1 0.51 Stichpr. 2 0.27 Stichpr. 3 0.24 Sehr große Anzahl von Steigungen. β 1 ˆβ 1 Statistik Einführung // Lineare Regression 9 p.54/72 Teststatistik für die Steigung t n 2 ˆβ 1 β 1 s ˆβ 1 wobei s 2ˆβ 1 s 2 ɛ i 2 und s 2 ɛ 1 n 2 ˆɛ 2 i t-verteilung, Freiheitsgrade: ν n 2 Zur Berechnung: s 2 ɛ 1 n 2 ˆɛ 2 i i 2 2 i 1 n 2 2 i 1 n i 2 ˆβ 0 i ˆβ 1 i i Statistik Einführung // Lineare Regression 9 p.55/72 Test auf den Steigungsparameter // Beispiel Sie sind ein Marketinganalst für Haribo. Sie schätzen ŷ i 0.1 0.7 i und s ɛ 0.6055 wobei... Verkäufe und... Werbeausgaben in 1000 c sind. Gibt es eine Beziehung zwischen Werbeausgaben und Verkäufen? Testen Sie bei einem Signifikanzniveau von 10%. Monat Werbeausgaben Verkäufe 1 1 1 2 2 1 3 3 2 4 4 2 5 5 4 Statistik Einführung // Lineare Regression 9 p.56/72

2 2 1 1 1 1 1 2 1 4 1 2 3 2 9 4 6 4 2 16 4 8 5 4 25 16 20 15 10 55 26 37 ŷ i ˆβ 0 ˆβ 1 i 0.10 0.70 i s 2 ɛ 1 n 2 ɛ2 i n 2 2 i ˆβ 0 i ˆβ 1 i i 5 2 26 0.10 10 0.70 37 1 1 0.3666 i 2 2 i 1 n i 2 55 1 5 15 2 10 s 2ˆβ 1 t n 2 s 2 ɛ 0.3666 i 2 10 0.03666 ˆβ 1 β 1 s ˆβ 1 0.70 0 0.1915 3.655 Statistik Einführung // Lineare Regression 9 p.57/72 Test auf den Steigungsparameter // Lösung H 0 : β 1 0 H A : β 1 0 α 0.10 ν 5 2 3 Kritische Werte: 2.353 Teststatistik: t ˆβ 1 β 1 s ˆβ 1 0.70 0 0.1915 3.655 Entscheidung: H 0 wird abgelehnt. H 0 ablehnen 5% 2.35 0 H 0 ablehnen 5% 2.35 X Interpretation: Es gibt Evidenz für eine Beziehung zwischen Werbeausgaben und Verkäufen. Statistik Einführung // Lineare Regression 9 p.58/72 Computer Output // R > summar(lm( )) Call: lm(formula = ) Residuals: 1 2 3 4 5 4.000e-01-3.000e-01-3.237e-17-7.000e-01 6.000e-01 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.1000 0.6351 0.157 0.8849 0.7000 0.1915 3.656 0.0354 *...... s ˆβ 1 t ˆβ 1 s ˆβ 1 Statistik Einführung // Lineare Regression 9 p.59/72

Verwenden das Modell für die Prognose Statistik Einführung // Lineare Regression 9 p.60/72 Regression // Modellierungsschritte 1. Hpothese über die deterministische Komponente. 2. Schätzen die unbekannten Parameter im Modell. 3. Spezifizieren die Wahrscheinlichkeitsverteilung des Fehlerterms. Schätzen die Standardabweichung des Fehlers. 4. Überprüfen das Modell. Verwenden das Modell für die Prognose. Statistik Einführung // Lineare Regression 9 p.61/72 Prognose mit Regressionsmodellen Arten von Prognosen Punktprognose Intervallprognose Statistik Einführung // Lineare Regression 9 p.62/72

Wahres Modell: i β 0 β 1 i ɛ i Geschätztes Modell: ŷ i ˆβ 0 ˆβ 1 i Prognose: ŷ p p ŷ p ˆβ 0 ˆβ 1 p Statistik Einführung // Lineare Regression 9 p.63/72 Punktprognose // Beispiel Marketinganalst bei Haribo (ŷ i 0.10 0.70 i ) 0 ŷ i ˆβ 0 ˆβ 1 i p 3.5 p 6.0 p 3.5 p 6.0 p 3.5 0.10 0.70 3.5 2.35 p 6.0 0.10 0.70 6.0 4.10 Statistik Einführung // Lineare Regression 9 p.64/72 Korrelationsmodelle Statistik Einführung // Lineare Regression 9 p.65/72

Stochastische Modelle Regressionsmodelle Korrelationsmodelle Andere Modelle Statistik Einführung // Lineare Regression 9 p.66/72 Korrelationsmodelle 1. Beantworten die Frage: Wie stark ist der lineare Zusammenhang zwischen 2 Variablen? 2. Korrelationskoeffizient Korrelationskoeffizient in der Grundgesamtheit wird als ρ (rho) bezeichnet. Er liegt immer zwischen 1 und 1: 1 ρ 1. Er misst den linearen Zusammenhang. Statistik Einführung // Lineare Regression 9 p.67/72 Stichprobenkorrelationskoeffizient Der Stichprobenkorrelationskoeffizient, r, zwischen und ist der Pearson sche Produktmoment Koeffizient der Korrelation: r Bestimmtheitsmaß aber mit einem Vorzeichen versehen. r i i ȳ i 2 i ȳ 2 Berechnung über die Arbeitstabelle: r 2 i i i n 2 n ȳ 2 i nȳ 2 Statistik Einführung // Lineare Regression 9 p.68/72

Perfekte negative Korrelation Keine Korrelation Perfekte positive Korrelation 1.0 0.5 0.0 0.5 1.0 Statistik Einführung // Lineare Regression 9 p.69/72 Korrelationskoeffizient: Beispiele eakter linearer Zusammenhang r 1 kein linearer Zusammenhang r 0 eakter linearer Zusammenhang r 1 schwacher Zusammenhang r 0.56 Statistik Einführung // Lineare Regression 9 p.70/72 Test auf den Korrelationskoeffizienten 1. Wir testen auf einen linearen Zusammenhang zwischen zwei numerischen (quantitativen) Variablen. 2. Das ist das gleiche Problem, wie der Test auf die Steigung in der Grundgesamtheit, β 1, auf Null. 3. Hpothesen H 0 : ρ 0 (Keine Korrelation) H A : ρ 0 (Korrelation) Statistik Einführung // Lineare Regression 9 p.71/72

1. Beschrieben lineares Regressionsmodell. 2. Gaben die einzelnen Modellierungsschritte an. 3. Erklärten die (gewöhnliche) Methode der kleinsten Quadrate. 4. Berechneten und testeten Regressionskoeffizienten. 5. Prognostizieren die Antwort -Variable. 6. Interpretieren einen Computerausdruck. 7. Zeigten den Zusammenhang zwischen der Steigung der Regressionsgeraden und dem Korrelationskoeffizienten auf. Statistik Einführung // Lineare Regression 9 p.72/72