simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall

Ähnliche Dokumente
Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Diagnostik von Regressionsmodellen (1)

Regression und Korrelation

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

Prüfung aus Statistik 2 für SoziologInnen

Statistische Tests funktionieren generell nach obigem Schema; der einzige Unterschied besteht in der unterschiedlichen Berechnung der Testgröße.

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

11. Übungsblatt zur Vorlesung Ökonometrie SS 2014

Einführung in die Statistik

Statistische Messdatenauswertung

D-CHAB Frühlingssemester 2017 T =

Biostatistik 101 Korrelation - Regressionsanalysen

Einführung in die Statistik

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

Hypothesentests mit SPSS

Statistische Methoden in den Umweltwissenschaften

Statistik II: Signifikanztests /2

Musterlösung. Modulklausur Multivariate Verfahren

Versuchsplanung und multivariate Statistik Sommersemester 2018

Schweizer Statistiktage, Aarau, 18. Nov. 2004

Goethe-Universität Frankfurt

Allgemeine Chemie Computer Praktikum Frühjahrssemester Regressions-Tutorial Lineare und nicht-lineare Regression

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

3.3 Konfidenzintervalle für Regressionskoeffizienten

Lineare Regression. Kapitel Regressionsgerade

Übung V Lineares Regressionsmodell

Schätzung im multiplen linearen Modell VI

Statistische Methoden in den Umweltwissenschaften

Wie kann ich überprüfen, welche Verteilung meinen Daten zu Grunde liegt? Chi-Quadrat-Test auf Normalverteilung

Einführung in Quantitative Methoden

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

1 Beispiel zur Methode der kleinsten Quadrate

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Die Funktion f wird als Regressionsfunktion bezeichnet.

Bivariate Regressionsanalyse

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik II für Betriebswirte Vorlesung 8

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

I. Deskriptive Statistik 1

Sommersemester Marktforschung

a) Man bestimme ein 95%-Konfidenzintervall für den Anteil der Wahlberechtigten, die gegen die Einführung dieses generellen

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Einführung in die Statistik

Statistik II Übung 3: Hypothesentests

Stichwortverzeichnis. E Extrapolation, außerhalb des Datenbereichs 230

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

B. Regressionsanalyse [progdat.sav]

Brückenkurs Statistik für Wirtschaftswissenschaften

Statistik-Klausur A WS 2009/10

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Empirische Wirtschaftsforschung

Teil: lineare Regression

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Mehrfache Lineare Regression 1/9

Statistik II Übung 2: Multivariate lineare Regression

Korrelation - Regression. Berghold, IMI

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Statistik in Geodäsie, Geoinformation und Bauwesen

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Übungen mit dem Applet. by Michael Gärtner

Vorlesung: Statistik II für Wirtschaftswissenschaft

6.2 Lineare Regression

Statistik III. Methodologie der Psychologie

Statistik für Ingenieure und Naturwissenschaftler

Statistik II Übung 3: Hypothesentests Aktualisiert am

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Klausur zu Biometrische und Ökonometrische Methoden und Ökologische Statistik

Bachelorprüfung: Statistik (1 Stunde)

PVK Statistik Tag Carlos Mora

Tests für Erwartungswert & Median

Inhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken...

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Eine zweidimensionale Stichprobe

Kapitel XI - Korrelationsrechnung

Hochschule Darmstadt FB Mathematik und Naturwissenschaften. Statistik. für Wirtschaftsingenieure (B.Sc.) Sommersemester 2017

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern

9.3 Lineare Regression

Karl Entacher. FH-Salzburg

x t2 y t = 160, y = 8, y y = 3400 t=1

Klausurvorbereitung - Statistik

Computerübung 10. Empirische Wirtschaftsforschung. Willi Mutschler. 27. Januar Ökonometrie und Wirtschaftsstatistik Uni Münster

Deskriptive Beschreibung linearer Zusammenhänge

Uwe Hassler. Statistik im. Bachelor-Studium. Eine Einführung. für Wirtschaftswissenschaftler. ^ Springer Gabler

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Transkript:

Regression Korrelation simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall Zusammenhänge zw. Variablen Betrachtet man mehr als eine Variable, so besteht immer auch die Frage nach den Abhängigkeiten und Zusammenhängen zwischen diesen Variablen. Einfachster Ausdruck von Zusammenhängen: Streuplots Zusammenhang: qualitativ ( hängt ab von... ) quantitativ (Maßzahl für den Zusammenhang) Modellierung (mathemat. Funktion y = f(x)) Messdatenauswertung 1

Problem der Kovarianz: keine Invarianz gegen Skalierung Lösung: Standardabweichung als Maß verwenden ---> Korrelationskoeffizient nach Pearson Korrelation 1 Eigenschaften: Werte zwischen -1.0 und +1.0 r(x,y) = n n i= 1 (x x)(y i 2 (xi x) n i= 1 i= 1 i y) (yi y) 2 Annahmen: linearer Zusammenhang zwischen x und y kontinuierliche Zufallsvariablen beide Variablen müssen normal verteilt sein die Streuungen von x und y müssen voneinander unabhängig sein Korrelation 2 Bestimmtheitsmaß: Quadrat des Korrelationskoeffizienten wird zur Gütebeurteilung von linearen Modellen verwendet Tipp für die Praxis: Die Standardformel des Korrelationskoeffizenten ist umständlich und rechenaufwändig. Für den Einsatz im Computer eignet sich eine andere Formel besser (siehe Teach/Me) Übung: Schätzen des Korrelationskoeffizienten [GrundStat: PEARCORR] Direktlink: Pearsons Korrelationskoeffizient Messdatenauswertung 2

Korrelation 3 Korrelation = Maß für lineare Zusammenhänge empfindlich auf Ausreißer Beispiele: [GrundStat: CORREX] Direktlink: Beispiele von Korrelationen Regression 1 Linearer Zusammenhang zwischen unabhängiger und abhängiger Variable ==> einfachstes Modell ist eine Gerade Parameter der Geraden y = k*x + d so bestimmen, dass die Gerade den Zusammenhang optimal wiedergibt. Was heißt optimal? Messdatenauswertung 3

Regression 2 Regression kann als Optimierungsproblem aufgefasst werden: Gerade so legen, dass Summe der Abstände (rote Linien) minimal wird. [GrundStat: REGOPTI] Direktlink: Regression - Gerade Residuen Residuen (sing. Residuum) sind die Restwerte, also die Differenzen der y- Werte zwischen Regressionsgerade und den Messwerten: Messdatenauswertung 4

Annahmen und Voraussetzungen Der erwartete Zusammenhang zwischen X und Y ist linear Unterscheidung zwischen linearen, krummlinigen (kurvilinearen) und nicht linearen Zusammenhängen. Alle Messungen sind voneinander unabhängig Jeder Trend über die Zeit oder eine gemeinsame Korrelation mit einer dritten Variablen müssen vermieden werden. Für jedes X sind die Y-Werte normal verteilt. In der Praxis oft schwer zu überprüfen (geringe Zahl an Messwerten) Für jedes X hat die Y-Verteilung dieselbe Varianz Regression arbeitet nur mit homoskedastischen Daten korrekt Analyse der Residuen Die Analyse der Residuen ist ein einfaches und effizientes Mittel die Regression zu überprüfen: Residuen müssen um Null symmetrisch verteilt sein eine Normalverteilung bilden unabhängig vom Wert der unabhängigen Variable (meist x) sein DirektLink: Analyse der Residuen Messdatenauswertung 5

Skedastizität Skedastizität gibt das Verhalten der Streuung in Abhängigkeit von der unabhängigen Variablen an. Zwei Fälle: homoskedastisch: die Streuung ist konstant heteroskedastisch: die Streuung ändert sich mit der Signalamplitude Skedastizität kann anhand des Residuen-Plots erkannt werden [GrundStat: SCEDAST] Direktlink: Skedastizität Hebeleffekt Ausreißer haben großen Einfluss auf Regression: ein falscher Wert kann die Regressionsgerade massiv stören! --> daher immer visuelle Kontrolle der Regression notwendig [LEVERAGE] Direktlink: Hebeleffekt Messdatenauswertung 6

Zuverlässigkeit von Regressionsmodellen: Zuverlässigkeit - 1 hängt ab von den Residuen, der Zahl der Messwerte und (bei multivariaten Modellen) von der Zahl der Variablen. Bei simpler linearer Regression wird meist das Bestimmtheitsmaß (engl. coefficient of determination, auch goodness of fit ) herangezogen. Idee: Die Verkleinerung des Modellfehlers (=Residuen) bei Einbeziehung der unabhängigen Variable (siehe nächste Seite) Bestimmtheitsmaß i r 2 Bei simpler linearer Regression ist r 2 gleich dem Quadrat des Korrealtionskoeffizienten zwischen unabhängiger und abhängiger Variable. Bereich: 0.0 <= r 2 <= 1.0 Zuverlässigkeit - 2 r 2 SStot SS = SS tot reg Messdatenauswertung 7

Zuverlässigkeit - 3 Ist die Steigung k der Regressionsgeraden ungleich null? Die Antwort auf diese Frage gibt ebenfalls einen Hinweis auf die Zuverlässigkeit eines Regressionsmodells, da für den Fall, dass k sich signifikant von null unterscheidet die gefundene Regressionsgleichung kein Zufallsergebnis mehr sein kann. Zur Überprüfung verwendet man den F-Test aus der ANOVA (analysis of variances). Übersteigt der F-Wert die kritische Grenze, so wird die Nullhypothese k=0 verworfen (das Modell ist also gültig). Szenario: Bestimmtheitsmaß nahe 1.0 F-Wert weit über 1000 Kann eine solche Regression "falsch" sein? Zuverlässigkeit - 4 Ja! Wenn die Anforderung an die Präzision der Kalibration sehr hoch sind. Klassisches Beispiel: Eichung eines Massenspektrometers hier sind die Anforderungen an die Präzision so hoch, dass auch bei unbrauchbarer Kalibration sich ein Bestimmtheitsmaß von > 0.9999 ergibt Grund: die Abweichungen von der Modellkurve sind zwar klein im Vergleich zum Kalibrationsbereich, aber (zu) groß im Vergleich zu den Anforderungen an die Präzision und Genauigkeit ---> Residuenplot ansehen!! Messdatenauswertung 8

gibt den Vertrauensbereich der Regression an Konfidenzintervall 2 Intervalle: 1. Konfidenzintervall des Mittelwerts 2. Konfidenzintervall für geschätzte Werte Das zweite Intervall ist für die Praxis wichtig und ist immer deutlich größer als das erste. Messdatenauswertung 9