Korrelation - Regression. Berghold, IMI

Ähnliche Dokumente

Standardab er des. Testwert = % Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Kontingenzkoeffizient (nach Pearson)

Korrelation (II) Korrelation und Kausalität

Zusammenhänge zwischen metrischen Merkmalen

Inhaltsverzeichnis. Regressionsanalyse. - Stand vom:

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

2. Korrelation, lineare Regression und multiple Regression

Quantitative Methoden der Bildungsforschung

Varianzanalyse (ANOVA: analysis of variance)

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Anhang A: Fragebögen und sonstige Unterlagen

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Modul G.1 WS 07/08: Statistik Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Datenanalyse mit Excel. Wintersemester 2013/14

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Überblick über die Verfahren für Ordinaldaten

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

5 Zusammenhangsmaße, Korrelation und Regression

Musterlösung zu Serie 14

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Statistik Einführung // Lineare Regression 9 p.2/72

Portfoliotheorie. Von Sebastian Harder

Fortgeschrittene Statistik Logistische Regression

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Einführung in statistische Analysen

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe Institut für Statistik Ludwig-Maximilians-Universität München

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Einfache statistische Auswertungen mit dem Programm SPSS

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Tutorial: Homogenitätstest

1 Darstellen von Daten

Kosten-Leistungsrechnung Rechenweg Optimales Produktionsprogramm

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Forschungsstatistik I

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

4. Erstellen von Klassen

Dokumentation. estat Version 2.0

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Statistische Thermodynamik I Lösungen zur Serie 1

Kapitel 23 Lineare Regression

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Risikodiversifikation. Birgit Hausmann

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Binäre abhängige Variablen

Webergänzung zu Kapitel 10

1.3 Die Beurteilung von Testleistungen

Etwas positive Tendenz ist beim Wechsel der Temperatur von 120 auf 170 zu erkennen.

QM: Prüfen -1- KN

Teil II: Einführung in die Statistik

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Nichtparametrische statistische Verfahren

Interne und externe Modellvalidität

einfache Rendite

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Business Value Launch 2006

Die Interferenz von flexiblen Arbeitszeiten mit der Nutzbarkeit arbeitsfreier Zeit Ein Prädiktor für soziale Beeinträchtigungen

Willkommen zur Vorlesung Statistik

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

ChangePoint-Analysen - ein Überblick

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Auswertung mit dem Statistikprogramm SPSS:

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Willkommen zur Vorlesung Statistik (Master)

Kleine Einführung in die lineare Regression mit Excel

Grundlagen der Inferenzstatistik

Der monatliche Tarif für ein Handy wurde als lineare Funktion der Form f(x) = k x + d modelliert (siehe Grafik).

Felix-Nicolai Müller. Seminar Fragebogenmethodik - WS2009/ Universität Trier Dr. Dirk Kranz

Abhängigkeit zweier Merkmale

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Pfadanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Modul 1 STATISTIK Eine erste Einführung

Überblick über die Tests

Auswirkungen verschiedener Anonymisierungsverfahren und Erarbeitung von Korrekturverfahren in ausgewählten GLMs

Messung von Veränderungen. Dr. Julia Kneer Universität des Saarlandes

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Transkript:

Korrelation - Regression

Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines Scatterplots (Streudiagramm)

Scatterplot 10 9 8 7 6 5 4 Cholesterin 3 2 1 0 0 10 20 30 40 50 60 70 80 Alter

Korrelationsanalyse Mit der Korrelationsanalyse werden Maßzahlen berechnet, um die Stärke eines Zusammenhangs zu quantifizieren. Voraussetzungen: Beide Merkmale sind metrisch skaliert und stetig Die einzelnen Beobachtungseinheiten sind voneinander unabhängig

Korrelation Korrelationskoeffizient nach Pearson. Maß für die Stärke eines linearen Zusammenhangs. Liegt zwischen 1 und 1. 1 entspricht einem perfekten positiven Zusammenhang. -1 entspricht einem perfekten negativen Zusammenhang.

Korrelationskoeffizient nach Pearson r ( x x)( y y) i = i ( ) 2 x x ( y y) i i 2 = 338,075 6326,3 49,70275 = 0,603

Korrelationskoeffizient nach Pearson r 1 r 0. 2 r 0 r 0. 4

Korrelationskoeffizient nach Pearson 20.0 20.0 15.0 15.0 10.0 10.0 5.0 5.0 0.0 0.0 0.0 5.0 10.0 15.0 20.0 r = 0.8! 0.0 5.0 10.0 15.0 20.0 20.0 20.0 15.0 15.0 10.0 10.0 5.0 5.0 0.0 0.0 0.0 5.0 10.0 15.0 20.0 0.0 5.0 10.0 15.0 20.0

Monotoner Zusammenhang Korrelationskoeffizient nach Spearman Maß für monotonen Zusammenhang je höher das Alter umso höher das Cholesterin Basiert auf den Rängen der Daten

Rangtransformation Rangtransformation...... 42 5,57 42 5,57 39 5,74 36 2,92 33 6,72 33 5,23 30 4,65 29 4,92 21 4,97 Alter Cholesterin...... 9 12 8 11 7 13 6 1 5 24 4 10 3 2 2 5 1 6 Rang Alter Rang Cholesterin

Korrelationskoeffizient nach Spearman r s = 6 i= 1 1 3 n n d 2 i n n = 30 d i = Rang Alter Rang Cholesterin = 1 6 1672 27000 30 = 0,628

Unterschied Pearson scher Korrelationskoeffizient misst linearen Zusammenhang Liegen die Punkte auf einer Linie? Wird stark beeinflusst von extremen Beobachtungen Parametrisch (= die ursprünglich beobachteten Werte werden zur Berechnung herangezogen) Spearman scher Korrelationskoeffizient misst monotonen Zusammenhang Je höher das Alter umso höher ist das Cholesterin Robust gegenüber extremen Beobachtungen Nicht-parametrisch (= die rangtransformierten Werte werden zur Berechnung herangezogen)

Zusammenhang zwischen Geburtsgewicht und Alter 3400 3300 3200 Beispiel 2 Geburtsgewicht in g 3100 3000 2900 2800 2700 2600 10 20 Alter in Jahren 30 40 50 r r s = 0,504 = 0,391

Zusammenhang zwischen Geburtsgewicht und Alter 3400 3300 3200 Beispiel 2 3100 r = 0,155 Geburtsgewicht in g 3000 2900 2800 2700 2600 10 20 Alter in Jahren 30 40 50 r s = 0,217

Lineare Regression Konzise Beschreibung eines statistischen Zusammenhangs Klärung, ob die Wirkung eines Faktors unabhängig von anderen ist Möglichkeit der Prognose für einen einzelnen Patienten

Lineare Regression 200 180 maximal static expiratory pressure 160 140 120 100 80 60 40 20 0 0 10 20 30 40 50 60 70 80 90 100 weight

Definitionen Abhängige Variable (Regressand, response, outcome): Diese Variable soll aus der anderen Variable berechnet werden. y-achse Unabhängige Variable(n) (Regressor, Predictor, erklärende Variable(n)) x-achse Ziel der Regressionsanalyse: Vorhersage, Prediction Methode: Die Abweichungsquadrate der beobachteten Werte zur Regressionsgeraden sollen minimiert werden

Methode der Kleinsten Quadrate ( x 1, y1 ), ( x2, y2 ),...,( x n, y n )... Paare von Messungen metrischer Größen x i... unabhängige / erklärende Variable; Regressor y i... abhängige Variable; Regressand Für die Berechnung der abhängigen Variablen soll die Gerade so liegen, dass die Streuung der beobachteten Werte um diese Gerade möglichst klein ist. Diese Gerade ist die Regressionsgerade.

Methode der Kleinsten Quadrate Für den Zusammenhang zwischen und soll folgendes i i Modell gelten: y i = β 0 + β1x i + ε i i = 1,2,..., n x y und β sind die Regressionskoeffizienten β0 1 ist die Konstante (Intercept) in der Regressionsgerade β 0 ist die Steigung der Regressionsgeraden β 1 Die Regressionsgerade verläuft durch den Schwerpunkt ( x, y)

Methode der Kleinsten Quadrate 200 180 maximal static expiratory pressure 160 140 120 100 80 60 40 20 0 0 β 0 10 20 30 40 Residuum 50 60 ( x, y) 70 80 β 1 90 100 weight

Methode der Kleinsten Quadrate Q ˆ β 1 n = i= 1 ( β β ) 2 0 1 min β β y i x i ( x )( ) i x yi y ( x x) = 2 i 0, 1 ˆ β 0 = y β1x

Methode der Kleinsten Quadrate heißen Residuen der Regression heißen Prognosewerte der Regression Beispiel: ˆ ( ˆ β + ˆ β x ) r i = y i y i = y i 0 1 ˆ ˆ ˆ yi = β 0 + β1x i ˆ β = 66,181 0 ˆ β = 1,087 1 i

SPSS-output Modell 1 Modellzusammenfassung Standardf Korrigiertes ehler des R R-Quadrat R-Quadrat Schätzers,879 a,772,743 2,954 a. Einflußvariablen : (Konstante), Körpergröße in cm Modell 1 Regression Residuen Gesamt ANOVA b Quadrats Mittel der umme df Quadrate F Signifikanz 236,201 1 236,201 27,072,001 a 69,799 8 8,725 306,000 9 a. Einflußvariablen : (Konstante), Körpergröße in cm b. Abhängige Variable: Körpergewicht in kg Modell 1 (Konstante) Körpergröße in cm Nicht standardisierte Koeffizienten a. Abhängige Variable: Körpergewicht in kg Koeffizienten a Standardisie rte Koeffizienten 95%-Konfidenzintervall für B Standardf B ehler Beta T Signifikanz Untergrenze Obergrenze -93,243 31,388-2,971,018-165,624-20,862,912,175,879 5,203,001,508 1,316

Voraussetzungen Die Werte der Outcome-Variablen Y (bei uns weight ) sollten normalverteilt sein für jeden Wert der erklärenden Variablen X. Die Variabilität von Y (entspricht der Varianz bzw. der Standardabweichung) sollte gleich sein für jeden Wert von X. Varianzhomogenität Der Zusammenhang zwischen X und Y sollte linear sein.

Überprüfung Visuelle Inspektion des Scatterplots; Plot der Residuen vs. vorhergesagte Werte zufällige Verteilung der Daten; Wenn die Voraussetzungen zutreffen folgen die Resdiuen einer Normalverteilung - NQQ Plot.

Bestimmtheitsmaß Maß für die Güte der Anpassung = Bestimmtheitsmaß ˆ 2 i ( y y) R = = 2 2 yˆ ( ) 2 2 y y s i s y Gibt den Anteil der Varianz der Daten an, welche durch das Modell erklärt wird. 0 R 2 1

Residuenanalyse 60 40 Unstandardized Residual 20 0-20 -40-60 10 20 30 40 50 60 70 80 weight

Konfidenzbänder nder Die Berechnung der Regressionsgerade beruht auf den Daten Die berechneten Werte gelten nur für den Bereich, in welchem Beobachtungen vorhanden sind. Natürlich muss auch auf die Qualität der Daten geachtet werden.

Konfidenzbänder nder 200 180 160 maximal static expiratory pressure 140 120 100 80 60 40 20 0 0 10 20 30 40 50 60 70 80 90 100 weight

Unterschied Korrelation - Regression Korrelation beschreibt die Stärke eines linearen oder monotonen Zusammenhangs Regression beschreibt eine Ursache- Wirkungs-Beziehung

Multiple lineare Regression Es gibt mehrere unabhängige Variablen y = β + β x + β x +... + β 0 1 1 2 2 k x k