Mathematische und statistische Methoden I

Ähnliche Dokumente
Mathematische und statistische Methoden I

Forschungsstatistik I

Forschungsstatistik I

Mathematische und statistische Methoden I

Forschungsstatistik I

Forschungsstatistik I

Forschungsstatistik I

Mathematische und statistische Methoden I

Mathematische und statistische Methoden II

Forschungsstatistik I

Forschungsstatistik I

Mathematische und statistische Methoden II

Multiple Regressionsanalyse - Kurzabriss

Mathematische und statistische Methoden I

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Forschungsstatistik I

Mathematische und statistische Methoden II

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

Vorlesung: Multivariate Statistik für Psychologen

Forschungsstatistik I

Mathematische und statistische Methoden II

Seminar: Multivariate Verfahren g Dr. Thomas Schäfer Referenten: Wiebke Hoffmann, Claudia Günther

Mathematische und statistische Methoden II

VS PLUS

Forschungsstatistik I

Korrelation und Regression

Forschungsstatistik II

Teil: lineare Regression

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Mathematische und statistische Methoden I

Die Funktion f wird als Regressionsfunktion bezeichnet.

Kapitel 4: Merkmalszusammenhänge

Mathematische und statistische Methoden II

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Forschungsstatistik I

Mathematische und statistische Methoden II

Informationen zur KLAUSUR am

Forschungsstatistik I

Mathematische und statistische Methoden II

Forschungsstatistik I

Mathematische und statistische Methoden I

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Mathematische und statistische Methoden II

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Korrelation und Regression

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I

Vorlesung 4: Spezifikation der unabhängigen Variablen

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Mathematische und statistische Methoden II

Aufgaben zu Kapitel 4

Forschungsstatistik I

Forschungsstatistik I

Analyse von Querschnittsdaten. Spezifikation der unabhängigen Variablen

Forschungsstatistik II

Methoden der Ökonometrie

Vorlesung 8a. Kovarianz und Korrelation

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Mathematische und statistische Methoden II

Aufgaben zu Kapitel 4

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Kapitel X - Lineare Regression

Grundlagen der Statistik

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression

W09 p. 1. Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

Statistik Klausur Wintersemester 2013/2014 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Forschungsstatistik I

Regression und Korrelation

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

TEIL 13: DIE EINFACHE LINEARE REGRESSION

Quantitative Methoden (Vertretung für Prof. Th. Pechmann)

Statistik Klausur Wintersemester 2013/2014 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Ziel der linearen Regression

Klassen diskreter Variablen

Diagnostik von Regressionsmodellen (1)

Analyse von Querschnittsdaten. Signifikanztests I Basics

Statistische Methoden in den Umweltwissenschaften

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Mathematische und statistische Methoden II

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Lineare vs. nichtlineare Zusammenhänge

Einführung in Quantitative Methoden

Anwendungen der Differentialrechnung

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Eine zweidimensionale Stichprobe

Mathematische und statistische Methoden II

ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Heinz Holling & Günther Gediga. Statistik - Deskriptive Verfahren

Bedingte nichtlineare Regression Worum geht es in diesem Modul? Beispiel: Das Verhältnismodell für geometrisch-optische Täuschungen III

Skalenniveaus =,!=, >, <, +, -

1.1. Zusammenhänge und Vorhersagen

Gewöhnliche Autokorrelationsfunktion (ACF) eines stationären Prozesses {X t } t Z zum Lag h

5 Beschreibung und Analyse empirischer Zusammenhänge

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

1 Beispiel zur Methode der kleinsten Quadrate

Transkript:

Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/ WS 00/0 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz

der multiplen Regression. Der multiple Korrelationskoeffizient R Definition: Der multiple Korrelationskoeffizient R repräsentiert die Korrelation zwischen dem Kriterium y und allen Prädiktoren x x k Dabei berücksichtigt R etwaige Interkorrelationen zwischen den Prädiktoren (und entfernt sie) Der multiple Korrelationskoeffizient R ist definiert als R yxx xk j xjy j= k = β r Er ist mathematisch äquivalent zur Korrelation zwischen den gemessenen y-werten und den vorhergesagten y dach -Werten, also R yxx x = ryy k ˆ

der multiplen Regression. Der multiple Determinationskoeffizient R² Definition: Der multiple Determinationskoeffizient R² repräsentiert die Varianzaufklärung, die alle Prädiktoren x x k am Kriterium y leisten Der multiple Determinationskoeffizient R² ist definiert als Erklärte Streuung Fehlerstreuung R = = Gesamt-Streuung Gesamt-Streuung Rechnerisch: R Var( yˆ ) Var( e) n = = = Var( y) Var( y) n i= n n i= ( y yˆ ) ( y y)

der multiplen Regression 3. Abhängigkeit a) Sind die Prädiktoren unabhängig, so sind die ß- gleich den Kriteriumskorrelationen und die aufgeklärte Varianz ist die Summe der Quadrate der ß- Erklärung: Bei perfekt unabhängigen Prädiktoren ist die Prädiktorinterkorrelationsmatrix R xx gleich der Identitätsmatrix I. Damit gilt für den multiplen Korrelationskoeffizienten R Und R² ist einfach die Summe der quadrierten Kriteriumskorrelationen β = I r β = r R R xy k yxx x = r k xjy j= k yxx x = r k xjy j= xy

der multiplen Regression 3. Abhängigkeit a) Sind die Prädiktoren unabhängig, so sind die ß- gleich den Kriteriumskorrelationen und die aufgeklärte Varianz ist die Summe der Quadrate der ß- b) Sind die Prädiktoren abhängig (interkorreliert), so sind 3 Fälle zu unterscheiden:. Der Prädiktor klärt zumindest Teile der Varianz am Kriterium auf, die andere Prädiktoren nicht aufklären: er ist nützlich.. Der Prädiktor enthält Information, die bereits andere Prädiktoren enthalten: er ist redundant. Der Prädiktor unterdrückt irrelevante Varianz in anderen Prädiktoren: er ist ein Suppressor

der multiplen Regression 3a. Nützlichkeit Nützlichkeit = Der Beitrag, den eine Variable zur Varianzaufklärung des Kriteriums leistet, der von den anderen Variablen nicht geleistet wird Die Nützlichkeit einer Variablen x j berechnet sich als U = R R j y, x y, x,,..., k + j,,..., k j U j ist also der Betrag, um den R² wächst, wenn die Variable x j in die multiple Regressionsgleichung aufgenommen wird.

der multiplen Regression 3b. Redundanz Redundanz = die vielen Variablen messen Aspekte gemeinsam, so dass man prinzipiell weniger Prädiktoren benötigte unerwünschter Aspekt Die Variable x j ist redundant zur Vorhersage von Variable y wenn gilt β r < r x x y x y j j j Prädiktoren enthalten empirisch nahezu immer gemeinsame Varianzanteile und sind somit teilweise redundant. Echte Redundanz liegt aber erst gemäß obiger Definition vor. Multikollinearität: Die Kovarianz eines Prädiktors mit dem Kriterium ist in den anderen Prädiktoren (fast) vollständig enthalten extremer Fall von Redundanz.

der multiplen Regression 3c. Suppression r x y r x x r x y =0 x X Y x bindet irrelevante Prädiktorinformation x hängt nicht mit y zusammen, trotzdem erhöht sie R²

der multiplen Regression 3c. Suppression Defintion: Eine Variable x j ist ein Suppressor, wenn gilt: U x j > r x y j Die Zunahme der erklärten Varianz durch Aufnahme der Variable ist also größer als die einzelne Varianzaufklärung. Vereinfachung: Bei nur zwei Prädiktoren x und x ist x ein Supressor, wenn gilt: r -r xx xzx. > r xz -rx z

Statistischer Fragestellung Neben der Aussage über die Nützlichkeit eines Prädiktors ist man oft daran interessiert, ob er überhaupt mit dem Kriterium zusammenhängt Grundgedanke: Ein Prädiktor, der in keiner Verbindung zum Kriterium steht, sollte den Wert β j = 0 haben. Ein Prädiktor, der an der Veränderung des Kriteriums beteiligt ist, sollte einen Wert β j 0 haben. Problem: Allein aufgrund der zufälligen Auswahl der Merkmalsträger für die Stichprobe wird ein β-gewicht niemals perfekt Null sein ( Stichprobenfehler ).

Statistischer Fragestellung Frage: Wie unterschiedlich zu Null muss ein β-gewicht sein, damit wir begründet annehmen können, dass diese Abweichung nicht zufällig ist? Es existieren einfache statistische Verfahren zur (probabilistischen) Beantwortung dieser Fragestellung Ebenso kann geprüft werden, ob der multiple Korrelationskoeffizient zufällig zustande gekommen ist oder auf tatsächlichen systematischen Zusammenhängen zwischen Kriterium und Prädiktoren beruht

Grundlagen Linearisierbare Formen Polynome Nichtlineare Regression Grundlagen Bei einer Reihe psychologischer Fragestellungen ergeben sich nichtlineare Zusammenhänge zwischen UV & AV. Beispiele: Reaktionszeit, Blutalkohol und psychomotorische Leistungen, Fehlerraten in Leistungstests bei verschiedenen Aufgabenschwierigkeiten Solche nichtlinearen Zusammenhänge lassen sich in zwei Klassen einteilen:. Zusammenhänge, die sich durch eine einfache (nichtlineare) Transformationen in lineare Zusammenhänge überführen lassen. Zusammenhänge, für die eine nichtlineare Regressionsgleichung gelöst werden muss.

Grundlagen Linearisierbare Formen Polynome Nichtlineare Regression Linearisierbare und polynomische Formen Fall : Linearisierende Transformation, z.b. ˆ ( ) ln ˆ ln ln ln 0 0 y = b xb y = b + b x ( ) ( ) ( ) (hier nicht behandelt) Fall : Nicht (einfach) linearisierbar ŷ = b + b x+ b x 0

Grundlagen Nichtlineare Regression Beispiel: Logistische Regression 0.8 Linearisierbare Formen Polynome Gemessene Daten verlaufen ogivenförmig und variieren zwischen 0 und Umformung der y-werte durch Logarithmieren bewirkt eine Linearisierung der Daten Mithilfe dieser neuen y-werte kann eine lineare Regression bestimmt werden, um die Parameter b 0 und b zu errechnen 0.6 0.4 0. 0 0 0 0 30 40 6 4 0-0 - 0 0 40 60-4 -6-8

Grundlagen Linearisierbare Formen Polynome Grundlagen und Durchführung Häufig können Merkmalszusammenhänge durch Polynome. oder 3. Ordnung gut beschrieben werden, d.h. oder ŷ = b + b x+ b x 0 ŷ = b + b x+ b x + b x 3 0 3 Dies ist formal eine lineare multiple Regression, allerdings nicht mit mehreren Prädiktoren, sondern mit einem Prädiktor sowie Transformationen seiner selbst.

Grundlagen Linearisierbare Formen Polynome Grundlagen und Durchführung Eine solche polynomische Regression wird berechnet, indem die transformierten Prädiktorterme bestimmt werden Dann wird eine übliche lineare multiple Regression durchgeführt Die Einträge der Korrelationsmatrix sind dabei dann die Korrelationen des Prädiktors mit sich selbst in den transformierten Formen Es können alle von und Gütemaße der multiplen Regression bestimmt werden. Die polyn. Regression ist auch über die KQ-Methode (inkl. Normalgleichungen) herzuleiten. Dies führt auf dasselbe Ergebnis wie der hier verfolgte Ansatz.