Mathematische und statistische Methoden I

Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/ WS 00/0 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz

der multiplen Regression. Der multiple Korrelationskoeffizient R Definition: Der multiple Korrelationskoeffizient R repräsentiert die Korrelation zwischen dem Kriterium y und allen Prädiktoren x x k Dabei berücksichtigt R etwaige Interkorrelationen zwischen den Prädiktoren (und entfernt sie) Der multiple Korrelationskoeffizient R ist definiert als R yxx xk j xjy j= k = β r Er ist mathematisch äquivalent zur Korrelation zwischen den gemessenen y-werten und den vorhergesagten y dach -Werten, also R yxx x = ryy k ˆ

der multiplen Regression. Der multiple Determinationskoeffizient R² Definition: Der multiple Determinationskoeffizient R² repräsentiert die Varianzaufklärung, die alle Prädiktoren x x k am Kriterium y leisten Der multiple Determinationskoeffizient R² ist definiert als Erklärte Streuung Fehlerstreuung R = = Gesamt-Streuung Gesamt-Streuung Rechnerisch: R Var( yˆ ) Var( e) n = = = Var( y) Var( y) n i= n n i= ( y yˆ ) ( y y)

der multiplen Regression 3. Abhängigkeit a) Sind die Prädiktoren unabhängig, so sind die ß- gleich den Kriteriumskorrelationen und die aufgeklärte Varianz ist die Summe der Quadrate der ß- Erklärung: Bei perfekt unabhängigen Prädiktoren ist die Prädiktorinterkorrelationsmatrix R xx gleich der Identitätsmatrix I. Damit gilt für den multiplen Korrelationskoeffizienten R Und R² ist einfach die Summe der quadrierten Kriteriumskorrelationen β = I r β = r R R xy k yxx x = r k xjy j= k yxx x = r k xjy j= xy

der multiplen Regression 3. Abhängigkeit a) Sind die Prädiktoren unabhängig, so sind die ß- gleich den Kriteriumskorrelationen und die aufgeklärte Varianz ist die Summe der Quadrate der ß- b) Sind die Prädiktoren abhängig (interkorreliert), so sind 3 Fälle zu unterscheiden:. Der Prädiktor klärt zumindest Teile der Varianz am Kriterium auf, die andere Prädiktoren nicht aufklären: er ist nützlich.. Der Prädiktor enthält Information, die bereits andere Prädiktoren enthalten: er ist redundant. Der Prädiktor unterdrückt irrelevante Varianz in anderen Prädiktoren: er ist ein Suppressor

der multiplen Regression 3a. Nützlichkeit Nützlichkeit = Der Beitrag, den eine Variable zur Varianzaufklärung des Kriteriums leistet, der von den anderen Variablen nicht geleistet wird Die Nützlichkeit einer Variablen x j berechnet sich als U = R R j y, x y, x,,..., k + j,,..., k j U j ist also der Betrag, um den R² wächst, wenn die Variable x j in die multiple Regressionsgleichung aufgenommen wird.

der multiplen Regression 3b. Redundanz Redundanz = die vielen Variablen messen Aspekte gemeinsam, so dass man prinzipiell weniger Prädiktoren benötigte unerwünschter Aspekt Die Variable x j ist redundant zur Vorhersage von Variable y wenn gilt β r < r x x y x y j j j Prädiktoren enthalten empirisch nahezu immer gemeinsame Varianzanteile und sind somit teilweise redundant. Echte Redundanz liegt aber erst gemäß obiger Definition vor. Multikollinearität: Die Kovarianz eines Prädiktors mit dem Kriterium ist in den anderen Prädiktoren (fast) vollständig enthalten extremer Fall von Redundanz.

der multiplen Regression 3c. Suppression r x y r x x r x y =0 x X Y x bindet irrelevante Prädiktorinformation x hängt nicht mit y zusammen, trotzdem erhöht sie R²

der multiplen Regression 3c. Suppression Defintion: Eine Variable x j ist ein Suppressor, wenn gilt: U x j > r x y j Die Zunahme der erklärten Varianz durch Aufnahme der Variable ist also größer als die einzelne Varianzaufklärung. Vereinfachung: Bei nur zwei Prädiktoren x und x ist x ein Supressor, wenn gilt: r -r xx xzx. > r xz -rx z

Statistischer Fragestellung Neben der Aussage über die Nützlichkeit eines Prädiktors ist man oft daran interessiert, ob er überhaupt mit dem Kriterium zusammenhängt Grundgedanke: Ein Prädiktor, der in keiner Verbindung zum Kriterium steht, sollte den Wert β j = 0 haben. Ein Prädiktor, der an der Veränderung des Kriteriums beteiligt ist, sollte einen Wert β j 0 haben. Problem: Allein aufgrund der zufälligen Auswahl der Merkmalsträger für die Stichprobe wird ein β-gewicht niemals perfekt Null sein ( Stichprobenfehler ).

Statistischer Fragestellung Frage: Wie unterschiedlich zu Null muss ein β-gewicht sein, damit wir begründet annehmen können, dass diese Abweichung nicht zufällig ist? Es existieren einfache statistische Verfahren zur (probabilistischen) Beantwortung dieser Fragestellung Ebenso kann geprüft werden, ob der multiple Korrelationskoeffizient zufällig zustande gekommen ist oder auf tatsächlichen systematischen Zusammenhängen zwischen Kriterium und Prädiktoren beruht

Grundlagen Linearisierbare Formen Polynome Nichtlineare Regression Grundlagen Bei einer Reihe psychologischer Fragestellungen ergeben sich nichtlineare Zusammenhänge zwischen UV & AV. Beispiele: Reaktionszeit, Blutalkohol und psychomotorische Leistungen, Fehlerraten in Leistungstests bei verschiedenen Aufgabenschwierigkeiten Solche nichtlinearen Zusammenhänge lassen sich in zwei Klassen einteilen:. Zusammenhänge, die sich durch eine einfache (nichtlineare) Transformationen in lineare Zusammenhänge überführen lassen. Zusammenhänge, für die eine nichtlineare Regressionsgleichung gelöst werden muss.

Grundlagen Linearisierbare Formen Polynome Nichtlineare Regression Linearisierbare und polynomische Formen Fall : Linearisierende Transformation, z.b. ˆ ( ) ln ˆ ln ln ln 0 0 y = b xb y = b + b x ( ) ( ) ( ) (hier nicht behandelt) Fall : Nicht (einfach) linearisierbar ŷ = b + b x+ b x 0

Grundlagen Nichtlineare Regression Beispiel: Logistische Regression 0.8 Linearisierbare Formen Polynome Gemessene Daten verlaufen ogivenförmig und variieren zwischen 0 und Umformung der y-werte durch Logarithmieren bewirkt eine Linearisierung der Daten Mithilfe dieser neuen y-werte kann eine lineare Regression bestimmt werden, um die Parameter b 0 und b zu errechnen 0.6 0.4 0. 0 0 0 0 30 40 6 4 0-0 - 0 0 40 60-4 -6-8

Grundlagen Linearisierbare Formen Polynome Grundlagen und Durchführung Häufig können Merkmalszusammenhänge durch Polynome. oder 3. Ordnung gut beschrieben werden, d.h. oder ŷ = b + b x+ b x 0 ŷ = b + b x+ b x + b x 3 0 3 Dies ist formal eine lineare multiple Regression, allerdings nicht mit mehreren Prädiktoren, sondern mit einem Prädiktor sowie Transformationen seiner selbst.

Grundlagen Linearisierbare Formen Polynome Grundlagen und Durchführung Eine solche polynomische Regression wird berechnet, indem die transformierten Prädiktorterme bestimmt werden Dann wird eine übliche lineare multiple Regression durchgeführt Die Einträge der Korrelationsmatrix sind dabei dann die Korrelationen des Prädiktors mit sich selbst in den transformierten Formen Es können alle von und Gütemaße der multiplen Regression bestimmt werden. Die polyn. Regression ist auch über die KQ-Methode (inkl. Normalgleichungen) herzuleiten. Dies führt auf dasselbe Ergebnis wie der hier verfolgte Ansatz.