2. Korrelation, lineare Regression und multiple Regression



Ähnliche Dokumente
2. Korrelation, lineare Regression und multiple Regression

Methodik der multiplen linearen Regression

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167

Willkommen zur Vorlesung Statistik

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst.

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

30. März Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette

TEIL 13: DIE EINFACHE LINEARE REGRESSION

Deskriptive Beschreibung linearer Zusammenhänge

B. Regressionsanalyse [progdat.sav]

Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005

Hypothesentests mit SPSS

Die Funktion f wird als Regressionsfunktion bezeichnet.

TEIL 13: DIE LINEARE REGRESSION

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Inferenzstatistik (=schließende Statistik)

Einfaktorielle Varianzanalyse

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Eine zweidimensionale Stichprobe

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern

Kapitel 2 Wahrscheinlichkeitsrechnung

ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Statistik II. Weitere Statistische Tests. Statistik II

3.3 Konfidenzintervalle für Regressionskoeffizienten

Musterlösung. Modulklausur Multivariate Verfahren

Kapitel 5 FRAGESTELLUNG 1. Öffne die Datei alctobac.sav.

Die Korrelation von Merkmalen

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Statistik II. IV. Hypothesentests. Martin Huber

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

Statistik für SozialwissenschaftlerInnen II p.85

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002

SozialwissenschaftlerInnen II

Test auf einen Anteilswert (Binomialtest) Vergleich zweier Mittelwerte (t-test)

Kapitel 5: Einfaktorielle Varianzanalyse

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

23. Mai Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette

Geschlecht + Anfangsgehalt. T-Test für das Anfangsgehalt Gruppenstatistiken. Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3

Versuchsplanung. Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling

Multivariate Verfahren

Ü b u n g s b l a t t 15

Regression und Korrelation

Kapitel 5: Einfaktorielle Varianzanalyse

Statistik II Übung 1: Einfache lineare Regression

Prüfung aus Statistik 2 für SoziologInnen

Statistik II für Betriebswirte Vorlesung 12

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

x(n x) cm 2 ) zweier Betonsorten wird überprüft. Dabei ergaben Sorte Sorte

Statistische Tests (Signifikanztests)

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Statistisches Testen

Hypothesentests mit SPSS

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Wichtige Definitionen und Aussagen

Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung

Mathematik III - Statistik für MT(Master)

Tutorial: Regression Output von R

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

SPSS III Mittelwerte vergleichen

Deskriptive Statistik Beschreiben, Zusammenfassen, Darstellen gegebener Daten (Datenreduktion!)

6.2 Lineare Regression

STATISTIK II. Hans-Otfried Müller Institut für Mathematische Stochastik.

Statistik II Übung 1: Einfache lineare Regression

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Statistische Methoden in den Umweltwissenschaften

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Einführung in die Varianzanalyse mit SPSS

Uwe Hassler. Statistik im. Bachelor-Studium. Eine Einführung. für Wirtschaftswissenschaftler. ^ Springer Gabler

Statistik II Übung 3: Hypothesentests

1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests

Mittelwertvergleiche, Teil II: Varianzanalyse

Teil: lineare Regression

Klassifikation von Signifikanztests

Mittelwertvergleiche, Teil I: Zwei Gruppen

Bachelorprüfung: Statistik (1 Stunde)

Varianzvergleiche bei normalverteilten Zufallsvariablen

Skript Einführung in SPSS

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Statistik I für Betriebswirte Vorlesung 4

Transkript:

2., Linear 2., lineare multiple 2., lineare 2.1 2.2 Lineare 2.1 2.2 Lineare 2.7 Partielle 2.7 Partielle 1 / 149

2., Linear 2., lineare 2.1 2.2 Lineare 2.1 2.7 Partielle 2 / 149

2.1 Beispiel: Arbeitsmotivation 2., Linear Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Frage: besteht ein Zusammenhang zwischen der Variablen Motivation der Variablen Leistungsstreben 2., lineare 2.1 2.2 Lineare 2.7 Partielle Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 3 / 149

Daten 2., Linear 2., lineare 2.1 2.2 Lineare x 20 30 15 39 5 6 12 0 35 y 32 14 12 27 20 13 17 8 22 x 8 34 26 32 26 12 36 27 26 y 19 25 23 17 22 19 27 26 20 x 13 19 25 30 18 21 11 y 11 24 19 19 22 24 17 2.7 Partielle 4 / 149

2.2 Der skoeffizient von Pearson Daten (x 1, y 1 ),..., (x n, y n ) Maß für die (lineare) Abhängigkeit zwischen x y: skoeffizient von Pearson n r = r X,Y = s2 x,y i=1 = (x i x )(y i y ) s x,x s n y,y i=1 (x i x ) 2 n i=1 (y i y ) 2 Dabei ist: x = 1 n n i=1 x i : Mittelwert der Daten x i y = 1 n n i=1 y i : Mittelwert der Daten y i 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle s 2 x,x = 1 n n i=1 (x i x ) 2 : Varianz der Daten x i s 2 y,y = 1 n n i=1 (y i y ) 2 : Varianz der Daten y i s 2 x,y = 1 n n i=1 (x i x )(y i y ) : Kovarianz zwischen den Daten x i, y i 5 / 149

2.3 Eigenschaften des skoeffizienten (1) 1 r 1 (2) r = 1 genau dann, wenn ein exakter linearer Zusammenhang y i = b 0 + b 1 x i mit b 1 > 0 besteht (ohne Störgrößen). (3) r = 1 genau dann, wenn ein exakter linearer Zusammenhang y i = b 0 + b 1 x i mit b 1 < 0 besteht (ohne Störgrößen). (4) Der skoeffizient ist invariant bzgl. linearer Transformationen, d.h. } x i = a 0 + a 1 x i i = 1,..., n r ỹ i = c 0 + c 1 y i i = 1,..., n X,Ỹ = r X,Y 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle (4) Der skoeffizient von Pearson ist ein deskriptives Maß für den linearen Zusammenhang in der Stichprobe (x 1, y 1 ),..., (x n, y n ) 6 / 149

2.4 Beispiel: skoeffizient für die Daten aus Beispiel 2.1 2., Linear 2., lineare 2.1 Variablen x: Leistungsstreben y: Motivation skoeffizient von Pearson r = 0.5592 Fragen: Wie genau ist diese Schätzung? Ist die von 0 verschieden (Unkorreliertheit zwischen den Merkmalen Leistungsstreben Motivation)? 2.2 Lineare 2.7 Partielle 7 / 149

2.5 Signifikanztest für (x 1, y 1 ),..., (x n, y n ) ist eine Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grgesamtheit ρ bezeichne die des Merkmals X mit dem Merkmal Y einer Population; fünfter Modellparameter neben µ x, µ y, σ 2 x σ 2 y. Ein Test zum Niveau α für die Hypothese die Merkmale sind unkorreliert H 0 : ρ = 0 lehnt die Nullhypothese zu Gunsten der Alternative H 1 : ρ 0 ab, falls n 2r 1 r 2 > t n 2,1 α/2 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle gilt. 8 / 149

2.6(a) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) 2., Linear 2., lineare 2.1 n = 25; r = 0.5592; t 23,0.95 = 1.7139 2.2 Lineare n 2 r = 3.2355 > 1.7139 1 r 2 Die Nullhypothese H 0 : ρ = 0 (keine zwischen den Merkmalen) wird zum Niveau 5% verworfen. 2.7 Partielle p-wert: 0.0037 9 / 149

SPSS Output für skoeffizient 2., Linear 2., lineare 2.1 2.2 Lineare Motivation Leistungsstreben nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N Motivation en 1,000,004 **. Die ist auf dem Niveau von 0,01 (2-seitig) signifikant. 25 Leistungsstreben,559 **,004 25 25,559 ** 1,000 25 2.7 Partielle 10 / 149

2.7 Konfidenzintervall für ρ: zwischen Merkmal x Merkmal y einer Population (x 1, y 1 ),..., (x n, y n ): Stichprobe (unabhängige Beobachtungen) aus einer (bivariat) normalverteilten Grgesamtheit Mathematische Statistik: r ist näherungsweise (d.h. bei großem Stichprobenumfang) normalverteilt mit Erwartungswert ρ Varianz γ 2 = Var(r) (1 ρ 2 ) 2 /n (1 α)-konfidenzintervall für den skoeffizienten ( r ˆγz1 α/2, r + ˆγz 1 α/2 ) 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle Hier bezeichnet ˆγ = (1 r 2 )/ n einen Schätzer für die Standardabweichung von r z 1 α/2 das (1 α/2) Quantil der Standardnormalverteilung (Tabelle, Software) 11 / 149

2.6(b) Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1) 2., Linear 2., lineare 2.1 2.2 Lineare n = 25; r = 0.5592 z 0.95 = 1.6449, ˆγ = 0.1328 90% Konfidenzintervall für den skoeffizient [0.2739, 0.7541] 2.7 Partielle 12 / 149

2.8 Hinweise zur Interpretation von en Annahme: man hat eine signifikante zwischen den Variablen x y gefen Folgende Interpretationen sind möglich (1) x beeinflusst y kausal (2) y beeinflusst x kausal (3) x y werden von weiteren Variablen kausal beeinflusst (4) x y beeinflussen sich wechselseitig kausal Die zwischen zwei Variablen ist eine notwendige aber keine hinreichende Voraussetzung für einen kausalen Zusammenhang Der skoeffizient gibt keine Information welche der vier Interpretationen zutrifft (in vielen Fällen wird das der Typ (3) sein) en sollten ohne Zusatzinformation nicht interpretiert werden! 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 13 / 149

2., Linear Beispiel Annahme: man hat eine signifikante zwischen den Merkmalen Ehrlichkeit Häufigkeit des Kirchgangs gefen Folgende Interpretationen sind möglich Die in der Kirche vermittelten Werte haben einen positiven Einfluß auf das Merkmal Ehrlichkeit Ehrliche Menschen fühlen sich durch die in der Kirche vermittelten Inhalte eher angesprochen gehen aus diesem Gr häufiger zur Kirche Die allgemeine familiäre außerfamiliäre Sozialisation beeinflußt beide Merkmale 2., lineare 2.1 2.2 Lineare 2.7 Partielle 14 / 149

2., Linear 2., lineare 2.1 2.2 Lineare 2.2 Lineare 2.7 Partielle 15 / 149

2.9 Beispiel: (Fortsetzung von Beispiel 2.1) 2., Linear 2., lineare 2.1 Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Kann man y aus x vorhersagen? 2.2 Lineare 2.7 Partielle 16 / 149

Streudiagramm für die Daten aus Beispiel 2.9 2., Linear Motivation 35 30 25 20 15 2., lineare 2.1 2.2 Lineare 2.7 Partielle 10 5 0 10 20 30 40 Leistungsstreben 17 / 149

2.9 Beispiel: (Fortsetzung von Beispiel 2.1) Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt verschiedene Variablen gemessen. y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Frage: besteht ein funktionaler Zusammenhang zwischen der Variablen Motivation der Prädiktorvariablen Leistungsstreben (Kann man y aus x vorhersagen?) Genauer: Gesucht ist Funktion f, die aus der Prädiktorvariablen Leistungsstreben (x) eine Vorhersage für die abhängige Variable (y) Motivation liefert: Motivation = f( Leistungsbereitschaft ) 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle Beachte: es werden auch noch weitere Variablen gemessen (Ehrgeiz, Kreativität, Hierarchie, Lohn, Arbeitsbedingungen, Lernpotential, Vielfalt, Anspruch) 18 / 149

Ausgangslage: Von Interesse ist der Zusammenhang zwischen verschiedenen Variablen. Im einfachsten Fall betrachtet man, wie im Beispiel der Arbeitsmotivation, den Zusammenhang zwischen zwei Variablen. Daten: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein kausaler Zusammenhang der Form y = f (x) zwischen der abhängigen Variablen y der Prädiktorvariablen x. Weitere Annahme: Die Funktion f hat eine bestimmte Form. Beispiele: Lineare (der Zusammenhang ist also durch eine Gerade beschreibbar): y = b 0 + b 1x Quadratische (der Zusammenhang ist also durch eine Parabel beschreibbar): y = b 0 + b 1x + b 2x 2 usw. Beachte: Der Zusammenhang ist in der Regel nicht exakt zu beobachten. Mathematisches Modell Y = b 0 + b 1 x + ε 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle Dabei bezeichnet ε eine zufällige Störgröße. Diese Modell bezeichnet man als Lineare. 19 / 149

2.10 Das Modell der linearen Daten (x 1, y 1 ),..., (x n, y n ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen den Variablen Y i x i gilt: Y i = b 0 + b 1 x i + ε i i = 1,..., n ε i bezeichnet hier eine zufällige Störung es wird angenommen, dass die Störungen unabhängig normalverteilt sind mit Erwartungswert 0 Varianz σ 2 > 0 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle Deutung: es wird ein linearer Zusammenhang zwischen x y postuliert, der noch zufälligen Störungen unterliegt 20 / 149

Idee der Schätzung bei (linearer) 2., Linear Daten (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Annahme: Es existiert ein linearer Zusammenhang Y = b 0 + b 1 x + ε Gesucht: Diejenige Gerade, die den Zusammenhang zwischen Y x am besten beschreibt. Idee: Bestimme die Gerade so, dass die Summe der quadratischen (vertikalen) Abstände zwischen den y-koordinaten der Datenpunkte den entsprechenden Punkten auf der geschätzten Geraden minimal wird Methode der kleinsten Quadrate 2., lineare 2.1 2.2 Lineare 2.7 Partielle 21 / 149

y y Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten 2., Linear 2., lineare 2.1 2.2 Lineare 5 10 15 20 25 30 35 y=0.2x+5 5 10 15 20 25 30 35 y=0.5x+10 2.7 Partielle 0 10 20 30 40 x 0 10 20 30 40 x 22 / 149

Beispiel: Verschiedene Geraden mit senkrechten Abständen zu den Daten: die Lösung durch die Methode der kleinsten Quadrate 2., Linear 2., lineare 2.1 2.2 Lineare y 5 10 15 20 25 30 35 y=0.292x+13.816 2.7 Partielle 0 10 20 30 40 x 23 / 149

2.11 Die Methode der kleinsten Quadrate Bestimme die Gerade so, dass die Summe der quadrierten senkrechten Abstände zwischen Gerade Daten minimal wird - Datum an der Stelle x i : y i - Wert der Geraden an der Stelle x i : b 0 + b 1 x i - Differenz: y i (b 0 + b 1 x i ) Minimiere h(b 0, b 1 ) = n ( i=1 yi (b 0 + b 1 x i ) ) 2 bzgl. der Wahl der Parameter b 0 b 1. Lösung dieses Extremwertproblems liefert Schätzer für Achsenabschnitt Steigung der Geraden: 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle ˆb 1 = n i=1 (x i x )(y i y ) n i=1 (x i x ) 2, ˆb 0 = y ˆb 1 x - x = 1 n n i=1 x i: Mittelwert der Prädiktorvariablen - y = 1 n n i=1 y i: Mittelwert der abhängigen Variablen 24 / 149

Beispiel Arbeitsmotivation: Streudiagramm sgerade für die Daten aus Beispiel 2.1 Motivation 35 30 25 20 15 2., Linear 2., lineare 2.1 2.2 Lineare 0 10 20 Leistungsstreben Schätzer: ˆb 0 = 13.82, ˆb 1 = 0.29 Fragen: 10 5 30 R-Quadrat linear = 0,313 40 2.7 Partielle - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß des Leistungsstrebens auf die Motivation H 0 : b 1 = 0 - Wie gut beschreibt das lineare smodell die Situation? 25 / 149

Die Genauigkeit der Schätzer für die Parameter Beachte: vor der Datenerhebung sind ˆb 0 ˆb 1 zufällig Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer für die Varianzen von ˆb 0 ˆb 1 Schätzer für die Varianz von ˆb 0 : ŝ 2 b 0 = S 2 y x n Schätzer für die Varianz von ˆb 1 : ŝ 2 b 1 = S 2 y x n Dabei bezeichnet S 2 y x = 1 n 2 n i=1 x 2 i n i=1 (x i x ) 2 1 n n (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 1 n i=1 (x i x ) 2 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle die Residualvarianz (Schätzer für die Varianz der Störgrößen) Je größer der Stichprobenumfang n, desto genauer sind die Schätzungen! 26 / 149

Fortsetzung von Beispiel 2.1: Schätzer für die Daten der Arbeitsmotivation Schätzer für die Parameter ˆb 0 = 13.82 ˆb 1 = 0.292 S 2 y x = 22.737 Schätzer für die Varianz von ˆb 0 ˆb 1 ŝ 2 b 0 = 4.5158 ŝ 2 b 1 = 0.0081 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle Standdardafehler von ˆb 0 ˆb 1 ŝ b0 = 4.5158 = 2.125 ŝ b1 = 0.0081 = 0.09 27 / 149

SPSS Output: Schätzer Standardabweichungen bei linearer in Beispiel 2.1 2., Linear 2., lineare 2.1 2.2 Lineare Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Koeffizienten a Standardisierte Nicht standardisierte Koeffizienten Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090,559 3,235,004 2.7 Partielle 28 / 149

2.12 Konfidenzintervalle bei linearer Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- Unabhängigkeitsannahme für ε 1,..., ε n Bestimmung der Schätzer ŝ 2 b 0 ŝ 2 b 1 für die Varianzen von ˆb 0 ˆb 1. Damit ist dann = (ˆb 0 t n 2,1 α/2 ŝ b0, ˆb 0 + t n 2,1 α/2 ŝ b0 ) ein (1 α)-konfidenzintervall für b 0 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle = (ˆb 1 t n 2,1 α/2 ŝ b1, ˆb 1 + t n 2,1 α/2 ŝ b1 ) ein (1 α)-konfidenzintervall für b 1. Hier ist t n 2,1 α/2 das (1 α/2)-quantil der t-verteilung mit n 2 Freiheitsgraden (tabelliert oder mit Software verfügbar) 29 / 149

Beispiel 2.13: Konfidenzbereiche im Beispiel 2.1 (Arbeitsmotivation) 2., Linear 2., lineare 2.1 n = 25, t 23,0975 = 2.0687 Für das Beispiel der Arbeitsmotivation (vgl. Beispiel 2.1) ergibt sich als 95% Konfidenzintervall für b 0 : [9.420, 18.212] b 1 : [0.105, 0.479] Frage: Besteht ein (signifikanter) Einfluß der Prädikorvariablen x auf die abhängige Variable Y? Mathematische Formulierung: H 0 : b 1 = 0 2.2 Lineare 2.7 Partielle 30 / 149

SPSS Output: Konfidenzintervalle bei linearer Rgeression in Beispiel 2.1 2., Linear 2., lineare Modell 1 (Konstante) Leistungsstreben a. Abhängige Variable: Motivation Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 13,816 2,125 6,501,000,292,090 Koeffizienten a,559 3,235,004 95%-Konfidenzintervall für B Untergrenze Obergrenze 9,420 18,212,105,479 2.1 2.2 Lineare 2.7 Partielle 31 / 149

2.14 F -test für die Hypothese H 0 : b 1 = 0 Modellannahme: lineare Y i = b 0 + b 1 x i + ε i (i = 1,..., n) Rechtfertigung der Normalverteilungs- Unabhängigkeitsannahme für ε 1,..., ε n Hypothesen H 0 : b 1 = 0, H 1 : b 1 0 Die Nullhypothese H 0 : b 1 = 0 wird zu Gunsten der Alternative H 1 : b 1 0 verworfen, falls F n = S 2 reg S 2 y x = 1 1 1 n 2 n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 n i=1 (y i (ˆb 0 + ˆb 1 x i )) 2 > F 1;n 2,1 α 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle gilt F 1;n 2,1 α bezeichnet das (1 α)-quantil der F -Verteilung mit (1, n 2) Freiheitsgraden 32 / 149

Motivation des F -Tests: Zerlegung der Varianz 2., Linear n (y i y ) 2 = n (y i (ˆb 0 + ˆbx i )) 2 + n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Gesamtvarianz Bezeichnungen: i=1 } {{ } Residualvarianz S 2 reg = 1 1 n i=1 } {{ } Varianz der i=1 (y (ˆb 0 + ˆb 1 x i )) 2 heißt Varianz der (diese hat 1 Freiheitsgrad) Sy x 2 = 1 n n 2 (y i (ˆb 0 + ˆb 1 x i )) 2. i=1 ist die Residualvarianz (diese hat n 2 Freiheitsgrade). Andere Interpretationen: - Schätzung für die Varianz der Größen ε i - durch das lineare smodell nicht erklärbare Varianz 2., lineare 2.1 2.2 Lineare 2.7 Partielle 33 / 149

Motivation des F -Tests: Zerlegung der Varianz 2., Linear n (y i y ) 2 = i=1 } {{ } Gesamtvarianz Beachte: n n (y i (ˆb 0 + ˆbx i )) 2 + (y (ˆb 0 + ˆb 1 x i )) 2 i=1 } {{ } Residualvarianz = (n 2) S 2 y x + S 2 reg i=1 } {{ } Varianz der Bei dem F -Test für die Hypothese H 0 : b 1 = 0 bildet man den Quotienten aus der Varianz der der Residualvarianz Man untersucht also das Verhältnis zwischen erklärbarer nicht erklärbarer Varianz. 2., lineare 2.1 2.2 Lineare 2.7 Partielle 34 / 149

2.15 Varianzanalyse (ANOVA; analysis of variance) 2., Linear Art der Freiheits- Quadrat- F -Quotient Abweichung grade (df ) summe schätzer 2., lineare 2.1 2.2 Lineare 1 n i=1 (y ŷ i ) 2 F n = S 2 reg /S 2 y x Fehler n 2 Total n 1 n i=1 (y i ŷ i ) 2 n i=1 (y i y ) 2 2.7 Partielle Bezeichnung: ŷ i = ˆb 0 + ˆb 1 x i Vorhersage an der Stelle x i 35 / 149

SPSS Output: F-Test bei linearer in Beispiel 2.1 2., Linear 2., lineare ANOVA b 2.1 2.2 Lineare Modell Quadratsumme df 1 Residuen Gesamt 238,015 522,945 760,960 1 23 24 a. Einflußvariablen : (Konstante), Leistungsstreben b. Abhängige Variable: Motivation Mittel der Quadrate 238,015 22,737 F 10,468 Signifikanz,004 a Beachte: F 25 = 10.468, F 1,23,0.95 = 4.2793 Da F 25 = 10.468 > 4.2793 wird die Nullhypothese H 0 : b 1 = 0 zu Gunsten der Alternative H 1 : b 1 0 zum Niveau 5% verworfen (p-wert: 0.004) 2.7 Partielle 36 / 149

Modellgüte: wie geeignet ist das Modell für die Beschreibung der Daten Maß für Modellanpassung: Residualvarianz (Summe der quadrierte Abstände von der sgerade): S 2 y x = 1 n 2 n i=1 ( ) 2 y i (ˆb 0 + ˆb 1 x i ) Beachte: Sy x 2 ist ein Schätzer für die Varianz der Meßfehler Je kleiner Sy x 2, desto besser ist das (lineare) smodell Streuung der Daten ohne die Information, dass ein lineares Modell vorliegt: n (y i y ) 2 i=1 Man untersucht welchen Anteil der Streuung n i=1 (y i y ) 2 man durch das lineare Modell erklären kann 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 37 / 149

Varianzzerlegung: ein extremes Beispiel 2., Linear 40 2., lineare 2.1 Abhängige Variable y 40 30 20 10 30 20 10 2.2 Lineare 0 5 10 15 20 0 5 10 15 20 Beachte: Unabhängige Variable Die Grafik zeigt eine extreme Situation. Die Streuung der Daten ist durch das lineare smodell zu 100% erklärbar! n i=1 (y i y ) 2 = n i=1 (y (ˆb 0 + ˆb 1 x i )) 2 Residualvarianz (durch das lineare smodell nicht erklärbare Varianz) = 0 x 2.7 Partielle 38 / 149

2.16 Beispiel: Arbeitsmotivation (Fortsetzung von Beispiel 2.1): 2., Linear 2., lineare 2.1 2.2 Lineare 25 i=1 25 i=1 R 2 = (y i y ) 2 = 760.96 (y (ˆb 0 + ˆb 1 x i )) 2 = 238.04 25 i=1 (y (ˆb 0 + ˆb 1 x i )) 2 25 i=1 (y i y ) 2 = 0.313 2.7 Partielle d.h. 31,3 % der Varianz der Variablen Motivation können durch die Prädiktorvariable Leistungsstreben erklärt werden. 39 / 149

2.17 Modellgüte: das Bestimmtheitsmaß Die Größe R 2 = 1 n (y i (ˆb 0 + ˆb 1 x i )) 2 i=1 = n (y i y ) 2 i=1 n (y (ˆb 0 + ˆb 1 x i )) 2 i=1 n (y y i ) 2 i=1 ist ein Maß für die Güte der heißt Bestimmtheitsmaß. Beachte: man kann zeigen, dass R 2 genau das Quadrat der ist. 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle Je besser das Modell ist, desto kleiner ist die Residualvarianz, bzw. desto größer R 2! Das Bestimmtheitsmaß R 2 liegt immer zwischen 0 1 40 / 149

Zusammenhang zwischen Bestimmtheitsmaß F -Test Ist F n die Statistik für den F -Test aus 2.14 R 2 das Bestimmtheitsmaß, dann gilt: R 2 = 1 n 2 F n 1 + 1 n 2 F n In anderen Worten: die Statistik F n des F -Test aus 2.5 kann aus dem Bestimmtheitsmaß berechnet werden ( umgekehrt) Im Beispiel des Zusammenhangs zwischen Motivation Leistungsstreben ist 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle F n = 10.468 = R 2 = 10.468 23 1 + 10.468 23 = 0.313 Ca. 31.3% der Variation der Variablen Motivation können durch die Variable Leistungsstreben erklärt werden 41 / 149

Vorhersagen: es gibt zwei unterschiedliche 2., Linear 2.18 Vorhersage für den Wert der Geraden an einer Stelle x Schätzung für den Wert der Geraden y(x) = b 0 + b 1 x an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x (1 α)-konfidenzintervall für y(x) wobei (ŷ(x) t n 2;α/2 ŝ y(x), ŷ(x) + t n 2;α/2 ŝ y(x) ) ŝ 2 y(x) = S 2 y x ( 1 n + (x x ) 2 n i=1 (x i x ) 2 ) 2., lineare 2.1 2.2 Lineare 2.7 Partielle den Schätzer für die Varianz von Ŷ (x) bezeichnet 42 / 149

Vorhersagen: es gibt zwei unterschiedliche 2., Linear 2.19 Vorhersage für eine neue Beobachtung an einer Stelle x Schätzer für eine neue Beobachtung Ỹ (x) = b 0 + b 1 x + ε an der Stelle x: ŷ(x) = ˆb 0 + ˆb 1 x (1 α)-konfidenzintervall für y(x) (ŷ(x) t n 2;α/2 s y(x), ŷ(x) + t n 2;α/2 s y(x) ) 2., lineare 2.1 2.2 Lineare wobei s 2 y(x) = S 2 y x (1 + 1 n + (x x ) 2 n i=1 (x i x ) 2 ) 2.7 Partielle den Schätzer für die Varianz von ŷ(x) + ε bezeichnet Beachte: Diese Varianz wird bei wachsendem Stichprobenumfang nicht beliebig klein! 43 / 149

2.20 Beispiel (Fortsetzung von Beispiel 2.1) 2., Linear (1) Gesucht ist ein 90% Konfidenzintervall für den Wert der Geraden an der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = 22.737, ŝ 2 y(x) = 1.116, ŷ(16) = ˆb 0 + 16ˆb 1 = 18.49 Das 90% Konfidenzintervall für den Wert der Geraden an der Stelle 16 ist gegeben durch [16.677, 20.299] (2) Gesucht ist ein 90% Konfidenzintervall für eine neue Beobachtung der Stelle x = 16 t23,0.95 = 1.714, S 2 y x = 22.737, ŝ 2 ỹ(x) = 23.85, ŷ(16) = ˆb 0 + 16ˆb 1 = 18.49 Das 90% Konfidenzintervall für eine neue Beobachtung an der Stelle 16 ist gegeben durch 2., lineare 2.1 2.2 Lineare 2.7 Partielle [10.118, 26.859] 44 / 149

SPSS Output: Vorhersagen bei linearer in Beispiel 2.1 (schwierig) 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 45 / 149

SPSS Output: Konfidenzintervalle für Vorhersagen bei linearer in Beispiel 2.1 2., Linear 2., lineare Motivation 35 30 25 20 15 16.0 2.1 2.2 Lineare 2.7 Partielle 10 5 0 10 20 30 40 Leistungsstreben 46 / 149

2.21 Residuenanalyse Unter der Modellannahme des linearen smodells gilt: die Größen ε i = Y i b 0 b 1 x i sind unabhängig normalverteilt mit Erwartungswert 0 Varianz σ 2 > 0. Das bedeutet, dass diese Eigenschaften auch näherungsweise für die Residuen ˆε i = y i ˆb 0 ˆb 1 x i erfüllt sein sollte, falls die Modellannahme zutrifft. Residuenanalyse ist ein deskriptives Verfahren für die Überprüfung der Annahmen an ε 1,..., ε n mit 4 Teilschritten (oft werden auch nicht alle gemacht): A: Das Streudiagramm der Daten mit der slinie B: Ein Streudiagramm der Residuen gegen die vorhergesagten Werte C: Normalverteilungs-QQ-Plot der Residuen D: Histogramm der Residuen mit angepasster Normalverteilungsdichte 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 47 / 149

Residuenanalyse bei erfüllten Voraussetzungen 2., Linear Abhängige Variable 8 6 4 2 0 2 A 2 1 0 1 2 Residuum 1.0 0.5 0.0 0.5 1.0 1.5 B 0 2 4 6 2., lineare 2.1 2.2 Lineare Empirische Quantile 1.0 0.5 0.0 0.5 1.0 Unabhängige Variable C f(residuum) 1.0 0.8 0.6 0.4 0.2 Vorhergesagter Wert D 2.7 Partielle 1.5 2 1 0 1 2 Theoretische Quantile der Standardnormalvert. 0.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Residuum 48 / 149

Residuenanalyse bei Abweichungen von der Normalverteilung (Ausreißer) Abhängige Variable Empirische Quantile 20 10 0 10 20 15 10 5 0 5 10 A 2 1 0 1 2 Unabhängige Variable C 2 1 0 1 2 Theoretische Quantile der Standardnormalvert. Residuum f(residuum) 20 15 10 5 0 5 10 0.15 0.10 0.05 0.00 B 0 2 4 6 8 Vorhergesagter Wert D 15 10 5 0 5 10 15 20 Residuum 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 49 / 149

Residuenanalyse bei Stratifizierung Beachte: verschiedene Untergruppen (Strata) können ebenfalls zu Abweichungen von den Modellannahmen führen. Für die Strata können dann unterschiedliche sgleichungen gelten. 2., Linear 2., lineare 2.1 Abhängige Variable 15 10 5 0 5 A Residuum 10 5 0 5 B 2.2 Lineare 10 10 2 1 0 1 2 Unabhängige Variable C 10 2 0 2 4 6 Vorhergesagter Wert D 0.15 2.7 Partielle Empirische Quantile 5 0 5 f(residuum) 0.10 0.05 10 2 1 0 1 2 Theoretische Quantile der Standardnormalvert. 0.00 10 5 0 5 10 Residuum 50 / 149

Residuenanalyse bei falscher Modellannahme 2., Linear Abhängige Variable Empirische Quantile A 40 20 0 20 40 60 2 1 0 1 2 Unabhängige Variable C 10 0 10 20 2 1 0 1 2 Theoretische Quantile der Standardnormalvert. Residuum f(residuum) B 10 0 10 20 30 20 10 0 10 20 30 40 Vorhergesagter Wert D 0.05 0.04 0.03 0.02 0.01 0.00 30 20 10 0 10 20 Residuum 2., lineare 2.1 2.2 Lineare 2.7 Partielle Statt des linearen Modells wäre ein Polynom 3. Grades die bessere Annahme für die Beschreibung des funktionalen Zusammenhangs! 51 / 149

Residuenanalyse bei ungleichen Varianzen (Heteroskedastizität) Abhängige Variable Empirische Quantile 20 10 0 10 20 30 40 30 20 10 0 10 20 30 40 A 2 1 0 1 2 Unabhängige Variable C 2 1 0 1 2 Theoretische Quantile der Standardnormalvert. Residuum f(residuum) 30 20 10 0 10 20 30 40 0.10 0.08 0.06 0.04 0.02 0.00 B 2 0 2 4 6 Vorhergesagter Wert D 40 20 0 20 Residuum 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 52 / 149

SPSS Output: Residuenanalyse in Beispiel 2.1 2., Linear 35 2., lineare 2.1 Motivation 30 25 20 15 10 R-Quadrat linear = 0,313 2.2 Lineare 2.7 Partielle 5 0 10 20 30 40 Leistungsstreben Streudiagramm geschätzte sgerade im Beispiel der Arbeitsmotivation 53 / 149

SPSS Output: Residuenanalyse in Beispiel 2.1 2., Linear 3,00000 2., lineare 2.1 Standardized Residual 2,00000 1,00000,00000-1,00000 2.2 Lineare 2.7 Partielle -2,00000-2,00000-1,00000,00000 1,00000 2,00000 Standardized Predicted Value Streudiagramm der Residuen gegen die vorhergesagten Werte im Beispiel der Arbeitsmotivation 54 / 149

SPSS Output für Residuenanalyse 2., Linear 2 Q-Q-Diagramm von Normal von Standardized Residual 2., lineare 2.1 2.2 Lineare Erwarteter Wert von Normal 1 0-1 2.7 Partielle -2-2 -1 0 1 2 3 Beobachteter Wert QQ-Plot im Beispiel der Arbeitsmotivation 55 / 149

lineare 2., Linear 2., lineare Es besteht ein enger Zusammenhang zwischen linearer Ist ˆb 1 die Schätzung im linearen smodell r der skoeffizient von Pearson, dann gilt: n i=1 r = (x i x ) 2 n i=1 (y i y ˆb ) 2 1 2.1 2.2 Lineare 2.7 Partielle Ist R 2 das Bestimmtheitsmaß r der skoeffizient von Pearson, dann gilt: r 2 = R 2 56 / 149

2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 57 / 149

2.22 Beispiel: Arbeitsmotivation mit mehreren Prädiktoren y: Motivation (Einschätzung der Arbeitsmotivation durch Experten) Prädiktoren: Eigenschaften x1: Ehrgeiz (Fragebogen) x2: Kreativität (Fragebogen) x3: Leistungsstreben (Fragebogen) Prädiktoren: Rahmenbedingungen x4: Hierarchie (Position in der Hierarchie des Unternehmens) x5: Lohn (Bruttolohn pro Monat) x6: Arbeitsbedingungen (Zeitsouveränität, Kommunikationsstruktur usw.) 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle Prädiktoren: Inhalte der Tätigkeit x7: Lernponential (Lernpotential der Tätigkeit) x8: Vielfalt (Vielfalt an Teiltätigkeiten) x9: Anspruch (Komplexität der Tätigkeit) 58 / 149

Daten 2., Linear i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 1 32 36 30 20 20 3100 34 29 69 66 2 14 30 11 30 7 2600 39 16 47 36 3 12 19 15 15 8 3200 42 13 32 17 4 27 42 16 39 13 2500 43 15 63 49 5 20 14 22 5 22 3700 42 29 38 62 6 13 12 16 6 11 2600 36 17 39 51 7 17 17 20 12 11 2500 41 18 44 55 8 8 4 5 0 16 3800 23 9 31 33 9 22 32 20 35 20 3500 25 21 40 55 10 19 15 13 8 13 3100 29 21 57 56 11 25 38 5 34 21 3600 59 27 53 67 12 23 24 6 26 9 2600 45 31 54 62 2., lineare 2.1 2.2 Lineare 2.7 Partielle 59 / 149

Daten 2., Linear i y x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 13 17 28 11 32 10 2600 30 7 45 26 14 22 36 4 26 16 2500 52 23 56 64 15 19 18 26 12 6 2500 40 17 54 55 16 27 40 27 36 12 2500 42 29 44 62 17 26 30 28 27 18 3000 38 34 43 64 18 20 27 11 26 10 2600 35 19 46 55 19 11 18 23 13 11 2800 42 18 31 43 20 24 32 18 19 15 2700 48 23 51 53 21 19 33 9 25 6 2400 38 23 37 65 22 19 33 22 30 5 2600 36 30 39 39 23 22 27 28 18 17 4000 45 23 52 54 24 24 30 32 21 11 2700 44 20 41 47 25 17 37 8 11 2 2300 32 20 44 41 2., lineare 2.1 2.2 Lineare 2.7 Partielle 60 / 149

2.23 Das Modell der multiplen linearen Daten (x 1, y 1 ),..., (x n, y n ) Es gibt k unabhängige Variablen: x i = (x 1i,..., x ki ) y i ist Realisation einer Zufallsvariablen Y i (unter der Bedingung x i ). Für den Zusammenhang zwischen der Variablen Y i dem Vektor x i gilt (im Beispiel ist k = 9): Y i = b 0 + b 1 x 1i + b 2 x 2i +... + b k x ki + ε i k = b 0 + b j x ji + ε i. j=1 ε i bezeichnet hier eine zufällige Störung es wird angenommen, dass die Störungen ε 1,..., ε n unabhängig normalverteilt sind mit Erwartungswert 0 Varianz σ 2 > 0 Deutung: es wird ein linearer Zusammenhang zwischen x Y postuliert, der noch zufälligen Störungen unterliegt 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 61 / 149

2.24 Schätzung bei multipler linearer Methode der kleinsten Quadrate: Minimiere n (y i b 0 b 1 x 1i b k x ki ) 2 i=1 bzgl. der Wahl von b 0,..., b k Mathematische Statistik (allgemeines lineares Modell) liefert Schätzer ˆb 0, ˆb 1,..., ˆb k für die Parameter b 0,..., b k (Formeln sind kompliziert) Schätzer für die Varianz der Meßfehler 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle S 2 y x = 1 n k 1 n (y i ˆb 0 ˆb 1 x 1i ˆb k x ki ) 2 i=1 62 / 149

Streudiagramm bei multipler linearer (k = 2) sfläche: ŷ(x) = 3.24 + 4.5x 1 + 5.27x 2. 2., Linear 2., lineare 2.1 2.2 Lineare Y 40 30 20 10 0 2.7 Partielle 10 20 30 5 0 5 3 2 1 0 1 2 3 4 X 1 X 2 63 / 149

Fortsetzung von Beispiel 2.22: Schätzer im multiplen linearen smodell Ergebnisse für die Schätzer im multiplen linearen smodel ˆb 0 = 3.842 ˆb1 = 0.193 ˆb 2 = 0.153 ˆb 3 = 0.049 ˆb 4 = 0.246 ˆb 5 = 0.000 ˆb 6 = 0.031 ˆb7 = 0.165 ˆb 8 = 0.206 ˆb9 = 0.053 Fragen: - Wie genau sind diese Schätzungen? - Besteht ein (signifikanter) Einfluß der unabhängigen Merkmale auf die Motivation H 0 : b 1 = 0 H 0 : b 2 = 0 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle. - Wie gut beschreibt das multiple lineare smodell die Situation? 64 / 149

Genauigkeit der Schätzung bei multipler linearer 2., Linear 2., lineare 2.1 Schätzer ŝ b0,..., ŝ bk für die Standardfehler von ˆb 0,..., ˆb k sind verfügbar (Allgemeines lineares Modell Formeln kompliziert) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto genauer die Schätzungen Damit erhält man Konfidenzintervalle für b 0,..., b k, z.b. (ˆb 0 t n k 1,1 α/2 ŝ b0, ˆb 0 + t n k 1,1 α/2 ŝ b0 ) 2.2 Lineare 2.7 Partielle ist (1 α)-konfidenzintervall für b 0 65 / 149

Fortsetzung von Beispiel 2.22: Schätzer für den Standardfehler der Schätzer im multiplen linearen smodell Ergebnisse für den Standardfehler der Schätzer im multiplen linearen smodell Wegen t 15,0.975 = 2.1314 ist ŝ b0 = 5.052 ŝ b1 = 0.081 ŝ b2 = 0.049 ŝ b3 = 0.065 ŝ b4 = 0.148 ŝ b5 = 0.001 ŝ b6 = 0.054 ŝ b7 = 0.098 ŝ b8 = 0.052 ŝ b9 = 0.058 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle [ 0.089, 0.188] ein 95%-Konfidenzintervall für den Parameter b 3. Man beachte: 0.049 + 2.1314 0065 0.188) n = 25; k = 9 n k 1 = 15 66 / 149

2.25 Konfidenzintervalle für multiple lineare Modellannahme: multiple lineare Y i = b 0 + k b j x ji + ε i (i = 1,..., n) j=1 Rechterfertigung der Normalverteilungs- Unabhängigkeitsannahme Schätzer ŝ bj für den Standardfehler von ˆb j = (ˆb j t n k 1,1 α/2 ŝ bj, ˆb j + t n k 1,1 α/2 ŝ bj ) ist ein (1 α) -Konfidenzintervall für b j (j = 0,... k) t n k 1,1 α/2 ; (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden (Tabelle oder Software) Anmerkung: Für wachsenden Stichprobenumfang konvergieren die Schätzer ŝ bj gegen 0 je größer der Stichprobenumfang, desto kleiner die Konfidenzintervalle 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 67 / 149

2.26 Beispiel: Konfidenzintervalle für die Parameter in Beispiel 2.22 (Arbeitsmotivation ) ˆb j Merkmal Schätzung ŝ bj Konfidenzintervall ˆb 0-3.842 5.052 [-14.609, 6.926] ˆb 1 Ehrgeiz 0.193 0.081 [0.020, 0.365] ˆb 2 Kreativität 0.153 0.049 [0.049, 0.258] ˆb 3 Leistungsstreben 0.049 0.065 [-0.089, 0.188] ˆb 4 Hierarchie 0.246 0.148 [-0.069, 0.561] ˆb 5 Lohn 0.000 0.001 [-0.004, 0.002] ˆb 6 Arbeitsbdg. -0.031 0.054 [-0.147, 0.085] ˆb 7 Lernpotential 0.165 0.098 [-0.044, 0.373] ˆb 8 Vielfalt 0.206 0.052 [0.095, 0.316] ˆb 9 Anspruch 0.053 0.058 [-0.070, 0.177] 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 68 / 149

SPSS Output: Schätzer, Standardabweichung Konfidenzintervalle im Beispiel 2.22 (Arbeitsmotivation mit mehreren Prädiktoren) 2., Linear 2., lineare 2.1 2.2 Lineare Koeffizienten a Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070 Obergrenze 6,926,365,258,188,561,002,085,373,316,177 2.7 Partielle 69 / 149

2.27 Vorhersage der multiplen linearen Modellannahme: multiple lineare Y i = b 0 + k j=1 b jx ji + ε i (i = 1,..., n) Rechterfertigung der Normalverteilungs- Unabhängigkeitsannahme Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) ŷ(x) = ˆb 0 + k j=1 ˆb j x j In Beispiel 2.22 ergibt sich z.b. als Vorhersage der multiplen linearen an der Stelle 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle x 1 = 21, x 2 = 30, x 3 = 15, x 4 = 11,, x 5 = 2900, x 6 = 41, x 7 = 25, x 8 = 55, x 9 = 54 der Wert ŷ(x) = 22.717 70 / 149

2., Linear Vorhersage der multiplen linearen 2., lineare Wie in Abschnitt 2.18 2.19 gibt es zwei Vorher- Beachte: sagen: 2.1 2.2 Lineare Vorhersage für den Wert der multiplen an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Vorhersage für den Wert einer neuen Beobachtung an der Stelle x = (x 1,..., x k ) (im Beispiel ist k = 9) Für beide Vorhesagen, kann man den Standardfehler bestimmen (Formeln kompliziert) Konfidenzbereiche angeben (vgl. Abschnitt 2.18 2.19 für den Fall k = 1 ) 2.7 Partielle 71 / 149

SPSS Output: Vorhersage bei der multiplen linearen (schwierig) 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle Beispiel: Schätzung für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): 14.348 Schätzung für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): 14.348 72 / 149

SPSS Output: Konfidenzintervalle für Vorhersagen bei mulitpler linearer 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle Konfidenzintervall für den Wert der Ebene an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [12.399, 16.297] Konfidenzintervall für eine weitere Beobachtung an der Stelle x = (18, 23, 13, 11, 2800, 42, 18, 31, 43): [9.870, 18.826] 73 / 149

2.28 Bestimmtheitsmaß bei multipler linearer Modellvorhersage: ŷ i = ˆb 0 + ˆb 1 x 1i +... ˆb k x ki = ˆb 0 + k ˆb j x ji j=1 Residuum ˆε i = y i ŷ i = y i (ˆb 0 + k j=1 ˆb j x ji ) Beachte: Die Werte der abhängigen Variable zerfallen in Modellvorhersage (ŷ) Residuum (ˆε), d.h. y i = ŷ i + ˆε i i = 1,..., n Die Güte der Modellanpassung wird (wieder) durch das Bestimmtheitsmaß R 2 beschrieben werden (Anteil erklärter Varianz) 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle R 2 = 1 n i=1 (y i ŷ i ) 2 n i=1 (y i y ) 2 = n i=1 (y ŷ i ) 2 n i=1 (y i y ) 2. 74 / 149

Beispiel: das Bestimmtheitsmaß für das Beispiel 2.22 (Arbeitsmotivation) 2., Linear 2., lineare 2.1 In Beispiel 2.22 ist n = 25; k = 9 n i=1 (y i ŷ i ) 2 = 53.651 n i=1 (y i y ) 2 = 790.96 R 2 = 1 53.651 790.96 = 92.95 2.2 Lineare 2.7 Partielle D.h. 92.95% der Varianz der Variablen Motivation werden durch das multiple lineare smodell erklärt 75 / 149

2.29 Statistische Tests bei der multiplen linearer. Zwei wichtige Fragestellungen: Frage A: Hat mindestens eine der Prädiktorvariablen x 1,..., x k einen Einfluß auf die abhängige Variable y (Gesamttest auf Signifikanz). Mathematische Formulierung der Hypothese: Nullhypothese: Alternative: H 0 : b j = 0 für alle j {1, 2,..., k} H 1 : b j 0 für mindestens ein j {1, 2,..., k} 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle Frage B: Hat die Prädiktorvariable x j (z.b. Ehrgeiz) einen Einfluß auf die abhängige Variable y. Mathematische Formulierung der Hypothese: Nullhypothese: H 0 : b j = 0 Alternative: H 1 : b j 0 76 / 149

2.29(A) Gesamttest auf Signifikanz Nullhypothese: H 0 : b j = 0 für alle j {1, 2,..., k} Alternative: H 1 : b j 0 für mindestens ein j {1, 2,..., k} (1) Bestimme S 2 reg = 1 k n (y ŷ i ) 2 i=1 die Varianz der, S 2 y x = 1 n k 1 n (y i ŷ i ) 2 i=1 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle die Residualvarianz Beachte: man geht genau wie im linearen smodell vor! 77 / 149

2., Linear 2.29(A) Gesamttest auf Signifikanz (2) H 0 wird zu Gunsten der Alternative H 1 verworfen, falls F n = S 2 reg S 2 y x > F k;n k 1;1 α gilt (oder der entsprechende p-wert kleiner als α ist). Dabei bezeichnet F k;n k 1;1 α das (1 α)-quantil der F -Verteilung mit (k, n k 1) Freiheitsgraden, Beachte: Wird H 0 durch diesen Test verworfen, dann bleibt aber noch unklar, welches der Merkmale signifikant ist 2., lineare 2.1 2.2 Lineare 2.7 Partielle 78 / 149

2.29(B) Tests für die Signifikanz einzelner Merkmale 2., Linear Nullhypothese: Alternative: H 0 : b j = 0 H 1 : b j 0 Die Nullhypothese H 0 wird zu Gunsten der Alternative H 1 verworfen, falls ˆb j T n = > t n k 1;1 α/2 ŝ bj gilt (oder der entsprechende p-wert kleiner als α ist). Dabei ist tn k 1;1 α/2 das (1 α/2)-quantil der t-verteilung mit n k 1 Freiheitsgraden ŝbj der Standardfehler von ˆb j Beachte: Werden mehrere Hypothesen gestestet, ist das Niveau entsprechend anzupassen (vgl. Abschntt 1.18). 2., lineare 2.1 2.2 Lineare 2.7 Partielle 79 / 149

2., Linear 2.30(A) Test auf Signifikanz im multiplen smodel in Beispiel 2.22 Frage: Hat eine der 9 Prädiktorvariablen einen Einfluß auf die abhängige Variable? Mathematische Hypothesen: H 0 : b j = 0 für alle j = 1,..., 9 H 1 : b j 0 für mindestens ein j {1,..., 9} F n = 21.972, F 9,15,0.95 = 2.5876 2., lineare 2.1 2.2 Lineare 2.7 Partielle Da F n > 21.972 > 2.5876 ist, wird die Nullhypothese zum Niveau 5% verworfen. 80 / 149

2.30(B) Beispiel: Test auf Signifikanz eines Merkmals im multiplen linearen smodell in Beispiel 2.22 Frage: Hat die Prädiktorvariable Ehrgeiz (x 1 ) einen Einfluß auf die abhängige Variable Motivation (Signifikanz des skoeffizienten b 1 )? Mathematische Hypothesen: H 0 : b 1 = 0; H 1 : b 1 0 ˆb1 = 0.193, ŝ b1 = 0.081, t 25 10,0.975 = 2.13 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle Da T 25 = 2.381 T 25 = 2.381 > 2.13 wird die Nullhypothese H 0 zu Gunsten der Alternative H 1 : b 1 0 verworfen (zum Niveau 5%) 81 / 149

SPSS Output: Der Test 2.29(A) für das Beispiel 2.22 (Arbeitsmotivation) 2., Linear 2., lineare 2.1 2.2 Lineare Modell 1 Residuen Gesamt Quadratsumme 707,309 53,651 760,960 df 9 15 24 ANOVA b Mittel der Quadrate a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Abhängige Variable: Y 78,590 3,577 F 21,972 Signifikanz,000 a 2.7 Partielle 82 / 149

SPSS Output: Der Test 2.29(B) für das Beispiel 2.22 (Arbeitsmotivation) 2., Linear 2., lineare 2.1 Modell 1 (Konstante) x1 x2 x3 x4 x5 x6 x7 x8 x9 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten B -3,842,193,153,049,246,000 -,031,165,206,053 Standard fehler 5,052,081,049,065,148,001,054,098,052,058 Standardisierte Koeffizienten Beta,337,234,095,235 -,077 -,045,199,354,124 T -,760 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920 Koeffizienten a Signifi kanz,459,031,007,458,117,564,573,113,001,372 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070 Obergrenze 6,926,365,258,188,561,002,085,373,316,177 2.2 Lineare 2.7 Partielle 83 / 149

2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 84 / 149

2.31 Das Problem der Multikollinearität 2., Linear Beispiel: Betrachte in dem Beispiel der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 Prädiktorvariablen Y i = b 0 + b 1 x 1i + b 2 x 2i + b 3 x 3i + ε i i = 1,..., 25 (Y : Motivation, x 1 : Ehrgeiz x 2 : Kreativität, x 3 : Leistungsstreben) Schätzer für die Modellparameter i ˆb i ŝ bi p-wert 0 5.54 2.62 1 0.39 0.14 0.008 2 0.23 0.09 0.020 3 0.001 0.12 0.994 Bestimmtheitsmaß R 2 = 0.7861 Beachte: nur für den Koeffizient b 3 (Leistungsstreben) kann keine Signifikanz (zum Niveau 5%) nachgewiesen werden 2., lineare 2.1 2.2 Lineare 2.7 Partielle 85 / 149

smatrix für die Prädiktoren 2., Linear 2., lineare 2.1 Motivation Ehrgeiz Kreativität Leistungsstreben Motivation 1 Ehrgeiz.71 1 Kreativität.38.05 1 Leistungsstreben.56.82* -.02 1 Beachte: Der Test 2.5 liefert eine signifikante (zum Niveau 1%) zwischen den Variablen Leistungsstreben Ehrgeiz (SPSS) 2.2 Lineare 2.7 Partielle 86 / 149

2., Linear Beachte: Es gibt eine signifikante zwischen den Variablen Leistungsstreben Ehrgeiz Beide Variablen tragen weitgehend identische Information Im Beispiel ist die Variable Leistungsstreben redant wird nicht für die Vorhersage der abhängigen Variablen Motivation benötigt Die Variable Ehrgeiz ist stärker mit der Variablen Motivation korreliert als die Variable Leistungsstreben (aus diesem Gr ist der entsprechende Koeffizient auch signifikant) 2., lineare 2.1 2.2 Lineare 2.7 Partielle Für die Bestimmtheitsmaße in den multiplen linearen smodellen mit drei bzw. zwei Variablen erhält man R 2 = 0.786179 für Modell mit den Prädiktoren x 1, x 2, x 3 R 2 = 0.786178 für Modell mit den Prädiktoren x 1, x 2 87 / 149

SPSS Output: Multikollinearität; Schätzer im Modell mit 3 Parametern 2., Linear 2., lineare 2.1 2.2 Lineare Modell B 1 (Konstante) 5,539 x1,393 x2,225 x3,001 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standard fehler 2,618,135,089,123 Standardisierte Koeffizienten Beta Koeffizienten a,688,343,002 T 2,116 2,913 2,528,008 Signifi kanz,046,008,020,994 95%-Konfidenzintervall für B Untergrenze Obergrenze,095 10,983,112,674,040,410 -,255,257 2.7 Partielle 88 / 149

SPSS Output: Multilkollinearität; smatrix Y x1 x2 x3 nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N Y 1,000,000 25,379,061,004 25 x1,708 **,000,053,802,000 en 25 x2 1,000,939 25 x3,559 ** 25 25 25 25,708 ** 1,000,053,818 ** 25,802 25,000 25 -,016,939 25 25 25 25,559 **,818 ** -,016 1,000 **. Die ist auf dem Niveau von 0,01 (2-seitig) signifikant.,379,061,004 25 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 89 / 149

2.43 Das Problem der 2., Linear Beispiel: Betrachte in dem Beispiel 2.22 der Arbeitsmarktmotivation ein multiples lineares smodell mit 3 anderen Prädiktorvariablen Y i = b 0 + b 4 x 4i + b 5 x 5i + b 6 x 6i + ε i i = 1,..., 25 (Y : Motivation, x 4 : Hierarchie, x 5 : Lohn, x 6 : Arbeitsbedingungen) Schätzungen für die Modellparameter i ˆbi ŝ bi p-wert 0 25.08 8.40 0.007 4 0.88 0.26 0.002 5-0.01 0.003 0.016 6 0.13 0.12 0.308 2., lineare 2.1 2.2 Lineare 2.7 Partielle 90 / 149

smatrix für die Variablen Motivation, Hierarchie, Lohn Arbeitsbedingungen Motivation Hierarchie Lohn Arbeitsbedingungen Motivation 1 Hierarchie.42* 1 Lohn -.04.72** 1 Arbeitsbedingungen.35.16 -.06 1 Beachte: Zwischen der Prädiktorvariablen Lohn (x 5 ) der abhängigen Variablen Motivation liegt keine signifikante vor Dennoch bekommt diese Variable im multiplen smodell ein signifikantes Gewicht; d.h. die Hypothese H 0 : b 5 = 0 wird zum Niveau 5% verworfen (p-wert: 0.016). Man spricht von einem Suppressionseffekt. 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 91 / 149

2., Linear Gr für diesen scheinbaren Widerspruch: en sind bivariate Maße für (zwischen zwei Merkmalen). Das Modell der multiplen untersucht aber den Zusammenhang zwischen der Variablen Motivation dem (3-dimensionalen) Prädiktor (x 4, x 5, x 6 ): Motivation ist stark mit der Variablen Hierarchie korreliert Lohn ist ebenfalls stark mit der Variablen Hierarchie korreliert Prädiktorvariable Lohn wird in der multiplen linearen benötigt, um unerwünschte Varianzanteile der Variablen Hierarchie zu kompensieren 2., lineare 2.1 2.2 Lineare 2.7 Partielle Bestimmtheitsmaße für verschiedene Modelle R 2 = 0.664282 für Modell mit x 4, x 5, x 6 R 2 = 0.509720 für Modell mit x 4, x 6 92 / 149

SPSS Output: ; Schätzer im Modell mit 4 Parametern 2., Linear 2., lineare Modell 1 (Konstante) x4,884 x5 -,007 x6,125 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten Standard B fehler Beta T Signifikanz 25,076 8,398 2,986,007,257,003,120 Koeffizienten a,843 -,632,179 3,444-2,612 1,045,002,016,308 95%-Konfidenzintervall für B Untergrenze Obergrenze 7,612 42,539,350 1,419 -,013 -,001 -,124,375 2.1 2.2 Lineare 2.7 Partielle 93 / 149

SPSS Output: ; Schätzung der smatrix Y x4 x5 x6 nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N nach Pearson Signifikanz (2-seitig) N Y 1,000,037 25 -,038,856 25,354,082 25 x4,419 *,037 25,717 **,000,163,435 en 25 25 x5 1,000 25 -,060,777 25 x6 25 25 25 25,419 * 1,000,717 **,163 *. Die ist auf dem Niveau von 0,05 (2-seitig) signifikant. **. Die ist auf dem Niveau von 0,01 (2-seitig) signifikant. -,038,856,000 25,354,082,435 25 -,060,777 25 1,000 25 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 94 / 149

2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 95 / 149

2.33 Merkmalselektionsverfahren Ziel: mit möglichst wenig Prädiktorvariablen eine gute Vorhersage der abhängigen Variablen zu erzielen. Prinzip: untersuche wie sich durch Weglassen einzelner Variablen das Bestimmtheitsmaß R 2 verändert. Typische Selektionsprozeduren: (A) Rückwärtsverfahren (B) Vorwärtsverfahren (C) Schrittweise Verfahren 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle Beachte: es handelt sich um explorative Verfahren, die hauptsächlich der Modellbildung dienen (Interpretation nicht einfach). 96 / 149

2.34 Das Rückwärtsverfahren 2., Linear 2., lineare 2.1 2.2 Lineare Betrachte das vollständige Modell (mit allen Prädiktorvariablen) berechne das Bestimmtheitsmaß R 2 Entferne sukzessive diejenigen Variablen, die zu dem geringsten Rückgang des Bestimmtheitsmaßes führen würden Das Verfahren wird abgebrochen, falls sich bei dem Entfernen einer Variablen das Bestimmtheitsmaß signifikant verkleinert 2.7 Partielle 97 / 149

2.35 Beispiel: Variablenselektion mit dem Rückwärtsverfahren (vgl. Beispiel 2.22) Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 1 Ehrgeiz 2.38.929 Kreativität 3.13 Leistungsstreben.76 Hierarchie 1.66 Lohn -.59 Arbeitsbedingungen -.58 Lernpotential 1.68 Vielfalt 3.97 Anspruch.92 2 Ehrgeiz 2.38 Arbeitsbedingungen.928 Kreativität 3.28 Leistungsstreben.79 Hierarchie 1.66 Lohn -.57 Lernpotential 1.66 Vielfalt 4.04 Anspruch.91 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 98 / 149

Beispiel: Rückwärtsverfahren - Fortsetzung Schritt Prädiktorvariablen t-wert Ausgeschlossene Variablen R 2 3 Ehrgeiz 2.54 Arbeitsbedingungen.926 Kreativität 3.43 Lohn Leistungsstreben.88 Hierarchie 2.11 Lernpotential 1.59 Vielfalt 4.17 Anspruch 1.35 4 Ehrgeiz 5.40 Arbeitsbedingungen.923 Kreativität 3.38 Lohn Hierarchie 2.31 Leistungsstreben Lernpotential 1.55 Vielfalt 4.12 Anspruch 1.31 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 5 Ehrgeiz 5.18 Arbeitsbedingungen.916 Kreativität 3.16 Lohn Hierarchie 2.84 Leistungsstreben Lernpotential 3.31 Anspruch Vielfalt 5.04 99 / 149

SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation 2., Linear 2., lineare 2.1 Aufgenommene/Entfernte Variablen b Entfernte Modell Aufgenommene Variablen Variablen Methode 1 x9, x5, x2, x3, x6, x8, x7, x4,. Eingeben 2. x6 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 3. x5 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 4. x3 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 5. x9 Rückwärts (Kriterium: Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). a. Alle gewünschten Variablen wurden aufgenommen. b. Abhängige Variable: Y 2.2 Lineare 2.7 Partielle 100 / 149

SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation 2., Linear 2., lineare 2.1 2.2 Lineare Modellzusammenfassung Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,964 a,929,887 1,891,929 21,972 9 15,000 2,963 b,928,892 1,851 -,002,332 1 15,573 3,963 c,926,896 1,814 -,001,327 1 16,575 4,961 d,923,897 1,803 -,003,783 1 17,389 5,957 e,916,894 1,837 -,007 1,713 1 18,207 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 2.7 Partielle 101 / 149

SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: ANOVA Modell 1 2 3 4 5 Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadratsumme 707,309 53,651 760,960 706,120 54,840 760,960 705,000 55,960 760,960 702,422 58,538 760,960 696,852 64,108 760,960 df 15 24 8 16 24 7 17 24 6 18 24 5 19 24 Mittel der Quadrate 78,590 3,577 88,265 3,427 100,714 3,292 117,070 3,252 139,370 3,374 a. Einflußvariablen : (Konstante), x9, x5, x2, x3, x6, x8, x7, x4, x1 b. Einflußvariablen : (Konstante), x9, x5, x2, x3, x8, x7, x4, x1 c. Einflußvariablen : (Konstante), x9, x2, x3, x8, x7, x4, x1 d. Einflußvariablen : (Konstante), x9, x2, x8, x7, x4, x1 e. Einflußvariablen : (Konstante), x2, x8, x7, x4, x1 f. Abhängige Variable: Y 9 F 21,972 25,752 30,596 35,999 41,306 ANOVA f Signifikanz,000 a,000 b,000 c,000 d,000 e 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 102 / 149

SPSS Output: Rückwärtssverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Modell 1 (Konstante) 2 3 x1 x2 x3 x4 x5 x6 x7 x8 x9 (Konstante) x1 x2 x3 x4 x5 x7 x8 x9 (Konstante) x1 x2 x3 x4,193,153,049,246,000 -,031,165,206,053-4,737,187,157,050,240,000,157,205,052-7,154,193,159,055,172 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz -3,842 5,052 -,760,459,081,049,065,148,001,054,098,052,058 4,706,079,048,063,144,001,095,051,057 2,027,076,046,062,081,337,234,095,235 -,077 -,045,199,354,124,326,239,096,228 -,073,190,352,121,338,244,105,164 2,381 3,127,761 1,664 -,589 -,576 1,683 3,973,920-1,007 2,376 3,285,790 1,660 -,572 1,655 4,040,914-3,529 2,540 3,431,885 2,113 Koeffizienten a,031,007,458,117,564,573,113,001,372,329,030,005,441,116,575,117,001,374,003,021,003,389,050 95%-Konfidenzintervall für B Untergrenze -14,609,020,049 -,089 -,069 -,004 -,147 -,044,095 -,070-14,713,020,056 -,084 -,066 -,004 -,044,097 -,068-11,431,033,061 -,076,000 Obergrenze 6,926,365,258,188,561,002,085,373,316,177 5,238,353,258,185,545,002,358,312,172-2,877,354,258,185,344 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 103 / 149

2.36 Das Vorwärtsverfahren 2., Linear 2., lineare 2.1 Bestimme diejenige Prädiktorvariable, die mit der abhängigen Variablen am stärksten korreliert ist berechne das Bestimmtheitsmaß R 2 Ist R 2 signifikant, wird diese Variable in das Modell aufgenommen Füge sukzessive diejenigen Variablen zu dem Modell hinzu, die zu dem größten Anstieg des Bestimmtheitsmaßes führen Das Verfahren bricht ab, falls sich bei Hinzunahme einer neuen Variablen das Bestimmtheitsmaß R 2 nicht signifikant vergrößert 2.2 Lineare 2.7 Partielle 104 / 149

SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation 2., Linear 2., lineare 2.1 Aufgenommene Variablen Entfernte Variablen Modell Methode 1 x1. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) 2 Vorwährts- (Kriterium: Wahrscheinlichkeit x9. von F-Wert für Aufnahme <=,050) 3 x2. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) 4 Vorwährts- (Kriterium: Wahrscheinlichkeit x8. von F-Wert für Aufnahme <=,050) 5 x4. Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050) a. Abhängige Variable: Y Aufgenommene/Entfernte Variablen a 2.2 Lineare 2.7 Partielle 105 / 149

SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation 2., Linear 2., lineare 2.1 2.2 Lineare Modellzusammenfassung Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,708 a,501,479 4,065,501 23,059 1 23,000 2,863 b,744,721 2,973,244 20,980 1 22,000 3,906 c,820,795 2,552,076 8,876 1 21,007 4,944 d,891,869 2,039,070 12,879 1 20,002 5,955 e,913,890 1,869,022 4,810 1 19,041 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 2.7 Partielle 106 / 149

SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation: ANOVA Modell 1 2 3 4 5 Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadrat summe 380,968 379,992 760,960 566,456 194,504 760,960 624,244 136,716 760,960 677,797 83,163 760,960 694,596 66,364 760,960 df 23 24 2 22 24 3 21 24 4 20 24 5 19 24 Mittel der Quadrate 380,968 16,521 283,228 8,841 208,081 6,510 169,449 4,158 138,919 3,493 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 f. Abhängige Variable: Y 1 ANOVA f F 23,059 32,035 31,962 40,751 39,773 Signifikanz,000 a,000 b,000 c,000 d,000 e 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 107 / 149

SPSS Output: Vorwärtssverfahren im Beispiel der Arbeitsmotivation: Koeffizienten Koeffizienten a 2., Linear 2., lineare 2.1 Modell 1 (Konstante) 2 3 4 5 x1 (Konstante) x1 x9 (Konstante) x1 x9 x2 (Konstante) x1 x9 x2 x8 (Konstante) x1 x9 x2 x8 x4,404,063,320,221-2,101,319,203,183-6,502,253,150,192,190-6,833,271,116,177,181,181 a. Abhängige Variable: Y Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 9,088 2,406 3,778,001,084 2,642,064,048 2,380,055,042,061 2,263,048,037,049,053 2,080,045,037,045,049,083,708,560,515,558,474,279,442,350,293,327,474,271,271,311,173 4,802,024 4,983 4,580 -,883 5,776 4,862 2,979-2,873 5,286 4,101 3,908 3,589-3,285 6,076 3,147 3,903 3,706 2,193,000,981,000,000,387,000,000,007,009,000,001,001,002,004,000,005,001,001,041 95%-Konfidenzintervall für B Untergrenze Obergrenze 4,111 14,064,230,579-5,415 5,542,187,454,121,321-7,052 2,849,204,433,116,290,055,310-11,224-1,781,153,352,074,226,089,294,080,301-11,186-2,479,178,364,039,193,082,272,079,283,008,354 2.2 Lineare 2.7 Partielle 108 / 149

2.37 Das schrittweise Verfahren 2., Linear 2., lineare 2.1 2.2 Lineare Rückwärts- Vorwärtsverfahren werden kombiniert! Man führt ein Vorwärtsverfahren durch, wobei in jedem Schritt untersucht wird, ob bei Entfernen einer bereits aufgenommenen Variable das Bestimmtheitsmaß signifikant abnehmen würde. 2.7 Partielle 109 / 149

SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation 2., Linear 2., lineare 2.1 Modell 1 Aufgenommene Variablen Entfernte Variablen Methode x1. Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 2 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x9. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 3 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x2. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 4 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x8. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). 5 Schrittweise Auswahl (Kriterien: Wahrscheinlichkeit x4. von F-Wert für Aufnahme <=,050, Wahrscheinlichkeit von F-Wert für Ausschluß >=,100). a. Abhängige Variable: Y Aufgenommene/Entfernte Variablen a 2.2 Lineare 2.7 Partielle 110 / 149

SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation 2., Linear 2., lineare 2.1 2.2 Lineare Modellzusammenfassung Änderungsstatistiken Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers Änderung in R-Quadrat Änderung in F df1 df2 Änderung in Signifikanz von F 1,708 a,501,479 4,065,501 23,059 1 23,000 2,863 b,744,721 2,973,244 20,980 1 22,000 3,906 c,820,795 2,552,076 8,876 1 21,007 4,944 d,891,869 2,039,070 12,879 1 20,002 5,955 e,913,890 1,869,022 4,810 1 19,041 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 2.7 Partielle 111 / 149

SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation: ANOVA Modell 1 2 3 4 5 Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Residuen Gesamt Quadratsumme 380,968 379,992 760,960 566,456 194,504 760,960 624,244 136,716 760,960 677,797 83,163 760,960 694,596 66,364 760,960 a. Einflußvariablen : (Konstante), x1 b. Einflußvariablen : (Konstante), x1, x9 c. Einflußvariablen : (Konstante), x1, x9, x2 d. Einflußvariablen : (Konstante), x1, x9, x2, x8 e. Einflußvariablen : (Konstante), x1, x9, x2, x8, x4 f. Abhängige Variable: Y df 1 23 24 2 22 24 3 21 24 4 20 24 5 19 24 Mittel der Quadrate 380,968 16,521 283,228 8,841 208,081 6,510 169,449 4,158 138,919 3,493 ANOVA f F 23,059 32,035 31,962 40,751 39,773 Signifikanz,000 a,000 b,000 c,000 d,000 e 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 112 / 149

SPSS Output: Das schrittweise Verfahren im Beispiel der Arbeitsmotivation: Koeffizienten 2., Linear 2., lineare Modell 1 (Konstante) Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta T Signifikanz 9,088 2,406 Koeffizienten a 3,778,001 95%-Konfidenzintervall für B Untergrenze Obergrenze 4,111 14,064 2.1 2.2 Lineare 2 x1 (Konstante) x1 x9,404,063,320,221,084 2,642,064,048,708,560,515 4,802,024 4,983 4,580,000,981,000,000,230-5,415,187,121,579 5,542,454,321 3 (Konstante) x1-2,101,319 2,380,055,558 -,883 5,776,387,000-7,052,204 2,849,433 4 x9 x2 (Konstante),203,183-6,502,042,061 2,263,474,279 4,862 2,979-2,873,000,007,009,116,055-11,224,290,310-1,781 x1 x9 x2 x8,253,150,192,190,048,037,049,053,442,350,293,327 5,286 4,101 3,908 3,589,000,001,001,002,153,074,089,080,352,226,294,301 2.7 Partielle 5 (Konstante) -6,833 2,080-3,285,004-11,186-2,479 x1,271,045,474 6,076,000,178,364 x9,116,037,271 3,147,005,039,193 x2,177,045,271 3,903,001,082,272 x8,181,049,311 3,706,001,079,283 x4,181,083,173 2,193,041,008,354 a. Abhängige Variable: Y 113 / 149

2.38 Bemerkung zu den verschiedenen Merkmalselektionsverfahren 2., Linear 2., lineare 2.1 Beachte: Verschiedene Verfahren liefern verschiedene Ergebnisse (es gibt kein richtig oder falsch!) Beispiel (Arbeitsmotivation) Rückwärtsverfahren Vorwärtsverfahren Schrittweises Verfahren Ehrgeiz Ehrgeiz Ehrgeiz Kreativität Kreativität Kreativität Hierarchie Hierarchie Hierarchie Lernpotential Anspruch Anspruch Vielfalt Vielfalt Vielfalt R 2 =.916 R 2 =.913 R 2 =.913 2.2 Lineare 2.7 Partielle 114 / 149

2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 115 / 149

Nichtlineare 2., Linear 2., lineare 2.1 Die (multiplen) linearen smodelle beruhen auf der Annahme, dass der Zusammenhang zwischen jeder Prädiktorvariable der abhängigen Variablen linear ist, d.h., durch eine Gerade beschrieben werden kann Diese Annahme muss nicht immer erfüllt sein. zwischen Variablen können im Gre beliebige Form haben Man spricht in diesen Fällen von nichtlinearen n 2.2 Lineare 2.7 Partielle 116 / 149

2.39 Beispiel: Gedächtnistest 2., Linear 2., lineare 2.1 Mehrere Personen machen einen Gedächtnistest 30 Ortsnamen (aus Mongolei) werden vorgegeben y(x): Anzahl der Ortsnamen, die nach x Tagen noch im Gedächtnis geblieben sind (Mittelwerte) 2.2 Lineare x 1 2 3 4 5 6 7 8 9 10 y(x) 24.9 19.7 17.0 13.2 11.0 8.5 7.9 5.8 5.5 5.0 2.7 Partielle 117 / 149

Das Streudiagramm für die Daten aus Beispiel 2.39 (Gedächtnistest) 30,0 2., Linear 2., lineare 2.1 Anzahl der Ortsnamen 20,0 10,0 2.2 Lineare 2.7 Partielle,0 0 2 4 6 8 10 Tage 118 / 149

Lineare für die Daten aus Beispiel 2.39 (Gedächtnistest) 30,0 2., Linear 2., lineare 2.1 Anzahl der Ortsnamen 20,0 10,0 2.2 Lineare 2.7 Partielle,0 0 2 4 6 8 10 Tage Die Gleichung der geschätzten Geraden: y = 10.579 0.429x 119 / 149

Residuenanalyse bei linearer für die Daten aus Beispiel 2.39 (Gedächtnistest) 2,00000 2., Linear 2., lineare 2.1 Standardized Residual 1,00000,00000 2.2 Lineare 2.7 Partielle -1,00000-1,50000-1,00000 -,50000,00000,50000 1,00000 1,50000 Standardized Predicted Value 120 / 149

QQ - Plot bei linearer für die Daten aus Beispiel 2.39 (Gedächtnistest) Erwarteter Wert von Normal 1,5 1,0 0,5 0,0-0,5 Q-Q-Diagramm von Normal von Standardized Residual 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle -1,0-1,5-2 -1 0 1 2 Beobachteter Wert 121 / 149

2., Linear Beachte: Ein lineares modell ist für die Beschreibung des Zusammenhangs ungeeignet! Quadratisches smodel Y i = b 0 + b 1 x i + b 2 x 2 i + ε i Schätzung der Parameter mit der Methode der kleinsten Quadrate die entsprechenden Standardfehler 2., lineare 2.1 2.2 Lineare 2.7 Partielle ˆb 0 = 29.088 ˆb 1 = 4.876 ˆb 2 = 0.249 ŝ b0 = 0.558 ŝ b1 = 0.233 ŝ b2 = 0.021 122 / 149

Konfidenzbereiche Tests 2., Linear Man geht wie in 2.12 2.14 bzw. 2.29 vor 90% Konfidenzintervall für b 2 (man beachte: das Modell hat 3 Parameter) t 10 3,0.95 = 1.8946 ˆb2 = 0.249 ŝ b2 = 0.021 [ˆb 2 t 7,0.95 ŝ b2, ˆb 2 + t 7,095 ŝ b2 ] = [0.2092, 0.2888] ist 90% Konfidenzintervall für b 2 Die Hypothese H 0 : b 2 = 0 wird (zum Niveau 10%) verworfen, falls ˆb 2 > t10 3,0.95 ŝ b2 gilt (im Beispiel wird also H 0 abgelehnt) Beachte: 10 3 Freiheitsgrade, da 10 Daten 3 Parameter in der Parabelgleichung 2., lineare 2.1 2.2 Lineare 2.7 Partielle 123 / 149

SPSS-Output: Schätzer für quadratische 2., Linear 2., lineare 2.1 2.2 Lineare Nicht standardisierte Koeffizienten Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta t Sig. Tage -4,876,233-2,183-20,927,000 Tage ** 2,249,021 1,257 12,055,000 (Konstante) 29,088,558 52,136,000 2.7 Partielle 124 / 149

Streudiagramm für die Daten aus Beispiel 2.39 mit der geschätzten Parabel Anzahl der Ortsnamen 2., Linear 2., lineare 2.1 2.2 Lineare 30,0 20,0 Beobachtet Quadratisch 2.7 Partielle 10,0 0,0 0 2 4 6 8 10 Tage 125 / 149

SPSS-Output: Residuenanalysefür für die Daten aus Beispiel 2.39 bei quadratischer 2,00000 2., Linear 2., lineare 2.1 2.2 Lineare Standardized Residual 1,00000,00000 2.7 Partielle -1,00000-2,00000-1,00000 -,50000,00000,50000 1,00000 1,50000 2,00000 Standardized Predicted Value 126 / 149

SPSS-Output: QQ-Plot für die Daten aus Beispiel 2.39 bei quadratischer Erwarteter Wert von Normal 1,5 1,0 0,5 0,0-0,5 Q-Q-Diagramm von Normal von Standardized Residual 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle -1,0-1,5-2 -1 0 1 2 Beobachteter Wert 127 / 149

SPSS-Output: Histogramm für die Residuen aus Beispiel 2.39 bei quadratischer Histogramm 2., Linear 2., lineare 2.1 2.2 Lineare 2,5 2,0 Abhängige Variable: Anzahl der Ortsnamen Mittelwert =3,96E-16 Std.-Abw. = 0,882 N =10 Häufigkeit 1,5 1,0 2.7 Partielle 0,5 0,0-2 -1 0 1 2 Standardisiertes Residuum 128 / 149

2.40 Polynomiale smodelle Beachte: Modelle zur polynomialen Ordnung Modell 0. Y = b 0 + ε 1. Y = b 0 + b 1 x 1 + ε 2. Y = b 0 + b 1 x 1 + b 2 x 2 + ε.. k. Y = b 0 + b 1 x 1 + b 2 x 2 +... + b k x k + ε In der Regel werden nur Modelle von niedrigem Grad verwendet (k 3)! Schätzung der Parmeter erfolgt mit der Methode der kleinsten Quadrate Konfidenzintervalle, Tests Residuenanalyse werden wie bei der linearen bzw. multiplen durchgeführt (Allgemeines lineares Modell) 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 129 / 149

2.41 Mehrdimensionale Polynome 2., Linear Sind mehrere Prädiktorenvariable verfügbar, so können neben Potenzen auch Produkte von zwei oder mehr Variablen in die sgleichung aufgenommen werden Beispiele: Y (x) = b 0 + b 1 x 1 + b 2 x 2 + b 12 x 1 x 2 + ε Y (x) = b 0 + b 1 x 1 + b 2 x 2 + b 12 x 1 x 2 + b 02 x 2 1 + b 20 x 2 2 + ε 2., lineare 2.1 2.2 Lineare 2.7 Partielle Y (x) = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 120 x 1 x 2 + b 103 x 1 x 3 +b 023 x 2 x 3 + b 123 x 1 x 2 x 3 + ε 130 / 149

3D-Streudiagramm mit der geschätzten Funktion 2., Linear 2., lineare 2.1 100 80 60 40 2.2 Lineare Y 20 0 20 40 60 6 4 2 X 2 0 2 4 6 4 2 X 1 0 2 4 2.7 Partielle Die geschätzte Funktion ist:. ŷ(x) = 2.23 + 3.52x 1 + 5.77x 2 + 3.96x 1 x 2 131 / 149

Y 3D-Streudiagramm mit der geschätzten Funktion Polynomiale Terme Produkte der Prädiktoren können natürlich auch gemeinsam vorkommen. Beispiel: y(x) = b 0 + b 11 x 1 + b 12 x 2 1 + b 21 x 2 + b 23 x 3 2 + b 11;21 x 1 x 2 + ε. 2., Linear 2., lineare 2.1 2.2 Lineare 100 80 60 40 20 0 20 40 2.7 Partielle 60 6 4 2 X 2 0 2 4 6 4 2 X 1 0 2 4 Die angepasste Funktion hat die Form ŷ(x) = 1 + 2.15x 1 + 6.59x 2 1 + 1.66x 2 + 3.07x 3 2 + 3.76x 1 x 2 132 / 149

2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 2.7 Partielle 133 / 149

Beispiel 2.42 (Entwicklungspsychologie) 2., Linear 2., lineare Im Rahmen einer Studie in der Entwicklungspsychologie soll der Zusammenhang zwischen 2.1 2.2 Lineare Abstraktionsfähigkeit (x) sensomotorischer Koordination (y) untersucht werden. Zusätzlich wird das Alter der Kinder erhoben (z) 2.7 Partielle Insgesamt werden 15 Kinder im Alter von 6-10 Jahren untersucht 134 / 149

Daten 2., Linear Kind Abstraktions- sensomotor. Alter fähigkeit (x) Koord. (y) (z) 1 9 8 6 2 11 12 8 3 13 14 9 4 13 13 9 5 14 14 10 6 9 8 7 7 10 9 8 8 11 12 9 9 10 8 8 10 8 9 7 11 13 14 10 12 7 7 6 13 9 10 10 14 13 12 10 15 14 12 9 2., lineare 2.1 2.2 Lineare 2.7 Partielle 135 / 149

Auswertung: 2., Linear Für den skoeffizient von Pearson (vgl. 2.2) erhält man für die der Variablen x (Abstraktionsfähigkeit) y (sensomotorische Koordination) r x,y = 0.89 Obwohl der skoeffizient sehr hoch ist, ist es in vielen Fällen sinnvoll zu untersuchen, ob dieser hohe Wert auf einen Einfluss der dritten Variablen (Alter) zurückführbar ist. In einem solchen Fall spricht man von einer Scheinkorrelation. D.h. r x,y ist zwar im mathematischen Sinn einen, aber der gefene Zusammenhang zwischen Abstraktionsfähigkeit sensomotorischer Koordination ist (teilweise) durch eine dritte Variable erklärbar kann nicht als kausal interpretiert werden. 2., lineare 2.1 2.2 Lineare 2.7 Partielle Ziel: Berechnung einer, die von dem Einfluss der dritten Variablen Alter bereinigt ist = Partialkorrelation. 136 / 149

2.32 Partialkorrelation Modell: Daten (x i, y i, z i ) i=1,...,n. Im Beispiel ist x i die Abstraktionsfähigkeit, y i die sensomotorische Koordination z i das Alter des i-ten Kinds Gesucht: Ein um den Einfluss der Variablen z bereinigtes Abhängigkeitsmaß zwischen den Variablen x y Methode: Berechne die (lineare) sgerade für die Daten (x1, z 1),...,(x n, z n): x = â 0 + â 1z (vgl. 2.11) die Residuen x i = x i (â 0 + â 1z i ) i = 1,..., n Berechne die (lineare) sgerade für die Daten (y1, z 1),..., (y n, z n): y = ˆb 0 + ˆb 1z (vgl. 2.11) die Residuen y i = y i (ˆb 0 + ˆb 1z i ) i = 1,..., n 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 137 / 149

2., Linear Bestimme die zwischen den Residuen (x1, y 1 ),..., (xn, yn ) n r x,y z = r x,y = i=1 (x i n i=1 (x i Die Größe x )(y i y ) x ) 2 n i=1 (y i y ) 2 r x,y z heißt Partialkorrelation, zwischen x y aus der das Merkmal z herauspartialisiert wurde. 2., lineare 2.1 2.2 Lineare 2.7 Partielle Die Partialkorrelation ist also eine bivariate zwischen sresiduen 138 / 149

2.44 Bemerkung (1) Man kann zeigen dass gilt: Dabei ist r x,y r x,z r y,z r x,y z = (1 rx,z)(1 2 ry,z) 2 rx,y der skoeffizient zwischen den Variablen x y rx,z der skoeffizient zwischen den Variablen x z ry,z der skoeffizient zwischen den Variablen y z (2) Die Partialkorrelation ist ein Maß für den linearen Zusammenhang von zwei Variablen x y, aus dem der lineare Einfluss einer dritten Variablen z eliminiert wurde. Genauer: Die Partialkorrelation bemisst, inwieweit man aus den Vorhersagefehlern bei der linearen Prognose von x durch z die Vorhersagefehler bei der linearen Prognose von y durch z linear vorhersagen kann - umgekehrt. (3) Gibt es mehr als drei Variablen, so können Partialkorrelationen höherer Ordnung gebildet werden, in dem die Residuen xi, yi mit Hilfe des multiplen linearen smodells (vgl. Methodenlehre II, 2.23) bestimmt werden (1) 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 139 / 149

Beispiel (Fortsetzung von Beispiel 2.42) Lineare von x bzgl. z x = 1.246z + 0.464 Lineare von y bzgl. z 2., Linear 2., lineare 2.1 2.2 Lineare sresiduen y = 1.420z 1.13 x y 1,06 0,61 0,57 1,77 1,32 2,35 1,32 1,35 1,07 0,93-0,19-0,81-0,43-1,23-0,68 0,35-0,43-2,23-1,19 0,19 0,07 0,93-0,94-0,39-3,92-3,07 0,07-1,07 2,32 0,35 2.7 Partielle 140 / 149

2., Linear r x,y z = 0.72 Die zwischen Abstraktionsfähigkeit sensomotorischen Koordinationsleistungen der Kinder ist somit von 0.89 auf 0.72 gesunken. Die Differenz ist auf das Alter der Kinder zurückzuführen Beachte: mit den Werten rx,y = 0.89 rx,z = 0.77 ry,z = 0.80 2., lineare 2.1 2.2 Lineare 2.7 Partielle kann man die Partialkorrelation r x,y z auch mit Hilfe der Formel (1) berechnen 141 / 149

Signifikanztest für partielle en 2., Linear Ein Test zum Niveau α für die Hypothese die Merkmale X Y unter Z sind unkorreliert H 0 : ρ x,y.z = 0 lehnt die Nullhypothese zu Gunsten der Alternative ab, falls n 3rx,y.z 1 rx,y.z 2 H 1 : ρ x,y.z 0 > t n 3,1 α/2 2., lineare 2.1 2.2 Lineare 2.7 Partielle gilt. Man vergleiche diesen Test mit dem Test auf eine signifikante zwischen zwei Merkmalen (vgl. 2.5) 142 / 149

Partielle en in SPSS 2., Linear 2., lineare 2.1 2.2 Lineare Kontrollvariablen Alter Abstraktionsfähigkeit sensomotorische Koordination en Signifikanz (zweiseitig) Freiheitsgrade Signifikanz (zweiseitig) Freiheitsgrade Abstraktions fähigkeit 1,000. 0,722,004 12 sensomotorische Koordination,722,004 12 1,000. 0 2.7 Partielle 143 / 149

2.45 Semipartialkorrelationen 2., Linear Wird die dritte Variable z nur aus einer Variablen (z.b. x) herauspartialisiert, so spricht man von einer Semipartialkorrelation. Man berechnet die (lineare) sgerade für die Daten (x 1, z 1 ),..., (x n, z n ): x = â 0 + â 1 z betrachtet die Vorhersagefehler x i = x i â 0 â 1 z i Dann bestimmt man die zwischen (x 1, y 1),..., (x n, y n ): 2., lineare 2.1 2.2 Lineare 2.7 Partielle r y(x z) = r x,y = n i=1 (x i x )(y i y ) n i=1 (x i x ) 2 n i=1 (y i y ) 2 144 / 149

Alternative Darstellung für die Semipartialkorrelationen Man kann zeigen dass gilt: Dabei ist r y(x z) = r x,y r x,z r y,z 1 rx,z 2 rx,y der skoeffizient zwischen den Variablen x y rx,z der skoeffizient zwischen den Variablen x z ry,z der skoeffizient zwischen den Variablen y z Bemerkung: Die Semipartialkorrelation bemisst, inwieweit man aus den Vorhersagefehlern bei der linearen Prognose von x durch z die Werte von y linear vorhersagen kann. Die quadrierte Semipartialkorrelation ist der Anteil der Varianz von y, der durch die Variable x zusätzlich zu der Variablen z erklärt werden kann. Die Semipartialkorrelation ist immer kleiner als die Partialkorrelation. (2) 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 145 / 149

Berechnung der Semipartialkorrelationen in Beispiel 2.42 Lineare von x bgzl. z x = 1.246z + 0.464 sresiduen Beobachtungen x y 1,06 8 0,57 12 1,32 14 1,32 13 1,07 14-0,19 8-0,43 9-0,68 12-0,43 8-1,19 9 0,07 14-0,94 7-3,92 10 0,07 12 2,32 12 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle 146 / 149

2., Linear r y(x z) = 0.43 Die zwischen Abstraktionsfähigkeit sensomotorischen Koordinationsleistungen der Kinder ist somit von 0.89 auf 0.43 gesunken. Die Differenz ist auf das Alter der Kinder zurückzuführen. Beachte: mit den Werten rx,y = 0.89 rx,z = 0.77 ry,z = 0.80 2., lineare 2.1 2.2 Lineare 2.7 Partielle kann man die Semipartialkorrelation r y(x z) auch mit Hilfe der Formel (2) berechnen. 147 / 149

Semipartialkorrelationen in SPSS Die Semipartialkorrelationen (in SPSS heißen diese Teil-en) werden (auf Wunsch) als Ergänzung zu den Kleinsten Quadrate-Schätzungen im multiplen linearen smodell (vgl. 2.23) ausgegeben. Signifikanztest für die Semipartialkorrelationen fehlen. Modell 1 (Konstante) Alter Abstraktionsfähigkeit Nicht standardisierte Koeffizienten Standardisierte Koeffizienten s koeffizientb Standardfehler Beta T Sig. -1,469 1,795 -,818,429,510,730 Koeffizienten a a. Abhängige Variable: sensomotorische Koordination,328,202,289,671 1,555 3,615,146,004 2., Linear 2., lineare 2.1 2.2 Lineare 2.7 Partielle Koeffizienten a Modell 1 en Nullter Ordnung Partiell Alter Abstraktionsfähigkeit,803,892,410,722 a. Abhängige Variable: sensomotorische Koordination Teil,185,431 148 / 149

Bemerkung: 2., Linear 2., lineare Ob ein Partial- oder Semipartialkorrelationskoeffizient zur Beschreibung eines Zusammenhangs gewählt wird, hängt von theoretischen Überlegungen ab: Beeinflusst eine dritte Variable (z) ursächlich beide Variablen x y Partialkorrelation Wird der Zusammenhang zwischen den Variablen x y durch die dritte Variable z vermittelt (z ist mit y korreliert beinflußt x) Semipartialkorrelation 2.1 2.2 Lineare 2.7 Partielle 149 / 149