17. Januar Ruhr-Universität Bochum. Methodenlehre III, WS 2010/2011. Prof. Dr. Holger Dette. 1. Matrizenrechnung. 2.

Transkript

1 Ruhr-Universität Bochum 17. Januar / 232

2 Methodenlehre III NA 3/73 Telefon: Internet: Vorlesung: Montag, Uhr, HGA 20 Thema: Modelle der Faktorenanalyse, Clusteranalyse, logistische und ihre Anwendungen in der Psychologie 2 / 232

3 Statistik-Team Übung: Freitag, Uhr, HGA 30 (ab ) Tobias Kley: NA 3/76, Tel Tutorium: SPSS Nathalie Fritsch: GAFO 04/615, Mo. (wtl.) Uhr (ab ) Max Willenberg: GA 1/128 (CiP-Insel), Di (3-wtl.) Uhr (ab ) Igor Ivanov: GAFO 04/271, Fr (wtl.) Uhr (ab ) Koordination Tutorium Lars Kuchinke: GAFO 02/278, Tel / 232

4 Übungsaufgaben Zwei Kommentare aus der Evaluation zu Methodenlehre II: Falls es gewünscht wird, können in Ergänzung zu den Übungsaufgaben in Blackboard (sehr einfache) Fragen zur Vorlesung gestellt und Eckpunkte der Lösung zu den Übungaufgaben abgefragt und die Antworten automatisiert bewertet werden. 4 / 232

5 Übungsaufgaben Die Aufgaben wären in einem begrenzten Zeitraum (ein bis zwei Wochen) zu bearbeiten. Wer sich jede Woche mit dem Stoff auseinander setzt und die Fragen (richtig) beantwortet kann hierfür bis zu fünf Bonusprozent in der Semesterabschlussklausur bekommen. Beispiel: 63 von 93 Punkten (67.7%) bei den Blackboardaufgaben, entsprechen +4% für die Klausur 52% statt 48% oder 100% statt 100%. Beispiel: 0 von 93 Punkten (0%) bei den Blackboardaufgaben, entsprechen 0% für die Klausur 48% statt 48% oder 100% statt 100%. Die Aufgaben wären also weiterhin optional. Aber: Wer sie bearbeitet, profitiert doppelt.? Wird diese Lösung von der Mehrheit gewünscht? 5 / 232

6 1. Einige (sehr kurze) Vorbemerkungen zur Matrizenrechnung 6 / 232

7 Abbildungen von Vektoren Beispiel: Es seien x 1 = ( ) 1 ; x 2 2 = ( ) ( ) 1 1 ; x 3 3 = 2 Vektoren und eine (quadratische) Matrix A = 1 ( ) Durch Multiplikation der Vektoren x 1, x 2, x 3 mit der Matrix A ergeben sich neue Vektoren. 7 / 232

8 Abbildungen von Vektoren Durch Multiplikation der Vektoren x 1, x 2, x 3 mit der Matrix A ergeben sich neue Vektoren: ( ( ) 1 x 1 = y 2) 1 = Ax 1 = ( ( ) 1 x 2 = y 2) 2 = Ax 3 = ( ) ( ) 1 3 x 3 = y 2 3 = Ax 3 = 1 Die Punkte y 1, y 2, y 3 erhält man aus x 1, x 2, x 3 durch eine Drehung um 45% gegen den Uhrzeigersinn. Die obige Matrix beschreibt also eine Drehung. 8 / 232

9 Y 1 X 1 Y 3 X 3 X 2 Y 2 9 / 232

10 Beachte: Bei der obigen Drehung ändern alle Vektoren ihre Richtung. Betrachtet man eine andere Matrix, z. B. ( ) 1 2 B = 2 1 so erhält man durch Multiplikation der Vektoren x 1, x 2, x 3 mit der Matrix B die neuen Vektoren: ( ) ( ) ( ) y 1 = Bx 1 = ; y 4 2 = Bx 2 = ; y 1 3 = Bx 3 = 0 In diesem Fall ändert sich auch die Länge der Vektoren! Jede Matrix beschreibt eine Abbildung, die den Punkten der Ebene neue Punkte zuordnet. 10 / 232

11 Y 1 Y 3 Y 2 X 1 X 3 X 2 11 / 232

12 Frage: Gibt es Vektoren, die bei Multiplikation mit einer Matrix ihre Richtung nicht ändern? Für die Matrix A gibt es solche Vektoren nicht! Für den Vektor gilt: Bx 1 = Für den Vektor ( ) ( x 1 1 = 1) ( ) 1 = 1 ( x 1 2 = 1) ( ) 3 = 3 3 ( ) 1 = 3x 1 1 gilt: Bx 2 = ( ) ( = 2 1 1) ( ) ( 1 1 = ( 1) = ( 1)x 1 1) 2 D. h. Für die Matrix B existieren solche Vektoren (man beachte: wir identifizieren die Richtung von Bx 2 und x 2 als dieselbe)! 12 / 232

13 Y 1 Y 2 X 1 X 2 13 / 232

14 1.1 Definition Ist A eine n n Matrix und x ein n-dimensionaler Vektor, dann heißt x Eigenvektor der Matrix A zum Eigenwert λ, falls die Gleichung erfüllt ist. Beachte: Ax = λx Mit x ist auch jedes Vielfache von x Eigenvektor. Die Matrix A hat immer n Eigenwerte λ 1,..., λ n (diese sind nicht notwendig reelle Zahlen). Symmetrische Matrizen (A = A T ) haben reelle Eigenwerte. Z. B. ist die Matrix aller Korrelationen von beobachteten Variablen symmetrisch! Die Berechnung von Eigenwerten und Eigenvektoren ist nicht einfach und wird in dieser Vorlesung nicht besprochen. 14 / 232

15 1.2 Determinante einer quadratischen Matrix Bezeichnung: Ist A eine n n Matrix und sind λ 1,..., λ n die Eigenwerte von A, dann heißt die Größe A = λ 1 λ 2... λ n = n j=1 λ j Determinante der Matrix A Beachte: Eigenwerte und Determinanten werden nur für quadratische Matrizen definiert (Zeilenzahl = Spaltenzahl) 15 / 232

16 16 / 232

17 2.1 Grundlegende/einleitende Bemerkungen zur Faktorenanalyse Die Faktorenanalyse ist ein Sammelbegriff für eine Reihe von explorativen Verfahren, um für wechselseitige Beziehungen vieler Variablen ein einfaches Erklärungsmodell zu bestimmen Typisches Beispiel: Schulnoten ( 10 inklusive Kopfnoten) Erklärung durch Intelligenz und Disziplin. Man Beachte: Die Größen Intelligenz und Disziplin sind nicht direkt beobachtbar Ziel: Aus der Korrelationsmatrix der beobachtbaren Variablen sollen möglichst wenige, wechselseitig voneinander unkorrelierte Faktoren extrahiert werden, sodass möglichst wenig Information über die beobachteten Variablen verloren geht sich eine interpretierbare Struktur ergibt, durch die die Faktoren bezüglich der gemeinsamen Anteile der Ausgangsvariablen benannt werden können 17 / 232

18 Das Ergebnis der Faktorenanalyse sind wechselseitig voneinander unkorrelierte Faktoren, die die Zusammenhänge zwischen den beobachtbaren Variablen erklären In dieser Vorlesung betrachten wir nur ein Verfahren der Faktorenanalyse: Hauptkomponentenanalyse (PCA: principal component analysis) Es gibt viele andere Verfahren der Faktorenanalyse, die sich vor allem aus anderen Modellannahmen ableiten. Z. B. Explorative Faktorenanalyse Image Analyse Kanonische Faktorenanalyse 18 / 232

19 Heuristisches Prinzip: Schritt 1: Aus den Korrelationen der gemessenen Variablen wird eine synthetische Variable (Faktor) konstruiert, die mit allen gemessenen Variablen möglichst hoch korreliert ist. Dieser Faktor ist also eine theoretische (nicht beobachtbare) Variable. Die Partialkorrelationen bzgl. dieses Faktors erfassen diejenigen Zusammenhänge, die durch den Faktor nicht erklärt werden können. Schritt 2: Aus den Restkorrelationen wird dann mit derselben Methode ein weiterer Faktor bestimmt, der mit dem ersten Faktor unkorreliert ist. die verbleibenden Zusammenhänge möglichst gut erklärt. Dieses Verfahren wird dann fortgesetzt. Wie wird das gemacht? 19 / 232

20 2.2 Das Grundprinzip des Faktormodells in einem Beispiel Klausurergebnisse in 5 Fächern (Mechanik, Vektorrechnung, Algebra, Analysis, Statistik) In den Klausuren zur Algebra (x 3 ), Analysis (x 4 ) und Statistik (x 5 ) konnten während der Klausur Bücher verwendet werden, (O: open book); in den Klausuren zur Mechanik (x 1 ) und Vektorrechnung (x 2 ) nicht (C: closed book). Daten (Ergebnisse in Punkten) C O x 1 x 2 x 3 x 4 x Datensatz unter verfügbar / 232

21 Korrelationsmatrix für das Beispiel der Klausurergebnisse Beachte: Es bestehen Korrelationen zwischen allen Variablen! kleinste Korrelation besteht zwischen den Ergebnissen der Klausuren in Mechanik und Statistik (x 1 und x 5 ) größte Korrelation besteht zwischen den Ergebnissen der Klausuren in Algebra und Analysis (x 3 und x 4 ) 21 / 232

22 Beachte: x mi bezeichne das Ergebnis des m-ten Studenten in Klausur i (i = 1,..., 5 m = 1, 2,..., 87) Es ist zu erwarten: (1) dass eine Korrelation zwischen den verschiedenen Klausuren besteht. Die Ergebnisse könnten z. B. von der Intelligenz oder einer anderen nicht beobachtbaren Eigenschaft der Kandidaten abhängen. Diese Eigenschaft der Person m wird mit f m bezeichnet. (2) dass das Ausmaß dieser Eigenschaft für die Bearbeitung der verschiedenen Klausuren unterschiedlich ist. Das Ausmaß, in dem diese Eigenschaft für die Bearbeitung der Klausur i erforderlich ist, wird mit a i bezeichnet. 22 / 232

23 Mathematische Annahme: Faktormodell x m1 = f m a 1 x m2 = f m a 2 x m3 = f m a 3 x m4 = f m a 4 x m5 = f m a 5 + Rest D. h. das Klausurergebnis x mi (des m-ten Studenten im Fach i) setzt sich als Produkt zusammen aus der Eigenschaft (z. B. der allgemeinen Intelligenz) der m-ten Person (f m ) (man spricht von einem Faktor) und dem Ausmaß einer Eigenschaft (z. B. der allgemeinen Intelligenz), das für die Bearbeitung der Klausur i in diesem Fach erforderlich ist (a i ). Beachte: Der Faktor wird mathematisch konstruiert und seine Interpretation (z. B. als allgemeine Intelligenz) erfolgt erst später. 23 / 232

24 Beachte: Es kann weitere Faktoren geben! Beispiel: Mit einer Eigenschaft (z. B. der allgemeinen Intelligenz) sind die Klausurergebnisse nicht eindeutig bestimmt und es bleibt oft ein nicht erklärbarer Rest (man beachte, dass der Rest für jede Klausur ein anderer ist). Zum Beispiel könnten Klausuren mit Buchbenutzung andere Eigenschaften erfordern als Klausuren ohne Buchbenutzung, z. B. Disziplin (um etwas auswendig zu lernen). Es ist daher in vielen Fällen sinnvoll einen weiteren (und evtl. auch mehrere) Faktor(en) einzuführen. In der Regel sucht man nach möglichst wenigen Faktoren. 24 / 232

25 Ein zweiter Faktor: Bezeichnet man die Ausprägung des ersten Faktors (z. B. der allgemeinen Intelligenz) der Person m mit f m1 das Ausmaß, in dem die Klausur i den ersten Faktor (z. B. allgemeine Intelligenz) erfordert mit a i1 die Ausprägung des zweiten Faktors (z. B. der Disziplin ) der Person m mit f m2 das Ausmaß, in dem die Klausur i den zweiten Faktors (z. B. die Disziplin ) erfordert mit ai2 so erhält man das folgende Modell x m1 = f m1 a 11 + f m2 a 12 x m2 = f m1 a 21 + f m2 a 22 x m3 = f m1 a 31 + f m2 a 32 + Rest x m4 = f m1 a 41 + f m2 a 42 x m5 = f m1 a 51 + f m2 a 52 Die Fähigkeit, die Klausur zu bearbeiten, stellt sich als gewichtete Summe aus den Komponenten Intelligenz und Disziplin dar. Diese beiden Größen bezeichnen wir als Faktoren 25 / 232

26 2.3 Das allgemeine Faktormodell x mi = f m1 a i f mq a iq + Rest = q j=1 f mj a ij + Rest (m = 1,..., n i = 1,..., p) Interpretation: n ist die Anzahl der Versuchsperson; p bezeichnet die Anzahl der Variablen/Merkmale, die bei jeder Versuchsperson gemessen werden. x mi repräsentiert die i-te Komponente der Messung für die Versuchsperson m (im Beispiel: Klausurergebnis für Klausur i = 1,..., p = 5) f mj Ausprägung der Person m mit dem Faktor j (j = 1,..., q) q bezeichnet die Anzahl der Faktoren (im Beispiel ist - bis jetzt - q = 2) Beachte: Im mathematischen Modell sind f 1 = (f 11,..., f 1q ), f 2 = (f 21,..., f 2q ),..., f n = (f n1,..., f nq ) Zufallsvariable (genauer Zufallsvektoren), deren Komponenten Varianz 1 haben. Außerdem wird angenommen, dass diese Zufallsvariablen unabhängig sind. 26 / 232

27 2.3 Das allgemeine Faktormodell x mi = f m1 a i f mq a iq + Rest = q j=1 f mj a ij + Rest Interpretation: (m = 1,..., n i = 1,..., p) a ij Bedeutung des j-ten Faktors für die Variable x i (im Beispiel die Bedeutung von Intelligenz (j = 1) bzw. Disziplin (j = 2) für das Klausurergebnis in den 5 Fächern, d. h. i = 1,..., 5). Die Größen a ij bezeichnet man auch als Faktorladungen In der Regel ist q wesentlich kleiner als p ( Dimensionsreduktion) und aus diesem Grund steht in der obigen Gleichung immer ein Rest. Wie bestimmt man die Faktoren und die Faktorladungen? 27 / 232

28 Matrixschreibweise des allgemeinen Faktormodells x x 1p X = x n1... x np a a 1q A =..... a p1... a pq ; F = ; A T = f f 1q f n1... f nq a a p a 1q... a pq Matrixschreibweise des allgemeinen Faktormodells X = F A T Beachte: X ist n p Matrix (die Datenmatrix) F ist n q Matrix A T ist q p Matrix 28 / 232

29 Matrixschreibweise des allgemeinen Faktormodells Beachte: X ist n p Matrix F ist n q Matrix A T ist q p Matrix X = F A T Die Darstellung ist nicht eindeutig: ist V eine invertierbare q q Matrix mit V V 1 = I q, so gilt X = F A T = F I q A T = F V V 1 A T = F ÃT mit F = F V ; Ã T = V 1 A T. Oft interessiert man sich für solche Matrizen, für die V 1 = V T gilt (solche Matrizen, genauer die durch sie beschriebenen Abbildungen bezeichnet man als orthogonale Rotation) 29 / 232

30 2.4 Bestimmung der Faktoren für das Beispiel von 2 Variablen 3 Daten P 1 = ( x11 ) = x 12 ( ( ) ( ( ) 1 x21 0 x31 ; P 2) 2 = = ; P x 22 1) 3 = = x 32 ( ) 1 3 X 2 P 1 P 2 X 1 P 3 30 / 232

31 Kenngrößen der Daten x 1 = 1 3 s 2 x 1 = 1 3 s 2 x 2 = x j1 = 0 ; x 2 = 1 3 j=1 3 (x j1 x 1 ) 2 = 2 3 j=1 3 (x j2 x 2 ) 2 = 14 3 j=1 3 x j2 = 0 j=1 sx sx 2 2 = s 2 x 1,x 2 = 1 3 j=1 (x j1 x 1 )(x j2 x 2 ) = / 232

32 Gesucht: Neues Koordinatensystem mit der folgenden Eigenschaft: In dem neuen Koordinatensystem hat die erste Koordinate der Datenpunkte möglichst große und die zweite Koordinate möglichst kleine Varianz Beispiel 1: Drehung der Achsen um 90 P 1 P 2 X 2 P 3 X 1 32 / 232

33 Beispiel 1: Drehung der Achsen um 90 (nicht optimal) Beachte: In dem neuen Koordinatensystem haben die Punkte die Koordinaten ( ) ( ) ( ) ( ) y11 2 y21 1 P 1 = = ; P y = = ; y 22 0 ( ) ( ) y31 3 P 3 = = 1 y 32 Die Varianz der ersten Koordinate wird deutlich vergrößert y 1 = 1 3 y j1 = 0 ; y 3 2 = 1 3 y j2 = 0 3 s 2 y 1 = 1 3 s 2 y 2 = 1 3 j=1 3 (y j1 y 1 ) 2 = 14 3 j=1 j=1 3 (y j2 y 2 ) 2 = 2 3 ; s2 y 1 + sy 2 2 = 16 3 j=1 3 s 2 y 1,y 2 = 1 3 j=1 (y j1 y 1 )(y j2 y 2 ) = / 232

34 Beispiel 2: Drehung um 45 (besser als am Anfang - aber nicht optimal!) X 2 P 1 X 1 P 2 P 3 34 / 232

35 Beispiel 2: Drehung der Achsen um 45 (besser - aber nicht optimal!) In dem neuen Koordinatensystem haben die 3 Punkte die Koordinaten P 1 = P 3 = ( y11 y 12 ) ( y31 ) = y 32 ( ) 3 2 ( y21 = ; P 1 2 = 2 ( ) y 22 ) = ( ) ; Beachte: In diesem Fall wird die Varianz der ersten Koordinate nicht weiter vergrößert y 1 = 0 ; y 20 = 0 3 s 2 y 1 = 1 3 j=1 (y j1 y 1 ) 2 = 13 3 s 2 y 2 = 1 ; s 2 y 1 + s 2 y 2 = 16 3 s 2 y 1,y 2 = (y j1 y 1 )(y j2 y 2 ) = 2 j=1 35 / 232

36 Beispiel 3: Drehung um (optimal!) X 1 X 2 P 2 P 1 P 3 36 / 232

37 Beispiel 3: Drehung um (optimal!) In diesem Koordinatensystem haben die 3 Punkte die Koordinaten ( ) ( ) ( ) ( ) y y P 1 = = ; P y = = ; y ( ) ( ) y P 3 = = 0.08 y 32 In diesem Fall ist die Varianz der ersten Koordinate maximal und die der zweiten Koordinate minimal y 1 = 0 ; y 2 = 0 ; s 2 y 1 = ; s 2 y 2 = s 2 y 1 + s 2 y 2 = 16 3, s2 y 1,y 2 = 0 Die beiden neuen Achsen nennt man Faktoren. Offensichtlich kann der größte Teil der Varianz der beiden Variablen durch nur einen Faktor erklärt werden! Durch die orthogonale Rotation wurden Koordinaten eingeführt, in denen die Daten unkorreliert sind. 37 / 232

38 2.5 Das Prinzip der Faktor- (Hauptkomponenten) analyse im allgemeinen Fall Methode: In der Regel wird die Faktorenanalyse mit der Korrelationsmatrix durchgeführt d. h. die Daten werden zunächst z-standardisiert Mit der Hauptkomponentenanalyse bestimmt man für die p Variablen durch Drehungen ein neues Koordinatensystem: Schritt 1: Die erste Achse (Faktor) wird so gewählt, dass die Projektionen der Daten auf diese Achse maximale Varianz haben Dadurch wird ein Teil der Gesamtvarianz durch den ersten Faktor erklärt Schritt 2: Die zweite Achse wird orthogonal (senkrecht) zu der ersten Achse so gewählt, dass von der Restvarianz ein möglichst großer Anteil erklärt wird (man beachte, dass im Beispiel 3.4 p = 2 ist und dadurch die zweite Achse festgelegt ist) Schritt 3, 4,... : Das Verfahren wird in dieser Weise fortgesetzt. 38 / 232

39 Beachte: Die neuen Achsen erklären sukzessive maximale Varianz. Mathematisch bestimmt man dafür die Eigenwerte und Eigenvektoren der Korrelationsmatrix der Daten. Die neuen (optimalen) Achsen bezeichnet man als Faktoren. Die neuen Koordinaten y mi werden noch durch eine z-transformation standardisiert. D. h. man ersetzt y mi durch z mi = y mi y i s yi, und die transformierten Werte heißen Faktorwerte. Diese Werte sind die Koordinaten der Daten bzgl. der neuen Achsen und geben Auskunft, wie stark die Merkmale in dem jeweiligen Faktor ausgeprägt sind. Die Faktorladungen a ij sind die Korrelationen zwischen den Faktorwerten für den j-ten Faktor und den Messungen der Variablen x i. D. h. a 2 ij ist der Anteil der Varianz, der Variablen x i, der durch j-ten Faktor erklärt werden kann! 39 / 232

40 Weitere Bezeichnungen Die Größe λ j = p aij 2 (j = 1,..., q) i=1 ergibt diejenige Varianz, die durch den j-ten Faktor aufgeklärt werden kann. λ j heißt Eigenwert des j-ten Faktors. Sind die Variablen wie üblich z-standardisiert, dann ist die Summe der Varianzen aller Variablen gleich p, p λ j = p und es gilt j=1 0 λ j p (j = 1,..., q) D. h. der Eigenwert λ j gibt an, wie viel von der Gesamtvarianz aller Variablen durch den j-ten Faktor erklärt werden kann. Man kann zeigen: λ 1 λ 2... λ q sind die q größten Eigenwerte der Korrelationsmatrix der Daten. 40 / 232

41 Kommunalitäten Die Größe h 2 i = q aij 2 (i = 1,..., p) j=1 gibt an, welcher Anteil der Varianz der Variablen x i durch die q Faktoren erklärt werden kann. hi 2 heißt Kommunalität und es gilt (da man wie üblich von z-standardisierten Variablen ausgeht) 0 h 2 i 1 Beachte: Bei der Verwendung von q = p Faktoren sind alle Kommunalitäten gleich / 232

42 2.6 Eine Methode zur Wahl von q Die Frage, wie viele Faktoren man verwendet, ist nicht eindeutig beantwortbar. In der Regel sollte q im Verhältnis zu p klein sein! Kaiser-Guttmann Kriterium: Benutze nur Faktoren für die der zugehörige Eigenwert λj größer als 1 ist! Beachte: Die Varianz der standardisierten Eingangsvariablen ist gleich 1! Damit betrachtet man nur Faktoren, für die die Varianz der transformierten Größe größer ist als die ursprünglichen Varianzen. Ein Screeplot betrachtet das Eigenwertdiagramm in Abhängigkeit von den Faktoren und man sucht in diesem einen Knick, der die wesentlichen Eigenwerte von den unwesentlichen unterscheidet. In anderen Worten: Man reduziert Schritt für Schritt die Dimensionalität, bis plötzlich im nächsten Schritt die Kosten der Reduktion (gemessen in Form des Verlusts an erklärter Varianz) deutlich größer sind als in den vorigen Schritten. 42 / 232

43 Beispiel für ein Eigenwertdiagramm bzw. Screeplot Screeplot 5 4 Eigenwert Faktor Auf Basis des Diagramms entscheidet man für 3 Faktoren Aus Basis des Kaiser-Guttmann Kriteriums entscheidet man für 2 Faktoren 43 / 232

44 2.7 Faktorenanalyse im Beispiel 2.2 Korrelationsmatrix in SPSS Korrelation Mechanik Vektorrechnung Algebra Analysis Statistik Korrelationsmatrix Mechanik Vektorrechnung 1,000,558,558 1,000,546,615,408,492,390,437 Algebra,546,615 1,000,710,666 Analysis,408,492,710 1,000,610 Statistik,390,437,666,610 1,000 Als Eigenwerte erhält man für diese Matrix λ 1 = λ 2 = λ 3 = λ 4 = λ 5 = Beachte: λ 1 + λ 2 + λ 3 + λ 4 + λ 5 = 5 44 / 232

45 Screeplot für die Daten aus Beispiel Screeplot Eigenwert Faktor Auf Basis des Screeplot arbeitet man entweder mit 1 oder 2 Faktoren. Wir entscheiden uns hier für 2 Faktoren! Damit erklärt man ca. 78% der Gesamtvarianz aller Variablen. 45 / 232

46 SPSS Output: Erklärte Gesamtvarianz Komponente Anfängliche Eigenwerte Summen von quadrierten Faktorladungen für Extraktion Gesamt % der Varianz Kumulierte % Gesamt % der Varianz Kumulierte % 3,188 63,769 63,769 3,188 63,769 63,769,740,443,381 14,805 8,868 7,624 78,574 87,442 95,065 5,247 4, ,000 Extraktionsmethode: Hauptkomponentenanalyse. Erklärte Gesamtvarianz,740 14,805 78, / 232

47 SPSS Output: Kommunalitäten Mechanik Vektorrechnung Algebra Analysis Kommunalitäten Anfänglich 1,000 1,000 1,000 1,000 Extraktion,819 Statistik 1,000,777 Extraktionsmethode: Hauptkomponentenanalyse.,739,818,776 Beachte: Durch die beiden Faktoren kann man für alle Variablen ca. 78% der Varianz erklären! 81.9% der Varianz der Klausurergebnisse in Mechanik können durch die ersten beiden Faktoren erklärt werden (die Werte für die Faktorladungen findet man auf der folgenden Folie) / 232

48 SPSS Output: Komponentenmatrix Mechanik Vektorrechnung Algebra Analysis Komponentenmatrix a Komponente 1,713,773,898,816 2,558 Statistik,782 -,407 Extraktionsmethode: Hauptkomponentenanalyse. a. 2 Komponenten extrahiert,375 -,110 -,332 Beachte: Die Komponentenmatrix enthält die Faktorladungen {a ij i = 1,..., 5; j = 1, 2}, also die Korrelationen zwischen den Variablen und den extrahierten Faktoren. D. h. der erste Faktor erklärt (0.713) % der Varianz der Ergebnisse in der Mechanikklausur. 48 / 232

49 Komponentenmatrix Mechanik Vektorrechnung Algebra Analysis Komponentenmatrix a Komponente 1,713,773,898,816 2,558 -,110 -,332 Statistik,782 -,407 Extraktionsmethode: Hauptkomponentenanalyse. a. 2 Komponenten extrahiert,375 Beachte: Die erste Komponente kann man als Mittelwert auffassen. Ein hoher Faktorwert für eine Versuchsperson zeigt an, dass diese bei allen Klausuren gute Leistung erzielt hat. Die zweite Komponente beschreibt den Unterschied zwischen den Klausuren mit und ohne Buch. 49 / 232

50 SPSS Output: Komponentendiagramm Komponentendiagramm Mechanik Vektorrechnung Algebra Analysis Statistik -1,0-0,5 0,0 0,5 1,0 Komponente 1 50 / 232

51 SPSS Output: Komponentenwerte Mechanik Vektorrechnung Algebra Analysis Koeffizientenmatrix der Komponentenwerte Komponente 1,223,243,282,256 2,754 -,449 Statistik,245 -,550 Extraktionsmethode: Hauptkomponentenanalyse.,507 -,149 Die Faktorwerte sind Linearkombination der standardisierten Merkmalswerte. Die obige Matrix enthält die Gewichte in diesen Linearkombinationen. 51 / 232

52 Verwendung der Komponentenwerte zur Berechnung der Faktorwerte 1/2 Die Matrix auf der letzten Folie enthält die Transformationsvektoren v 1 λ1 und v 2 λ2, mit denen die fünf Merkmale in die zwei Faktorwerte transformiert werden können. Es sind λ 1 λ 2 die beiden größten Eigenwerte und v 1, v 2 die zugehörigen Eigenvektoren der Korrelationsmatrix. 52 / 232

53 Verwendung der Komponentenwerte zur Berechnung der Faktorwerte 2/2 Zur Veranschaulichung betrachten wir die Daten aus Beispiel 3.2 und berechnen den Faktorwert für das erste Datum mit obiger Matrix. z-standardisierung von x = (77, 82, 67, 67, 81) z = (2.17, 2.37, 1.54, 1.37, 2.23). Für den ersten Faktorwert verwende zum einen den Eigenvektor v 1 = (0.399, 0.433, 0.503, 0.457, 0.438) T zum größten Eigenwert λ 1 = Das ergibt: v 1 λ1 = (0.223, 0.234, 0.282, 0.256, 0.245) T Der Faktorwert ist damit: z v 1 = ( ) = λ1 53 / 232

54 2.7 Rotation der Faktoren Varimax Noch einige grundsätzliche Bemerkungen zur Hauptkomponentenanalyse (PCA) PCA liefert eine Datenreduktion der p-dimensionalen ursprünglichen Daten auf q-dimensionale Daten (in dem durch die Faktoren bestimmten Koordinatensystem). PCA ist ein mathematisches Verfahren, das nicht die Interpretierbarkeit der resultierenden Faktoren gewährleistet (es ist damit zu rechnen, dass die Faktoren zu viele Variablen hochladen ) 54 / 232

55 Beispiel (Fortsetzung von Beispiel 2.2) Die ursprünglichen Daten haben die Dimension 5 (das entspricht der Anzahl der Variablen/Merkmale). Die PCA liefert eine Reduktion auf Dimension 2 (mit den projezierten Daten kann 78.41% der Varianz der ursprünglichen Daten erklärt werden). In vielen Fällen sind die neuen Faktoren nur schwer interpretierbar. Ziel: Da die Faktoren nicht eindeutig bestimmt sind, versucht man eine weitere Rotation dieser 2 Faktoren zu finden, um eine bessere Interpretierbarkeit der neuen Faktoren zu erhalten. In dieser Vorlesung wird nur das Varimax Rotationsverfahren besprochen. 55 / 232

56 Beispiel (Fortsetzung von Beispiel 2.2) Streudiagramm der ersten beiden (nicht rotierten) Faktoren REGR factor score 2 for analysis 1 2,00000, , , , , ,00000, , ,00000 REGR factor score 1 for analysis 1 3, / 232

57 Varimax Rotation Anschauliche Beschreibung: Die Rotation der q Achsen (die durch die Hauptkomponentenanaylse ermittelt wurden) erfolgt so, dass quadrierte Ladungen mittlerer Größe entweder unbedeutender oder extremer werden. Quadrierte Ladung ungefähr 1 Ladung ungefähr ±1 Ausgangsvariable kann als Indikatorvariable für den Faktor interpretiert werden. Quadrierte Ladung ungefähr 0 Ladung ungefähr 0 Ausgangsvariable ist keine Indikatorvariable. 57 / 232

58 Mathematische Beschreibung der Varimax Rotation Die q Achsen (die durch die Hauptkomponentenanaylse ermittelt wurden) werden so rotiert, dass die Summe der Varianzen der quadrierten Ladungen der verschiedenen Faktoren maximal wird: s 2 j = 1 p p (aij) 2 2 ( 1 p i=1 p i=1 a 2 ij) 2 ist die Varianz der quadrierten Ladungen für Faktor j (j = 1,..., q). Die Rotation der Achsen wird so bestimmt, dass die Summe der Varianzen q maximal wird. j=1 s 2 j 58 / 232

59 2.8 Beispiel: Varimax Rotation für die Daten aus Beispiel 2.2 Komponente Anfängliche Eigenwerte Gesamt % der Varianz Kumulierte % 3,188 63,769 63,769,740,443,381 14,805 8,868 7,624 78,574 87,442 95,065 5,247 4, ,000 Extraktionsmethode: Hauptkomponentenanalyse. Erklärte Gesamtvarianz Summen von quadrierten Faktorladungen für Extraktion Gesamt % der Varianz Kumulierte % 3,188 63,769 63,769,740 14,805 78,574 Rotierte Summe der quadrierten Ladungen Komponente Gesamt % der Varianz Kumulierte % 1 2,189 43,784 43, ,739 34,789 78,574 Extraktionsmethode: Hauptkomponentenanalyse. Erklärte Gesamtvarianz 59 / 232

60 SPSS Output: Komponentenmatrix nach Varimax Rotation Beachte: Rotierte Komponentenmatrix a Mechanik Vektorrechnung Algebra Analysis Komponente 1,192,355,761,840 2,885,266 Statistik,861,186 Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser-Normalisierung. a. Die Rotation ist in 3 Iterationen konvergiert.,783,489 Der erste Faktor hat einen stärkeren Einfluss auf die Klausurergebnisse mit Buch ( Intelligenz ) Der zweite Faktor hat einen stärkeren Einfluss auf die Klausurergebnisse ohne Buch ( Disziplin ) 60 / 232

61 SPSS Output: Komponententransformationsmatrix Komponententransformationsmatrix Komponente 1 2 1,769, ,639,769 Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser-Normalisierung. Beachte: Diese Matrix beschreibt die Rotation (in unserem Fall ist das eine Drehung, da nur 2 Faktoren betrachtet werden). Z. B. ( ) ( ) ( ) = / 232

62 Beispiel (Fortsetzung von Beispiel 0.0) Das Streudiagramm der ersten beiden rotierten Faktoren REGR factor score 2 for analysis 2 2,00000, , , , , ,00000, , , ,00000 REGR factor score 1 for analysis 2 62 / 232

63 Beispiel (Fortsetzung von Beispiel 2.2) Das Streudiagramm der ersten beiden (nicht rotierten) Faktoren REGR factor score 2 for analysis 1 2,00000, , , , , ,00000, , , ,00000 REGR factor score 1 for analysis 1 63 / 232

64 SPSS Output: Komponentendiagramm nach Varimax Rotation Komponentendiagramm im rotierten Raum 1,0 Mechanik Vektorrechnung 0,5 Algebra Komponente 2 0,0 Analysis Statistik -0,5-1,0-1,0-0,5 0,0 0,5 1,0 Komponente 1 64 / 232

65 SPSS Output: Komponentendiagramm vor Varimax Rotation Komponentendiagramm 1,0 Mechanik 0,5 Vektorrechnung Komponente 2 0,0 Analysis Algebra -0,5 Statistik -1,0-1,0-0,5 0,0 0,5 1,0 Komponente 1 65 / 232

66 SPSS Output: Koeffizientenmatrix nach Varimax Rotation Mechanik Vektorrechnung Algebra Analysis Koeffizientenmatrix der Komponentenwerte Komponente 1 -,310 -,137,312,483 2,723,545,066 -,182 Statistik,540 -,266 Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser-Normalisierung. Interpretation: Wie auf Folie 52 und 53 (Berechnung der Faktorwerte aus den z-standardisierten Originaldaten) 66 / 232

67 Bemerkung: Weitere Rotationsverfahren Beachte: Die Varimax Rotation ist eine orthogonale Rotation, bei der die Unkorreliertheit der Faktoren erhalten bleibt. Die Varianz der q Faktoren wird auf die neuen (rotierten) Faktoren umverteilt, um eine bessere Interpretierbarkeit der Faktoren zu erhalten. Es gibt auch alternative orthogonale Rotationen. Bei orthogonalen Rotationen ändern sich die Kommunalitäten nicht. Es gibt Rotationsvarianten, bei denen die die neuen Faktoren nicht unkorreliert sind (oblique Rotationen): Oblimin Promax Quartimin Tandem. 67 / 232

68 2.9 Beispiel (Persönlichkeitspsychologie) Ziel: Aus einer (großen) Menge von Adjektiven sollen einzelne Gruppen von inhaltlich zusammenhängenden Adjektiven identifiziert werden (beschreiben hochkorrelierte Adjektive eine gemeinsame Eigenschaft?) Probanden schätzen eine Person dahingehend ein, inwieweit die jeweiligen Adjektive auf diese Person zutreffen (1 trifft überhaupt nicht zu; 9 trifft voll zu) 12 Adjektive (p = 12 Variable/Merkmale) Variablen Adjektive Variablen Adjektive x1 angriffslustig x7 akkurat x2 penibel x8 gewissenhaft x3 streitbar x9 kleinlich x4 kämpferisch x10 übergenau x5 grimmig x11 herausfordernd x6 gründlich x12 hitzig 68 / 232

69 Daten (n = 30) x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 x 11 x / 232

70 Mit der Faktoranalyse sollen nun die Adjektive zu möglichst wenig Gruppen (Faktoren) zusammengefasst werden, sodass möglichst wenig Information bei dieser Datenreduktion verloren geht die extrahierten Faktoren möglichst gut interpretierbar sind 70 / 232

71 Korrelationsmatrix für die Daten aus Beispiel 2.9 1/2 Korrelation Beobachtung: angriffslustig penibel streitbar kämpferisch grimmig gründlich akkurat gewissenhaft kleinlich übergenau herausfordernd hitzig -,135,945,770,624 -,147 -,271 -,101,033 -,152,607,541 Korrelationsmatrix penibel -,135 1,000,052,070,199,931,917,194,829,856,056,214,052 1,000,757,693,039 -,109 -,063,226,077,622,641 Korrelationsmatrix,070,757 1,000,555,056 -,053 -,016,187,042,737,537,199,693,555 1,000,224,135,049,236,215,641,812,931,039,056,224 1,000,951,397,844,867,109,208 akkurat -,271 gründlich -,147 grimmig,624 kämpferisch,770 streitbar,945 angriffslustig 1,000 gewissenhaft kleinlichund genau über- herausfordernd Die Variablen angriffslustig streitbar haben hitzig viel Korrelation angriffslustig -,101,033 -,152,607,541 gemeinsame penibel Varianz,194 (r 1,3,829 95%),856,056,214 Die Variablen streitbar angriffslustig -,063,226und,077 penibel,622hängen,641 nur wenig kämpferisch -,016,187,042,737,537 zusammen (r 1,2 14%) grimmig,049,236,215,641,812 gründlich,397,844,867,109,208,917 -,109 -,053,135,951 1,000,388,753,795,005, / 232

72 gewissenhaft -,101,194 kleinlich,033,829,226,187,236,844,753 Korrelationsmatrix für die Daten aus Beispiel 2.9 übergenau -,152,856,077,042,215,867,795 herausfordernd,607,056,622,737,641,109,005 2/2 -,063 -,016 hitzig,541,214,641,537,812,208,128 übergenau kleinlich,033 -,152,829,856,226,077 gewissenhaft Korrelation angriffslustig penibel streitbar kämpferisch grimmig gründlich akkurat gewissenhaft kleinlich übergenau herausfordernd hitzig -,101,194 -,063 -,016,049,397,388 1,000,234,227,109,062 Korrelationsmatrix herausfordernd hitzig,607,541,056,214,622,641,737,537,641,812,109,208,005,128,109,062,224,239,111,220 1,000,659,659 1,000,187,042,236,215,844,867,753,795,234,227 1,000,935,935 1,000,224,111,239,220,049,397,388 Die Variablen streitbar und gewissenhaft hängen nur wenig zusammen (r 3,8 6%) Die Variablen übergenau und kleinlich haben viel gemeinsame Varianz (r 10,9 94%) 72 / 232

73 Screeplot für die Daten aus Beispiel 2.9 Screeplot 5 4 Eigenwert Faktor = Wir entscheiden uns mit 3 Faktoren zu arbeiten! 73 / 232

74 SPSS Output: Erklärte Gesamtvarianz für die Daten aus Beispiel 2.9 1/2 Komponente Gesamt 4,991 4,127,958,666,458,321,189,152,048,043,029 Anfängliche Eigenwerte % der Varianz 41,596 34,388 7,985 5,546 3,813 2,675 1,575 1,266,401,355,242 Erklärte Gesamtvarianz Kumulierte % 89,515 93,329 96,003 97,579 98,845 99,246 99,601 99,842 12,019, ,000 Extraktionsmethode: Hauptkomponentenanalyse. Anfängliche Eigenwerte Erklärte Gesamtvarianz Summen von quadrierten Faktorladungen für Extraktion Komponente Kumulierte % Gesamt % der Varianz Kumulierte % 1 41,596 4,991 41,596 41, ,984 4,127 34,388 75, ,969,958 7,985 83,969 Die drei gewählten Faktoren erklären zusammen % = % % % der Gesamtvarianz. Extraktionsmethode: Hauptkomponentenanalyse. Erklärte Gesamtvarianz Rotierte Summe der quadrierten Ladungen 74 / 232

75 5,458 93,329 6,321 2,675 96,003 7,189 1,575 97,579 SPSS Output: Erklärte Gesamtvarianz für die 8,152 1,266 98,845 9,048,401 99,246 Daten aus Beispiel 10, /2,355 99,601 3,813 11,029,242 99,842 12,019, ,000 Extraktionsmethode: Hauptkomponentenanalyse. Anfängliche Eigenwerte Summen von quadrierten Faktorladungen für Extraktion Komponente Kumulierte % Gesamt % der Varianz Kumulierte % 1 41,596 4,991 41,596 41, ,984 4,127 34,388 75, ,969,958 7,985 83,969 Extraktionsmethode: Hauptkomponentenanalyse. Erklärte Gesamtvarianz Komponente 1 2 Rotierte Summe der quadrierten Ladungen Gesamt 4,552 4,425 % der Varianz 37,933 Erklärte Gesamtvarianz 36,872 Kumulierte % 37,933 74, ,100 9,164 83,969 Extraktionsmethode: Hauptkomponentenanalyse. Beachte: Nach der Rotation der Faktoren ändern sich die Varianzanteile, der Gesamtanteil für die drei Faktoren bleibt gleich. 75 / 232

76 SPSS Output Kommunalitäten für die Daten aus Beispiel 2.9 angriffslustig penibel streitbar kämpferisch grimmig gründlich akkurat gewissenhaft kleinlich übergenau herausfordernd Kommunalitäten Anfänglich 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 Extraktion,853,956,911,948,868,898,721 hitzig 1,000,680 Extraktionsmethode: Hauptkomponentenanalyse.,929,862,729,721 Beachte: Durch die drei Faktoren kann man für alle Variablen ca. 75% der Varianz erklären (in vielen Fällen sogar deutlich mehr)! 76 / 232

77 SPSS Output: Komponentenmatrix für die Daten aus Beispiel 2.9 angriffslustig penibel streitbar kämpferisch grimmig gründlich akkurat gewissenhaft kleinlich übergenau herausfordernd Komponentenmatrix a 1,358,789,536,508,641,815,716,296,837,788,550 Komponente 2,848,686,555 -,540 -,629 -,248 -,373 -,499, ,071 -,015,051,031,053,894 -,169 -,168,191 hitzig,630,526,080 Extraktionsmethode: Hauptkomponentenanalyse. a. 3 Komponenten extrahiert -,522,748 -,185 -,118 Beachte: Die Kommunalität der Variablen angriffslustig ergibt sich zu h 2 = ( 0.071) (vgl. vorige Folie ) 77 / 232

78 Komponentendiagramm Komponentendiagramm Komponente 2 1,0 0,5 0,0-0,5-1,0 x8 x1 x3 x4 x11 x12 x5 x9 x2 x7 x6 y10-1,0-0,5 0,0 Komponente 1 0,5 1,0 1,0 0,5 0,0-0,5-1,0 Komponente 3 Es ist relativ gut zu erkennen, dass drei Gruppen vorliegen. 78 / 232

79 SPSS Output: Komponentenwerte für die Daten aus Beispiel 2.9 Koeffizientenmatrix der Komponentenwerte angriffslustig penibel streitbar kämpferisch grimmig gründlich akkurat gewissenhaft kleinlich übergenau herausfordernd 1 -,046,236,005 -,011,014,198,191 -,101,220,229 -,037 Komponente 2,206 -,015,205,194,186 -,008 -,036,019,020 -,010, ,092 -,132 -,025,051,073,096,931 -,136 -,133,189 hitzig,011,180,081 Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser- Normalisierung. -,149 Interpretation: wie auf Folie 52 und 53 (Berechnung der Faktorwerte aus den z-standardisierten Originaldaten) 79 / 232

80 Komponentendiagramm Komponentendiagramm im rotierten Raum 1,0 x1 x3 x11 x4 Komponente 2 0,5 0,0-0,5 x8 x12 x5 x9 x6 x2 y10 x7-1,0-1,0-0,5 0,0 Komponente 1 0,5 1,0 1,0 0,5 0,0-0,5-1,0 Komponente 3 Es ist relativ gut zu erkennen, dass drei Gruppen vorliegen. 80 / 232

81 SPSS Output: Varimax Rotation für die Daten aus Beispiel 2.9 angriffslustig penibel streitbar kämpferisch grimmig gründlich akkurat gewissenhaft kleinlich übergenau herausfordernd Rotierte Komponentenmatrix a 1 -,188,963,020,013,181,951,920,203,912,946,045 Komponente 2,893,038,916,853,828,048 -,083,006,188,058, ,141 -,149 -,043,059,220,241,952,003,015,174 hitzig,183,799,090 Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser- Normalisierung. a. Die Rotation ist in 4 Iterationen konvergiert., / 232

82 Eine mögliche Interpretation der Faktoren Die Variablen penibel, gründlich, akkurat, kleinlich und korrelieren hoch mit Faktor 1. übergenau Faktor 1 kann als Perfektionismus bezeichnet werden. Hohe Ausprägungen eines Probanden in diesem Faktor bewirken hohe Werte in den zugehörigen Variablen. Die Variablen angriffslustig, streitbar, kämpferisch, grimmig, herausfordernd und hitzig korrelieren hoch mit Faktor 2. Der Faktor 2 kann als Aggressivität beschrieben werden. Der Faktor 3 beschreibt nur die Eigenschaft gewissenhaft, die man auch Faktor 1 zuordnen kann (das mathematische Verfahren hat evtl. zu viele Faktoren ermittelt). 82 / 232

83 Faktorenanalyse für die Daten aus Beispiel 2.9 mit 2 Faktoren angriffslustig penibel streitbar kämpferisch grimmig gründlich akkurat gewissenhaft kleinlich übergenau herausfordernd Komponentenmatrix a Komponente 1,358,789,536,508,641,815,716,296,837,788,550 2,848,555 -,540 -,629 -,248 -,373 -,499,618 hitzig,630,526 Extraktionsmethode: Hauptkomponentenanalyse. a. 2 Komponenten extrahiert -,522,748, / 232

84 Komponentendiagramm Komponentendiagramm 1,0 0,5 x1 x4 x3 x11 x12 x5 Komponente 2 0,0-0,5 x8 x2 y10 x9 x6 x7-1,0-1,0-0,5 0,0 0,5 1,0 Komponente 1 84 / 232

85 Komponentenmatrix nach Varimax Rotation Rotierte Komponentenmatrix a angriffslustig penibel streitbar kämpferisch grimmig gründlich akkurat gewissenhaft kleinlich übergenau herausfordernd Komponente 1 -,221,945 -,019 -,004,181,976,950,386,893,930,070 2,894,828,056 -,075 -,022,202,073,824 hitzig,189,799 Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser-Normalisierung. a. Die Rotation ist in 3 Iterationen konvergiert.,054,920, / 232

86 Komponentendiagramm nach Varimax Rotation Komponentendiagramm im rotierten Raum 1,0 0,5 x1 x3 x11 x12 x4 x5 Komponente 2 0,0 x8 x9 y10 x6 x2 x7-0,5-1,0-1,0-0,5 0,0 0,5 1,0 Komponente 1 86 / 232

87 Eine mögliche Interpretation der zwei Faktoren Die Variablen penibel, gründlich, akkurat, kleinlich, übergenau und (mit Einschränkungen) gewissenhaft korrelieren hoch mit Faktor 1. Faktor 1 kann als Perfektionismus bezeichnet werden. Hohe Ausprägungen eines Probanden in diesem Faktor bewirken hohe Werte in den zugehörigen Variablen. Die Variablen angriffslustig, streitbar, kämpferisch, grimmig, herausfordernd und hitzig korrelieren hoch mit Faktor 2. Der Faktor 2 kann als Aggressivität beschrieben werden. 87 / 232

88 Einige abschließende Bemerkungen Auch nach der Varimax Rotation sind die Faktoren manchmal nur schwer interpretierbar. Faktorenanalyse ist ein mathematisches Verfahren, das keine Interpretierbarkeit der ermittelten Faktoren garantiert. Faktoren, die nicht interpretiert werden können, sind in der Regel praktisch unbrauchbar. Faktorenanalyse ist ein mathematisches Verfahren zum Finden von Hypothesen. 88 / 232

89 89 / 232

90 3.1 Beispiel: Vergleich von verschiedenen Unterrichtsmethoden Zwei Zufallsstichproben (A und B) mit je 10 Schülern und 8 Schülern Gruppe A wird nach Unterrichtsmethode A unterrichtet und Gruppe B nach Unterrichtsmethode B Für jeden Schüler werden zwei Variable gemessen Leistung (x1) Zufriedenheit (x2) Frage: Besteht zwischen den beiden Unterrichtsmethoden ein Unterschied? 90 / 232

91 Daten zu Beispiel 3.1 Methode A x 1 x Methode B x 1 x Beachte: Im Prinzip könnte man beide Variablen getrennt untersuchen. (z. B. Hypothesen bzgl. der Variablen x 1 mit t-test für zwei unabhängige Stichproben). Die Anwendung von multiplen Tests führt aber zu Schwierigkeiten bei der Wahl des Niveaus (vgl. Methodenlehre II, 1.16). 91 / 232

92 3.2 Mathematisches Modell g Gruppen von Probanden In jeder Gruppe gibt es n j Probanden, für die Daten erhoben werden (j) x 1,..., x(j) n j (j = 1,..., g) Jedes Datum (d. h. Messung an einem Probanden) hat p Variablen/Merkmale. x (j) m = (x (j) m1,..., x (j) mp) (m = 1,..., n j) bezeichnet die Messwerte für Proband m in Gruppe j (man beachte, dass der obere Index j die Gruppe bezeichnet). Alle Daten sind Realisierungen einer normalverteilten Zufallsvariable. Die Daten entstammen aus unabhängigen Gruppen. Ziel: Vergleich der Erwartungswertvektoren (d. h. den Vektoren aus den komponentenweise gebildeten Erwartungswerten). 92 / 232

93 3.3 Hypothesentest für den Erwartungswert (Vektor) der Population (g = 1) Frage: Ist der Erwartungswertvektor µ der Grundgesamtheit gleich einem gegebenen Vektor µ 0? Idee: Lehne die Nullhypothese H 0 : µ = µ 0 ab, falls der Vektor x (1) µ 0 groß ist. Dabei bezeichnet x (1) = 1 n 1 n 1 m=1 x (1) m den Mittelwertvektor der beobachteten Daten. Beachte: Der Mittelwertvektor x (1) ist der Vektor gebildet aus den Mittelwerten für die einzelnen Variablen x (1) m. 93 / 232

94 3.4 Beispiel (Fortsetzung von 3.2) Ein Wissenschaftler behauptet, dass der Erwartungswertvektor der Population derjenigen Schüler, die nach Methode ( ) A 10 unterrichtet werden, durch den Vektor µ 0 = gegeben ist. 5 In diesem Fall ist p = 2, n 1 = 10. Man berechnet den Mittelwertvektor x (1) = 1 n 1 ( 10.8 = 4.4 und erhält n 1 m=1 x (1) m = 1 10 ) {( ) ( ( ) } ) 4 ( ) x (1) 0.8 µ 0 = 0.6 Beachte: Wenn die Nullhypothese gilt, sollten die beiden Komponenten in diesem Vektor ungefähr gleich 0 sein, andernfalls sollte mindestens eine der Komponenten weit von 0 entfernt sein. 94 / 232

95 3.5 Hotellings T 2 -Test für eine Stichprobe Modellannahmen: die beobachteten Daten sind Realisationen von unabhängigen multivariat normalverteilten Zufallsvariablen. Testgröße wobei T 2 1 = n 1 (x (1) µ 0 ) T D 1 1 (x (1) µ 0 ) D 1 = 1 n 1 1 n 1 (x (1) m=1 m x (1) )(x (1) ) T m x (1) eine Schätzung für die Kovarianzmatrix der Population ist. Diese Matrix dient hier der Standardisierung, da nicht davon ausgegangen werden kann, dass verschiedene Variablen dieselbe Größenordnung haben. Die Nullhypothese H 0 : µ = µ 0 wird verworfen, falls n 1 p (n 1 1)p T 2 1 > F p,n1 p,1 α ist. Dabei ist F p,n1 p,1 α das (1 α)-quantil der F -Verteilung mit (p, n 1 p) Freiheitsgraden. 95 / 232

96 Beispiel (Berechnung der Kovarianzmatrix) Beachte: In Beispiel 3.1 erhält man für Gruppe A als Kovarianzmatrix [ {(11 D 1 = 1 ) ( )} {( ) ( )} T {( ) ( )} {( ) ( )} T ] [( ) ( ) ] 0.2 (0.2 ) 1.8 ( 1.8 ) = = 1 [( ) ( ( ) = ) ] / 232

97 Beachte: Berechnet man für das erste und das zweite Merkmal der Daten für Unterrichtsmethode A die Varianz, so ergibt sich sx 2 1 = 1 { ( ) 2 + (9 10.8) 2 + ( ) } 9 = 3.29 sx 2 2 = 1 { (5 4.4) 2 + (3 4.4) 2 + (4 4.4) } 9 = 1.82 D. h. in der Diagonalen der Kovarianzmatrix stehen die (empirischen) Varianzen der Merkmale. Berechnet man für das erste und zweite Merkmal die Kovarianz, so ergibt sich sx 2 1x 2 = 1 {( )(5 4.4) + (9 10.8)(3 4.4) +...} 9 = 0.36 D. h. in den Einträgen neben der Diagonalen stehen die (empirischen) Kovarianzen zwischen den Merkmalen. 97 / 232

98 Eine Bemerkung zur Kovarianzmatrix Beispiel: 500 simulierte Daten (zweidimensional) X1 X2 Beachte: Die Kovarianzmatrix D 1 wird zur Standardisierung verwendet. Ziel ist es, die Daten so zu transformieren, dass die einzelnen Komponenten dieselbe Größenordnung haben die beiden Komponenten unkorreliert sind 98 / 232

99 Beispiel: Bei den 500 Daten wurde jede Komponente getrennt z-standardisiert X1 X2 Beachte: Die einzelnen Komponenten haben dieselbe Größenordnung. Die beiden Komponenten sind aber nicht unkorreliert. 99 / 232

100 Beispiel: Die 500 simulierten Daten werden wie folgt transformiert. Es gibt eine Matrix A mit A A = D 1. Transformiere die Daten durch z i = A 1 (x (1) i x (1) ) X1 X2 Beachte: Die einzelnen Komponenten haben dieselbe Größenordnung. Die beiden Komponenten sind unkorreliert. 100 / 232

101 Beispiel: Hotellings T 2 -Test für Beispiel 3.1 Für die Daten aus Gruppe A im Beispiel 3.1 ergibt sich für die Statistik T 1 der Wert T1 2 = 10 ( ) ( ) 1 ( ) = 10 ( ) ( ) ( ) = 10 ( ) ( ) 0.21 = Da F 2,8,0.95 = 4.46 und T 2 1 H 0 : µ = = 1.52, kann die Nullhypothese ( ) 10 5 zum Niveau 5% nicht verworfen werden (p-wert: 0.275) 101 / 232

102 Anschauliche Interpretation von Hotellings T 2 -Test für die Daten aus Beispiel 3.1 X Y X1 Links: Original Daten Rechts: Daten nach der Transformation z = A 1 (x µ 0 ) Beachte: Die Nullhypothese wird abgelehnt, falls der durchschnittliche Abstand der transformierten Daten zum Nullpunkt des Koordinatensystems zu groß ist. Y1 102 / 232

103 SPSS Output für die Daten aus Beispiel 3.1 Beachte: Effekt Konstanter Term a. Exakte Statistik b. Design: Konstanter Term Pillai-Spur Wilks-Lambda Hotelling-Spur Größte charakteristische Wurzel nach Roy Multivariate Tests b Wert,276,724,380,380 F 1,522 a 1,522 a 1,522 a 1,522 a Hypothese df 2,000 2,000 2,000 2,000 Fehler df 8,000 8,000 8,000 8,000 Sig.,275,275,275,275 Mit SPSS wurde die Nullhypothese H : µ = 0 mit den um den Vektor µ 0 = ( 10 5 ) T verschobenen Daten überprüft. Der Wert von Hotellings T 2 berechnet sich, indem man den Wert der Hotelling-Spur mit (n 1) multipliziert: T 2 1 = (10 1) = 3.42 SPSS liefert noch die Ergebnisse für drei weitere Tests für die Nullhypothese H : µ = 0 (Pillai-Spur, Wilk s-lambda, Roy s größter Eigenwert), die am Ende des Kapitels erklärt werden. 103 / 232

104 3.6 Wichtigste Anwendung des Einstichproben T 2 -Tests: Vergleich von zwei abhängigen Stichproben Beispiel: 5 Probanden machen ein Konzentrationstraining. Vor und nach dem Training wird ein Konzentrationstest gemacht, indem 2 Variablen gemessen werden. Das ergibt die Daten: vorher x 1 x nachher x 1 x nachher - vorher x 1 x Frage: Bewirkt das Training einen Unterschied in der Konzentrationsfähigkeit? Idee: Falls kein Unterschied zwischen den Ergebnissen vor und nach dem Test besteht, sollten die Differenzen (nachher - vorher) klein sein. 104 / 232

105 T 2 -Tests: für zwei abhängige Stichproben Idee: Man wendet Hotelling s Einstichproben T 2 -Test auf die komponentenweise gebildeten Differenzen der Daten an, um die Hypothese H 0 : µ = 0 zu testen. Im Beispiel ergibt sich (n = 5, p = 2): Mittelwertvektor der Differenzen: ( ) T1 2 = 5 F = = 1.87 Das 95%-Quantil der F -Verteilung mit (2, 3) Freiheitsgraden ist F 2,3,0.95 = Damit kann die Nullhypothese ( vor und nach dem Training besteht kein Unterschied ) nicht zum Niveau 5% verworfen werden. 105 / 232

106 Anschauliche Interpretation von Hotellings T 2 -Test für die Daten aus Beispiel 3.6 X Y X1 Links: Original Daten (Differenzen vorher - nachher) Rechts: Daten nach der Transformation z = A 1 (x 0) Beachte: Die Nullhypothese wird abgelehnt, falls der durchschnittliche Abstand der transformierten Daten zum Nullpunkt des Koordinatensystems zu groß ist. Hier ist y (1) und y (2) Y1 106 / 232

107 3.7 Vergleich von zwei unabhängigen Stichproben Frage: Sind die Erwartungswertvektoren µ 1 und µ 2 der beiden Populationen (vgl. Beispiel 3.1) gleich? H 0 : µ 1 = µ 2 Idee: Die Nullhypothese wird abgelehnt, falls der Vektor der Differenzen x (1) x (2) groß ist (d. h. sich mindestens eine der Komponenten deutlich von 0 unterscheidet). Dabei bezeichnet x (j) = 1 n j n j m=1 x (j) m j = 1, 2 den Mittelwert (Vektor) der Gruppe j (j = 1: Lernmethode A, j = 2 Lernmethode B) 107 / 232

108 3.8 Beispiel (Fortsetzung von 3.1) Ein Wissenschaftler behauptet, dass zwischen den Unterrichtsmethoden ein Unterschied besteht. Mathematische Formulierung der Nullhypothese H 0 : µ 1 µ 2 = 0 H 0 : µ 1 = µ 2 µ j bezeichnet den Erwartungswert (Vektor) der Population j Als Schätzung für die Mittelwertdifferenz berechnet man zunächst den Mittelwertvektor der beiden Populationen (x (1) wurde bereits in Beispiel 4.4 berechnet) ) x (2) = 1 n 2 = n 2 m=1 ( Damit erhält man ) x (1) x (2) = x (j) m = 1 8 { + ( ) ( 10 4 ) + ( 8 4 ( ) = ( ) } ( ) / 232

109 3.9 Hotelling s T 2 -Test für den Vergleich von zwei Stichproben aus unabhängigen Populationen Modellannahmen: Zwei unabhängige Stichproben { } x m (1) = (x (1) m1,..., x mp (1) ) m = 1,..., n 1 { } x m (2) = (x (2) m1,..., x mp (2) ) m = 1,..., n 2 Die beobachteten Daten sind Realisationen von normalverteilten Zufallsvariablen. (x (1) 1,..., x(1) n 1 ) und (x (2) 1,..., x(2) n 2 ) sind Realisationen unabhängiger Zufallsvariablen (d. h. es liegen unabhängige Stichproben vor). Varianzhomogenität und Kovarianzhomogenität 109 / 232

110 3.9 Hotelling s T 2 -Test für den Vergleich von zwei Stichproben aus unabhängigen Populationen Testgröße T 2 2 = n 1n 2 (n 1 + n 2 2) n 1 + n 2 (x (1) x (2) ) T W 1 (x (1) x (2) ), wobei die Matrix W = n 2 j (x (j) m j=1 m=1 x (j) )(x (j) m x (j) ) T die (gewichteten) Summen der Varianzen und Kovarianzen innerhalb der beiden Gruppen enthält. Die Nullhypothese H 0 : µ 1 = µ 2 wird zum Niveau α verworfen, falls n 1 + n 2 p 1 (n 1 + n 2 2)p T 2 2 > F p,n1+n 2 p 1,1 α gilt. Dabei bezeichnet F p,n1+n 2 p 1,1 α das (1 α)-quantil der F -Verteilung mit (p, n 1 + n 2 p 1) Freiheitsgraden. 110 / 232