Multivariate Analysemethoden

Multivariate Analysemethoden Thema: Multidimensionale Skalierung () Günter Meinhardt Johannes Gutenberg Universität Mainz

Multidimensionale Skalierung Thema Multidimensionale Skalierung Problem: Positionierung von Messobjekten in einem latenten Raum (hier: Wahrnehmungsraum) Möglichkeiten: Faktorenanalyse Multidimensionale Skalierung

- Faktorenanalyse Faktorenanalyse Vorgehen Man lässt Personen Eigenschaftsausprägungen von Objekten einschätzen (Item-Schätzskalen). Man faktorisiert die Skalen und betrachtet die Koordinaten der Objekte auf den neuen (unabhängigen) Dimensionen (= latenter Wahrnehmungsraum). Vorgehen Man lässt nur die Ähnlichkeit der Objekte beurteilen (ohne den direkten Bezug auf konkrete Eigenschaften) und probiert die Anordnung ( Konfiguration ) der Objekte in einem latenten Raum derart, dass die Ähnlichkeitsurteile möglichst gut reproduziert werden.

- Faktorenanalyse Latente Variable Faktorenanalyse Man möchte Objekte (Personen) in einem Raum latenter Dimensionen (Fähigkeiten, Traits) anordnen. Gegeben ist ein Set von Beobachtungen (Messvariablen) x, x,, x p Problem: Finde latente Variablen w, w,, wr r p, so dass jede Variable x k eine Linearkombination der w l ist: x b w b w b w k k k kr r Beispiel: Das Abschneiden im Abitur mit Deutsch, Mathe, Physik, Latein und Geographie wird erklärt aus latenten Variablen Memory, Induction, Perceptual Speed, Space, Verbal Comprehension.

- Faktorenanalyse Latente Variable Multidimensionale Skalierung Man möchte Objekte (Personen) in einem Raum latenter Dimensionen anordnen. Gegeben ist ein Set von Beobachtungen über die (sensorischen) Distanzen der Objekte: (Distanzmatrix) D o o 0 o o o o d o d d 0 j j j j 0 n Problem: Finde latente Variablen w, w,, wr o d d d n n n nj 0 r n, so dass die Distanzen zwischen den Objekten auf den Koordinaten reproduziert werden. Beispiel: Man lässt Filmschauspieler paarweise nach Ähnlichkeit/Unähnlichkeit bewerten. Die soll den latenten Wahrnehmungsraum liefern, auf dem die Schauspieler angeordnet werden können, so dass die Ähnlichkeitsurteile reproduziert werden.

- Faktorenanalyse Faktorenanalyse Multidimensionale Skalierung Demo - Beispiel mit Excel und Statistica

Vorteile relevante Eigenschaften dürfen unbekannt sein (keine Verzerrung durch Vorauswahl) kann bereits bei Rangdaten eingesetzt werden (Ergebnisse sind mit metrischer quasi identisch) Nachteile Aggregation über Personen ist problematisch (Bezug auf verschiedene latente Dimensionen beim Urteil) Großer Interpretationsfreiraum beim Untersucher bei der inhaltlichen Benennung der Dimensionen (vage) - Lösung ist nicht algorithmisch (Keine Garantie die beste Lösung gefunden zu haben) Lösung ist von weiteren Parametern abhängig (Distanzmodell, Anzahl der Dimensionen)

Städte- Beispiel 07 0 76 66 56 668 7 64 68 Stuttgart 67 405 09 466 609 8 47 47 Nürnberg 578 48 69 78 400 584 48 München 4 87 4 89 569 496 Köln 64 07 9 78 57 Kassel 54 5 8 677 Hannover 495 94 80 Hamburg 555 7 Frankfurt 847 Berlin Basel Stutt. Nürnberg München Köln Hanno- Kassel ver Hamburg Frankfurt Berlin Basel Distanzen von Städten in km

Rangreihe der Distanzen von Städten 6 8 0 9 4 7 9 Stuttgart 6 8 8 9 5 5 Nürnberg 6 9 40 4 7 7 München 0 4 4 5 Köln 5 5 Kassel 8 4 Hannover 0 4 44 Hamburg 4 7 Frankfurt 45 Berlin Basel Stutt. Nürnberg München Köln Hanno- Kassel ver Hamburg Frankfurt Berlin Basel Städte- Beispiel

Städte- Beispiel - Konfiguration

Städte- Beispiel Konfiguration nach Rotation und Spiegelung

Anwendung Probleme Kommentar Die ist ein exploratives und nicht zur strengen Hypothesenprüfung geeignet Auffinden der Konfiguration (relative Lage der Objekte zueinander im Wahrnehmungsraum, wenn nur die Distanzen bekannt sind Bestimmung der Dimensionalität Bestimmung der Metrik Die Konfiguration ist unabhängig von Rotation und Spiegelung Es finden fast nur nichtmetrische Prozeduren Verwendung (Kruskal)

Ablauf. Messung von Ähnlichkeiten. Wahl des Distanzmodells. Ermittlung der Konfiguration 4. Zahl und Interpretation der Dimensionen 5. Aggregation von Personen

-. Messung von Ähnlichkeiten Methoden Rangreihe Ankerpunkt Rating Probleme: Rangreihungsmethode Ankerpunktmethode Ratingverfahren Es werden n über Paare geordnet von unähnlichstes Paar zu ähnlichstes Paar (bei grossem n kaum möglich) Jedes Objekt ist einmal Vergleichsobjekt (Anker) für alle anderen Objekte. Es werden soviele Rangreihen wie Objekte erstellt. Man erhält eine asymmetrische quadratrische Distanzmatrix, die in eine symmetrische überführt werden kann. Man bildet alle möglichen Paare und lässt diese, randomisiert dargeboten, auf einer Ratingskala nach Ähnlichkeit bewerten. Ties (Rangbindungen), Reliabilität der Ränge

-. Distanzmodell Euklidische Metrik p = 4.00.00.00 x b k d kl m d x x kl kv lv v l a p p.00 0.00 0.00.00.00.00 4.00 x a x x k l b x x k l 4 Objektdistanz d kl 0.6

-. Distanzmodell Minkowski- Metriken m d x x kl kv lv v p p p = p = p = Wahlkriterium Euklidische Metrik: Abstand der Objekte ist die Länge der Verbindungslinie. City-Block Metrik: Abstand der Objekte ist die Summe der einzelnen Koordinatendistanzen Supremum Metrik: Abstand der Objekte ist die größte der auftretenden Koordinatendistanzen Metrik muss nach inhaltlichen Gesichtspunkten gewählt Sein, Abstände werden in diesem Sinne interpretiert.

Distances/D-Hats Methoden der -. Konfiguration ermitteln Konfiguration ermitteln p = Shephard Diagramm Ausgehend von den Unähnlichkeiten u ist ein möglichst niedrig dimensionierter Raum zu finden, in dem die Distanzen d möglichst der Monotoniebeziehung genügen..6.4..0.8.6.4..0 0.8 0.6 0.4 Wenn ukl uij dann dkl dij Shepard Diagram Distances d and D-Hats vs. Dissimilarity u 0. 0 4 5 6 7 8 Dissimilarity u

-. Konfiguration ermitteln Konfiguration ermitteln Unähnlichkeiten u Koordinaten x, x Start- Konfiguration 4 Rama Homa Becel Butter Rama 5 Homa 4 Becel 6 4 Rama Homa Becel Butter x 0 x 7 4 X 8 7 6 5 4 Homa ; 7 Becel ; Rama ; 0; 4 Butter 4 Objekte(k,l) ; ; ;4 ; ;4 ;4 xkv x +5=6 4+=5 49+4=5 +6=7 64+9=7 8+=8 lv d(kl) 5.. 7. 4. 8.5 9. Rg[d(k,l)] 4 5 6 u(k,l) 5 4 6 0 0 4 5 6 7 8 9 0 X

-. Konfiguration ermitteln Konfiguration ermitteln Start- Konfiguration d(k,l) 0 9 8 7 6 5 4 0 Shephard - Diagramm 0 4 5 6 7 Distance d(k,l) Disparity ^ d(k,l) Dissimilarity u(k,l) Abweichung von Distanz d und Disparität ˆd Gütemaß Stress Stress kl, d kl dˆ Faktor kl

-. Konfiguration ermitteln Konfiguration ermitteln Iterative Optimierung X 8 7 6 5 4 Wahrnehmungsraum Homa Butter 4 Becel Alte Koordinaten Neue Koordinaten ^ Rama 0 0 4 5 6 7 8 9 0 X

-. Konfiguration ermitteln Konfiguration ermitteln Iterative Optimierung X 8 7 6 5 4 Wahrnehmungsraum Homa Butter 4 Becel Neue Koordinaten Shephard Diagramm Rama Stress berechnen 0 0 4 5 6 7 8 9 0 X Gütemaß Stress Für jeden Iterationsschritt wird Stress bewertet. Iterationen so lange, bis Stress sich nicht mehr vermindert. (Stress ist Führungsfunktion für nichtlineare Optimierung.)

- 4. Dimensionen - Interpretation Anzahl Je mehr Dimensionen, desto geringer wird Stress Lösungen mit einer geringeren Anzahl von Dimensionen sind einfacher zu interpretieren Stress darf nicht 0 werden (uneindeutige Lösung) Trade-Off von Stress und Interpretierbarkeit Regeln An Interpretierbarkeit orientieren, ggf. Achsen rotieren Stress soll niedrig sein Anhaltswerte nach Kruskal Die Daten sollen einen gewissen Verdichtungsgrad Q haben, Q soll möglichst groß sein (Tabelle) Trade-Off Durch Erhöhung der Anzahl der Dimensionen wird trivialerweise eine Repräsentierbarkeit erreicht. Gleichzeitig strebt aber die Datenverdichtung gegen. Erhöhung der Anzahl der Objekte n führt zu besserer Verdichtung, aber auch zu schlechterer Urteilspräzision.

- 4. Dimensionen - Interpretation Verdichtung Q m = Anzahl Dimensionen n Anzahl der Ähnlichkeiten Q nm Anzahl der Koordinaten Q - Tabelle n 7 8 9 0 m =.5.75.5.5.75 m =.7..5.67.8 Trade-Off Trade-Off von hohem Q- Wert & niedrigem Stress-Wert

- 4. Dimensionen - Interpretation Stressmaße SM d kl kl, dkl k,l dˆ kl SM kl kl kl, k,l d d kl dˆ d Stress-Güte Güte gering ausreichend gut ausgezeichnet perfekt SM 0. 0. 0.05 0.05 0 SM 0.4 0. 0. 0.5 0 Richtwert Werte zwischen gut und ausgezeichnet ergeben einen relativ glatten Anstieg im Shephard Diagramm

- 5. Aggregation Anzahl Die als klassisches dient der Ermittlung der Konfiguration einer Person. Aggregationen werden durchgeführt: Über die Ähnlichkeitsdaten wird aggregiert Über die Konfigurationen wird aggregiert Über spezielle Rechenverfahren werden Analysen über die Ähnlichkeitsdaten mehrerer Personen (replicated ) durchgeführt Diskussion Vor-und Nachteile der Techniken abwägen