Multivariate Analysemethoden

Ähnliche Dokumente
Multidimensionale Skalierung

Multivariate Analysemethoden

Multidimensionale Skalierung

Conjoint Analyse. Ordnen Sie bitte die Objekte Ihren Präferenzen entsprechend in eine Rangreihe.

Die Clusteranalyse Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Mathematische und statistische Methoden II

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Institut für Marketing und Handel Prof. Dr. W. Toporowski. SPSS Übung 5. Heutige Themen: Faktorenanalyse. Einführung in Amos

ADAC Postbus Fahrplan

0 Einführung: Was ist Statistik

Ergebnis. Tipp. Punkte. Tipp. Ergebnis. Punkte. Tipp. Ergebnis. Punkte. Punkte

Marktstudie. Markenkonzentrationsgrad in deutschen städten. auszug september FFF Hospitality Consult GmbH

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Ergebnisse zu den allgemeinen städtischen Lebensbedingungen

Fortgeschrittene Statistik Logistische Regression

Viel Spaß dabei Rolf Hichert. Bei Kommentaren oder Fragen hierzu:

Iteration history for the 2 dimensional solution (in squared distances)

Remote Management. Stefan Morell

ICE-Übersicht. Jahresfahrplan Zug Startbahnhof Zielbahnhof ICE Name

!!! !!! Bundesligaspielplan Saison 2015/16! Hinrunde:! 1. Spieltag 14. bis 16. August 2015! Heim - Gast!

Grippeschutz-Maßnahmen

Marktforschung und Datenanalyse

Studie zur Kundenfreundlichkeit der deutschen Fernbusbahnhöfe (Auftraggeber FlixBus GmbH, in Zusammenarbeit mit der Hochschule Heilbronn)


Auswertung mit dem Statistikprogramm SPSS:

Bonn und München Vorreiter für Strom aus Erneuerbaren Energien

Berlin mit höchstem Zuwachs in ITK-Branche Schwache Finanzbranche bremst Frankfurt aus Immobilienwirtschaft mit wenig Beschäftigungsaufbau

Bundesligatip 2015/2016. Teilnehmer

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

Bundesliga Spielplan 2009/2010

Prinzipien der Fragebogenkonstruktion. Allgemeine Bestandteile. Richtlinien zur Formulierung. Die 10 Gebote der Frageformulierung (II)

Zusammenhänge zwischen metrischen Merkmalen

Preis: kostenfrei Buchungsnummer: VA_21469 Anmeldeschluss: Freitag, Zielgruppen: Beschäftigte der Vertragspartner

Multivariate Statistik

Institut für angewandte Datenanalyse GmbH

DPF Dynamic Partial distance Function

Investitionsentscheidungsrechnung Kostenvergleichsrechnung

Fußball-Ergebnistipps, Saison 2015/16

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Hausarbeit von Matthias Meyer, Matr.-Nr S 2.5 Marktforschung. Prof. H. Rehder. am: 14. April 1997 (SS 97)

Spiel Nr. 21 Tipp Spiel Nr. 22 Tipp Spiel Nr. 23 Tipp

Übung: Praktische Datenerhebung

Computer Vision: 3D-Geometrie. D. Schlesinger () Computer Vision: 3D-Geometrie 1 / 17

Abbildungsverzeichnis...XVII Abkürzungsverzeichnis...XIX

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Florian Frötscher und Demet Özçetin

Partial Credit Model und Tutz Model

Eine computergestützte Einführung mit

Professorinnenprogramm II im 1. Einreichungstermin erfolgreiche Hochschulen

Bundesliga-Spielplan für den VfB Stuttgart (fett) p pdf-datei by Erster Spieltag (15. bis 16. August)

Koch Management Consulting

Das Kanban-Duell Scrum Day 2014 Frank Besemer, Joachim Pfeffer Basel Genève Freiburg Berlin Das Kanban-Duell, Scrum Day 2014 Copyright 2014 SynSpace

IBM SPSS Categories 22

5. Lineare Funktionen

Veranstaltungsort Bildungsherberge der Studierendenschaft der FernUniversität Hagen

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Professionelle Seminare im Bereich MS-Office

Algorithmische Modelle als neues Paradigma

Logische Modelle für OLAP. Burkhard Schäfer

Mobilfunkverträge. Betrachtung nach Ausgaben und Hardware

DStV-Terminplaner. Die wichtigsten Veranstaltungen im Verbands- und Kammerbereich. Stand 14. November = neue Termine = geänderte Termine

Sem.- Nr. Titel (Zeile 1) Titel (Zeile 2) Ort Beginn Ende

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Raumanalyse mit Steuerdaten - von Pendlerströmen bis zur Religionszugehörigkeit

Was bringt TDD wirklich?

Willkommen zur Vorlesung Statistik (Master)

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

OUT OF HOME VERSANDANDRESSEN WALLDECAUX

Wir bringen Ihre Daten als Erster ins Ziel.

JENOPTIK. Geschwindigkeitsmessungen mit Lasertechnologie. Referent: Wolfgang Seidel

Überprüfung der Faktorenstruktur und Reliabilität des Fragebogens Heimkundenbefragung. Gutachten

Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse

Neue Chancen für. Dienstleistungsgesellschaft. Dr. Michael Voigtländer, Forschungsstelle Immobilienökonomik Berlin, 2. Juli 2009

Deskriptive Statistik

Computacenter. Cisco Academy Lingen, 11. Mai 2012

Binäre abhängige Variablen

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften

Seminar zum Thema Künstliche Intelligenz:

ENTERBRAIN Reporting & Business Intelligence

ht t p://w w w.kebel.de/

FORD RANGER Ranger_2013.5_Cover_V2.indd 1 12/02/ :59

LANDKARTEN DES MARKTES Markenpositionierung mit System Prof.Dr. Alfred Taudes Department Informationsverarbeitung und Prozessmanagement

German Green City Index

Herzlich Willkommen zur Vorlesung Statistik

Kosten vs CO 2? Duisburg, 05. März Innovative Logistics Consultancy Solutions for Your Success

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Promotionskolleg. 2. Veranstaltung am 23. September Prof. Dr. Andreas Schmietendorf

Clustering Seminar für Statistik

Multivariate Verfahren

Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und

Dr. Heidemarie Keller

Internet-Kosten in den 50 größten deutschen Städten. Durchschnittliche Preise für Tarife mit 16 MBit/s und 50 MBit/s Surfgeschwindigkeit

4.3 Hierarchische Klassifikationsverfahren

Überblick über die Verfahren für Ordinaldaten

Modellierung von Prozessen

Achim Bühl, Peter Zöfel SPSS. Methoden für die Markt- und Meinungsforschung. Technische Unäversität Darmstadt

Transkript:

Multivariate Analysemethoden Thema: Multidimensionale Skalierung () Günter Meinhardt Johannes Gutenberg Universität Mainz

Multidimensionale Skalierung Thema Multidimensionale Skalierung Problem: Positionierung von Messobjekten in einem latenten Raum (hier: Wahrnehmungsraum) Möglichkeiten: Faktorenanalyse Multidimensionale Skalierung

- Faktorenanalyse Faktorenanalyse Vorgehen Man lässt Personen Eigenschaftsausprägungen von Objekten einschätzen (Item-Schätzskalen). Man faktorisiert die Skalen und betrachtet die Koordinaten der Objekte auf den neuen (unabhängigen) Dimensionen (= latenter Wahrnehmungsraum). Vorgehen Man lässt nur die Ähnlichkeit der Objekte beurteilen (ohne den direkten Bezug auf konkrete Eigenschaften) und probiert die Anordnung ( Konfiguration ) der Objekte in einem latenten Raum derart, dass die Ähnlichkeitsurteile möglichst gut reproduziert werden.

- Faktorenanalyse Latente Variable Faktorenanalyse Man möchte Objekte (Personen) in einem Raum latenter Dimensionen (Fähigkeiten, Traits) anordnen. Gegeben ist ein Set von Beobachtungen (Messvariablen) x, x,, x p Problem: Finde latente Variablen w, w,, wr r p, so dass jede Variable x k eine Linearkombination der w l ist: x b w b w b w k k k kr r Beispiel: Das Abschneiden im Abitur mit Deutsch, Mathe, Physik, Latein und Geographie wird erklärt aus latenten Variablen Memory, Induction, Perceptual Speed, Space, Verbal Comprehension.

- Faktorenanalyse Latente Variable Multidimensionale Skalierung Man möchte Objekte (Personen) in einem Raum latenter Dimensionen anordnen. Gegeben ist ein Set von Beobachtungen über die (sensorischen) Distanzen der Objekte: (Distanzmatrix) D o o 0 o o o o d o d d 0 j j j j 0 n Problem: Finde latente Variablen w, w,, wr o d d d n n n nj 0 r n, so dass die Distanzen zwischen den Objekten auf den Koordinaten reproduziert werden. Beispiel: Man lässt Filmschauspieler paarweise nach Ähnlichkeit/Unähnlichkeit bewerten. Die soll den latenten Wahrnehmungsraum liefern, auf dem die Schauspieler angeordnet werden können, so dass die Ähnlichkeitsurteile reproduziert werden.

- Faktorenanalyse Faktorenanalyse Multidimensionale Skalierung Demo - Beispiel mit Excel und Statistica

Vorteile relevante Eigenschaften dürfen unbekannt sein (keine Verzerrung durch Vorauswahl) kann bereits bei Rangdaten eingesetzt werden (Ergebnisse sind mit metrischer quasi identisch) Nachteile Aggregation über Personen ist problematisch (Bezug auf verschiedene latente Dimensionen beim Urteil) Großer Interpretationsfreiraum beim Untersucher bei der inhaltlichen Benennung der Dimensionen (vage) - Lösung ist nicht algorithmisch (Keine Garantie die beste Lösung gefunden zu haben) Lösung ist von weiteren Parametern abhängig (Distanzmodell, Anzahl der Dimensionen)

Städte- Beispiel 07 0 76 66 56 668 7 64 68 Stuttgart 67 405 09 466 609 8 47 47 Nürnberg 578 48 69 78 400 584 48 München 4 87 4 89 569 496 Köln 64 07 9 78 57 Kassel 54 5 8 677 Hannover 495 94 80 Hamburg 555 7 Frankfurt 847 Berlin Basel Stutt. Nürnberg München Köln Hanno- Kassel ver Hamburg Frankfurt Berlin Basel Distanzen von Städten in km

Rangreihe der Distanzen von Städten 6 8 0 9 4 7 9 Stuttgart 6 8 8 9 5 5 Nürnberg 6 9 40 4 7 7 München 0 4 4 5 Köln 5 5 Kassel 8 4 Hannover 0 4 44 Hamburg 4 7 Frankfurt 45 Berlin Basel Stutt. Nürnberg München Köln Hanno- Kassel ver Hamburg Frankfurt Berlin Basel Städte- Beispiel

Städte- Beispiel - Konfiguration

Städte- Beispiel Konfiguration nach Rotation und Spiegelung

Anwendung Probleme Kommentar Die ist ein exploratives und nicht zur strengen Hypothesenprüfung geeignet Auffinden der Konfiguration (relative Lage der Objekte zueinander im Wahrnehmungsraum, wenn nur die Distanzen bekannt sind Bestimmung der Dimensionalität Bestimmung der Metrik Die Konfiguration ist unabhängig von Rotation und Spiegelung Es finden fast nur nichtmetrische Prozeduren Verwendung (Kruskal)

Ablauf. Messung von Ähnlichkeiten. Wahl des Distanzmodells. Ermittlung der Konfiguration 4. Zahl und Interpretation der Dimensionen 5. Aggregation von Personen

-. Messung von Ähnlichkeiten Methoden Rangreihe Ankerpunkt Rating Probleme: Rangreihungsmethode Ankerpunktmethode Ratingverfahren Es werden n über Paare geordnet von unähnlichstes Paar zu ähnlichstes Paar (bei grossem n kaum möglich) Jedes Objekt ist einmal Vergleichsobjekt (Anker) für alle anderen Objekte. Es werden soviele Rangreihen wie Objekte erstellt. Man erhält eine asymmetrische quadratrische Distanzmatrix, die in eine symmetrische überführt werden kann. Man bildet alle möglichen Paare und lässt diese, randomisiert dargeboten, auf einer Ratingskala nach Ähnlichkeit bewerten. Ties (Rangbindungen), Reliabilität der Ränge

-. Distanzmodell Euklidische Metrik p = 4.00.00.00 x b k d kl m d x x kl kv lv v l a p p.00 0.00 0.00.00.00.00 4.00 x a x x k l b x x k l 4 Objektdistanz d kl 0.6

-. Distanzmodell Minkowski- Metriken m d x x kl kv lv v p p p = p = p = Wahlkriterium Euklidische Metrik: Abstand der Objekte ist die Länge der Verbindungslinie. City-Block Metrik: Abstand der Objekte ist die Summe der einzelnen Koordinatendistanzen Supremum Metrik: Abstand der Objekte ist die größte der auftretenden Koordinatendistanzen Metrik muss nach inhaltlichen Gesichtspunkten gewählt Sein, Abstände werden in diesem Sinne interpretiert.

Distances/D-Hats Methoden der -. Konfiguration ermitteln Konfiguration ermitteln p = Shephard Diagramm Ausgehend von den Unähnlichkeiten u ist ein möglichst niedrig dimensionierter Raum zu finden, in dem die Distanzen d möglichst der Monotoniebeziehung genügen..6.4..0.8.6.4..0 0.8 0.6 0.4 Wenn ukl uij dann dkl dij Shepard Diagram Distances d and D-Hats vs. Dissimilarity u 0. 0 4 5 6 7 8 Dissimilarity u

-. Konfiguration ermitteln Konfiguration ermitteln Unähnlichkeiten u Koordinaten x, x Start- Konfiguration 4 Rama Homa Becel Butter Rama 5 Homa 4 Becel 6 4 Rama Homa Becel Butter x 0 x 7 4 X 8 7 6 5 4 Homa ; 7 Becel ; Rama ; 0; 4 Butter 4 Objekte(k,l) ; ; ;4 ; ;4 ;4 xkv x +5=6 4+=5 49+4=5 +6=7 64+9=7 8+=8 lv d(kl) 5.. 7. 4. 8.5 9. Rg[d(k,l)] 4 5 6 u(k,l) 5 4 6 0 0 4 5 6 7 8 9 0 X

-. Konfiguration ermitteln Konfiguration ermitteln Start- Konfiguration d(k,l) 0 9 8 7 6 5 4 0 Shephard - Diagramm 0 4 5 6 7 Distance d(k,l) Disparity ^ d(k,l) Dissimilarity u(k,l) Abweichung von Distanz d und Disparität ˆd Gütemaß Stress Stress kl, d kl dˆ Faktor kl

-. Konfiguration ermitteln Konfiguration ermitteln Iterative Optimierung X 8 7 6 5 4 Wahrnehmungsraum Homa Butter 4 Becel Alte Koordinaten Neue Koordinaten ^ Rama 0 0 4 5 6 7 8 9 0 X

-. Konfiguration ermitteln Konfiguration ermitteln Iterative Optimierung X 8 7 6 5 4 Wahrnehmungsraum Homa Butter 4 Becel Neue Koordinaten Shephard Diagramm Rama Stress berechnen 0 0 4 5 6 7 8 9 0 X Gütemaß Stress Für jeden Iterationsschritt wird Stress bewertet. Iterationen so lange, bis Stress sich nicht mehr vermindert. (Stress ist Führungsfunktion für nichtlineare Optimierung.)

- 4. Dimensionen - Interpretation Anzahl Je mehr Dimensionen, desto geringer wird Stress Lösungen mit einer geringeren Anzahl von Dimensionen sind einfacher zu interpretieren Stress darf nicht 0 werden (uneindeutige Lösung) Trade-Off von Stress und Interpretierbarkeit Regeln An Interpretierbarkeit orientieren, ggf. Achsen rotieren Stress soll niedrig sein Anhaltswerte nach Kruskal Die Daten sollen einen gewissen Verdichtungsgrad Q haben, Q soll möglichst groß sein (Tabelle) Trade-Off Durch Erhöhung der Anzahl der Dimensionen wird trivialerweise eine Repräsentierbarkeit erreicht. Gleichzeitig strebt aber die Datenverdichtung gegen. Erhöhung der Anzahl der Objekte n führt zu besserer Verdichtung, aber auch zu schlechterer Urteilspräzision.

- 4. Dimensionen - Interpretation Verdichtung Q m = Anzahl Dimensionen n Anzahl der Ähnlichkeiten Q nm Anzahl der Koordinaten Q - Tabelle n 7 8 9 0 m =.5.75.5.5.75 m =.7..5.67.8 Trade-Off Trade-Off von hohem Q- Wert & niedrigem Stress-Wert

- 4. Dimensionen - Interpretation Stressmaße SM d kl kl, dkl k,l dˆ kl SM kl kl kl, k,l d d kl dˆ d Stress-Güte Güte gering ausreichend gut ausgezeichnet perfekt SM 0. 0. 0.05 0.05 0 SM 0.4 0. 0. 0.5 0 Richtwert Werte zwischen gut und ausgezeichnet ergeben einen relativ glatten Anstieg im Shephard Diagramm

- 5. Aggregation Anzahl Die als klassisches dient der Ermittlung der Konfiguration einer Person. Aggregationen werden durchgeführt: Über die Ähnlichkeitsdaten wird aggregiert Über die Konfigurationen wird aggregiert Über spezielle Rechenverfahren werden Analysen über die Ähnlichkeitsdaten mehrerer Personen (replicated ) durchgeführt Diskussion Vor-und Nachteile der Techniken abwägen