METHODENPRAKTIKUM II Kurs 1. Prof. Dr. Beat Fux SUZ Frühlingssemester 2009

Transkript

1 METHODENPRAKTIKUM II Kurs 1 Prof. Dr. Beat Fux SUZ Frühlingssemester 2009

2 Prüfung von Modellannahmen (Regression) Stichprobengrösse Ausreisser Linearität Multikollinearität Normalverteilung Homoskedastizität 2

3 Stichprobengrösse Faustregel: Für die Prüfung der Regressionsgleichung: N > *Anzahl der UVs Für die Prüfung der Regressionskoeffizienten: N > Anzahl der UVs 3

4 Ausreisser 4

5 Ausreisser (2) 5

6 Linearität (1) 6

7 Linearität (2) 7

8 Multikollinearität (1) 8

9 Multikollinearität (2) 9

10 Normalverteilung (1) 10

15 Homoskedastizität (1) 15

18 Datentransformation (1) 18

19 Datentransformation (2) 19

20 Multivariate Verfahren Dimensionierend - Regression - Varianzanalyse - Faktorenanalyse - Korrespondenzanalyse Skalierend - Reliabilitätsanalyse - multidimensional scaling MDS 20 Gruppierend - Clusteranalyse - Diskriminanzanalyse

21 Multivariate Verfahren Strukturen prüfen - Regression - Varianzanalyse - Korrespondenzanalyse - Reliabilitätsanalyse - Diskriminanzanalyse Strukturen entdecken - Clusteranalyse - Faktorenanalyse - multidimensional scaling MDS 21

22 Verfahren dimensionierend skalierend gruppierend Strukturen prüfen Regression Varianzanalyse Korrespondenz -analyse Reliabilitäts -analyse Diskriminanz -analyse Strukturen entdecken Faktoranalyse Clusteranalyse multidim.- Scaling 22

23 Datenniveau unabhängige Variable metrisch nominal abhängige Variable metrisch nominal Regression Korrespondenzanalyse Diskriminanzanalyse Varianzanalyse 23

24 Verfahren nur nominal metrisch /nominal metrisch /ordinal nur metrisch Varianzanalyse Diskriminanzanalyse Korrespondenzanalyse multidim.- Scaling Faktoranalyse Regression Reliabilitäts -analyse beliebig Clusteranalyse gelb= strukturprüfend 24

25 Anwendungen - Regression Frage Logik Bsp Eine abhängige Variable soll aufgrund einer/mehrerer anderer Variablen erklärt/geschätzt/ vorhergesagt werden Multiple Korrelation partielle Korrelation Einkommen schätzen aus Alter, Dauer der Ausbildung, Wochenstunden, Geschlecht, dimensionierend Strukturen prüfen alle Variablen metrisch + normalverteilt 25

26 F = 37,8, sig,00000 Social survey 1993 n für diese Analyse = 273 (exclude missings listwise) 26

27 Anwendungen - Varianzanalyse Frage Logik Bsp Die Mittelwerte einer abhängigen Variable in verschiedenen Gruppen werden auf signifikanten Unterschied getestet Varianz innerhalb der Gruppen versus Varianz zwischen den Gruppen Durchschnittl. Hausarbeitszeit nach Geschlecht und Familienstand 27 dimensionierend Strukturen prüfen Testvariable(n) metrisch Gruppenvariablen kategorial

28 Hausarbeitszeit in Min Geschätztes Randmittel verheiratet geschieden/getrennt maennlich weiblich verw itw et ledig 28 Familienstand

29 Anwendungen - Faktoranalyse Frage Logik Bsp Hinter mehreren Variablen liegende Dimensionen auffinden eine Art von Regression - neue Funktionen bzw. Faktoren bilden Typische Ernährungsgewohnheiten nach abgefragten Nahrungsmitteln dimensionierend Strukturen entdecken alle Variablen metrisch, gleiche Skala + normalverteilt 29

30 fast food gesund Kaffee HBSC Gesundheitsrelevantes Verhalten von SchülerInnen, 1990 n=

31 Anwendungen Korrespondenz Frage Logik Bsp Für welche Gruppen sind welche Merkmale bedeutend Mehrdimensionale Kreuztabellenanalyse Rauchgewohnheiten bei bestimmen Gruppen dimensionierend Strukturen prüfen alle Variablen kategorial 31

32 Anwendungen Clusteranalyse Frage Logik Bsp Anhand von relevanten Merkmalen sollen Gruppen bestimmt werden Abstände zwischen Personenpunkten im Personenraum Lifestyles aufgrund von Einstellungen und sozioökonom. Merkmalen gruppierend Strukturen entdecken 32 beliebiges Datenniveau

33 hedonistisch konventionel l materialistisch intellektuell traditionel l konservativ 33

34 34

35 Anwendungen Diskriminanzanalyse Frage Logik Bsp Ist die bestehende Gruppenbildung sinnvoll, bzw. welche Merkmale sind zur Gruppenbildung geeignet 35 Gruppen in zweidimensionalem Raum abbilden wie gut gelingt dies Funktion finden gruppierend Strukturen prüfen Einstellung zu Wissenschaft und Technik nach Lebensstil Testvariablen: metrisch + normalverteilt Gruppenvariable kategorial

36 Ausnützen versus Schonen 36 Funktion 2 2,0 1,5 1,0,5 0,0 -,5-1,0-1,5-2,0-2,0 materialistisch -1,5-1,0 intellektuell -,5 konservativ konventionell hedonistisch 0,0 traditionell 1,0 1,5 2,0 Optimismus/sorglos versus Pess/Angst Funktion Fux 1FS 2009,5 Kanonische Diskriminanzfunktion nach 34 Einstellungen zu Wissenschaft und Technik Lebensstile Gruppen -Mittelpunkte materialistisch hedonistisch intellektuell konservativ konventionell traditionell

37 Anwendungen Multidimensionale Skalierung Frage Logik Bsp Kann man mehrere Variablen auf zwei (od. mehrere) Skalen reduzieren eine Art Faktoranalyse Einkommen, Bildung und berufliche Position zur Dimension Statuskonsistenz und Statusinkonsistenz skalierend Strukturen entdecken alle Variablen kategorial oder metrisch 37

38 Objectscores Dim.2 (27% Variance) SES German women Statusinkonsist enz Objectscores Dim.1 (61% Variance) Cluster (n) (410) (2170) (988) (230) Δ (2170): low educational level, housewives, employees, skilled / unskilled workers low / middle income O (988): low / middle educational level employees, housewives, skilled workers, self employed in trade high / middle income (230): high educational level high qualified employees, freelancers and artists low / middle income (410): high educational level high qualified employees, freelancers and artists, managers high / middle income Statuskonsisten z 38

39 39

40 Biplot einer Faktoranalyse für kategoriale Daten F-3 F-2 LUX A ISL cent00 cent02 MOLD SERB BELA MONTE MAZ UKR LIT BG EST cent90 com95 com00 com02 com90 cent95 LAT SR PL right00 I right02 right95 NL soc90 soc95 H CH B IRL right90 SF N RU S F-1 F-4 soc02 CRO soc00 F DK P GR CZ D 40 UK

41 Cluster (dt.: Traube, Haufen) heuristisches Verfahren zur systematischen Klassifizierung von Beobachtungen, z.b. Personen, Autos, Schallplatten) Ziel: Auffinden von Gruppen, in denen sich Beobachtungen befinden, die innerhalb der Gruppe möglichst ähnlich sind und extern (zwischen den Gruppen) verschieden. Anwendungsgebiete: Sozialwissenschaften, Biologie, Wirtschaftswissenschaften, Marktforschung 41

42 Ähnlichkeit / Unähnlichkeit Die Ähnlichkeit bzw. Unähnlichkeit wird auf der Basis von Merkmalen definiert. Z.B. gleiches Alter, gleiche Haarfarbe. Andere Begriffe für Unähnlichkeit Distanz für Ähnlichkeit Proximität 42

43 Beispiel (10 Fälle, 2 Merkmale (A; B; beide stetig) 43

44 Euklidische Distanzen allgemein 44

45 Distanzmasse für metrische Variablen 45 Euklidische Distanz City Block-Distanz Summe der absoluten Differenzen = Spezialfälle der Minkowski-Distanz Hohe Unterschiede werden stark gewichtet. Masse sind translationsinvariant, aber nicht skaleninvariant. (Einkommen in Dollar oder Euro) Mahalanobis-Distanz dij=(xi-xj) S-1 (xixj) wobei S-1 die Inverse der Stichproben- Varianz-Kovarianzmatrix der p Merkmale ist. Translations- und Skaleninvariant

46 Binäre Variablen 46

47 Ähnlichkeitskoeffizient von Jaccard p ij =a / (a+b+c) (d spielt keine Rolle) Das entsprechende Distanzmass ist: d ij =1- p ij = (b+c) / (a+b+c) p ij nimmt Werte zwischen 0 und 1 an. Für das Beispiel: p AB = 3/6 =

48 Distanzmasse für binäre Merkmale (Simple) Matching Koeffizient pij=a+d / (a+b+c+d) Jaccard- (Tanimoto-) Koeffizient pij=a / (a+b+c) RR-Koeffizient pij=a / (a+b+c+d) Dice-Koeffizient pij=2 a / (2 a+b+c) 48

49 Mögliche Probleme 49 Ungleiche Skala Standardisierung Ungleiches Skalenniveau der Merkmale binäre Merkmale als metrische betrachten metrische Merkmale binär kodieren Aggregation der verschiedenen Distanzmaße Merkmale sind korreliert Berechnung von Faktorwerten Mahalanobis-Distanz Ordinalskalierte Merkmale Merkmale am Median dichotomisieren Merkmale als metrische Daten behandeln

50 Cluster-Analyse-Verfahren Start Clusterbildung Ziel Hierarchische Verfahren Feinste Partionierung, jedes Objekt bildet ein eigenes Cluster Fusionierung von Clustern Das zuvor festgelegte Kriterium ist erfüllt. Nichthierarchische Verfahren * Vorgabe einer Startgruppierung Verschieben der Objekte Das zuvor festgelegte Kriterium ist erfüllt. 50 * Auch: Partitionierendes Cluster-Analyse Verfahren, Clusterzentrenanalyse

51 Nichthierarchische Verfahren Objekte werden solange in verschiedene Gruppen sortiert, bis die beste Lösung im Sinne des Kriteriums gefunden ist. Problem: enormer Arbeits- und Zeitaufwand (bei 10 Objekten gibt es schon verschiedene Möglichkeiten), deshalb sind meist nur Annäherungen möglich. 51

52 Ein Beispiel 4 ISL S P r i n MOLD UKR BELA 3 BG RU LAT EST CZ 2 MAZ SR H LIT PL CRO CYP SLO P IRL 4 E UK A F B D NL LUX N 1 SF CH DK -3 GR I Prin 1 52

53 Hierarchische Verfahren 1. Berechnung der Distanzen zwischen den Clustern 2. Fusionierung der beiden Cluster, die die geringste Distanz zueinander haben 3. Berechnung des Ende-Kriteriums: Wenn erfüllt, dann Ende; sonst weiter. 4. Berechnung der neuen Distanzen 5. Zurück zu Punkt 2 ITERATIVES VERFAHREN!! 53

54 Bsp: 10 Fälle, 2 Merkmale (A;B; beide stetig 54

55 Distanzen zwischen den Clustern Single Linkage: Nächst gelegener Nachbar Kleinste Distanz zwischen einem Objekt des einen Clusters und einem Objekt des anderen Clusters Ketten-Tendenz Complete Linkage: Entferntester Nachbar größte Distanz zwischen einem Objekt des einen Clusters und einem Objekt des anderen Clusters anfällig für Ausreißer 55

56 Distanzen zwischen den Clustern (2) Average Linkage: Linkage zwischen den Gruppen. Durchschnitt aller Distanz zwischen den Objekten der beiden betrachteten Cluster tendiert dazu Cluster mit kleinen Varianzen zu verbinden, neigt zu Clustern mit gleicher Varianz Linkage innerhalb der Gruppen Zentroid: Zentroid Clustering Quadrierte Euklidische Distanz zwischen Cluster- Mittelwerten nur für metrische Merkmale, robust gegenüber Ausreissern) 56

57 Distanzen zwischen Clustern: Ward Distanz ist die Anova-Quadratsumme zwischen zwei Clustern (nur für intervallskalierte normalverteilte Daten) vereinigt diejenigen Elemente, deren Fusion die Gesamtvarianz innerhalb der Cluster am geringsten erhöht findet Cluster mit annährend gleicher Besetzungszahl anfällig für Ausreisser 57

58 Bewertungskriterium Distanz zwischen zwei Clustern Bestimmtheitsmass r 2 (RSQ) Semipartielles Bestimmheitsmass Pseudo-F Pseudo-t2 58

59 Überprüfung der Cluster-Lösung Inhaltliche Interpretation Deskriptive Unterschiede zwischen den Clustern auf weiteren Variablen Diskriminanzanalytische Überprüfung Clustervariable als Gruppenvariable Graphische Veranschaulichung Eiszapfen, Dendogramm, Plot 59

60 Hierarchische Clusteranalyse unter SPSS 60

61 Ergebnisse 61

62 Diagramme 62

63 Multidimensionale Skalierung Bei der multidimensionalen Skalierung wird versucht, die Struktur in einem Set von Distanzmassen zwischen Objekten oder Fällen zu erkennen. Dies wird durch das Zuweisen von Beobachtungen zu bestimmten Positionen in einem konzeptuellen Raum (gewöhnlich zwei- oder dreidimensional) erzielt, und zwar so, dass die Distanzen zwischen den Punkten des Raums mit den gegebenen Unähnlichkeiten so gut wie möglich übereinstimmen. In vielen Fällen können die Dimensionen dieses konzeptuellen Raums interpretiert und für ein besseres Verständnis Ihrer Daten verwendet werden. Wenn Sie über objektiv gemessene Variablen verfügen, können Sie die multidimensionale Skalierung als Technik zur Datenreduktion verwenden (erforderlichenfalls berechnet die Prozedur "Multidimensionale Skalierung" die Distanzen aus multivariaten Daten für Sie). Die multidimensionale Skalierung kann auch auf subjektive Einschätzungen von Unähnlichkeiten zwischen Objekten oder Konzepten angewendet werden. Ausserdem kann sie Unähnlichkeitsdaten aus mehreren Quellen verarbeiten. 63

64 Korrespondenzanalyse Das Ziel der Korrespondenzanalyse besteht darin, die Beziehungen zwischen zwei nominalen Variablen in einer Korrespondenztabelle in einem flachdimensionierten Raum und gleichzeitig die Beziehungen zwischen den Kategorien für jede Variable zu beschreiben. Für jede Variable werden die Beziehungen zwischen den Kategorien durch die Distanzen zwischen den Kategoriepunkten in einem Diagramm dargestellt, wobei ähnliche Kategorien jeweils nahe beieinander liegen. Durch die Projizierung von Punkten für eine Variable auf dem Vektor vom Ursprung zu einem Kategoriepunkt einer anderen Variablen wird die Beziehung zwischen den Variablen beschrieben. 64

65 Abgrenzung zur Kreuztabelle Bei einer Analyse der Kontingenztafeln werden häufig Zeilen- und Spaltenprofile untersucht und Tests auf Unabhängigkeit mit Hilfe der Chi-Quadrat- Statistik durchgeführt. Die Anzahl der Profile kann jedoch unter Umständen relativ gross sein, wobei durch die Chi-Quadrat-Statistik die Abhängigkeitsstruktur nicht erkennbar wird. Die Prozedur "Kreuztabelle" bietet verschiedene Zusammenhangsmasse und -tests, kann jedoch keine Beziehungen zwischen den Variablen darstellen. 65

66 Abgrenzung zu Faktoranalyse Die Faktorenanalyse ist ein Standardverfahren zur Beschreibung von Beziehungen zwischen Variablen in einem flachdimensionierten Raum. Zur Faktorenanalyse werden jedoch Intervalldaten benötigt. Ausserdem muss die Anzahl der Beobachtungen das Fünffache der Anzahl der Variablen betragen. Andererseits wird bei der Korrespondenzanalyse von nominalen Variablen ausgegangen, so dass die Beziehungen zwischen den Kategorien jeder Variablen sowie die Beziehungen zwischen den Variablen beschrieben werden können. Zudem kann die Korrespondenzanalyse zur Untersuchung einer beliebigen Tabelle mit positiven Korrespondenzmassen verwendet werden. 66