Strukturgleichungsmodelle Seminar: Multivariate Verfahren Dozent: Dr. Thomas Schäfer Dozenten: Bernadette Kloke, Teresa Hastedt, Nadine Markstein Datum: 15.06.2010 Überblick 1. Grundlegendes zum SGM 1.1 Exkurs Pfadanalyse 2. Vorgehensweise SGM 1. 2. Pfaddiagramm und 3. der Modellstruktur 4. 5. Schätzergebnisse 6. der Modellstruktur 3. 1
1. n SGM SGM Faktorenanalyse Multiple Regression Korrelation Pfadanalyse (nur messbare Variablen) 1. n SGM Was unterscheidet SGM von anderen Methoden? (Byrne, 2001) Kausalanalyse konfirmatorisch, nicht explorativ WICHTIG: vor Anwendung des Verfahren sachlogische Überlegungen über die Beziehungen zwischen den Variablen Theoretisch fundiertes Hypothesensystem Prüfung auf Übereinstimmung Empirisch gewonnenes Datenmaterial SGM liefern explizite Schätzwerte für Messfehler Mit SGM können Beziehungen zwischen latenten Variablen abgeschätzt werden 2
1. n SGM Vorraussetzungen Lineare Zusammenhänge zwischen den Variablen Intervallskalierung Multinormalverteilung Anzahl unbekannter Parameter < Anzahl bekannter Parameter Genügend große Stichprobe Ca. 25 x Anzahl unbekannter Parameter Mind. 10 Fälle pro Parameter Mind. 100 Personen 1.1 Exkurs Pfadanalyse Analyse und Darstellung von Kausalmodellen auf Grundlage korrelativer Zusammenhänge Nur direkt beobachtbaren Variablen Beruht auf Regressionsrechnung Hypothesen: verbale Fähigkeiten beeinflussen den IQ x y y = a + bx Erweiterung: mehrere Regressionsmodelle = Pfadanalyse Hypothesen: Verbale Fähigkeiten beeinflussen den IQ Numerische Fähigkeiten beeinflussen den IQ Verbale und Numerische Fähigkeiten hängen zusammen c x1 x2 a b y1 rx1y1 = a + bc 3
1.1 Exkurs Pfadanalyse Warum ist die Pfadanalyse so praktisch? Zusammenhänge zwischen mehreren Variablen können dargestellt werden Gerichtete und ungerichtete Zusammenhänge Mehrere AV s ins Modell einbeziehbar Exogene und endogene Variablen Direkte und indirekte Zusammenhänge c x1 x2 x1 a b y y1 Vorhersage anhand von Strukturgleichungen Gibt an, welche Variablen (Prädiktoren) andere Variablen (Kriterien) vorhersagen aus welchen Teilen setzt sich Wert eines Kriteriums zusammen y2 y1 1.1 Exkurs Pfadanalyse Verbaler Test c.746 Fehler riq, verb a =.867.71.48 riq, num =.741 rnum,verb =.74 IQ Numerischer Test Regressions-Lösung r r y1 y2 β = 1 2 1 r12 r 12 b.21 Pfadanalytische Lösung a + cb = r IQ,verb b + cb = r IQ,num c = r num,verb a + cb =.867 b + ca =.741 c =.746 Bsp:.71 + b*.746 =.867 b =.21 (1) a +.746b =.867 (2) b +.746a =.741 (1) geteilt durch.746 a/.746 + b =.867/.746 minus (2) auf beiden Seiten a/.746 + b -b -.746a =.867/.746 -.741 1.34a -.746a = 1.162 -.741 594a =.421 a=.71 4
1. n SGM Ausgangspunkt Hypothese: psychische und physische Belastung führt zu Stress Exogene latente Variable (UV) Psych. Belastung r Stress Residualvariable = Anteil der nicht erklärten Varianz in einer endogenen Variable Phys. Belastung Strukturmodell Endogene latente Variable (AV) Strukturmodell: Abbildung der aufgrund theoretischer Überlegungen aufgestellten Beziehungen zwischen hypothetischen Konstrukten 1. n SGM Wissenschaftstheoretischer Hintergrund Korrespondenzhypothesen Theoretische Sprache Hypothetische Konstrukte Bsp.: Psychische Belastung Physische Belastung Stress - Psychische Belastungen wird durch schlechtes Arbeitsklima verursacht - Physische Belastung wird durch Lärm verursacht - Stress führt zu gesteigertem Blutdruck Beobachtungssprache Direkt beobachtbare empirische Phänomene Bsp.: Schlechtes Arbeitsklima Lärm gesteigertem Blutdruck 5
1. n SGM Messmodell der latenten endogenen Variable Enthält empirische Indikatoren*, die zur Operationalisierung der endogenen Variable dienen Messfehler = Varianzanteil im Indikator, der nicht durch die latente Variable verursacht wird Psych. Belastung Blutdruck e Stress * Indikatoren sind unmittelbar messbare Sachverhalte, welche das Vorliegen der gemeinten, aber nicht direkt erfassbaren Phänomene anzeigen Phys. Atmung e Belastung Messmodell der latenten endogenen Variable 1. n SGM Messmodell der latenten exogenen Variable Enthält empirische Indikatoren, die zur Operationalisierung der endogenen Variable dienen e Arbeitsklima e Überforderung Psych. Belastung Stress Blutdruck e e Lärm Phys. Belastung Atmung e e Hitze Messmodell der latenten exogenen Variable 6
1. n SGM Messmodelle + Strukturmodell = vollständiges SGM e Arbeitsklima e Überforderung Psych. Belastung r Stress Blutdruck r e Lärm Phys. Belastung Atmung r e Hitze 1. n SGM Wie erfolgt nun die Überprüfung der kausalen Beziehungen? Basis: Korrelationen und Kovarianzen zwischen den Indikatorvariablen i Bestimmung der Beziehungen zwischen latenten Variablen und ihren Indikatorvariablen aus den Kovarianzen/Korrelationen zwischen den x-variablen bzw. den Korrelationen der y-variablen konfirmatorische Faktorenanalyse a Blutdruck e wenn Variablen standartisiert: Stress b Atmung e Pfadkoeffizient = Faktorladung = Regressionskoeffizient (ß) 7
1. n SGM 4 Interpretationsmöglichkeiten einer Korrelation X 1 X 2 X 1 X 2 Alle 4 Möglichkeiten finden im SGM Anwendung X 1 X 2 ξ je nachdem, welche Beziehung vorab zwischen den Variablen postuliert wurde X 1 X 2 ξ 1. n SGM Wie erfolgt nun die Überprüfung der kausalen Beziehungen? Bestimmung der Beziehungen zwischen den hypothetischen Konstrukten aus den Kovarianzen/Korrelationen zwischen den x-variablen und den y-variablen zwischen den Messmodellen wird Brücke geschlagen regressionsanalytischer Denkansatz Psych. Belastung Phys. Belastung b a Stress wenn Variablen standartisiert: Pfadkoeffizient = Regressionskoeffizient (ß) 8
1. n SGM Welche Analysestrategien gibt es? Strictly Confirmatory: ein Modell wird postuliert (theoriebasiert) Prüfung, wie gut Modell zu empirischen Daten passt Entscheidung: Modell gestützt/falsifiziert keine des Modells Alternative Models: mehrere Modelle werden postuliert (theoriebasiert) Prüfung, wie gut die Modelle zu den Daten passen Entscheidung: Welches Modell passt am besten? keine der Modelle Model Generating: ein Modell wird postuliert (theoriebasiert) Prüfung, wie gut Modell zu den empirischen Daten passt schlechter Fit: Modell wird verworfen explorative Suche nach einer Verbesserung der Modellstruktur durch sequentielle 2. Vorgehensweise (1) (2) Pfaddiagramm und (3) Identifikation der Modellstruktur (4) (5) Schätzergebnisse (6) der Modellstruktur 9
2.1...ist Voraussetzung für die Anwendung eines SGM Hypothesen werden auf Grundlage sachlogischer Überlegungen aufgestellt Fragestellung: Wie lässt sich die Präferenz für klassische Musik durch das spezifische Zusammenwirken von Alter, Geschlecht, musikalischer Bildung und psychosozialen Hintergrund erklären? 2.1 H1: Je höher die musikalische Bildung ist, desto höher ist die Präferenz für klassische Musik H2: Je höher die Ausprägung auf der Variable psychosoziale Hintergrund, desto höher ist die Präferenz für klassische Musik H3: Je höher die Ausprägung auf der Variable psychosoziale Hintergrund, desto höher die musikalische Bildung H4: Das Geschlecht hat einen Einfluss auf die Höhe der Präferenz für klassische Musik H5: Das Alter hat einen Einfluss auf die Höhe der Präferenz für klassische Musik 10
2.1 Manifeste Variablen Latente Variablen Manifeste Variablen Geschlecht Alter (?) (?) Präferenz für klassischemusik (+) (+) (+) (+) Psychosozialer Hintergrund (+) (+) (+) (+) (+) Musikalische Bildung (+) 2.1 Erhobene Daten: Alter Geschlecht Ich mag klassische Musik Ich bin bereit viel Geld in klassische Musik zu investieren Mein Wissen über klassische Musik ist umfassend Ich kann Noten lesen Ich habe gelernt ein Instrument zu spielen und/oder spiele ein Instrument. Ich stamme aus einem Elternhaus, in dem akademische Bildung eine große Rolle gespielt hat. Ich stamme aus einem Elternhaus, in dem die Beschäftigung mit Musik immer eine große Rolle gespielt hat. Präferenz für klassische Musik Musikalische Bildung Psychosozialer Hintergrund 11
2.1 Geschlecht Alter Bildung Elternhaus Präferenz für klassischemusik Mögen Geld Musik Elternhaus Psychosozialer Hintergrund Musikwissen Noten Instrument Musikalische Bildung Vorbereitung Überprüfung auf Linearität Faktorenanalyse möglich? Im Beispiel: Ja 12
Vorbereitung Konfirmatorische Faktorenanalyse Annahmen: Die gewählten Indikatoren kovariieren, weil ihnen eine gemeinsame verursachende latente variable zugrunde liegt. Der Zusammenhang zwischen Indikatoren lässt sich über latente Variablen erklären Die Kovarianzmatrix der Indikatoren entspricht der Kovarianzmatrix in der theoretischen Grundgesamtheit. Die latenten Faktoren in einem Messmodell sind interkorreliert. Vorbereitung Konfirmatorische Faktorenanalyse Ziele: Kovarianz der Indikatoren im Messmodell untersuchen Kovariieren die Indikatoren? Werden die Indikatoren wie postuliert durch eine latente Variable beeinflusst, oder ist von mehreren latenten Faktoren auszugehen? Faktorladungen zwischen latenter Variable und Indikatoren berechnen Messfehler schätzen Fit-Werte anzeigen Es werden nur die Messmodelle erfasst, nicht das Strukturmodell!!! 13
Vorbereitung Faktorenanalyse Modell1: Faktorenanalyse nicht möglich Messmodelle funktionieren nicht Testung der einzelnen Messmodelle Vorbereitung Faktorenanalyse des neuen Messmodells Bildung : Neues Messmodell Bildung funktioniert und kann in das Modell integriert werden 14
Vorbereitung Faktorenanalyse Modell 2: Neues Modell, mit der neuen latenten Variable Bildung Chi 2 /df = 1.375 ( 2.5) RMSEA = 0.077 (<0.05) Kein Pfadkoeffizient > 1 Vorgehensweise (1) (2) Pfaddiagramm und (3) Identifikation der Modellstruktur (4) (5) Schätzergebnisse (6) der Modellstruktur 15
Pfaddiagramm und AMOS (Analysis of Moment Strucutres) 1. Modell zeichnen 2. Komponenten beschriften 3. Daten einlesen 4. Einstellungen wählen 5. Berechnen 6. Interpretieren Modell zeichnen 16
Modell zeichnen 1. latente Variablen und deren Indikatorvariablen ariablen einzeichnen 2. Residuum einzeichnen Modell zeichnen 17
Modell zeichnen Modell zeichnen 3. Manifeste Variablen einzeichnen 4. Meßfehler einzeichnen 18
Modell zeichnen Modell zeichnen 19
Modell zeichnen Komponenten beschriften 1. Latente Variablen, Messfehler und Residuum der endogenen latenten Variable beschriften (Rechtsklick auf die Objekt Object Proporties ) 20
21 e2 e1 Modell zeichnen r Bildung Präferenz für klassischemusik d1 d2 d7 d3 d4 d5 d6 Daten einlesen 4. 1. 2 3. 2. 5.
Daten einlesen 1. Button Datenliste drücken 2. Gewünschte Variable auswählen und in entsprechendes Feld ziehen Modell zeichnen e1 e2 Geld r mag d1 Präferenz für klassischemusik d2 Geschlecht Alter Bildung Eltern_akad d3 Eltern_Musik Wissen Noten Instrument d4 d5 d6 d7 22
Einstellungen wählen/ Berechnen 1. Einstellungen auswählen 2. Berechnen Pfaddiagramm und Was passiert in der Theorie: Die Beziehung der Variablen in einem Modell werden festgelegt Es werden Aussagen über die zu schätzenden Parameter gemacht: Feste Parameter Parameter denen a priori ein bestimmter Wert zugewiesen werden kann häufig dann wenn keine kausale Beziehung zwischen zwei Variablen erwartet wird (Parameter wird 0) Restrigierte Parameter Parameter die geschätzt werden sollen, deren Wert aber mindestens dem Wert eines weiteren Parameters entspricht Verringerung der zu schätzenden Parameter Freie Parameter Parameter deren Werte als unbekannt gelten Werte sollen erst aus den empirischen Daten geschätzt werden gibt es ausreichende Informationen aus den empirischen Daten? 23
Vorgehensweise (1) (2) Pfaddiagramm und (3) Identifikation der Modellstruktur (4) (5) Schätzergebnisse (6) der Modellstruktur Identifikation der Modellstruktur Problem: Ist das Modell überhaupt identifiziert (lösbar), d.h. sind ausreichend empirische Daten vorhanden Berechnung der eines Modells: 1. Feststellung der Anzahl der zu berechnenden Gleichungen (n bezeichnet die Anzahle der Indikatorvariablen 9) bei uns 45 2. Anzahl der freien Parameter bei uns 19 3. Berechnung der Freiheitsgrade: Anzahl der Gleichungen - Anzahl der unbekannten Parameter Bei uns: 45-19 = 26 Modell ist überidentifiziert lösbar df < 0 Modell ist nicht identifiziert/ nicht lösbar df = 0 Modell genau identifiziert/ lösbar (Problem: alle Daten sind aufgebraucht ) df > 0 Modell ist überidentifiziert/ lösbar n(n+1) 2 24
Vorgehensweise (1) (2) Pfaddiagramm und (3) Identifikation der Modellstruktur (4) (5) Schätzergebnisse (6) der Modellstruktur Ziel: Differenz zwischen der modelltheoretischen Varianz-Kovarianzmatrix und der empirischen Varianz-Kovarianzmatrix soll minimiert werden. Meist verwendetes Schätzverfahren: Maximum-Likelihood-Methode Auswahl des geeigneten Verfahren ist abhängig von den Voraussetzungen: Kriterium ML GLS ULS SLS ADF Annahme einer Ja ja nein nein nein Multinormalverteil ung Skalenvarianz Ja ja nein ja Ja Stichprobengröße >100 >100 >100 >100 1,5*p(p+1) Inferenzstatistiken ja ja nein nein Ja ML= Maximum-Likelihood-Methode GLS= Methode der verallgemeinerten kleinsten Quadrate ULS= Methode der ungewichteten kleinsten Quadrate SLS= Methode der skalenunabhängigen kleinsten Quadrate ADF= Methode des asymptotisch verteilungsfreien Schätzer 25
Vorgehensweise (1) (2) Pfaddiagramm und (3) Identifikation der Modellstruktur (4) (5) Schätzergebnisse Plausibilitätsbetrachtungen der Schätzungen Prüfung der Zuverlässigkeit der Schätzungen Die Gesamtstruktur Die Teilstrukturen (6) der Modellstruktur Schätzergebnisse Plausibilitätsbetrachtungen der Schätzungen Logisch oder theoretisch unplausiblen Werte? Unplausible en Bei negativen Varianzen, sowie Kovarianz- oder Korrelationsmatrizen, die nicht invertierbar sind Prüfung der Zuverlässigkeit der Schätzungen Standardfehler der Schätzung Quadrierte multiple Korrelationskoeffizienten 26
Prüfung der Zuverlässigkeit der Schätzungen Standardfehler der Schätzungen Die Schätzungen der einzelnen Parameter stellen Punktschätzungen dar Betrachtetes Datenmaterial aber im Regelfall eine Stichprobe aus der Grundgesamtheit Schätzungen können je nach Stichprobe variieren Standardfehler für alle geschätzten Parameter berechnen, die angeben mit welcher Streuung bei den jeweiligen en zu rechnen ist Große Standardfehler Parameter im Modell nicht sehr zuverlässig Standardfehler der Schätzungen 27
Standardfehler der Schätzungen Prüfung der Zuverlässigkeit der Schätzungen Quadrierte multiple Korrelationskoeffizienten Reliabilität: wie zuverlässig ist die Messung der latenten Variablen in einem Modell? Die Reliabilität in AMOS: Quadrierte multiple Korrelationskoeffizienten für beobachtete & latente Variablen Werte zwischen 0 und 1 Je näher an 1, desto zuverlässiger die Messungen im Modell 28
Quadrierte multiple Korrelationskoeffizienten erklärte Varianz = Pfadkoeffizient 2 = Quadrierte multiple Korrelationskoeffizienten erklärte Varianz =.39 2 =.15 = 15% e1 d3 d4 d5 d6 d7 Musikwissen Noten Instrument Bildung Elternhaus Musik Elternhaus.39.42.52.48.97 Musikalische Bildung.53.28.41 Geschlecht Mögen.15 d1.80 Präferenz für r klassische Musik.90.33 d2 Alter Geld e2 29
Die Gesamtstruktur Gesamtpassungsgüte eines Modells Fit des Modells Folgende Kriterien i liefern ein Maß für die Anpassungsgüte der theoretischen Modellstruktur an die empirischen Daten Chi-Quadrat-Wert (Chi ²) Goodness-of-Fit-Index (GFI) Adjusted-Goodness-of-Fit-Index (AGFI) Normed Fit Index (NFI) Comparative Fit Index (CFI) Root Mean Square Error of Aproximation (RMSEA) Die Gesamtstruktur Chi-Quadrat-Wert (Chi ²) Validität eines Modells prüfen In der Regel ein Chi ²-Anpassungstest (H0 gegen H1 prüfen) H0: Empirische Kovarianz-Matrix entspricht der modelltheoretischen Kovarianz-Matrix H1: Empirische Kovarianz-Matrix entspricht einer beliebig positiv definiten Matrix Bei praktischen Anwendungen: Chi ²-Wert im Verhältnis zu den Freitheitsgraden (Chi ²/ df) möglichst klein Guter Modellfit 2,5 ist Voraussetzungen zur Berechnung eines Chi ²-Wertes Alle beobachteten Variablen besitzen Normalverteilung Durchgeführte Schätzung basiert auf einer Stichproben- Kovarianz-Matrix Ausreichend großer Stichprobenumfang 30
Die Gesamtstruktur Goodness-of-Fit-Index (GFI) Misst die relative Menge an Varianz und Kovarianz, der das Modell insgesamt Rechnung trägt Zwischen 0 und 1 Guter Fit des Modells: Je mehr sich Wert an 1 annähert Adjusted-Goodness-of-Fit-Index (AGFI) Maß für die im Modell erklärte Varianz Berücksichtigt zusätzlich noch die Modellkomplexität Zwischen 0 und 1 Guter Fit des Modells: Je mehr sich Wert an 1 annähert Die Gesamtstruktur Normed Fit Index (NFI) Vergleicht das aktuelle Modell mit einem Basismodell (Basismodelle: independence model & satuiertes Modell ) Der NFI gibt an, ob das betrachtete Modell näher am Unabhängigkeits- oder am satuierten Modell liegt Bei einem guten Modell sollte der NFI 0,9 sein Comparative Fit Index (CFI) Berücksichtigt im Vergleich zum NFI zusätzlich die Zahl der Freiheitsgrade Werte 0,9 deuten auch hier auf einen guten Modellfit hin 31
Die Gesamtstruktur Root Mean Square Error of Aproximation (RMSEA) Prüft, ob das Modell sich der Realität hinreichend gut annähert Die Werte für den RMSEA lassen sich wie folgt interpretieren: RMSEA 0,05: guter Modellfit RMSEA 0,08: akzeptabler Modelfit RMSEA 0,10: inakzeptabler Modellfit Die Gesamtstruktur - in unserem Modell Anpassungsmaß Anforderungen Chi ² / d.f. 2,5 GFI 0,9 AGFI 0,9 NFI 0,9 CFI 0,9 RMSEA 0,05 32
Die Teilstrukturen Aber: Schlechter Fit des Gesamtmodells Auskunft welche Teile im Modell falsch spezifiziert wurden oder für die schlechte Anpassungsgüte verantwortlich sind Gütekriterien für die Teilstrukturen ermitteln: Residuen Betrachtung standardisierter Residuen Betrachtung der Critical Ratio Die Teilstrukturen Residuen Differenz der empirischen Kovarianz Matrix - modelltheoretische Kovarianz-Matrix Residuen, die im Modell nicht erklärt werden können Je näher ein Residualwert an Null liegt, desto geringer ist der Kovarianz- bzw. Korrelationsanteil der entsprechenden Variable, der durch die Modellstruktur nicht erklärt werden kann Gute Modelle, wenn die Werte der Residuen 0,1 Betrachtung standardisierter Residuen wegen Skalierungseffekte 33
Residuen - in unserem Modell Die Teilstrukturen Betrachtung der Critical Ratio C.R. C.R. als Prüfgröße (t-test) Ho: geschätzte Werte unterscheiden sich nicht signifikant von Null C.R. Wert über 1,96 Ho kann verworfen werden C.R. Wert über 1,96 Indiz, dass entsprechende Parameter gewichteten Beitrag zur Bildung der Modellstruktur liefern 34
Betrachtung der Critical Ratio Vorgehensweise (1) (2) Pfaddiagramm und (3) Identifikation der Modellstruktur (4) (5) Schätzergebnisse (6) der Modellstruktur Vereinfachung der Modellstruktur Vergrößerung der Modellstruktur 35
der Modellstruktur Einfacheres Modell Hohe Residuen s-index Modell Parameter aufnehmen Komplexeres Modell Parameter ausschließen Standardfehler der Schätzung Critical Ratio der Modellstruktur Einfacheres Modell Hohe Residuen s-index Modell Parameter aufnehmen Komplexeres Modell Parameter ausschließen Standardfehler der Schätzung Critical Ratio 36
der Modellstruktur Anpassungsmaß Anorderungen Chi ² / d.f. 2,5 GFI 0,9 AGFI 0,9 NFI 0,9 CFI 0,9 RMSEA 0,05 der Modellstruktur sinnvoll, wenn aufgrund theoretischer Überlegungen die Aufnahme eines Parameters plausibel erscheint Suchprozess führt in den meisten Fällen zu einem Modell, das zu den Daten passt Modifizierte Modelle stützen nicht die Allgemeingültigkeiten einer Theorie Konfirmatorischer Gehalt der Analyse von SGM geht verloren exploratives Datenanalyseinstrument Für die Überprüfung der auf diesem Weg gewonnenen Theorie neuer Datensatz erforderlich 37
Gebote für gutes SGM-Verhalten Folgere nie, dass ein Modell das einzige ist, dass zu den Daten passt! Teste ein modifiziertes Modell an einem Teildatensatz oder an einem neuen Datensatz! Postuliere, wenn möglich, verschiedene sich widersprechende Modelle! Prüfe zuerst die Messmodelle und dann das Strukturgleichungsmodell! Beurteile den Modellfit, die Theorie und praxisbezogene Aspekte! Berichte mehrere Modellfit-Indices! Halte die Annahme der multivariaten Normalverteilung ein! Tho ompson (2000) Suche nach sparsamen/schlanken Modellen! Verwende nicht zu kleine Stichproben! Berichten von SGM: Richtlinien nach APA (Mittelwerte und Standardabweichungen aller Variablen Vollständige Korrelationsmatrix) Darstellung der Kennwerte im Text oder in Tabellenform: Chi ² und Chi ²/df RMSEA TLI, NFI, IFI, GFI (je nach State of the Art) C.R. für alle Parameter Signifikanz der Parameter Konfidenzintervalle (Bootstrap) Bei Modellmodifikation: theoretische Erklärung Bei Modellvergleich: Chi ² 38
Vielen Dank für eure Aufmerksamkeit 39