Raschmodelle und generalisierte Regression. Sven Hilbert

Transkript

1 Raschmodelle und generalisierte Regression Sven Hilbert

2 Generalisiertes lineares Modell () Bestandteile generalisierter linearer Modelle Zufällige Komponente Y mit zugehöriger Wahrscheinlichkeitsverteilung Mit unabhängigen Beobachtungen (y,, y N ) Sytematische Komponente (erklärende Größe) θ Benutzt in linearer Vorhersagefunktion Linkfunktion spezifiziert die Funktion von E(Y), die das Modell mit der systematischen Komponente verbindet 2/28

3 Generalisiertes lineares Modell (2) Allgemeine Form Wahrscheinlichkeitsfunktion von Y (Exponentialfamilie): f ( y i ;θ i ) = a(θ i )b( y i )exp[ y i Q(θ i )] Q(θ i ) wird natürlicher Parameter genannt Systematische Komponente verbindet einen Vektor (η,, η N ) mit den erklärenden Variablen durch ein lineares Modell mit Prädiktoren j (j =, 2,, p): η i = p j= β j x ij Die Linearkombination der erklärenden Variablen wird linearer Prädiktor genannt 3/28

4 Generalisiertes lineares Modell (3) Linkfunktion: g ( µ ) i = η i µ i = E(Y i ) mit i =,, N Verbindet zufälligen mit systematischen Komponenten Identitätslink : g ( µ ) = µ Kanonische (natürliche) Linkfunktion: Q(θ i ) = β j x ij = η i = g(µ i ) Transformiert µ in den natürlichen Parameter η j= Abhängig von Verteilung der y i p 4/28

5 Bernoulliverteilung Wahrscheinlichkeitsfunktion der Bernoulliverteilung: (y; ) y y f π = π ( π) P(Y = ) = π und P(Y = 0) = - π mit E(Y) = π π Kanonischer Link: Q( π ) = ln π Für Logistische Regression folgt: Hierbei P(Y = ) = π(x) Gilt für Bernoulli- und Binomialverteilung exp( η) π ( x) = exp( η) 5/28

6 Beispiel Anwendung Rasch Modell Zweidimensionale Kontingenztafel Testung Unabhängigkeitshypothese Systematische kategoriale Quanitität Multiple binäre Quantitäten Eisaffinität abhängig von Studiengang? Drei Eissorten Binärer Response (ja / nein) Zwei Studiengänge 2- dimens. Studiengänge Eissorten 6/28

7 Kontingenztafel 2x3 Kontingenztafel Studiengang systematische Variable 2 Level Kreuzklassifiziert mit Eissorte Jeder Student kann 0 3 Sorten kaufen Randsummen Reihen Eissorten in Tabelle Anzahl Studenten Eissorte Studiengang Schokolade (A) Kirsche (B) Gummibär (C) Anzahl Studenten Statistik Psychologie Total /28

8 Abhängigkeit prüfen Spalten schließen sich nicht gegenseitig aus Pearson χ²-test kann nicht angewandt werden Durch Kreuzklassifikation kann 2 x 2 x 2 Tabelle für beide Studiengänge erstellt werden Jeweils 2 3 = 8 Zellen Möglichkeiten: 000; 00; 00; ; - 0 = nein, = ja Jeweils 6 Randsummen (3 Sorten Eis x ja / nein ) 8/28

9 Randsummentabelle Tabelle enthält also eigentlich Randsummen ja -Responses für beide Schultypen Unabhängigkeitshypothese bezieht sich auf Randsummen Marginal Independence Studiengang Schokolade (A) Eissorte Kirsche (B) Gummibär (C) Anzahl Studenten Statistik Psychologie Total /28

10 Marginales Logit Modell Zufällige Variable: Eissorte Level: i =, 2, 3 Systematische Variable: Studiengang Level: j =, 2 Annahme: Alle Antwortmuster unabhängig multinomial verteilt Ø Gemeinsame Verteilung der Häufigkeiten der Antwortmuster ist produkt-multinomial verteilt 0/28

11 Parameter und Modelle π ij bezeichnet Randwahrscheinlichkeit Person aus Studiengang j kauft Sorte i Parameter der Binomialverteilung, welcher Häufigkeit modelliert Marginales Logit Modell: Unabhängig (Modell ): Abhängig (Modell 2): π i βi = ln π i β ij π ij = ln π ij /28

12 Parameterschätzung Zwei grundlegende Methoden für marginales Modell. Likelihood basiert Restriktion: Randwahrscheinlichkeiten genügen marginalem Modell Produkt-multinomiale Likelihood Funktion wird maximiert Erlaubt wenn alle möglichen Responsemuster unabhängig multinomialverteilt sind Ø Allerdings sind In den vorgestellten Modellen sind Responsemuster abhängig 2. Quasi-Likelihood basiert Keine Annahmen zur Verteilung nötig Nur erste beide Momente werden genutzt (Mean-Variance Relationship) Bei Annahme einer aus der Exponentialfamilie bekannten Mean- Variance-Relatioship äquivalent zur vollständigen Likelihood 2/28

13 Vergleich Likelihood und Quasi-Likelihood Parameterschätzung bei ML: var(y i ) ist aufgrund der angenommenen Verteilung der Exponentialfamilie bekannt l i = ( y µ )x i i ij µ i, j =,..., p β j var(y i ) η i Parameterschätzung bei QML l i = ( y µ )x i i ij µ i, j =,..., p β j υ(µ i ) η i Varianz wird nur über die angenommenen Mean-Variance- Relationship var(y i ) = υ(µ i ) spezifiziert 3/28

14 Multivariate Erweiterung der Quasi Likelihood Parameterschätzung bei GEE: mit Δ i = D i µ = β θit η i i it i β = D 'V (y i i i µ i (β)) als Diagonalemente, B i = b (θ it ) als Diagonalelemente, /2 /2, R(α) als Arbeitskovarianzmatrix und V = B R( α) B. Eigenschaften: Multivariate Erweiterung der Quasi-Likelihood i i i φ Computational leichter aber weniger effizient als Likelihood Likelihood basierte Tests können nicht verwendet werden # 4

15 Schätzung am Beispiel von Modell () Generalisierte Schätzgleichung (GEE) wird verwendet " n % ˆβ i = ln i $ # N n ' i & und Werte aus Randsummentabelle: Studiengang Schokolade (A) se i =! " N ˆπ i ( ˆπ i )# $ Eissorte Kirsche (B) mit Gummibär (C) exp( ˆ βi ) ˆ π i = exp( ˆ β ) Anzahl Studenten Statistik Psychologie Total i 5/28

16 Schätzung am Beispiel von Modell () Resultierende Parameter für Modell (): " 9 % ˆβ = ln$ # 380 9& ' 2 ˆ 23 β = ln ˆ ln 243 β3 = Studiengang Schokolade (A) Eissorte Kirsche (B) Gummibär (C) Anzahl Studenten Statistik Psychologie Total /28

17 Geschätzte Parameter Parameter und Standardfehler für Modelle () und (2): Modell () Modell (2) Eis Statistik Psychologie Schokolade (A) (.) (.98) (.38) Kirsche (B).254 (.03) (.6).72 (.44) Gummibär (C).573 (.07).50 (.58).93 (.49) Wald-Test: W = df = k (l - ) = 3 p =.85 * 0-0 à Eiskauf ist abhängig vom Studiengang 7/28

18 Anwendung Rasch Modell Erweiterte Fragestellung Gibt es eine andere Erklärung für den gefundenen Unterschied? Ø Könnte Eitelkeit die entscheidende Rolle spielen? Eitelkeit als zweite systematische Variable aufnehmen Verschwindet der Effekt Studiengang bedingt auf Eitelkeit? Eitelkeit ist nicht-beobachtbare (latente) Größe Ø Fragebogen ( 4 Punkte) 8/28

19 Formalisierung Modell (3) mit zwei Einflussgrößen: π vi θv βi = ln π vi π vi ist Wahrscheinlichkeit dass Studierender v Sorte i wählt Bedingtes Modell Kauf der Eissorten darf von Eitelkeit abhängen 9/28

20 Bedingtes Modell Vorteil: Modell determiniert die gemeinsame Verteilung der Responses aller Items (Eissorten) Gegeben β,, β k und θ,, θ k sind alle Bernoulli Variablen (Antworten) lokal unabhängig Ø cml Schätzung kann verwendet werden Gemeinsame Verteilung ist gegeben durch das Produkt der Studierenden-spezifischen Wahrscheinlichkeiten aus Modell (3) Über alle Eissorten und Studierende 20/28

21 Eigenschaften bedingtes Modell Bedeutung des Fehlens von Studiengangsindex j : Gegeben β i hängt die Wahrscheinlichkeit ein Eis zu kaufen von der Eitelkeit ab Ø Unabhängig vom Studiengang Hypothese ist simultane (auf Eitelkeit) bedingte Unabhängigkeit zwischen Schultyp und Response (Eiskauf) 2/28

22 Problem Eitelkeit ist unbeobachtete latente Größe und muss für jeden Studierenden geschätzt werden Ø Neyman-Scott Problem Ø Lösung von Andersen (970) wird angewandt à Anzahl der gekauften Eissorten ist suffizient für jeden Studierenden r ϵ {0,,k} ist Anzahl der gekauften Eissorten Wird als Eismenge definiert mit k Level Ersetzt die angenommene stetige latente Variable Eisaffinität 22/28

23 Bedingte Wahrscheinlichkeit Modell (4) (bedingtes Rasch Modell): π ir = exp( β ) γ γ i r () i r i =,, k und r =,, k- mit β k = 0 zur Modellidentifizierung γ r bezeichnet symmetrische Grundfunktion der Ordnung r der Parameter exp(β ),, exp(β k ) γ (i) r- bezeichnet die erste partielle Ableitung von γ r nach β i 23/28

24 Parameterschätzung mit cml Durch Bedingen auf Eismenge r kann die bedingte Wahrscheinlichkeitsverteilung hergeleitet werden Anteil, den die Wahrscheinlichkeit für ein bestimmtest Antwortmuster an der Gesamtwahrscheinlichkeit aller Muster mit Summenscore r hat Bed. Likelihood (cml) ist Funktion der Parameter β,, β k Also nicht mehr abhängig von θ,, θ k Theoretisch könnte auch umgekehrt bedingt werden Analog zu den bisher bekannten Personen- und Itemparametern im Rasch Modell 24/28

25 Alternatives Modell In Modell (4) wird implizit festgelegt: πir =... = πirl = πir à Studiengang j spielt keine Rolle Alternativ kann folgendes Modell (5) aufgestellt werden: ˆ π irj = exp( β ) γ γ ij r ( ij) r Abgeleitet wird hier nach den β ij à cml Schätzung à Studiengang j wird ebenfalls modelliert 25/28

26 Hypothesentest Aufgrund der cml Schätzung können der Andersen Likelihood Ratio Test und der Wald Test angewendet werden Vergleich der Parameter der Modell (4) und (5): Modell (4) Modell (5) Eis Statistik Psychologie Schokolade (A) Kirsche (B) (.60) -.96 (.253) -.87 (.20) Gummibär (C) (.64) (.256) (.25) G² =.67 p =.558 W =.220; p =.390 mit df = 2 à Bedingt auf Eitelkeit ist Eisaffinität unabh. vom Studiengang 26/28

27 Zusammenfassung Erweiterung der Anwendbarkeit des Rasch Modells Rasch Modell wird nicht als Messmodell sondern als Logit Modell für die Analyse von Häufigkeiten von zweidimensionalen Kontingenztafeln verwendet Bedingte Unabhängigkeit wird getestet Hypothese der simultanen bedingten Unabhängigkeit wird getestet Zwischen systematischer (Studiengang) und dem binären Response auf multiple Items, gegeben eine zweite Variable (Eitelkeit) 27/28

28 Literatur Agresti, A. (2002). Categorical data analysis. Hoboken: John Wiley & Sons. Agresti, A., & Liu, I. (999). Modeling a categorical variable allowing arbitrarily many category choices. Biometrics, 55, Andersen, E.B. (970). Asymptotic properties of conditional maximum likelihood estimators. Journal of the Royal Statistical Society, Series B, 32, Draxler, C. (20). Logit models for the analysis of two-way categorial data. Educational Research and Evaluation, 7(5), /28

29 Appendix Zusatzmaterial zur Erklärung und Weiterführung # 29/28

30 Beweis der Suffizienten Statistik p(0,,0) r = ß Bedingte Wahrscheinlichkeit Ø Nur noch der Itemparameter () ist in der Formel enthalten # 30 ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) = =

31 Angewandt auf das Rasch- Modell

32 Die symmetrische Grundfunktion Die Symmetrische Grundfunktion: (zur Erinnerung: i = exp(-β k ) # 32

33 Symmetrische Grundfunktion Formel: k exp( x ) iσ i xr i= Kurzform: γr (exp( σ)) Eingesetzt im Nenner der cml: cl = exp( N i= vi i v= γr (exp( σ)) k x σ # 33

34 Generalized Linear Mixed Model Linearer Prädiktor: y it ist Beobachtung t in cluster i u i ~ N(0,Σ) angenommen var(y it u i ) = Φ it υ(µ it ) Bedingt auf u i, behandelt das Modell y it unabhänging über i und t Als logit Modell: g ( µ ) = x' β z' u it it it i ( ) logit[ PY = u = β u it i t i u i wird im Raschmodell zwar als fester Effekt behandelt, allerdings durch cml eliminiert Andere Autoren: Random Effects Modell mit Probit-Link # 34