Bivariater Zusammenhang in der Mehrfeldertafel PEΣO 9. November 2001
Bivariate Häufigkeitsverteilungen in Mehrfeldertabellen In der Mehrfeldertabelle werden im Gegensatz zur Vierfeldertabelle keine dichotomen sondern mehrkategoriale Variablen betrachtet. Prozentsätze können auch in der Mehrfeldertabelle verglichen werden. Leider steht hier anschauliches Maß wie die Prozentsatzdifferenz bei Vierfeldertabellen nicht zur Verfügung. Dennoch kann man über Prozentsatzvergleiche gut einen Eindruck über die Bivariate Verteilung gewinnen. 1
Beispielverteilung 2
Prüfung der Unabhängigkeit in Mehrfeldertabellen Hypothesenpaar H 0 : π ij = π i π j für alle i,j H 1 : π ij π i π j für mindestens eine Kombination i,j Erwartete Häufigkeiten bei Unabhängigkeit e ij = n p i p j = n i n j n für alle i und j Berechnung der Teststatistik χ 2 χ 2 = I i=1 Ji=j (n ij e ij ) 2 e ij 3
Berechnung der Freiheitsgrade der Tabelle Die Anzahl der Freiheitsgrade einer Tabelle ergibt sich durch die Multiplikation der jeweils um 1 verringerten Zahl der Zeilen und Spaltenkategorien. DF = (N Zeilen 1) (N Spalten 1) Bestimmung der empirischen Signifikanzniveaus der Unabhängikkeitshypothese mit Hilfe der χ 2 -Tabelle
Beispiel χ 2 -Unabhängigkeitstest 4
Standardisierte Residuen Dienen zur Beurteilung der Abweichung zwischen beobachteten und erwarteten Zellenhäufigkeiten bei Unabhängigkeit. Ein negatives Vorzeichen deutet auf eine Unterbesetzung der Zelle in Bezug auf den Erwarteten Wert hin, ein positives auf eine Überbesetztung. Ist das Standardisierte Residuum betragsmäßig größer als 2, ist die Art der Abweichung auf 5 -Niveau signifikant. Formel: sr ij = (n ij e ij ) 2 e ij = n ij e ij eij 5
χ 2 -Goodness of Fit-Test Außer zur Prüfung der Hypothese der Unabhängigkeit einer Tabelle kann der Chi-Quadrat- Test immer dann Angewendet werden, wenn aufgrund theoretischer Überlegungen eine Erwartete Verteilung gefordert wird. Die Nullhypothese fordert dann, daß in der Population eine bestimmte Verteilung vorliegt. Im Allgemeinen Fall berechnet sich die Teststatistik χ 2 nach: χ 2 = K i=1 (n k e k ) 2 e k wobei k den Index zur Bezeichnung der Tabellenzellen und K die Anzahl der Tabellenzellen darstellt. Die Freiheitsgrade berechnen sich über: df = N Zellen N zuschaetzendep arameter 6
Zusammenhangsmaße in der Mehrfeldertabelle bei nominalskalierten Variablen Zusammenhangsmaße bei nominalskalierten Variablen basieren im allgemeinen auf der Prüfgröße χ 2, welche Aussagen über die Abweichung von den bei Unabhängigkeit erwarteten Verteilungen macht. Um aus χ 2 ein Maß abzuleiten, ist es notwendig, festzustellen, welchen Maximalwert dieses im Fall eines perfekten Zusammenhangs haben kann. Dies geschieht über folgende Formel: χ 2 max = n [ dem geringeren von I-1 oder J-1 ] 7
Cramers V Cramers V ist ein symmetrisches Zusammenhangsmaß, welches auf χ 2 und dessen jeweils möglichen Maximalwert basiert. Der Wertebereich von Cramers V liegt zwischen 0 und 1, wobei 0 für keinen und 1 für einen perfekten Zusammenhang steht. Es ist anzumerken, daß Cramers V kein erwartungstreues Maß ist. Signifikanztests sind also immer mit Vorsicht zu genießen. Cramers V berechnet sich über folgende Formel: V = χ 2 χ 2 max 8
Pearsons Kontingenzkoeffizient C Da der Maximalwert von C kleiner 1 ist, ist aus interpretierbarkeitsgründen Cramers V vorzuzíehen. Der Kontingenzkoeffizient C berechnet sich über folgende Formel: C = χ 2 χ 2 +n 9
Asymmetrische Zusammenhangsmaße in der Mehrfeldertabelle bei nominalskalierten Variablen: λ-koeffizient Ein prominentes asymmetrisches Maß ist der sogenannte Lambda-Koeffizient( λ ). Dieser Koeffizient kann Werte zwischen 0 und 1 annehmen, wobei 0 für keinen und 1 einen totalen Einfluß der abhängigen auf die unabhängige Variable bedeutet. λ basiert auf der sogenannten PRE-Logik, welche Grundlage der meistgenutzten Zusammenhangsmaße ist, und die im folgenden vorgestellt werden soll. 10
PRE-Ansatz PRE steht für propotional reduction of error (proportionale Fehlerreduktion). Bei dieser Vorgehensweise betrachtet man den Gewinn an Vorhersagekraft (Fehlerreduktion), wenn man eine (zusätzliche) Variable zur Erklärung einer abhängigen Variable nutzt. Dabei nimmt man an, daß diese zusätzliche Vorhersagekraft durch den Einfluß der zusätzlichen unabhängigen Variable bedingt ist. 11
Vorhersagefehler Ohne die Kenntnis einer zusätzlichen Variablen kann man einen Kennwert der Variable auswählen, deren Ausprägungen man prognostizieren möchte. Zum Beispiel ist dies im Falle von nominalskalierten Variablen der Modus. Der Vorhersagefehler E 0 des Modus einer Verteilung auf diese selbst errechnet sich folgendermaßen: E 0 = n n Modalkategorie Dies ist die Anzahl der Fälle, die nicht in der Modalkategorie liegen und damit der Vorhersagefehler des Modus auf seine eigene Verteilung. 12
Wird eine zusätzliche Variable in die Prognose mit einbezogen,betrachtet man die bedingten Verteilungen der abhängigen Variablen. Für jede Kategorie der unabhängigen ergibt sich nun eine Verteilung der abhängigen Variablen mit jeweils einem Modus. Werden diese Modi über die Kategorien der unabhängigen Variablen zusammenaddiert, erhält man die Zahl der Fälle der abhängigen Variablen, die mit Kenntnis der unabhängigen Variablen prognostizierbar sind. Der Vorhersagefehler mit Kenntnis einer zusätzlichen (Spalten) Variablen E 1 ergibt sich also durch: E 1 = n J j=1 n Modalzelle
proportionale Fehlerreduktion Ist der Fehler bekannt, der sich bei der Prognose einer Verteilung durch einen ihrer Kennwerte ergibt (Selbstprognosefehler), lässt sich ausrechnen, wie stark sich in Relation dazu der Fehler durch Einbeziehen einer zusätzlichen Variable vermindern lässt. Dies ist die sogenannte PRE- Logik. Die Fehlerreduktion wird hierbei als Einfluß der einen auf die andere Variable gedeutet und proportional zum Selbstprognosefehler interpretiert. P RE = E 0 E 1 E 0 = 1 E 1 E 0 wobei: P RE = proportionale Fehlereduktion E 0 = Selbstprognosefehler E 1 = Prognosefehler mit zusätzlicher Variable 13
λ-koeffizient Der λ-koeffizient λ yx errechnet sich also Analog zur PRE-Logik mit Modi als Prognosekennwerten: λ yx = 1 E 1 E = 1 E 1=n Jj=1 n Modalzelle 0 E 0 =n n Modalkategorie Zur Erinnerung: λ yx berschreibt den Einfluß einer unabhängigen nominalskalierten Variablen X auf eine abhängige nominalskaliere Variable Y. Ist λ yx = 0 existiert kein Einfluß, ist es gleich 1 wird Y vollständig durch X bestimmt. 14
Relative Devianzreduktion Das Prizip der proportionalen Fehlerreduktion kann auch mit anderen Maßen (Fehlerdefinitionen) angewendet werden. Eine Möglichkeit ist die Devianz, ein Streuungsmaß für nominalskalierte Variablen. Die Devianz D Y einer Zeilenvariablen Y berechnet sich wie folgt: D Y = 2 I i=1 n i ln( n i n ) Der Fehler bei Kenntnis beider Variablen errechnet sich über die Devianz der bivariaten Verteilung D Y X : D Y X = 2 J j=1 Ii=1 n ij ln( n ij n j ) 15
Aus diesen Definitionen und dem PRE-Prinzip ergibt sich die relative Devianzreduktion P 2 Y X, die auch als Likelihood-Ratio-Index oder Unsicherheitskoeffizient bekannt ist: P 2 Y X = 1 D Y X D Y = 1 D Y X= 2 Jj=1 Ii=1 n ij ln( n ij n j ) D Y = 2 I i=1 n i ln( n i n ) Dieses Maß hat ebenfalls einen Wertebereich von 0 bis 1, wobei 0 für keinen und 1 für einen perfekten Zusammenhang (Fehlerreduktion) steht.
Likelihood-Ratio-Test Die statistische Unabhängigkeit einer Tabelle kann alternativ zum χ 2 -Test auch mittels der relativen Devianzreduktion ermittelt werden. Ist diese signifikant von null verschieden, ist die Tabelle statistisch abhängig. Die Teststatistik L 2 ist? verteilt und nimmt für steigende Stichprobengröße asymptotisch den selben Wert wie χ 2 an. Sind χ 2 und L 2 in einer Stichprobe verschieden, bedeutet das, daß aufgrund zu geringer Stichprobengröße beide Maße mit vorsicht zu genießen sind. L 2 = D Y D Y X = 2 I i=1 Jj=1 n ij ln( n ij e ij ) 16