STATISTIK II. Hans-Otfried Müller Institut für Mathematische Stochastik.

STATISTIK II Hans-Otfried Müller Institut für Mathematische Stochastik http://www.math.tu-dresden.de/sto/mueller 1

Ausgewählte Verfahren der multivariaten Datenanalyse und Statistik Werden bei einer Analyse gleichzeitig mehrere Merkmale oder Stichproben einbezogen, so kommen Verfahren der multivariaten Datenanalyse und Statistik zum Einsatz. Das generelle Ziel besteht dabei darin, Eigenschaften der gemeinsamen Verteilung der einbezogenen Zufallsvariablen bzw. Beobachtungen d.h. speziell eine evtl. vorhandene Abhängigkeitsstruktur zu erfassen. 2

Das Spektrum multivariater Analyseverfahren ist in Abhängigkeit von der Zahl und der Art der einbezogenen Variablen und der unterstellten Struktur der Abhängigkeit außerordentlich vielfältig. Grob unterscheiden kann man z.b. dimensionsreduzierende Verfahren, die den Merkmalsraum komprimieren, (z.b. Cluster- oder Faktorenanalyse) und hypothesentestende Verfahren, mit denen der Einfluss von unabhängigen Variablen (Einflussgrößen) auf abhängige Variable (Zielgrößen) untersucht wird (z.b. Varianz- und Regressionsanalyse). Im Rahmen der Vorlesung werden einige typische multivariate Analyseverfahren, die in den Sozialwissenschaften häufig zum Einsatz kommen, in ihren Grundzügen vorgestellt. 3

Varianzanalyse Mit Hilfe der Techniken der Varianzanalyse (ANOVA: analysis of variance) kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von kategorialen (nominalskalierten) Einflussgrößen untersucht werden. Einfaktorielle Varianzanalyse Das einfachste Modell stellt die einfaktorielle (oneway) ANOVA mit festen Effekten dar, die die Abhängigkeit einer metrischen Zielgröße von den Ausprägungen einer kategorialen Einflussgröße (Faktor) untersucht. 4

Das Verfahren entspricht dem Vergleich der Mittelwerte der abhängigen Variablen für die Gruppen, die sich aus den Ausprägungen (Faktorstufen) der unabhängigen kategorialen Variablen ergeben (k unabhängige Stichproben). Beispiel: Bildung gleich Manipulation? Wie stark lassen sich Jugendliche durch Informationsmaterial in ihren Einstellungen beeinflussen? Fragebogen zur Ermittlung der Einstellung von Jugendlichen zur Nutzung von Atomkraft bei der Energiegewinnung 5

zufällige Aufteilung von n = 24 zufällig ausgewählten Jugendlichen (Stichprobe) auf k = 3 Gruppen, denen unterschiedliche Filme zur Nutzung der Atomkraft gezeigt werden: Gruppe 1 (Pro Gruppe): Film befürwortet die Nutzung der Atomkraft Gruppe 2 (Kontra Gruppe): Film demonstriert die Risiken der Nutzung der Atomkraft Gruppe 3 (Kontrollgruppe): Film demonstriert sowohl die Vor- als auch die Nachteile der Nutzung der Atomkraft Die kategoriale Einflussgröße erfasst hier also die Art des gezeigten Films. 6

Nachdem die Probanden den jeweiligen Film gesehen haben, erfolgt die Messung der Einstellung zur Nutzung der Atomkraft mit Hilfe des Fragebogens. Durch Zusammenfassen von Items zu einem Index (siehe später in diesem Semester) ergibt sich für jede Person ein Messwert (score). Hohe Messwerte entsprechen dabei einer Befürwortung der Nutzung der Atomkraft. Die folgende Tabelle enthält die Messwerte der n = 24 Jugendlichen: 7

Gr. 1: 7 9 15 13 11 16 12 8 13 16 Gr. 2: 4 5 6 3 8 10 3 9 Gr. 3: 8 12 7 10 11 12 Fragestellung: Hat die Art des Informationsmaterials (und damit die Gruppenzugehörigkeit) Einfluss auf die Einstellung der Jugendlichen? Intuitiv ist klar, dass bei einem entsprechenden Test die Gruppenmittelwerte und damit die durchschnittliche Einstellung in den k = 3 Gruppen miteinander verglichen werden. 8

Mittelwert der i ten Gruppe: ȳ i = 1 n i n i Gesamtmittelwert: j=1 y ij = 1 n i (y i1 + y i2 +... + y i ni ) ȳ = 1 n k n i i=1 j=1 y ij = 1 n k n i ȳ i i=1 Hängt die Einstellung der Jugendlichen nicht von der Art des gezeigten Filmes und damit von der Gruppenzugehörigkeit ab, dann werden die Gruppenmittelwerte sich kaum unterscheiden und jeweils etwa dem Gesamtmittelwert entsprechen. 9

Für unser Beispiel ergibt sich: ȳ 1 = 12, ȳ 2 = 6, ȳ 3 = 10 und ȳ = 9.5 Die für den Globaltest der ANOVA verwendete Stichprobenfunktion basiert auf der Streuungszerlegung (Zerlegung der Gesamtvariabilität): 10

k n i k k n i (y ij ȳ ) 2 = n i (ȳ i ȳ ) 2 + (y ij ȳ i ) 2 i=1 j=1 i=1 i=1 j=1 SQT = SQE + SQR sum of squares total... explained... residual Summe der gewichtete Summe der Summe der Abweichungsquadrate Abweichungsquadrate Abweichungsquadrate der y ij vom der Gruppenmittel ȳ i der y ij von den Gesamtmittel ȳ vom Gesamtmittel ȳ Gruppenmitteln ȳ i (vom Modell) Gesamtvariabilität= erklärte Variabilität + Restvariabilität 11

Die Gesamtvariabilität zerfällt also in die durch die Modellvorstellung unterschiedlicher Gruppenmittel erklärte Variabilität zwischen den Gruppen und die Restvariabilität innerhalb der Gruppen. Häufig wird dafür der Begriff Streuungszerlegung verwendet. Unterscheiden sich die Gruppenmittel deutlich zeigt also die kategoriale Einflussgröße eine Wirkung dann ist die Variabilität zwischen den Gruppen (die erklärte Variabilität) groß im Verhältnis zur Variabilität innerhalb der Gruppen. Für unser Beispiel ergibt sich: SQT = 330, SQE = 162 und SQR = 168 12

Als Testgröße (Stichprobenfunktion) verwendet man das Verhältnis der Varianz (!) zwischen den Gruppen zur Varianz (!) innerhalb der Gruppen: SQE k 1 SQR n k Daraus resultiert auch die Bezeichnung Varianzanalyse für ein Verfahren, das eigentlich Mittelwerte vergleicht. Wenn die kategoriale Einflussgröße keine Wirkung hat, nimmt die Testgröße kleine Werte an. 13

Die Nullhypothese, dass die kategoriale Einflussgröße keine Wirkung hat, wird man demnach ablehnen, wenn die Gruppenmittel sich stark unterscheiden und daher die Testgröße große Werte annimmt. Für unser Beispiel ergibt sich: t = SQE k 1 SQR n k = 162 2 168 21 = 10.125 Welche Schlussfolgerungen kann man aus diesem Wert ziehen? Dazu wird ein mathematisches Modell formuliert, um einen entsprechenden Signifikanztest begründen zu können. 14

F Test (oneway ANOVA) Anliegen: Parametrischer Test zur Überprüfung von Hypothesen über die Gleichheit der Erwartungswerte von k unabhängigen normalverteilten Zufallsvariablen bei unbekannten, aber gleichen Varianzen (Varianzhomogenität, s. Levene Test); Verallgemeinerung des doppelten t Tests auf k Stichproben Voraussetzungen: Die k unabhängigen mathematischen Stichproben (Y 11, Y 12,..., Y 1n1 ), (Y 21, Y 22,..., Y 2n2 ),..., (Y k1, Y k2,..., Y knk ) stammen aus normalverteilten Schichten der Grundgesamtheit mit unbekannten, aber gleichen Varianzen σ 2 (Varianzhomogenität). 15

Für die Stichprobenvariablen Y ij gilt demnach die folgende Darstellung (Modellannahme): Y ij = µ i + E ij i = 1,..., k, j = 1,..., n i Die Zufallsvariablen E ij sind dabei unabhängig und normalverteilt mit Mittelwert 0 und Varianz σ 2. µ i ist der Erwartungswert der Gruppe i (fester Effekt der Gruppe). Hypothesen: H 0 : µ 1 = µ 2 =... = µ k (Globalhypothese) H A : µ i µ j für mindestens ein Paar (i, j) 16

Testgröße: T = SQE k 1 SQR n k Unter H 0 ist die Testgröße F verteilt mit (k 1, n k) Freiheitsgraden. p Wert: p = P (T t) Entscheidungsregel: Ablehnung von H 0 falls p α. 17

Bemerkung: Sind Y und Z unabhängige χ 2 verteilte Zufallsvariablen mit m bzw. n Freiheitsgraden. Dann heißt die Verteilung der Zufallsvariablen Y m X = Z n F Verteilung mit (m, n) Freiheitsgraden. 18

Im Beispiel ist t = 10.125 und p = P (T 10.125) = 0.001. Die Nullhypothese wird daher abgelehnt. Es kann also mit sehr großer Sicherheit von einer Beeinflussung der Jugendlichen durch die Filme ausgegangen werden. Hinweis: SPSS gibt im Zusammenhang mit einer ANOVA stets eine Tafel der Varianzanalyse aus, die u.a. die Streuungszerlegung und die Überschreitungswahrscheinlichkeit für den globalen F Test enthält. 19

Bemerkungen Grundgedanke des Verfahrens ist die Streuungszerlegung, daher auch der Name Varianzanalyse. Der doppelte t Test für 2 unabhängige Stichproben ist ein Spezialfall der einfaktoriellen ANOVA mit festen Effekten. Der Faktor (Einflussgröße) besitzt in diesem Fall nur 2 Faktorstufen. Mehrfache Paarvergleiche mit Hilfe des doppelten t Tests sind bei echten varianzanalytischen Fragestellungen nicht zu empfehlen. Wie der doppelte t Test ist auch die ANOVA relativ robust gegenüber Abweichungen von den Modellvoraussetzungen: 20

Für nicht zu kleine und nicht zu unterschiedliche Stichprobenumfänge in den Gruppen kann von einer F Verteilung der Teststatistik ausgegangen werden. Bei berechtigten Zweifeln an der Normalverteilungsannahme können nichtparametrische Tests zum Einsatz kommen (siehe Kruskal Wallis Test als Verallgemeinerung des Wilcoxon Rangsummen Tests). Die Varianzhomogenität kann mit dem Levene Test geprüft werden. Die Unabhängigkeit ist bei Messwiederholungen mehreren Messungen am gleichen Objekt verletzt. Dafür kommen spezielle Modelle der ANOVA zum Einsatz. 21

Wird die Globalhypothese Gleichheit aller Gruppenmittel abgelehnt, so ist man häufig an der Aufklärung der Struktur der vorhandenen Abhängigkeit interessiert. Bei entsprechenden Testverfahren unterscheidet man zwischen a priori und a posteriori Hypothesen und zugehörigen Tests (z.b. von Kontrasten). SPSS bietet ein breites Spektrum derartiger Tests an. 22

Der η Koeffizient η (sprich: eta) ist der 7. Buchstabe im griechischen Alphabet. Mit Hilfe der Streuungszerlegung SQT = SQE + SQR lässt sich ein Koeffizient zur Beschreibung der Abhängigkeit einer metrischen (mindestens intervallskalierten) Variablen von einer kategorialen (nominalskalierten) Variablen einführen. 23

Setzen wir η 2 = SQE SQT so erhalten wir aus der obigen Gleichung durch Division durch SQT (Gesamtvariabilität) 1 = SQE SQT } {{ } + SQR SQT } {{ } = η 2 = 1 η 2 η 2 ist damit eine Zahl zwischen 0 und 1 und stellt den Anteil der Variabilität der metrischen Variablen dar, der mit Hilfe der kategorialen (durch die Gruppenmittel) vorhergesagt werden kann. Der Koeffizient η, die Wurzel aus SQT SQE, nimmt also ebenfalls Werte zwischen 0 und 1 an. 24

η 2 ist ein PRE Maß (proportional reduction in error). PRE Maße beschreiben die anteilige Reduktion von Vorhersagefehlern bei der Vorhersage einer abhängigen Variablen unter Verwendung der Kenntnis der Ausprägungen einer unabhängigen Variablen gegenüber einer Vorhersage ohne Kenntnis der Ausprägungen der unabhängigen Variablen. Im Gegensatz zum Test der Globalhypothese (Signifikanz) liefert η 2 eine Information über eine Effektstärke (Relevanz; die Bedeutung des verwendeten Modells für die Vorhersage). 25

Im Fall η = 0, also SQE= 0, ist die Kenntnis der Ausprägungen der unabhängigen Variablen ohne Bedeutung für die Vorhersage der abhängigen Variablen, wenn zur Vorhersage Gruppenmittel (das ist das verwendete Modell, siehe unten) benutzt werden. Im Fall η = 1, also SQR= 0, ist eine perfekte (fehlerlose) Vorhersage der Ausprägungen der abhängigen Variablen bei Kenntnis der Ausprägungen der unabhängigen Variablen mit Hilfe von Gruppenmitteln möglich. 26

Für das Modell der einfaktoriellen ANOVA sind die Vorhersagen wie folgt zu realisieren: Wollen wir für einen zufällig auszuwählenden Merkmalsträger den Messwert vorhersagen, ohne dass wir die Gruppenzugehörigkeit (z.b. den gezeigten Film) kennen, so stellt das Gesamtmittel ȳ die optimale Prognose (warum eigentlich?) dar. Den Fehler, den man bei Anwendung dieser Regel auf die vorliegenden Daten y ij begeht, kann man durch SQT (Gesamtvariabilität) beschreiben. Kennen wir jedoch zusätzlich die Gruppenzugehörigkeit (z.b. den gezeigten Film), dann verwenden wir zur Vorhersage des Messwertes eines Probanden aus Gruppe i das Gruppenmittel ȳ i dieser i-ten Gruppe. 27

η 2 = SQT SQE beschreibt die anteilige Reduktion des Fehlers bei Verwendung der Vorhersage unter Kenntnis der Gruppenzugehörigkeit. η = 1 ist gleichbedeutend mit SQR = 0 und damit y ij = ȳ i, d.h. alle Ausprägungen innerhalb einer Gruppe sind gleich und können über die Gruppenzugehörigkeit perfekt vorhergesagt werden. η wird auch als Determinationskoeffizient oder Korrelationsverhältnis (correlation ratio) bezeichnet. 28

Im Beispiel gilt η 2 = SQE SQT = 162 330 = 0.49 und damit η = 0.70. Bei Kenntnis des gezeigten Films und Verwendung des Gruppenmittels zur Vorhersage reduziert sich der Vorhersagefehler gegenüber der Verwendung des Gesamtmittels um 49%. 29