Kapitel 21 Korrelationen

Transkript

1 Kapitel 21 Korrelationen Oftmals liegen Theorien vor, denen zufolge die Ausprägungen zweier Größen in bestimmter Weise zusammenhängen. Eine solche Theorie kann zum Beispiel in der These bestehen, die Dauer und Intensität der Sonnenbestrahlung, der ein Mensch über bestimmte Zeit ausgesetzt ist, haben Einfluß auf die Wahrscheinlichkeit, mit der die betreffende Person an Hautkrebs erkrankt. Ebenso könnte eine Theorie lauten, die Höhe der Ausgaben für Werbemaßnahmen einer Firma habe einen positiven Einfluß auf den Absatz der Produkte. Für die Höhe des Preises eines bestimmten Gutes kann dagegen im allgemeinen vermutet werden, dieser beeinflusse den Absatz negativ. Um die Stärke des Zusammenhangs zweier Variablen zu bestimmen, kann ein Korrelationskoeffizient berechnet werden. Dieser Koeffizient ist darauf beschränkt, lineare Zusammenhänge zu identifizieren. Er versucht, die Stärke des linearen Zusammenhangs in einer einzigen zwischen -1 und +1 liegenden Maßzahl auszudrücken. Ein positiver Wert deutet dabei auf einen positiven linearen Zusammenhang hin, ein negativer Wert kennzeichnet entsprechend einen negativen linearen Zusammenhang. Der lineare Zusammenhang ist um so stärker, je größer der Betrag des Korrelationskoeffizienten ist. Ein Korrelationskoeffizient von null zeigt an, daß kein linearer Zusammenhang zwischen den Variablen beobachtet werden konnte. Da der Korrelationskoeffizient auf die Entdeckung linearer Zusammenhänge beschränkt ist, kann auch bei einem Koeffizienten von null ein perfekter, jedoch nicht linearer Zusammenhang zwischen den betrachteten Variablen vorliegen. Als Ergänzung zum Korrelationskoeffizienten ist es daher oftmals sinnvoll, die Werte der miteinander zu vergleichenden Variablen in einem Diagramm gegeneinander abzutragen. Dies kann zum Beispiel in einem Streudiagramm geschehen. Durch eine solche grafische Darstellung läßt sich häufig bereits ein recht guter, wenn auch nicht quantifizierbarer Eindruck von der Stärke und insbesondere von der Form eines möglichen Zusammenhangs zwischen den Variablen gewinnen.

2 498 Kapitel 21 Korrelationen Zur Berechnung von Korrelationskoeffizienten für die Messung des linearen Zusammenhangs zwischen zwei Variablen steht bei SPSS die Prozedur STATISTIK KORRELATIO BIVARIAT... zur Verfügung. Diese Prozedur bietet drei verschiedene Korrelationskoeffizienten (Pearson, Kendalls Tau-b und Spearman) an, die für Variablen mit unterschiedlichen Dateneigenschaften geeignet sind Korrelationen für intervallskalierte Variablen Die Datendatei Strukturdaten.sav, die sich auf der Begleit-CD des Buches befindet, enthält für 177 Länder und Regionen der Erde Strukturdaten wie zum Beispiel den Anteil der Analphabeten an der Bevölkerung, die Höhe des Bruttoinlandsprodukts (BIP) pro Kopf der Bevölkerung und den Pro-Kopf-Verbrauch an (kommerziell erzeugter) Energie. 211 Im folgenden soll untersucht werden, ob ein Zusammenhang zwischen der Höhe des Pro-Kopf-BIP und dem Pro-Kopf-Energieverbrauch besteht. Hierzu wird zunächst die gemeinsame Verteilung der beiden Größen in einem Streudiagramm betrachtet. Anschließend wird ein Korrelationskoeffizient für die beiden Variablen Pro-Kopf-BIP und Pro-Kopf- Energieverbrauch berechnet Darstellung in einem Streudiagramm Erstellen des Streudiagramms Ein Streudiagramm liefert einen ersten anschaulichen Eindruck von einem möglichen Zusammenhang zwischen den beiden betrachteten Variablen. Das Pro-Kopf- BIP ist in der Datei Strukturdaten.sav in der Variablen bip angegeben, der Pro- Kopf-Energieverbrauch in der Variablen energie. Um das Streudiagramm aus Abbildung 21.1 zu erstellen, gehen Sie folgendermaßen vor: 212 ¾ Wählen Sie den Befehl GRAFIK STREUDIAGRAMM... ¾ Dieser Befehl öffnet ein kleines Dialogfeld. Markieren Sie dort das Piktogramm Einfach, und klicken Sie anschließend auf die Schaltfläche Definieren. 211 Eine ausführlichere Beschreibung der Daten aus der Datei Strukturdaten.sav finden Sie am Anfang des Kapitels 29, Clusterzentrenanalyse. 212 Eine ausführlichere und systematischere Darstellung von Streudiagrammen liefert Kapitel 36, Streudiagramme.

3 21.1 Korrelationen für intervallskalierte Variablen 499 ¾ Daraufhin wird ein weiteres Dialogfeld geöffnet. Fügen Sie dort die Variablen energie in das Feld Y-Achse und die Variable bip in das Feld X-Achse ein. Weitere Einstellungen werden hier nicht vorgenommen, Sie können das Dialogfeld also mit der Schaltfläche OK schließen. ¾ Abbildung 21.1 zeigt das Diagramm nicht exakt in der Form, in der es von SPSS erstellt wurde. Die Skalierung der Achsen wurde dahingehend geändert, daß beide Achsen mit dem Wert null und nicht wie zuvor mit dem Wert beginnen. Zudem wurden geringfügige Änderungen an der Beschriftung sowie an den Farben vorgenommen. Interpretation des Streudiagramms für das Beispiel Pro-Kopf-Verbrauch an Energie Bruttoinlandsprodukt pro Kopf der Bevölkerung (in $) Abbildung 21.1: Streudiagramm für die Variablen energie und bip In dem Diagramm werden die Wert der beiden Variablen aus den einzelnen Fällen gegeneinander abgetragen. Jedes Wertepaar eines Falles wird durch einen Punkt in dem Diagramm dargestellt. So entspricht zum Beispiel der oberste Punkt in dem Diagramm dem Land Katar (dies geht aus der Grafik nicht hervor) und gibt an, daß dieses Land einen Pro-Kopf-Energieverbrauch von ungefähr Einheiten (eine Einheit entspricht dem Energiegehalt von 1 Kg. Steinkohle) und ein Pro- Kopf-BIP von ca $ hat. Die Anordnung der Punkte in dem Diagramm zeigt insbesondere zweierlei: ¾ Zum einen scheint ein mehr oder weniger starker positiver Zusammenhang zwischen den Größen Pro-Kopf-Energieverbrauch und Pro-Kopf-BIP zu bestehen, denn Länder mit niedrigen Energieverbrauchswerten weisen in der Tendenz auch eine geringe Wirtschaftsleistung auf, während Länder mit hohem Pro-Kopf-BIP zumeist auch viel Energie verbrauchen.

4 500 Kapitel 21 Korrelationen ¾ Der Zusammenhang scheint nicht über den gesamten Bereich des Pro-Kopf- BIP gleich stark zu sein. Länder mit niedrigem Pro-Kopf-BIP weisen nahezu vollständig auch niedrige Energieverbrauchswerte auf. Bei den Ländern mit höherem BIP pro Kopf sind dagegen sowohl hohe als auch geringe Energieverbrauchswerte zu beobachten. Bei diesen Ländern ist die Streuung der Werte für den Energieverbrauch also stärker als bei Ländern mit geringer Wirtschaftsleistung. Mit diesen beiden Beobachtungen hat das Diagramm in gewisser Weise bereits einen differenzierteren Eindruck von dem Zusammenhang zwischen den Variablen vermittelt, als es der im folgenden zu betrachtende Korrelationskoeffizient vermag. Letzterer bietet jedoch den Vorteil, die Stärke des Zusammenhangs zu quantifizieren und damit mehr als nur einen ungefähren Eindruck zu vermitteln. Streudiagramme für zwei Extremfälle Abbildung 21.2 zeigt zwei Streudiagramme, von denen das linke die gemeinsame Verteilung der Werte zweier Variablen darstellt, zwischen denen kein Zusammenhang besteht. Die Werte der einen Variablen sind vollkommen unabhängig von den Werten der jeweils anderen Variablen verteilt. In dem Diagramm kommt dies darin zum Ausdruck, daß die Punktwolke kein Muster erkennen läßt, sondern die einzelnen Punkte zufällig über die Diagrammfläche verteilt zu sein scheinen. 213 Zwischen den beiden im rechten Streudiagramm dargestellten Variablen besteht dagegen ein perfekter linearer Zusammenhang. Je größer die Werte einer Variablen, desto kleiner sind die Werte der jeweils anderen Variablen. Von diesem Zusammenhang gibt es in der Abbildung keine Ausnahme. Da die Punkte zudem exakt auf einer Geraden liegen, ist der Zusammenhang zwischen den Variablen perfekt linear. Variable 2 Variable 2 Variable 1 Variable 1 Abbildung 21.2: Streudiagramm für zwei Variablen ohne erkennbaren Zusammenhang und Streudiagramm für zwei Variablen mit perfektem (negativem) linearen Zusammenhang 213 Tatsächlich stellt das linke Streudiagramm die Verteilung zweier Variablen mit Zufallswerten dar.

5 21.1 Korrelationen für intervallskalierte Variablen 501 Würde man Korrelationskoeffizienten für die in den Streudiagrammen dargestellten Variablenpaare berechnen, ergäbe sich für die beiden Variablen aus dem linken Diagramm ein Koeffizient von 0 und für das im rechten Diagramm dargestellte Variablenpaar ein Koeffizient von Berechnung des Korrelationskoeffizienten Um den anschaulichen, aber nicht so präzisen Eindruck aus dem Streudiagramm von einem möglichen linearen Zusammenhang zwischen den Variablen in einer einzigen Maßzahl auszudrücken, kann ein Korrelationskoeffizient berechnet werden. Am gebräuchlichsten ist der Pearson sche Korrelationskoeffizient, der häufig einfach mit dem Buchstaben r bezeichnet wird. Pearsons r berechnet sich nach folgender Formel: r = i= 1 i= 1 ( X X) ( Y Y) 2 ( X X) 1 ( Y Y) i i 1 Dabei bezeichnet die Anzahl der Fälle in der Stichprobe, X und Y stehen für die beiden Variablen, deren Zusammenhang gemessen werden soll, S X sowie S Y sind die Standardabweichungen der beiden Variablen, und S XY ist die Kovarianz zwischen X und Y. Der Koeffizient nimmt Werte zwischen +1 und -1 an. Je größer der absolute Wert des Koeffizienten ist, desto stärker ist der lineare Zusammenhang zwischen den Variablen. Ein Wert von +1 zeigt an, daß zwischen den betrachteten Variablen ein perfekter positiver linearer Zusammenhang besteht. Die Punkte in einem Streudiagramm würden alle auf der von links-unten nach rechts-oben verlaufenden Diagonalen liegen. Ein Wert von -1 kennzeichnet entsprechend einen perfekten negativen linearen Zusammenhang. Die Punkte des Streudiagramms sind dann wie in der rechten Grafik aus Abbildung 21.2 auf der von links-oben nach rechts-unten verlaufenden Diagonalen angeordnet. Ergibt sich ein Korrelationskoeffizient von ull, bedeutet dies, daß kein linearer Zusammenhang zwischen den Variablen besteht (oder zumindest ein solcher Zusammenhang in der betrachteten Stichprobe nicht beobachtet werden konnte). Dennoch ist es auch bei einem Korrelationskoeffizienten von null möglich, daß sich aus dem Wert einer Variablen der Wert der jeweils anderen Variablen exakt bestimmen läßt und damit ein perfekter Zusammenhang zwischen den Variablen vorliegt. Dies ist zum Beispiel bei einem perfekten quadratischen Zusammenhang zwischen den Variablen möglich. Damit der Pearson sche Korrelationskoeffizient sinnvoll berechnet werden kann, müssen beide betrachteten Variablen mindestens Intervallskalenniveau aufweisen. Sollen auf der Basis des Korrelationskoeffizienten Hypothesentests durchgeführt werden, ist es zudem erforderlich, daß die Variablen in der Grundgesamtheit gemeinsam (zweidimensional) normalverteilt sind. Für Variablen, die diese Voraussetzungen nicht erfüllen, aber mindestens Ordinalskalenniveau besitzen, stehen die i i= 1 i 2 = S S X XY S Y

6 502 Kapitel 21 Korrelationen beiden Korrelationskoeffizienten Kendalls Tau-b und Spearman zur Verfügung (siehe hierzu Abschnitt 21.2, Rangkorrelationen für ordinalskalierte Variablen, S. 505) Interpretation des Koeffizienten Output erstellen Abbildung 21.3 zeigt den Output der Prozedur KORRELATIO, BIVARIAT für die beiden Variablen energie und bip. Um diesen Output zu erzeugen, nehmen Sie bei SPSS folgende Einstellungen vor: ¾ Öffnen Sie zunächst die Datendatei Strukturdaten.sav, und wählen Sie anschließend den Befehl STATISTIK KORRELATIO BIVARIAT... ¾ Verschieben Sie in dem damit geöffneten Dialogfeld die Variablen energie und bip in die Liste Variablen. Bei allen übrigen Optionen werden die Voreinstellungen verwendet, 214 so daß Sie die Prozedur nach der Angabe der Variablen mit der Schaltfläche OK starten können. Korrelation nach Pearson Signifikanz (2-seitig) Korrelationen Pro-Kopf-Verbrauch an (kommerzieller) Energie (Einheit: Energiegehalt von 1 Kg Kohle) Bruttoinlandsprodukt pro Kopf der Bevölkerung (in $) Pro-Kopf-Verbrauch an (kommerzieller) Energie (Einheit: Energiegehalt von 1 Kg Kohle) Bruttoinlandsprodukt pro Kopf der Bevölkerung (in $) Pro-Kopf-Verbrauch an (kommerzieller) Energie (Einheit: Energiegehalt von 1 Kg Kohle) Bruttoinlandsprodukt pro Kopf der Bevölkerung (in $) **. Die Korrelation ist auf dem iveau von 0,01 (2-seitig) signifikant. Pro-Kopf-Verbrauch an (kommerzieller) Energie (Einheit: Energiegehalt von 1 Kg Kohle) Bruttoinlandsprodukt pro Kopf der Bevölkerung (in $) 1,000,582**,582** 1,000,,000,000, Abbildung 21.3: Ergebnis der Prozedur KORRELATIO, BIVARIAT für die Variablen energie und bip 214 Abbildung 21.6, S. 509 zeigt das Dialogfeld mit den in diesem Beispiel verwendeten Einstellungen.

7 21.1 Korrelationen für intervallskalierte Variablen 503 Korrelationskoeffizient Die Korrelationskoeffizienten werden im obersten Tabellenbereich, mit der Beschriftung Korrelation nach Pearson, angegeben. Dieser Bereich ist in zwei Zeilen unterteilt, von denen sich die obere auf die Variable energie und die untere auf die Variable bip bezieht. In der Zeile für die Variable energie und der Spalte Bruttoinlandsprodukt wird der Korrelationskoeffizient für die beiden Variablen bip und energie mit 0,582 angegeben. Dieser Wert wird noch einmal in der Zeile Bruttoinlandsprodukt und der Spalte Pro-Kopf-Verbrauch an Energie ausgewiesen. Die Angaben in der Tabelle sind damit redundant. Da der Korrelationskoeffizient deutlich positiv ist, deutet er auf einen positiven Zusammenhang zwischen den Variablen energie und bip hin. Länder, in denen das BIP pro Kopf der Bevölkerung relativ hoch ist, weisen somit tendenziell auch einen hohen Energieverbrauch pro Kopf der Bevölkerung auf. Anders formuliert, scheint der Energieverbrauch mit der Wirtschaftsleistung eines Landes zuzunehmen. Damit bestätigt der Korrelationskoeffizient den Eindruck, der bereits durch das Streudiagramm in Abbildung 21.1, S. 499 vermittelt wurde. Vom Betrag her kann der Korrelationskoeffizient nur Werte zwischen 0 und 1 annehmen, wobei ein Koeffizient von 0 angibt, daß kein linearer Zusammenhang zwischen den Variablen besteht, während ein Koeffizient von 1 einen perfekten linearen Zusammenhang kennzeichnet. Der hier ausgewiesene Wert von ungefähr 0,6 deutet damit auf einen starken, wenn auch nicht sehr starken, geschweige denn perfekten linearen Zusammenhang zwischen den Variablen hin. Für die Interpretation des Betrags des Koeffizienten sowie für das Schließen auf die Stärke des Zusammenhangs kann keine allgemeine Anleitung gegeben werden, da dies stets vor dem inhaltlichen Hintergrund der jeweils untersuchten Fragestellung erfolgen muß. Allgemeine Gültigkeit besitzt nur die Tatsache, daß der beobachtete lineare Zusammenhang um so stärker ist, je größer der Betrag des Korrelationskoeffizienten ausfällt. Zusätzlich kann man sich an folgenden Richtwerten orientieren, die jedoch nicht als klare Grenzwerte, sondern bestenfalls als Orientierungshilfen zu verstehen sind. Betrag des Korrelationskoeffizienten Mögliche Interpretation 0 Keine Korrelation über 0 bis 0,2 Sehr schwache Korrelation 0,2 bis 0,4 Schwache Korrelation 0,4 bis 0,6 Mittlere Korrelation 0,6 bis 0,8 Starke Korrelation 0,8 bis unter 1 Sehr starke Korrelation 1 Perfekte Korrelation Im obersten Tabellenbereich wird zweimal der Wert 1,000 ausgewiesen, der einen perfekten linearen Zusammenhang anzeigt. Der Wert in der oberen Zeile (Energieverbrauch) und der ersten Spalte (ebenfalls Energieverbrauch) gibt die Korrelation der Variablen energie mit sich selbst an. Diese Korrelation muß natürlich gleich 1 sein. Entsprechend wird in der zweiten Zeile (BIP) und der zweiten Spalte (wiederum BIP) die Korrelation der Variablen bip mit sich selbst angegeben. Die-

8 504 Kapitel 21 Korrelationen se Werte werden nur aus Gründen der Vollständigkeit ausgewiesen und könnten ebenso fortgelassen werden, da sie inhaltlich keinen Aussagegehalt besitzen. Signifikanztest Oftmals ist vor allem von Interesse, ob überhaupt ein signifikanter Zusammenhang zwischen den betrachteten Variablen besteht, ob also aus den Stichprobenbeobachtungen geschlossen werden kann, daß in der Grundgesamtheit ein solcher linearer Zusammenhang vorliegt. Um eine solche Fragestellung zu überprüfen, wird im zweiten Tabellenbereich (Signifikanz, 2-seitig) der entsprechende Signifikanzwert ausgewiesen. Dies ist die Wahrscheinlichkeit, mit der sich in einer Stichprobe des vorliegenden Umfangs auch dann ein Korrelationskoeffizient der beobachteten Größenordnung ergeben kann, wenn in der Grundgesamtheit tatsächlich überhaupt kein (linearer) Zusammenhang zwischen den Variablen besteht. Diese Wahrscheinlichkeit kann nur dann richtig ermittelt werden, wenn die Variablen in der Grundgesamtheit zumindest annähernd gemeinsam (zweidimensional) normalverteilt sind. Ist diese Voraussetzung erfüllt, kann die ullhypothese getestet werden, derzufolge der Korrelationskoeffizient in der Grundgesamtheit gleich null ist. Hierzu wird der folgende Testwert errechnet: t = r r Dabei gibt die Anzahl der Fälle in der Stichprobe an, und r ist der Pearson sche Korrelationskoeffizient. Dieser Wert ist bei Gültigkeit der ullhypothese t-verteilt mit -2 Freiheitsgraden. 215 Für den linearen Zusammenhang zwischen den Variablen energie und bip wird ein Signifikanzwert von 0,000 ausgewiesen. 216 Auch diese Angabe erscheint zweimal in der Tabelle. Der Wert ist folgendermaßen zu interpretieren: Weist man die ullhypothese, derzufolge in der Grundgesamtheit kein linearer Zusammenhang zwischen den Variablen bip und energie besteht, zurück, so begeht man mit einer Wahrscheinlichkeit von 0,000 bzw. 0,0% einen Irrtum. Der ausgewiesene Signifikanzwert wird daher auch als Irrtumswahrscheinlichkeit bezeichnet. Bei einer derart geringen Irrtumswahrscheinlichkeit kann die ullhypothese zurückgewiesen werden, man kann also davon ausgehen, daß auch in der Grundgesamtheit ein Zusammenhang zwischen dem Pro-Kopf-BIP und dem Pro-Kopf-Energieverbrauch vorliegt. Mit dem Signifikanztest wurde nur untersucht, ob ein Zusammenhang zwischen den beiden Variablen besteht. Das Ergebnis läßt sich damit nicht ohne weiteres 215 Zum Durchführen von Signifikanztests auf der Basis der t-verteilung siehe auch Kapitel 19, T-Test. 216 Der Wert 0,000 ist ein auf drei Dezimalstellen gerundeter Wert. Er gibt somit an, daß der genaue Signifikanzwert kleiner als 0,0005 ist. Im Ausgabenavigator kann man sich den Wert mit größerer Genauigkeit anzeigen lassen. Er beträgt 2, e-015, also 0,

9 21.2 Rangkorrelationen für ordinalskalierte Variablen 505 auf die Stärke des Zusammenhangs übertragen. Insbesondere wäre es unzulässig, aus der niedrigen Irrtumswahrscheinlichkeit zu schließen, daß auch in der Grundgesamtheit ein Korrelationskoeffizient in Höhe von 0,58 vorliegt. Da zu Beginn der Untersuchung noch nicht bekannt war, ob ein positiver oder ein negativer Zusammenhang zwischen den Variablen besteht 217, wurde ein sogenannter zweiseitiger Signifikanztest durchgeführt. Dieser hat getestet, ob der Korrelationskoeffizient in der Grundgesamtheit null oder von null verschieden ist. Es wurde also untersucht, ob irgendeine Art von linearem Zusammenhang besteht, unabhängig davon, ob dies ein positiver oder ein negativer Zusammenhang ist. Liegen dagegen bereits aus theoretischen Überlegungen Vorinformationen über den zu erwartenden Zusammenhang vor, kann dies auch in dem Signifikanztest berücksichtigt werden. In einem solchen Fall wird ein sogenannter einseitiger Test verwendet. Die durch einen solchen Test überprüfte ullhypothese besagt dann entweder, in der Grundgesamtheit bestehe kein positiver linearer Zusammenhang zwischen den Variablen, oder sie geht davon aus, in der Grundgesamtheit bestehe kein negativer Zusammenhang zwischen den Variablen Rangkorrelationen für ordinalskalierte Variablen Beispiel Wenn die Variablen die Voraussetzungen für den Pearson schen Korrelationskoeffizienten (Intervallskalenniveau und für die Gültigkeit von Hypothesentests ormalverteilung in der Grundgesamtheit) nicht erfüllen, kann die Stärke des Zusammenhangs zwischen den Variablen durch Rangkorrelationskoeffizienten gemessen werden. Die Voraussetzungen an die Daten sind dabei wesentlich schwächer. Die Variablen müssen lediglich Ordinalskalenniveau aufweisen, und auch die Forderung der ormalverteilung in der Grundgesamtheit entfällt. Bei der Prozedur KORRELATIO, BIVARIAT stehen zwei verschiedene Rangkorrelationskoeffizienten zur Verfügung: Kendalls Tau-b und Spearmans Rho. Die Begleit-CD enthält in der Datei allbus.sav die Ergebnisse einer 1996 in Deutschland durchgeführten Umfrage. 219 Dabei wurde den Befragten unter anderem der in Abbildung 21.4 wiedergegebene Fragetext vorgelegt. 217 Es wäre auch nicht unplausibel, einen negativen Zusammenhang zwischen dem BIP und dem Energieverbrauch zu vermuten, da den Ländern mit höherer Wirtschaftsleistung im allgemeinen modernere und damit oftmals effizientere Technologien zur Verfügung stehen und zudem das Umweltbewußtsein wesentlich ausgeprägter ist. Insbesondere sogenannte Schwellenländer weisen dagegen häufig bereits stark industrialisierte Strukturen in Verbindung mit veralteten oder ineffizient betriebenen Technologien und einem wenig ausgeprägten Umweltbewußtsein auf. 218 Bei der Prozedur KORRELATIO, BIVARIAT können Sie im Hauptdialogfeld in der Gruppe Test auf Signifikanz wählen, ob ein zweiseitiger oder ein einseitiger Test durchgeführt werden soll. Siehe hierzu auch Test auf Signifikanz, S Zu den Daten der Begleit-CD siehe im einzelnen Kapitel 1, Überblick.

10 506 Kapitel 21 Korrelationen Man hört hier und da verschiedene Meinungen über Juden. Wir haben einmal einige davon hier zusammengestellt. Würden Sie mir bitte - wieder anhand der Liste - sagen, inwieweit Sie diesen Aussagen zustimmen oder nicht zustimmen? Durch ihr Verhalten sind die Juden an ihren Verfolgungen nicht ganz unschuldig. 1 (Stimme überhaupt nicht zu) (Stimme voll und ganz zu) Abbildung 21.4: Fragetext und Antwortkategorien für die Variable v140 In Kapitel 20, Einfaktorielle AOVA, wurden die Antworten auf diese Frage bereits untersucht. Dabei wurde festgestellt, daß der durchschnittliche Grad der Zustimmung zu der Aussage Durch ihr Verhalten sind die Juden an ihren Verfolgungen nicht ganz unschuldig mit dem Bildungsniveau der Befragten (gemessen an der Dauer der Schulbildung) abnimmt. Anders formuliert: Je höher die Schulbildung der Befragten, desto geringer der durchschnittliche Grad der Zustimmung zu der Aussage aus Abbildung Der höchste erreichte Schulabschluß der Befragten wird in der Variablen v142 angegeben. Die Variable unterscheidet zwischen den folgenden Kategorien: 1. Schule ohne Abschluß beendet 2. Volks- oder Hauptschulabschluß bzw. Polytechnische Oberschule mit Abschluß nach der 8. oder 9. Klasse 3. Mittlere Reife, Realschulabschluß bzw. Polytechnische Oberschule mit Abschluß nach der 10. Klasse 4. Fachhochschulreife (Abschluß einer Fachoberschule etc.) 5. Abitur bzw. erweiterte Oberschule mit Abschluß nach der 12. Klasse (Hochschulreife) 6. Anderer Schulabschluß 7. och Schüler eben diesen Kategorien enthält die Variable noch die mit 9 codierte Kategorie Keine Angabe. Die Kategorie 9 wurde in der Datendatei ebenso wie die Kategorien 6 und 7 als fehlender Wert definiert. Die verbleibenden fünf Kategorien bilden eine Ordinalskala, denn die Werte lassen sich eindeutig in einer Rangfolge anordnen, die Distanzen zwischen den einzelnen Kategorien sind jedoch nicht quantifizierbar. Man kann also nicht sagen, eine Fachhochschulreife sei das x-fache von einer mittleren Reife oder das y-fache von einem Verlassen der Schule ohne Abschluß. Bei den Antworten auf die Frage aus Abbildung 21.4 ist das Skalenniveau nicht so eindeutig zu bestimmen. Die sich von 1 bis 7 erstreckende Skala kann zum einen als Ordinalskala mit sieben diskreten Kategorien angesehen werden. Da

11 21.2 Rangkorrelationen für ordinalskalierte Variablen 507 jedoch mit Ausnahme der Endpunkte die einzelnen Kategorien keine verbale Bezeichnung (wie etwa Stimme leicht zu, Stimme mittelstark zu, Stimme stark zu etc.) tragen, läßt sich die Skala auch als Intervallskala ansehen. Output erstellen Da zumindest der Schulabschluß eine Ordinalskala bildet, kann die Stärke des Zusammenhangs zwischen den beiden Variablen nicht durch den Pearson schen Korrelationskoeffizienten gemessen werden, sondern es müssen die in Abbildung 21.5 wiedergegebenen Rangkorrelationskoeffizienten zur Anwendung kommen. Der Output wurde mit den folgenden Einstellungen erzeugt: ¾ Daten gewichten: Der Test basiert auf der mit der Variablen v434 gewichteten Datendatei allbus.sav. Um die Gewichtung der Datei mit dieser Variablen einzuschalten, verwenden Sie den Befehl DATE, FÄLLE GEWICHTE. Wählen Sie in dem damit geöffneten Dialogfeld die Option Fälle gewichten mit, und verschieben Sie die Variable v434 in das Feld Häufigkeitsvariable. ¾ Prozedur aufrufen: Zum Berechnen der Korrelationskoeffizienten wählen Sie den Befehl STATISTIK KORRELATIO BIVARIAT... ¾ Variablen angeben: Verschieben Sie in dem Dialogfeld Bivariate Korrelationen die Variablen v140 und v142 in die Liste Variablen. ¾ Korrelationskoeffizienten auswählen: Kreuzen Sie in der Gruppe Korrelationskoeffizienten die Optionen Kendall-Tau-b und Spearman an, und wählen Sie die Option Pearson ab. Bei allen übrigen Optionen werden die Voreinstellungen übernommen. Kendall-Tau-b Spearman-Rho JUDE A VERFOLGUGE ICHT USCHULDIG ALLGEMEIER SCHULABSCHLUSS JUDE A VERFOLGUGE ICHT USCHULDIG ALLGEMEIER SCHULABSCHLUSS Korrelationen **. Korrelation ist auf dem iveau von 0,01 signifikant (2-seitig). JUDE A VERFOLGUGE ICHT ALLGEMEIER USCHULDIG SCHULABSCHLUSS Korrelationskoeffizient 1,000 -,218** Sig. (2-seitig),, Korrelationskoeffizient -,218** 1,000 Sig. (2-seitig),000, Korrelationskoeffizient 1,000 -,258** Sig. (2-seitig),, Korrelationskoeffizient -,258** 1,000 Sig. (2-seitig),000, Abbildung 21.5: Rangkorrelationskoeffizienten für die Variablen v140 und v142

12 508 Kapitel 21 Korrelationen Rangkorrelationen interpretieren Der obere Teil der Tabelle enthält Angaben für den Koeffizienten Kendall-Tau-b, der untere Tabellenteil bezieht sich auf den Koeffizienten Spearmans Rho. Wie in dem Output für Pearsons Korrelationskoeffizienten (Abbildung 21.3, S. 502) wird jeder Koeffizient aufgrund der Darstellung in Matrixform zweimal ausgewiesen. Der eigentlich interessierende Koeffizient für den Zusammenhang zwischen den Variablen v140 (Grad der Zustimmung zu der vorgelegten Aussage aus Abbildung 21.4) und v142 (Schulabschluß) beträgt nach Kendalls Tau-b -0,218 und nach Spearmans Rho -0,258. Wie der Pearson sche Korrelationskoeffizient können auch die beiden nichtparametrischen Koeffizienten Kendalls Tau-b und Spearmans Rho Werte zwischen +1 und -1 annehmen. Dabei gibt auch hier das Vorzeichen die Richtung des Zusammenhangs und der absolute Wert dessen Stärke an. Bei der Berechnung der Koeffizienten wird für jede Variable eine Rangordnung der Werte erstellt. Anschließend werden die Koeffizienten nicht anhand der ursprünglichen Variablenwerte, sondern auf der Basis der Rangwerte berechnet. Da beide Korrelationskoeffizienten ein negatives Vorzeichen haben, besteht zwischen der Dauer der Schulausbildung und dem durchschnittlichen Grad der Zustimmung zu der Aussage Durch ihr Verhalten sind die Juden an ihren Verfolgungen nicht ganz unschuldig ein negativer Zusammenhang. Der Grad der Zustimmung wird auf einer Skala von 1 bis 7 gemessen, wobei 7 einer sehr starken Zustimmung und 1 der Aussage Stimme überhaupt nicht zu entspricht. Der negative Zusammenhang zwischen den beiden Variablen besagt damit, daß der durchschnittliche Grad der Zustimmung um so geringer ausfällt, je höher die Schulbildung der Befragten ist. Da die Korrelationskoeffizienten mit einem Betrag von ungefähr 0,22 bzw. 0,26 nicht sehr hoch sind, ist der Zusammenhang zwischen den beiden Variablen jedoch eher schwach. An dieser Stelle wird jedoch auch deutlich, daß die Bewertung der Stärke des Zusammenhangs stets vor dem Hintergrund der inhaltlichen Fragestellung erfolgen muß. Der Grad der Zustimmung eines Befragten zu der vorgegebenen Aussage wird mit Sicherheit von zahlreichen Faktoren beeinflußt, das Bildungsniveau ist also nur eine von zahlreichen erklärenden Variablen. Es war von vornherein nicht zu erwarten, daß der Grad der Zustimmung durch die Höhe des Schulabschlusses vollkommen determiniert wird, wie es bei einer perfekten Korrelation der Fall wäre. Die eher schwache Korrelation sollte daher nicht als Einschränkung des Ergebnisses gewertet werden. Vielmehr ist das zentrale Ergebnis darin zu sehen, daß überhaupt ein Zusammenhang zwischen der Schulbildung und der Einstellung der Befragten zu der betrachteten Aussage vorliegt. Von Bedeutung ist daher vor allem, daß der Zusammenhang hochsignifikant ist. Der Signifikanzwert beträgt bei beiden Koeffizienten 0,000 bzw. 0,0%. Die Hypothese, in der Grundgesamtheit bestehe kein Zusammenhang zwischen der Schulbildung und dem Grad der Zustimmung zu der Aussage Durch ihr Verhalten sind die Juden an ihren Verfolgungen nicht ganz unschuldig kann daher zurückgewiesen werden. Das Zurückweisen dieser Hypothese ist nur mit einer Wahrscheinlichkeit von 0,0% falsch.

13 21.3 Einstellungen zum Berechnen von Korrelationen Einstellungen zum Berechnen von Korrelationen Um für zwei oder mehr Variablen jeweils paarweise Korrelationskoeffizienten zu berechnen, wählen Sie den Befehl STATISTIK KORRELATIO BIVARIAT... Dieser Befehl öffnet das Dialogfeld aus Abbildung Das dargestellte Dialogfeld zeigt die Einstellungen für das Beispiel aus Abschnitt 21.1, Korrelationen für intervallskalierte Variablen, S Abbildung 21.6: Dialogfeld des Befehls STATISTIK, KORRELATIO, BIVARIAT Allgemeine Vorgehensweise In der Variablenliste des Dialogfeldes werden alle numerischen Variablen der Datendatei aufgeführt. Für Textvariablen können mit SPSS keine Korrelationskoeffizienten berechnet werden, auch dann nicht, wenn diese Ordinalskalenniveau aufweisen. ehmen Sie in dem Dialogfeld die folgenden Einstellungen vor: ¾ Variablen: Fügen Sie die Variablen, für die Korrelationskoeffizienten berechnet werden sollen, in das Feld Variablen ein. Es müssen mindestens zwei Variablen angegeben werden. Wenn Sie mehr als zwei Variablen angeben, wird für jede mögliche paarweise Variablenkombination ein Korrelationskoeffizient berechnet. ach der Angabe der Variablen können Sie die Prozedur mit der Schaltfläche OK starten, sofern Sie bei den übrigen Optionen die Voreinstellungen verwenden möchten. ¾ Korrelationskoeffizienten: Per Voreinstellung wird nur der Pearson sche Korrelationskoeffizient berechnet. Dieser ist ausschließlich für intervallskalierte Variablen geeignet. Die Signifikanz für den Korrelationskoeffizienten kann nur dann zuverlässig berechnet werden, wenn die Variablen in der Grundge-

14 510 Kapitel 21 Korrelationen samtheit einer gemeinsamen zweidimensionalen ormalverteilung entstammen. Ist diese Voraussetzung nicht erfüllt oder sind die Variablen nicht intervallskaliert, können Sie Kendalls Tau-b und Spearmans Rho berechnen. Siehe hierzu auch den folgenden Abschnitt Korrelationskoeffizienten. ¾ Test auf Signifikanz: Sie können wählen, ob für den Korrelationskoeffizienten das zwei- oder das einseitige Signifikanzniveau berechnet werden soll. Per Voreinstellung wird das zweiseitige Signifikanzniveau verwendet. Zudem können Sie festlegen, daß in der Tabelle mit den Koeffizienten diejenigen Koeffizienten gekennzeichnet werden, die mit einem Signifikanzniveau von 0,05 oder 0,01 von null verschieden sind. Siehe hierzu den Abschnitt Test auf Signifikanz, S ¾ Optionen: In dem Dialogfeld der Schaltfläche Optionen können Sie zum einen den Ausschluß von Fällen mit fehlenden Werten steuern und zum anderen zusätzliche Statistiken für die einzelnen in die Prozedur einbezogenen Variablen anfordern, siehe Abschnitt Optionen, S Korrelationskoeffizienten Die folgenden Korrelationskoeffizienten stehen zur Verfügung: ¾ Pearson: Hiermit wird für die einzelnen Variablenpaare Pearsons Korrelationskoeffizient berechnet. Dieser ergibt sich als Kovarianz, dividiert durch das Produkt der Standardabweichungen (siehe S. 501). Pearsons Korrelationskoeffizient liegt stets zwischen +1 und -1. Das Vorzeichen gibt die Richtung, der Betrag die Stärke des Zusammenhangs an. Der Koeffizient ist nur für intervallskalierte Variablen sinnvoll. Der Hypothesentest für Pearsons Korrelationskoeffizienten ist nur dann zuverlässig, wenn die Variablen in der Grundgesamtheit einer gemeinsamen ormalverteilung entstammen. ¾ Kendall-Tau-b: Wählen Sie diese Option, um Korrelationen für die Ränge der Variablenwerte zu berechnen. Kendalls Tau-b ist für mindestens ordinalskalierte Variablen geeignet. Auch dieser Koeffizient nimmt Werte zwischen +1 und -1 an, wobei wiederum das Vorzeichen die Richtung des Zusammenhangs angibt, während der Betrag dessen Stärke kennzeichnet. ¾ Spearman: Dieser Koeffizient wird ähnlich wie Pearsons Korrelationskoeffizient berechnet. Der Unterschied besteht lediglich darin, daß bei Spearmans Koeffizienten nicht die Variablenwerte, sondern deren Rangwerte betrachtet werden. Wie bei den beiden übrigen Korrelationskoeffizienten liegen auch hier die Werte in dem Bereich zwischen +1 und -1. Das Vorzeichen des Koeffizienten gibt die Richtung und der Betrag die Stärke des Zusammenhangs zwischen den beiden betrachteten Variablen an.

15 21.3 Einstellungen zum Berechnen von Korrelationen 511 Test auf Signifikanz Die Voreinstellungen legen fest, daß für jeden Korrelationskoeffizienten ein zweiseitiger Signifikanztest durchgeführt wird. Diese Voreinstellung können Sie in der Gruppe Test auf Signifikanz ändern: ¾ Zweiseitig: Hiermit wird die ullhypothese getestet, derzufolge der Koeffizient in der Grundgesamtheit gleich null ist. Ein geringer Signifikanzwert deutet darauf hin, daß diese Hypothese falsch ist. Dabei wird bei der Durchführung des Tests noch nicht berücksichtigt, ob der wahre Koeffizient größer oder kleiner null ist. Ein zweiseitiger Test ist immer dann zu empfehlen, wenn aus der Theorie heraus noch keine Vorinformation über die Richtung des potentiellen Zusammenhangs zwischen den Variablen vorliegt. ¾ Einseitig: Mit dieser Option wird ein einseitiger Test durchgeführt. Wird für die Stichprobe ein positiver Korrelationskoeffizient ermittelt, besagt die ullhypothese des einseitigen Tests, der Koeffizient in der Grundgesamtheit sei nicht größer als ull. Ein geringer Signifikanzwert spricht dann dafür, daß die ullhypothese falsch ist und auch der Korrelationskoeffizient in der Grundgesamtheit über null liegt. Wird in der Stichprobe dagegen eine negative Korrelation beobachtet, lautet die ullhypothese, der Korrelationskoeffizient in der Grundgesamtheit sei nicht kleiner als ull. Signifikante Korrelationen markieren: Wenn diese Option angekreuzt ist, werden Korrelationskoeffizienten, die bei einem bestimmten Signifikanzniveau von null verschieden sind, in der Ergebnistabelle markiert. Koeffizienten, die bei einem 5%-iveau von null verschieden sind, werden durch ein Sternchen (*) markiert, Koeffizienten, die auch noch bei einem 1%-iveau signifikant sind, erhalten zwei Sternchen (**). Optionen Die Schaltfläche Optionen öffnet das Dialogfeld aus Abbildung In diesem Dialogfeld können Sie die Behandlung von Fällen mit fehlenden Werten steuern und zusätzliche Statistiken für die einzelnen Variablen anfordern. Abbildung 21.7: Dialogfeld der Schaltfläche Optionen

16 512 Kapitel 21 Korrelationen Statistik: Die Optionen dieser Gruppe stehen nur zur Verfügung, wenn Sie im Hauptdialogfeld angegeben haben, daß Pearsons Korrelationskoeffizient berechnet werden soll. Andernfalls unterstellt SPSS, daß die Variablen nur Ordinalskalenniveau aufweisen und damit Maßzahlen wie der Mittelwert und die Standardabweichung nicht sinnvoll berechnet werden können. ¾ Mittelwerte und Standardabweichungen: Für die einzelnen in die Prozedur einbezogenen Variablen werden der Mittelwert und die Standardabweichung berechnet. Wenn Sie in der Gruppe Fehlende Werte die Option Paarweiser Fallausschluß gewählt haben, beziehen sich die Statistiken jeweils auf die gültigen Fälle der einzelnen Variablen. Haben Sie die Option Listenweiser Fallausschluß angewählt, werden die Maßzahlen bei jeder Variablen nur für die Fälle berechnet, die in allen in die Prozedur einbezogenen Variablen gültige Werte aufweisen. ¾ Kreuzproduktabweichungen und Kovarianzen: Für die einzelnen paarweisen Kombinationen aus den im Hauptdialogfeld ausgewählten Variablen werden die Kovarianz sowie die Kreuzproduktabweichung angegeben. Die Kovarianz berechnet sich als 1 S XY = ( X X)( Y Y) 1 i= 1 Fehlende Werte: Für den Ausschluß von Fällen mit fehlenden Werten können Sie zwischen den beiden folgenden Optionen wählen: ¾ Paarweiser Fallausschluß: Einzelne Fälle werden nur jeweils bei der Berechnung solcher Korrelationskoeffizienten ausgeschlossen, die sich auf Variablen beziehen, in denen die betreffenden Fälle einen fehlenden Wert aufweisen. Koeffizienten für verschiedene Variablenpaare, die in demselben Prozedurdurchlauf berechnet wurden, können somit auf einer unterschiedlichen Anzahl von Fällen basieren. Bei der Berechnung von Maßzahlen, die in der Gruppe Statistik des Dialogfelds Optionen angefordert werden können, werden jeweils alle gültigen Werte der betreffenden Variablen einbezogen, auch dann, wenn die Fälle in den übrigen Variablen der Prozedur einen fehlenden Wert aufweisen. Auch die Maßzahlen für die verschiedenen Variablen können somit auf unterschiedlichen Fällen basieren. ¾ Listenweiser Fallausschluß: Fälle, die in mindestens einer der in die Prozedur einbezogenen Variablen einen fehlenden Wert aufweisen, werden aus der gesamten Prozedur ausgeschlossen. Es werden also nur solche Fälle berücksichtigt, die in jeder Testvariablen einen gültigen Wert aufweisen. Damit basieren alle Korrelationskoeffizienten nicht nur auf der gleichen Anzahl von Fällen, sondern auch auf denselben Fällen. i i