T-TEST BEI EINER STICHPROBE:

Transkript

1 Kapitel 19 T-Test Mit Hilfe der T-TEST-Prozeduren werden Aussagen über Mittelwerte getroffen. Dabei wird versucht, aus den Beobachtungen einer Stichprobe Rückschlüsse auf die Grundgesamtheit zu ziehen. Bei SPSS stehen insgesamt drei Prozeduren zur Durchführung eines T-Tests zur Verfügung: ¾ T-TEST BEI EINER STICHPROBE: Mit dieser Prozedur können Sie anhand der Beobachtungen einer Stichprobe testen, mit welcher Wahrscheinlichkeit der Mittelwert einer beobachteten Variablen in der Grundgesamtheit einen vorgegebenen Wert über- oder unterschreitet. ¾ T-TEST BEI UNABHÄNGIGEN STICHPROBEN: Ein T-Test bei unabhängigen Stichproben testet nicht einen Mittelwert daraufhin, ob dieser einen bestimmten Wert erreicht, sondern er vergleicht zwei Mittelwerte miteinander und testet, ob diese in der Grundgesamtheit gleich groß sind. Diese Mittelwerte müssen aus zwei unabhängigen Stichproben stammen. Dabei mag es zunächst verwunderlich erscheinen, unter welchen Umständen zwei Stichproben als unabhängig bezeichnet werden. Ein typischer Anwendungsfall für einen T-Test bei unabhängigen Stichproben wurde im vorhergehenden Kapitel betrachtet: Soll untersucht werden, ob sich die durchschnittlichen Ausprägungen einer bestimmten Eigenschaft (wie das im vorhergehenden Kapitel betrachtete Magnitude-Prestige) bei Männern und Frauen signifikant voneinander unterscheiden, kann dies mit einem T-Test bei unabhängigen Stichproben untersucht werden. Es werden also die Mittelwerte derselben Variablen in zwei Fallgruppen miteinander verglichen. Die in der Stichprobe enthaltenen Frauen wurden unabhängig von den in der Stichprobe enthaltenen Männern aus der Grundgesamtheit gezogen, die Zusammensetzung der Männer in der Stichprobe hat also keinen Einfluß auf die Zusammensetzung der Frauen (und umgekehrt). Daher ist ein T-Test bei unabhängigen Stichproben das geeignete Instrument zum Vergleich der Mittelwerte. ¾ T-TEST BEI GEPAARTEN STICHPROBEN: Auch der T-Test für gepaarte Stichproben vergleicht zwei Mittelwerte miteinander, allerdings ist dieser Test darauf ausgerichtet, daß die Stichproben systematisch miteinander verbunden sind. Dies liegt zum Beispiel vor, wenn Sie bei der Auswertung von Umfrage-

2 456 Kapitel 19 T-Test ergebnissen die Mittelwerte zweier Variablen (für dieselben Personen) miteinander vergleichen. Die Antworten in den beiden Variablen (und damit die beiden zu vergleichenden Stichproben) sind nicht unabhängig voneinander, da sich beide Variablen auf dieselben Personen beziehen. Unterscheiden sich die in der Stichprobe enthaltenen Personen durch zufällige Einflüsse bei der Stichprobenziehung in bestimmten Eigenschaften von den Personen der Grundgesamtheit, wirkt sich dies auf beide Variablen und damit auf die beiden durch den T-Test miteinander verglichenen Stichproben aus Einführung Beispieldaten Im Rahmen der ALLBUS-Bevölkerungsbefragung wurde den Befragten unter anderem die in Abbildung 19.1 dargestellte Frage vorgelegt. 200 Man hört hier und da verschiedene Meinungen über Juden. Wir haben einmal einige davon hier zusammengestellt. Würden Sie mir bitte - wieder anhand der Liste - sagen, inwieweit Sie diesen Aussagen zustimmen oder nicht zustimmen? Mich beschämt, daß Deutsche so viele Verbrechen an Juden begangen haben. 1 (Stimme überhaupt nicht zu) (Stimme voll und ganz zu) Abbildung 19.1: Fragetext und Antwortkategorien für die Variable v138 Der Grad der Zustimmung der Befragten zu dieser Aussage ist in der Datendatei allbus.sav von der Begleit-CD in der Variablen v138 angegeben. In diesem Kapitel wird in Abschnitt 19.2 untersucht, ob die Befragten aus den neuen und den alten Bundesländern im Durchschnitt eine unterschiedliche Bewertung dieser Aussage vorgenommen haben. Dies kann vor dem Hintergrund, daß die Bevölkerung in den beiden Teilen Deutschlands eine unterschiedliche Aufarbeitung der Ereignisse während des Dritten Reiches erfahren hat, vermutet werden. Weiter unten in Abschnitt 19.4 werden dann noch einmal die Antworten aller Befragten gemeinsam untersucht. Dabei wird getestet, ob aus den Stichprobenergebnissen geschlossen werden kann, daß der durchschnittliche Grad der Zustimmung zu der Aussage aus Abbildung 19.1 in der Grundgesamtheit einen bestimmten Wert übersteigt. 200 Neben dieser Aussage sollten die Befragten noch drei weitere Aussagen über Juden nach dem Grad ihrer Zustimmung oder Ablehnung beurteilen. Daher bezieht sich der einleitende Satz der Frage auf einige Aussagen. In der Datendatei allbus.sav sind die Antworten für alle vier Aussagen enthalten. Sie finden diese in den Variablen v137 bis v140.

3 19.1 Einführung Anforderungen an die Stichprobe Die Grundgesamtheit, also die Menge aller Fälle, über die eine Aussage getroffen werden soll, ist in der Regel viel zu groß, um für jeden Fall der Grundgesamtheit empirische Daten zu erheben. Daher muß man zumeist mit einer Stichprobe vorliebnehmen und anhand dieser überprüfen, ob aufgrund der für die Stichprobe beobachteten Werte Hypothesen über die Grundgesamtheit eher angenommen oder eher abgelehnt werden sollten. Hierzu wird oft eine sogenannte Nullhypothese für die Grundgesamtheit getestet. Bei den folgenden T-Tests formuliert die Nullhypothese Aussagen über die Mittelwerte einzelner Variablen. Eine solche Aussage kann zum Beispiel sein, daß zwischen den Mittelwerten zweier Variablen in der Grundgesamtheit kein Unterschied besteht oder daß der Mittelwert einer Variablen in der Grundgesamtheit mindestens einen bestimmten Wert aufweist. Der T- Test prüft dabei, inwieweit aus einem beobachteten Unterschied zwischen zwei Mittelwerten bzw. aus der beobachteten Größe eines Mittelwertes Rückschlüsse auf entsprechende Unterschiede oder Größenordnungen in der Grundgesamtheit gezogen werden können. Um auf der Grundlage einer Stichprobenbetrachtung unverzerrte Aussagen über die Grundgesamtheit treffen zu können, muß die Stichprobe bestimmte Anforderungen erfüllen. So muß zunächst einmal sichergestellt sein, daß die Stichprobe tatsächlich eine Teilmenge der Grundgesamtheit ist. Jeder Fall der Stichprobe muß auch ein Fall der Grundgesamtheit sein. Eine zweite wesentliche Voraussetzung besteht darin, daß es sich bei der Stichprobe um eine Zufallsstichprobe handeln muß. Dies bedeutet, daß die konkreten Fälle der Stichprobe rein zufällig aus der Grundgesamtheit ausgewählt wurden. Jeder Fall der Grundgesamtheit muß eine gleich große Chance gehabt haben, in die Stichprobe aufgenommen zu werden. 201 Weder ist diese Prämisse immer sehr einfach zu erfüllen, noch ist stets ohne weiteres nachzuprüfen, inwieweit die Zusammensetzung der Stichprobe wirklich zufällig erfolgte. Werden die benötigten Informationen zum Beispiel gesammelt, indem man zufällig ausgewählten Personen der betreffenden Grundgesamtheit einen Fragebogen zukommen läßt, so wird man immer nur solche Personen erfassen können, die bereit sind, einen derartigen Fragebogen auszufüllen und zurückzusenden. Da durch diese Vorgehensweise ein durch ein spezifisches Merkmal gekennzeichneter Teil der Grundgesamtheit systematisch von der Stichprobe ausgeschlossen wird, kann eine solche Stichprobe möglicherweise verzerrte Ergebnisse liefern. Liegt eine verzerrte Stichprobe vor, so ist es nicht möglich, unverzerrte Rückschlüsse auf die Grundgesamtheit zu ziehen. 201 In der den folgenden Beispielen zugrundeliegenden Stichprobe ist diese Voraussetzung nicht erfüllt, da Personen aus den neuen Bundesländern bewußt in überproportional großem Umfang berücksichtigt wurden. Eine Person aus den neuen Bundesländern hatte daher eine größere Chance, in die Stichprobe aufgenommen zu werden, als eine Person aus den alten Bundesländern. Diese Verletzung der Voraussetzung einer Zufallsstichprobe kann in diesem Fall jedoch dadurch korrigiert werden, daß in der Datendatei die Fälle, die sich auf Personen aus den neuen Bundesländern beziehen, geringer gewichtet werden als die Fälle mit Personen aus den alten Bundesländern. Siehe auch unten, Abschnitt , Interpretation der Testergebnisse, S. 461.

4 458 Kapitel 19 T-Test Verteilung der Mittelwerte Es wird also unterstellt, daß die Fälle, die in einer konkreten Stichprobe enthalten sind, alle der Grundgesamtheit entstammen und zufällig aus dieser ausgewählt wurden. Da jeder Fall der Grundgesamtheit mit der gleichen Wahrscheinlichkeit in eine Zufallsstichprobe aufgenommen werden konnte, hätten sich anstelle einer konkreten Stichprobe auch eine Vielzahl anderer Stichproben aus der Grundgesamtheit ergeben können. Die Personen der Datei allbus.sav wurden aus den erwachsenen, in Deutschland lebenden Personen ausgewählt. Damit ist offensichtlich, daß sich aus der Gesamtheit der erwachsenen Personen in Deutschland sehr viele weitere Stichproben mit einem Umfang von Personen ziehen ließen, die zum Teil oder auch vollständig andere Personen beinhalteten. In diesen unterschiedlichen Stichproben könnten dann höchstwahrscheinlich auch mehr oder weniger unterschiedliche Ergebnisse beobachtet werden, obwohl sie sich alle auf dieselbe Grundgesamtheit beziehen. Dies gilt nicht nur für die einzelnen Werte der Fälle (Personen), sondern auch für aggregierte Werte, die sich auf die gesamte Stichprobe beziehen, wie zum Beispiel die Mittelwerte oder Varianzen einzelner Variablen. Für die vorliegende Stichprobe ist zu beobachten, daß die Befragten der Aussage Mich beschämt, daß Deutsche so viele Verbrechen an Juden begangen haben auf einer Skala von 1 (Stimme überhaupt nicht zu) bis 7 (Stimme voll und ganz zu) im Durchschnitt mit einem Skalenwert von 5,70 zustimmten. Wären nicht zufällig exakt die in der Stichprobe enthaltenen Personen, sondern andere Personen derselben Grundgesamtheit (Erwachsene, die in Deutschland leben) befragt worden, hätte die durchschnittliche Zustimmung auf der Skala von 1 bis 7 mit hoher Wahrscheinlichkeit nicht exakt 5,70 betragen, sondern möglicherweise 5,69 oder 5,75. Der Mittelwert, den eine Variable in einer Stichprobe aufweist, hängt also nicht nur von dem Mittelwert der Variablen in der Grundgesamtheit ab, sondern auch davon, welche Fälle (Personen) zufällig aus der Grundgesamtheit herausgegriffen wurden. In verschiedenen Stichproben können daher für dieselbe Variable unterschiedliche Mittelwerte beobachtet werden. Die Mittelwerte werden jedoch mehr oder weniger stark um den Mittelwert der Grundgesamtheit streuen, sie werden also nicht systematisch nach oben oder nach unten von dem wahren Mittelwert aus der Grundgesamtheit abweichen. Sind die Werte in der Grundgesamtheit normalverteilt, so gilt dies auch für die Mittelwerte der aus dieser Grundgesamtheit gezogenen Stichproben. (Der gleiche Zusammenhang gilt annäherungsweise auch für beliebige andere Verteilungsformen, wenn der Umfang der Stichprobe hinreichend groß ist.) Die Normalverteilung, der die Stichprobenmittelwerte folgen, hat den gleichen Mittelwert, den auch die Werte in der Grundgesamtheit aufweisen. Die Mittelwerte der Stichproben streuen somit um den Mittelwert der Grundgesamtheit und neigen dazu, in der Nähe dieses Mittelwertes zu liegen. Wie groß die Streuungen um den Mittelwert ausfallen, hängt dabei von dem Ausmaß der Streuung der Werte in der Grundgesamtheit und von dem Umfang der Stichprobe ab: ¾ Weist eine Variable in der Grundgesamtheit für alle Fälle den gleichen Wert auf, so daß die Streuung gleich null ist, dann werden auch alle Werte der Stichprobe und ebenso ihre arithmetischen Mittel diesen gleichen Wert haben.

5 19.1 Einführung 459 Wenn die Werte in der Grundgesamtheit dagegen sehr unterschiedlich sind und damit eine große Streuung haben, dann können sich auch Stichproben mit sehr unterschiedlichen Werten und stark streuenden arithmetischen Mitteln ergeben. ¾ Wird als Stichprobe nur jeweils ein Wert aus der Grundgesamtheit gezogen, dann können die Stichprobenmittelwerte jeden Wert annehmen, der in der Grundgesamtheit vertreten ist, also zum Beispiel auch den kleinsten oder den größten in der Grundgesamtheit vorkommenden Wert. Die Mittelwerte der Stichproben streuen somit genauso stark wie die einzelnen Werte der Grundgesamtheit. Je umfangreicher die Stichproben jedoch werden, desto weniger extreme Werte nehmen ihre Mittelwerte an. Wenn die Stichproben im Extremfall die gleiche Größe haben wie die Grundgesamtheit, mit dieser also übereinstimmen, dann werden auch die Mittelwerte der Stichproben alle identisch mit dem Wert der Grundgesamtheit sein und folglich keinerlei Streuung mehr aufweisen. Dieser Zusammenhang, daß die Streuung der Stichprobenmittelwerte um den wahren Mittelwert der Grundgesamtheit mit abnehmender Streuung der Einzelwerte in der Grundgesamtheit und mit steigendem Stichprobenumfang abnimmt, läßt sich folgendermaßen durch eine Formel darstellen: σ σ X = N Dabei bezeichnet σ X die Standardabweichung der Stichprobenmittelwerte einer Variablen, σ ist die Standardabweichung dieser Variablen in der Grundgesamtheit und N der Stichprobenumfang, also die Anzahl der Fälle in der Stichprobe. Auch mit dieser Formel ist jedoch die konkrete Berechnung der Standardabweichung der Stichprobenmittelwerte im allgemeinen nicht möglich, da hierzu die Standardabweichung der betrachteten Variablen in der Grundgesamtheit bekannt sein müßte, was jedoch im allgemeinen nicht der Fall ist. Daher nimmt man für praktische Tests die Standardabweichung, die die betreffende Variable in der vorliegenden Stichprobe aufweist, als Schätzwert für die Standardabweichung in der Grundgesamtheit. Dies kommt auch in der Formelschreibweise zum Ausdruck, da auch hier die Standardabweichung der Grundgesamtheit durch die empirische Standardabweichung der vorliegenden Stichprobe ersetzt wird: S S X = N Hierbei bezeichnet S die geschätzte Standardabweichung in der Grundgesamtheit, also die empirische Standardabweichung der Variablen, die in der vorliegenden Stichprobe beobachtet wurde. Mit dieser Formel wird nicht mehr die tatsächliche, sondern eine geschätzte Standardabweichung der Stichprobenmittelwerte errechnet. Dementsprechend steht S X für eben diese geschätzte Standardabweichung der Stichprobenmittelwerte.

6 460 Kapitel 19 T-Test Die Standardabweichung der Stichprobenmittelwerte wird auch als Standardfehler der Stichprobe bezeichnet. Je kleiner der Standardfehler ist, je geringer die Stichprobenmittelwerte bei der Ziehung zahlreicher Stichproben der gleichen Größe also um den Mittelwert der Grundgesamtheit streuen, desto besser wird im allgemeinen der wirkliche Mittelwert der Grundgesamtheit durch die Stichprobe geschätzt. Wegen dieses Hinweises auf die Schätzgüte eines Parameters wird der Standardfehler bei zahlreichen Testverfahren mit angegeben T-Test bei unabhängigen Stichproben Der t-wert als Prüfmaß Um anhand von Stichprobenbeobachtungen Rückschlüsse über Mittelwerte auf die Grundgesamtheit ziehen zu können, wird oftmals der Wert t als Prüfmaß herangezogen. Dieser Wert folgt einer bekannten Verteilung, der t-verteilung, so daß durch Vergleich eines für eine konkrete Stichprobe berechneten t-wertes mit den Werten, die nach der t-verteilung zu erwarten gewesen wären, Rückschlüsse von der Stichprobe auf die Grundgesamtheit möglich sind. Sollen die Mittelwerte zweier unabhängiger Stichproben miteinander verglichen werden (zum Begriff von unabhängigen Stichproben, siehe oben, S. 455) ist der t- Wert folgendermaßen zu berechnen: t = X 1 X 2 2 S1 N1 + 2 S2 N2 X 1 und X 2 sind die Stichprobenmittelwerte der beiden miteinander zu vergleichenden Gruppen, S 1 2 und S 2 2 bezeichnen die empirischen Varianzen, und N 1 und N 2 geben die Anzahl der Fälle in den beiden Gruppen an. Der t-wert hängt damit ab von den empirischen Mittelwerten und Varianzen sowie von dem Umfang der Stichprobe. Sind die beiden zu vergleichenden Gruppenmittelwerte in der Stichprobe gleich groß, hat t den Wert null. Oben wurde deutlich, daß sowohl die Mittelwerte als auch die Varianzen in einer Stichprobe bestenfalls zufällig mit den entsprechenden Werten der Grundgesamtheit übereinstimmen und bei der Ziehung mehrerer Stichproben um die wahren Werte streuen werden. Dies überträgt sich entsprechend auf die t-werte, die von den empirischen Mittelwerten und Varianzen abhängen. Auch für das Prüfmaß t werden sich also bei verschiedenen Stichproben unterschiedliche Werte ergeben. Sind die beiden zu vergleichenden Mittelwerte in der Grundgesamtheit identisch, wird dies aufgrund der zufälligen Einflüsse bei der Stichprobenziehung in der Stichprobe möglicherweise nicht der Fall sein. Dementsprechend wird auch t unter Umständen nicht den Wert null annehmen, obwohl die Mittelwerte in der Grundgesamtheit gleich groß sind. Da aber für den Wert t dessen Verteilung bekannt ist, läßt sich bei gegebenem Stichprobenumfang bestimmen, mit welcher Wahrscheinlich-

7 19.2 T-Test bei unabhängigen Stichproben 461 keit t um ein bestimmtes Ausmaß von dem Wert abweicht, den t angenommen hätte, wenn die in der Stichprobe beobachteten Maßzahlen mit den entsprechenden Werten der Grundgesamtheit übereinstimmen würden. Für den Vergleich der beiden Mittelwerte ist somit zum Beispiel bekannt, mit welcher Wahrscheinlichkeit t einen Wert größer als 0,5 annimmt, wenn die beiden Mittelwerte in der Grundgesamtheit tatsächlich identisch sind, so daß t unter Idealbedingungen den Wert null haben müßte. Errechnet sich für t in einer Stichprobe nun ein Wert, der sich unter der Annahme, daß die Mittelwerte in der Grundgesamtheit gleich groß sind, nur mit sehr geringer Wahrscheinlichkeit ergibt, wird daraus geschlossen, daß die Hypothese, die Mittelwerte seien in der Grundgesamtheit identisch, möglicherweise verworfen werden muß. Nimmt t dagegen einen Wert in der Nähe von null an, deutet dies darauf hin, daß die Annahme gleicher Mittelwerte beibehalten werden kann und sich mögliche in der Stichprobe beobachtete Unterschiede nur zufällig ergeben haben Interpretation der Testergebnisse Im folgenden soll getestet werden, ob die Befragten aus den neuen und den alten Bundesländern im Durchschnitt einen unterschiedlichen Grad der Zustimmung zu der Aussage Mich beschämt, daß Deutsche so viele Verbrechen an Juden begangen haben aufweisen. Hierzu dient der Output aus Abbildung 19.2, den Sie mit folgenden Einstellungen erhalten: ¾ Daten gewichten: Der Test basiert auf der mit der Variablen v434 gewichteten Datendatei allbus.sav. Um die Gewichtung der Datei mit dieser Variablen einzuschalten, verwenden Sie den Befehl DATEN, FÄLLE GEWICHTEN. Wählen Sie in dem damit geöffneten Dialogfeld die Option Fälle gewichten mit, und verschieben Sie die Variable v434 in das Feld Häufigkeitsvariable. ¾ Befehl: Um den T-Test aufzurufen, wählen Sie den Befehl STATISTIK MITTELWERTE VERGLEICHEN T-TEST BEI UNABHÄNGIGEN STICHPROBEN... ¾ Testvariable: Verschieben Sie in dem Dialogfeld T-Test bei unabhängigen Stichproben die Variable v138 in das Feld Testvariable(n). ¾ Gruppierungsvariable: Fügen Sie die Variable v3 in das Feld Gruppenvariable ein, und klicken Sie anschließend auf die Schaltfläche Gruppen definieren. (Diese Schaltfläche ist nur aktiv, wenn v3 in dem Feld Gruppenvariable markiert ist.) In dem damit geöffneten Dialogfeld muß die Option Angegebene Werte verwenden beibehalten werden. Geben Sie in die beiden Eingabefelder Gruppe 1 und Gruppe 2 die Werte 1 und 2 ein. Anschließend können Sie dieses und das Hauptdialogfeld mit der Schaltfläche OK schließen.

8 462 Kapitel 19 T-Test Gruppenstatistiken V138 V3 ALTE BUNDESLAENDER NEUE BUNDESLAENDER Standardfehler des N Mittelwert Standardabweichung Mittelwertes 818 5,60 1,88 6,57E ,08 1,55,11 Test bei unabhängigen Stichproben Levene-Test der Varianzgleichheit T-Test für die Mittelwertgleichheit V138 Varianzen sind gleich Varianzen sind nicht gleich 95% Standardfehler Konfidenzintervall Sig. Mittlere der der Differenz F Signifikanz T df (2-seitig) Differenz Differenz Untere Obere 20,479,000-3, ,001 -,49,14 -,76 -,21-3, ,903,000 -,49,13 -,73 -,24 Abbildung 19.2: Ergebnis des T-Tests für unabhängige Stichproben für die Testvariable v138 und die Gruppierungsvariable v3 Mittelwerte der beiden Gruppen Die obere Tabelle enthält getrennte Angaben für die beiden miteinander verglichenen Gruppen. In der Spalte Mittelwert ist abzulesen, daß die Befragten aus den alten Bundesländern in bezug auf die Aussage Mich beschämt, daß Deutsche so viele Verbrechen an Juden begangen haben auf einer Skala von 1 (Stimme überhaupt nicht zu) bis 7 (Stimme voll und ganz zu) im Durchschnitt den Wert 5,60 gewählt haben. Für die Befragten aus den neuen Bundesländern ist der Grad der durchschnittlichen Zustimmung mit 6,08 etwas höher. Diese Ergebnisse stützen sich auf insgesamt 818 Befragte aus den alten und 210 Befragte aus den neuen Bundesländern (Spalte N). 202 Zusätzlich werden in der Tabelle die Standardabweichungen und die Standardfehler der Mittelwerte für die beiden Gruppen ausgewiesen. Die Angaben dieser Tabelle genügen, um im folgenden die Teststatistik zu berechnen. 202 Bei der mit 818 bzw. 210 angegebenen Anzahl der Fälle wurde die Gewichtung der Daten bereits berücksichtigt. Es wurden also tatsächlich nicht exakt 818 und 210 Personen befragt, sondern die Zahl der (nicht gewichteten) Befragten aus den neuen Bundesländern ist höher als 210 und die der Personen aus den alten Ländern kleiner als 818.

9 19.2 T-Test bei unabhängigen Stichproben 463 t-wert Anhand der Angaben aus der Tabelle Gruppenstatistiken ergibt sich gemäß der Formel von S. 460 folgender t-wert: t = X 1 X 2 2 S1 N1 + 2 S2 N2 = 5,60 6,08 2 1, , = -3,8234 Dieser Wert wird auch (mit geringen Unterschieden, weil wir mit gerundeten Werten gerechnet haben) von SPSS in der Tabelle Test bei unabhängigen Stichproben ausgewiesen. Er erscheint in der Spalte T und der Zeile Varianzen sind nicht gleich. 203 Neben dem t-wert werden in der Spalte df die Freiheitsgrade des Tests mit 382,903 mitgeteilt. Die Freiheitsgrade ergeben sich aus der Anzahl der Fälle in den beiden Gruppen und sind entscheidend für die dem Test zugrundeliegende Verteilung des t-wertes. Oben wurde gesagt, bei gegebener Stichprobengröße sei die Verteilung des t-wertes bekannt. Genauer muß man sagen, daß die Verteilung nicht von der Anzahl der Fälle insgesamt abhängt, sondern von der Anzahl der Fälle in den beiden miteinander verglichenen Gruppen. Aus dieser Fallzahl der beiden Gruppen lassen sich die Freiheitsgrade berechnen, die den einzigen Parameter der t-verteilung darstellen. Irrtumswahrscheinlichkeit Wären die beiden zu vergleichenden Mittelwerte gleich groß gewesen, hätte sich ein t-wert von null ergeben. Tatsächlich ist der t-wert mit -3,8 jedoch deutlich von null verschieden. Wenn in der Grundgesamtheit kein Unterschied zwischen den Mittelwerten für die neuen und die alten Bundesländer besteht, kann sich ein t-wert von -3,8 bei gegebenen Freiheitsgraden (also in einer Stichprobe, die in den beiden zu vergleichenden Gruppen so viele Fälle aufweist, wie es bei der vorliegenden Stichprobe der Fall ist) mit einer Wahrscheinlichkeit von 0,000 bzw. 0,0% ergeben. Dieser Wert wird in der Zeile Varianzen sind nicht gleich und der Spalte Sig. (2-seitig) ausgewiesen. Diese Angabe besagt nicht, daß die Wahrscheinlichkeit für einen t-wert von -3,8 gleich null ist, denn es handelt sich um einen auf drei Dezimalstellen gerundeten Wert. Der ausgewiesene Wert von 0,000 besagt somit nur, daß die Wahrscheinlichkeit kleiner als 0,0005 bzw. 0,05% ist. Im Ausgabenavigator kann man sich den Wert auch mit wesentlich größerer Genauigkeit angeben lassen. Er beträgt 0, also ungefähr 0,012%. Der T-Test wurde durchgeführt, um die Hypothese zu überprüfen, daß der durchschnittliche Grad der Zustimmung zu der Aussage Mich beschämt, daß Deutsche so viele Verbrechen an Juden begangen haben in den neuen und den alten Bundesländern gleich ist. Diese zu testende Hypothese, die in diesem Fall - etwas technischer formuliert - besagt, daß der Unterschied zwischen den beiden Mittel- 203 Die untere Zeile Varianzen sind nicht gleich stellt die Ergebnisse des Tests dar, wie er bisher beschrieben wurde. Die obere Zeile stellt ebenfalls Testergebnisse dar, die jedoch nach einer etwas anderen Berechnungsweise ermittelt wurden. Siehe hierzu auch weiter unten.

10 464 Kapitel 19 T-Test werten für die neuen und die alten Bundesländer in der Grundgesamtheit gleich null ist, wird auch als Nullhypothese bezeichnet. Wenn die Hypothese wahr ist, kann sich der für die Stichprobe berechnete t-wert von -3,8 nur mit einer sehr geringen Wahrscheinlichkeit von 0,012% ergeben. Diese geringe Wahrscheinlichkeit deutet darauf hin, daß die getestete Hypothese falsch ist. Es spricht daher vieles dafür, die Nullhypothese zurückzuweisen. Die Annahme gleicher Mittelwerte in der Grundgesamtheit wird somit aufgegeben, und es wird angenommen, daß auch in der Grundgesamtheit die beiden Mittelwerte voneinander verschieden sind. Beim Zurückweisen der Nullhypothese begeht man mit der Wahrscheinlichkeit von 0,012% einen Irrtum. Diese Wahrscheinlichkeit wird daher auch als Irrtumswahrscheinlichkeit bezeichnet. Das Testergebnis läßt zunächst noch keine Rückschlüsse auf das Ausmaß des Unterschieds zwischen den Mittelwerten in der Grundgesamtheit zu. Insbesondere wäre es unzulässig, einfach davon auszugehen, die Mittelwertdifferenz in der Grundgesamtheit sei ebensogroß wie der in der Stichprobe beobachtete Unterschied. Weiter unten wird jedoch das ebenfalls ausgewiesene Konfidenzintervall für den Mittelwertunterschied betrachtet, das einen Anhaltspunkt für das Ausmaß der Differenz in der Grundgesamtheit gibt. Entscheidung über die Hypothesen In diesem Beispiel ist die Wahrscheinlichkeit für das Eintreten des berechneten t- Wertes bei Gültigkeit der Nullhypothese mit 0,012% derart gering, daß man die Nullhypothese zurückweisen wird. Auch bei einer wesentlich größeren Irrtumswahrscheinlichkeit, etwa bei 0,5%, würde man die Nullhypothese im allgemeinen noch ablehnen. Entscheidet man sich aufgrund der Irrtumswahrscheinlichkeit dafür, die Nullhypothese nicht zurückzuweisen, so impliziert dies nicht, daß die Nullhypothese als wahr erachtet wird. Vielmehr ist lediglich das Risiko, bei der Ablehnung der Hypothese einen Fehler zu begehen, zu groß, um die damit eventuell verbundenen unerwünschten Folgeerscheinungen in Kauf zu nehmen. Als Faustregel wird oft genannt, die Nullhypothese sollte bis zu einer Irrtumswahrscheinlichkeit von 5% zurückgewiesen werden. In Fällen, bei denen mit dem fehlerhaften Zurückweisen der Nullhypothese besonders schwerwiegende negative Folgen verbunden sind, wird oftmals auch ein 1%-Signifikanzniveau gefordert. Diese Faustregel stellt jedoch nur eine grobe - wenn auch weithin anerkannte - Richtschnur dar und sollte nicht unkritisch übernommen werden. Entscheidend für den Grenzwert der Irrtumswahrscheinlichkeit, bei dessen Unterschreiten man zum Zurückweisen der Nullhypothese bereit ist, sind die möglichen Folgewirkungen, die mit einer fehlerhaften Ablehnung der getesteten Hypothese verbunden sein können. Je gewichtiger die mit dem fälschlichen Ablehnen einer wahren Nullhypothese verbundenen Risiken sind, desto höher werden die Anforderungen an die Irrtumswahrscheinlichkeit sein. Werden beispielsweise Medikamente auf das Auftreten von Nebenwirkungen getestet, kann man sich mit einem 5%- Signifikanzniveau und auch mit einer 1%igen Irrtumswahrscheinlichkeit oftmals nicht zufriedengeben. In einem Untersuchungsfeld, in dem zum einen die Datenbasis allgemein sehr beschränkt ist und zum anderen die mit einem fehlerhaften

11 19.2 T-Test bei unabhängigen Stichproben 465 Zurückweisen der Nullhypothese verbundenen Risiken als nicht so gravierend angesehen werden, kann dagegen möglicherweise auch schon eine Irrtumswahrscheinlichkeit von 10% genügen. Konfidenzintervall In dem Output des T-Tests wird auch der Standardfehler sowie das 95%- Konfidenzintervall für den Unterschied zwischen den beiden Mittelwerten ausgewiesen. Das Konfidenzintervall hat die untere Grenze -0,73 und die obere Grenze -0,24. Dies besagt, daß die Differenz zwischen den beiden Mittelwerten in der Grundgesamtheit mit einer Wahrscheinlichkeit von 95% zwischen 0,24 und 0,73 beträgt. Das negative Vorzeichen gibt lediglich an, daß die hier als erstes betrachtete Gruppe (Alte Bundesländer) einen höheren Mittelwert hat als die zweite Gruppe (Neue Bundesländer). Würde das Konfidenzintervall, also der Wertbereich, in dem die Mittelwertdifferenz mit der jeweiligen Wahrscheinlichkeit (hier 95%) liegt, auch den Wert null einschließen, könnte daraus unmittelbar geschlossen werden, daß der Mittelwertunterschied nicht signifikant von null verschieden ist. Per Voreinstellung wird das 95%-Konfidenzintervall ausgewiesen, diese Voreinstellung kann jedoch in dem Dialogfeld Optionen der Prozedur T TEST BEI UNABHÄNGIGEN STICHPROBEN geändert werden. 204 Sie können dort einen Wert zwischen 1% und 99% vorgeben. Da auf der Grundlage einer Stichprobe niemals sichere Rückschlüsse auf die Grundgesamtheit gezogen werden können, läßt sich kein 100%-Konfidenzintervall berechnen. Dieses würde stets den gesamten Bereich zwischen + und - einnehmen. Ebenso ist es nicht möglich, bestimmte Mittelwertdifferenzen für die Grundgesamtheit sicher auszuschließen, so daß auch ein 0%-Konfidenzintervall nicht berechnet werden kann Annahme gleicher Varianzen Zur Berechnung des t-wertes steht noch eine andere Vorgehensweise zur Verfügung. Diese kommt dann zur Anwendung, wenn unterstellt werden kann, daß die Varianz der betrachteten Variablen in den beiden Gruppen in der Grundgesamtheit gleich groß ist. Ist diese Annahme plausibel, wird bei der Berechnung des t- Wertes anstelle der beiden empirischen Gruppen-Varianzen eine Art Mittelwert dieser Varianzen verwendet. Da die in den beiden Gruppen beobachteten Variablen auf diese Weise gewissermaßen zu einer Varianz zusammengefaßt werden, wird der Test auch als pooled-variance T-Test bezeichnet (im Gegensatz zum vorhergehenden Testverfahren, das wegen der getrennten Varianzen als separatevariance T-Test bezeichnet wird). Die gepoolte Varianz errechnet sich als S P = ( ) 2 N 1 S ( N 1 ) N + N S Siehe hierzu auch unten, Abschnitt Optionen, S. 474.

12 466 Kapitel 19 T-Test Bei der Berechnung des t-wertes werden dann lediglich die beiden empirischen Gruppen-Varianzen durch die gepoolte Varianz S p 2 ersetzt: t = X 1 X 2 2 SP N1 + 2 SP N2. Die Ergebnisse des T-Tests auf der Basis gepoolter Varianzen werden von SPSS in der Zeile Varianzen sind gleich ausgewiesen. Für den Test auf die Übereinstimmung des durchschnittlichen Zustimmungsgrades zu der Aussage Mich beschämt, daß Deutsche so viele Verbrechen an Juden begangen haben ergibt sich bei der Annahme gleicher Varianzen mit -3,465 ein vom Betrag her etwas kleinerer t-wert als bei Abwesenheit dieser Annahme. Die Irrtumswahrscheinlichkeit ist mit 0,001 etwas höher, aber immer noch sehr gering. Allgemein gilt, daß sich bei großen Stichproben nur geringe Unterschiede zwischen den beiden Testverfahren ergeben. Der T-Test mit gepoolten Varianzen kann leicht zu Fehlern führen, wenn entgegen der dem Test zugrundeliegenden Annahme doch ein Unterschied zwischen den Varianzen in den beiden betrachteten Gruppen in der Grundgesamtheit besteht. Dieser Fehler wird um so größer, je stärker sich die Varianzen unterscheiden. Wird umgekehrt der separate-variance T-Test angewandt, obwohl in Wirklichkeit gleiche Varianzen vorliegen, so wird die Irrtumswahrscheinlichkeit etwas zu hoch ausgewiesen. Im Zweifelsfall wird daher vorsichtigerweise der separate-variance T-Test betrachtet. Levene-Test - Test auf Gleichheit der Varianzen Bei der Entscheidung darüber, nach welchem Testverfahren die Nullhypothese geprüft werden soll, kann der von SPSS automatisch mit ausgewiesene Levene- Test behilflich sein. Der Levene-Test der Varianzgleichheit prüft die Nullhypothese, daß die Varianzen in der Grundgesamtheit gleich sind. Er weist als statistisches Prüfmaß den F-Wert aus, der - wie schon der t-wert - einer bekannten Zufallsverteilung, der F-Verteilung, folgt. Anhand dieses F-Wertes kann geprüft werden, mit welcher Wahrscheinlichkeit in der Grundgesamtheit eine Differenz zwischen den Varianzen vorliegt. Neben dem F-Wert wird auch hier die Wahrscheinlichkeit ausgewiesen, mit der beim Zurückweisen der Nullhypothese ein Fehler begangen wird. Eine hohe Wahrscheinlichkeit deutet darauf hin, daß die Varianzen der Grundgesamtheit tatsächlich identisch sein könnten, so daß die Nullhypothese nicht abgelehnt werden sollte. Das würde dann wiederum dafür sprechen, den gepoolten T-Test anzuwenden. In unserem Beispiel wird die Wahrscheinlichkeit mit 0,000 angegeben. Bei einer so geringen Irrtumswahrscheinlichkeit ist die Nullhypothese zurückzuweisen. Man kann davon ausgehen, daß sich die Varianzen in der Grundgesamtheit unterscheiden, und sollte die Ergebnisse des Tests für Ungleiche Varianzen betrachten, wie dies oben geschehen ist.

13 19.3 T-Test bei gepaarten Stichproben T-Test bei gepaarten Stichproben Im vorhergehenden Abschnitt wurden zwei Mittelwerte verglichen, die sich aus derselben Variablen für zwei unterschiedliche Fallgruppen ergaben. Die Fallgruppen wurden anhand einer zweiten Variablen, der Gruppierungsvariablen v3 (Erhebungsgebiet: Ost - West), gebildet. Die Antworten der Befragten einer Gruppe waren vollkommen unabhängig von den Antworten der Befragten aus der anderen Gruppe. Der Test zum Vergleich dieser beiden Gruppen wurde daher auch als T- Test bei unabhängigen Stichproben bezeichnet. Im Gegensatz dazu untersucht der T-Test bei gepaarten Stichproben zwei Mittelwerte, die nicht als vollkommen unabhängig voneinander angesehen werden können. Es werden die Mittelwerte zweier unterschiedlicher Variablen verglichen, die sich auf dieselbe Gruppe von Fällen (Befragten) beziehen. Ein entsprechender Anwendungsfall liegt zum Beispiel vor, wenn man dieselben Befragten zwei unterschiedliche Sachverhalte bewerten läßt und anschließend die Bewertungen miteinander vergleichen möchte. Ein anderer Anwendungsfall ergibt sich, wenn die gleichen Merkmale vor und nach Eintreten eines bestimmten Ereignisses gemessen und miteinander verglichen werden sollen. Dies könnten zum Beispiel die Leistungen von Sportlern vor und nach Absolvieren eines bestimmten Trainings- oder Ernährungsprogramms sein. In bestimmten Fällen ist der T-Test bei gepaarten Stichproben auch geeignet, Bewertungen desselben Sachverhaltes durch unterschiedliche Personen miteinander zu vergleichen. Dies ist dann der Fall, wenn die Personen der beiden Gruppen jeweils paarweise bewußt so ausgewählt wurden, daß sie gut miteinander vergleichbar sind und somit nach bestimmten Kriterien ein Paar bilden. Die beiden Personen (zum Beispiel Zwillinge) werden dann mit unterschiedlichen Situationen konfrontiert und anschließend in bezug auf eine bestimmte Fragestellung untersucht. Der Vorteil einer solchen vergleichsweise aufwendigen Vorgehensweise gegenüber der Betrachtung zweier zufällig ausgewählter unabhängiger Personengruppen (die mit einem T-Test bei unabhängigen Stichproben ausgewertet werden können) besteht darin, daß zufällige Unterschiede zwischen den beiden Gruppen in bezug auf deren Zusammensetzung ausgeschlossen oder zumindest verringert werden. Die genannten Anwendungsfälle stellen nur Beispiele dar, und die Aufzählung der Beispiele könnte beliebig verlängert werden. Entscheidend ist, daß die einzelnen Beobachtungen der miteinander zu vergleichenden Gruppen nicht unabhängig voneinander zustande gekommen sind, sondern jeweils paarweise ein systematischer Zusammenhang zwischen den einzelnen Beobachtungen aus den beiden Gruppen besteht. Dies impliziert auch, daß die beiden Gruppen die gleiche Anzahl an Beobachtungen enthalten müssen. Zudem müssen sie bei SPSS in denselben Fällen der Datendatei enthalten sein.

14 468 Kapitel 19 T-Test t-wert Der t-wert für den T-Test bei gepaarten Stichproben errechnet sich nach der Formel t = D. S 2 P N D bezeichnet dabei den Mittelwert der Differenzen zwischen den beiden Werten der einzelnen Beobachtungspaare aus den beiden Variablen. Dieser ist gleich der Differenz aus den beiden Variablenmittelwerten. S D ist die Standardabweichung der einzelnen Differenzen und N die Anzahl der Fälle, auf denen die Untersuchung basiert. Beispiel Neben der oben betrachteten Aussage Mich beschämt, daß Deutsche so viele Verbrechen an Juden begangen haben wurden die Befragten unter anderem auch gebeten, den Grad ihrer Zustimmung zu den beiden folgenden Aussagen anzugeben. Juden haben auf der Welt zuviel Einfluß. und Viele Juden versuchen, aus der Vergangenheit des Dritten Reiches heute ihren Vorteil zu ziehen und die Deutschen dafür zahlen zu lassen. Dabei wurde die gleiche von 1 (Stimme überhaupt nicht zu) bis 7 (Stimme voll und ganz zu) reichende Skala verwendet. In der Datendatei allbus.sav sind die Antworten für die erste Aussage in der Variablen v137 und die für die zweite Aussage in der Variablen v139 enthalten. Im folgenden soll untersucht werden, ob die Befragten den beiden Aussagen im Durchschnitt in deutlich unterschiedlichem Maße zustimmen. Hierzu werden die folgenden Einstellungen vorgenommen: ¾ Daten gewichten: Der Test basiert auf der mit der Variablen v434 gewichteten Datendatei allbus.sav. Zum Gewichten der Daten siehe auch S ¾ Befehl: Um den T-Test für gepaarte Stichproben aufzurufen, wählen Sie den Befehl STATISTIK MITTELWERTE VERGLEICHEN T-TEST BEI GEPAARTEN STICHPROBEN... ¾ Variablen: Markieren Sie in der Variablenliste die beiden Variablen v137 und v139, indem Sie erst die eine und anschließend die andere Variable anklicken. Haben Sie versehentlich eine falsche Variable markiert, können Sie die Markierung durch erneutes Anklicken der Variablen wieder aufheben. Wenn Sie die Variablen v137 und v139 markiert haben, verschieben Sie sie mit der Pfeil- Schaltfläche in das Feld Gepaarte Variablen. Anschließend können Sie die Prozedur mit der Schaltfläche OK starten.

15 19.3 T-Test bei gepaarten Stichproben 469 Diese Einstellungen erzeugen den in Abbildung 19.3 wiedergegebenen Output. Statistik bei gepaarten Stichproben Paaren V137 V139 Standardfehler des Mittelwert N Standardabweichung Mittelwertes 3, ,98 6,17E-02 4, ,04 6,38E-02 Korrelationen bei gepaarten Stichproben Paaren V137 & V139 N Korrelation Signifikanz 1026,466,000 Test bei gepaarten Stichproben Gepaarte Differenzen Paaren V137 - V139 95% Standard Konfidenzinterval Standard fehler des l der Differenz Sig. Mittelwert abweichung Mittelwertes Untere Obere T df (2-seitig) -1,10 2,08 6,49E-02-1,23 -,97-16, ,000 Abbildung 19.3: Output des T-Tests bei gepaarten Stichproben für die beiden Variablen v137 und v139 Der t-wert wird mit -16,981 angegeben. Wenn in der Grundgesamtheit kein Unterschied in der durchschnittlichen Bewertung der beiden Aussagen besteht, kann sich ein (vom Betrag her) so großer t-wert bei gegebener Anzahl von Freiheitsgraden (1.025, Spalte df) mit einer Wahrscheinlichkeit von 0,000 (Sig. 2-seitig) ergeben. Die Nullhypothese, derzufolge die Befragten die beiden Aussagen im Durchschnitt gleich bewertet haben, kann somit zurückgewiesen werden. Es bestehen signifikante Unterschiede in der durchschnittlichen Zustimmung der Befragten zu den beiden Aussagen. Korrelationskoeffizient Zusätzlich zu den bereits aus dem Output des T-Tests bei unabhängigen Stichproben bekannten Angaben über die Mittelwerte und das Konfidenzintervall wird auch ein Korrelationskoeffizient und dessen Signifikanzniveau ausgewiesen. Der Korrelationskoeffizient ist ein Maß für die Stärke des linearen Zusammenhangs zwischen den beiden Variablen. Mit dem Koeffizienten wird daher gemessen, ob Befragte (Fälle), die in bezug auf die eine Aussage einen hohen Grad an Zustimmung angegeben haben, tendenziell auch der anderen Aussage in besonders hohem Maße zustimmen. Der Korrelationskoeffizient kann in diesem Zusammenhang einen Hinweis darauf geben, inwieweit die Benutzung gepaarter Daten zufällige Unterschiede aufgrund ungleicher Gruppen bei der Betrachtung unabhängiger Stichproben verringern kann. Je größer der Betrag des Korrelationskoeffi-

16 470 Kapitel 19 T-Test zienten, desto stärker ist der (lineare) Zusammenhang zwischen den beiden Gruppen, so daß auch das Paaren der Daten eine entsprechend große Auswirkung hat. Mit 0,466 zeigt der Korrelationskoeffizient hier einen mittelstarken Zusammenhang zwischen den Variablen an. Tendenziell gilt somit, daß Befragte mit hoher (geringer) Zustimmung zu der einen Aussage auch eine hohe (geringe) Zustimmung zur anderen Aussage angaben. Der Korrelationskoeffizient ist mit einer Irrtumswahrscheinlichkeit von 0,000 (Spalte Sig.) gegen null gesichert. Die Hypothese, es bestehe kein linearer Zusammenhang zwischen den beiden Variablen, kann daher mit einer Irrtumswahrscheinlichkeit von 0,0% zurückgewiesen werden T-Test für eine Stichprobe Die beiden bisher betrachteten T-Test-Verfahren dienten dem Vergleich zweier Mittelwerte und testeten, ob die Mittelwerte in der Grundgesamtheit voneinander verschieden sind. Der T-Test für eine Stichprobe betrachtet dagegen nur einen einzelnen Mittelwert und testet, ob aus den Stichprobenergebnissen geschlossen werden kann, daß der Mittelwert in der Grundgesamtheit von einem vorgegebenen Testwert signifikant verschieden ist, diesen also deutlich über- oder unterschreitet. In Abbildung 19.3 ist zu erkennen, daß der durchschnittliche Grad der Zustimmung aller Befragten zu der Aussage Viele Juden versuchen, aus der Vergangenheit des Dritten Reiches heute ihren Vorteil zu ziehen und die Deutschen dafür zahlen zu lassen (Variable v139) auf der Skala von 1 (Stimme überhaupt nicht zu) bis 7 (Stimme voll und ganz zu) 4,29 beträgt. Dieser Wert liegt ungefähr in der Mitte der Skala, stellt jedoch nur die Beobachtung in der vorliegenden Stichprobe dar. Im folgenden soll getestet werden, ob aus dieser Beobachtung geschlossen werden kann, daß die durchschnittliche Zustimmung zu der Aussage in der Grundgesamtheit von dem mittleren Skalenwert 4 abweicht. Dies geschieht mit den folgenden Einstellungen: ¾ Daten gewichten: Der Test basiert auf der mit der Variablen v434 gewichteten Datendatei allbus.sav. Zum Gewichten der Daten siehe auch S ¾ Befehl: Um den Ein-Stichproben T-Test durchzuführen, wählen Sie den Befehl STATISTIK MITTELWERTE VERGLEICHEN T-TEST BEI EINER STICHPROBE... ¾ Variable: Verschieben Sie die Testvariable v139 in das Feld Testvariable(n). ¾ Testwert: Geben Sie in das Feld Testwert den Wert 4 ein. Anschließend können Sie die Prozedur mit der Schaltfläche OK starten und damit den Output aus Abbildung 19.4 erstellen.

17 19.5 Einstellungen zum Durchführen eines T-Tests 471 Statistik bei einer Stichprobe V139 Standardfehler des N Mittelwert Standardabweichung Mittelwertes ,30 2,04 6,37E-02 Test bei einer Sichprobe V139 Testwert = 4 95% Konfidenzintervall Sig. Mittlere der Differenz T df (2-seitig) Differenz Untere Obere 4, ,000,30,17,42 Abbildung 19.4: Ergebnis des Ein-Stichproben T-Tests für die Variable v139 mit dem Testwert 4 Die obere Tabelle gibt noch einmal den in der Stichprobe beobachteten Mittelwert von 4,3 sowie dessen Standardabweichung und den Standardfehler an. Das eigentliche Testergebnis wird in der Tabelle Test bei einer Stichprobe dargestellt. Die Signifikanz beträgt 0,000, der Mittelwert ist damit hochsignifikant von 4 verschieden. Das Konfidenzintervall gibt an, daß der Mittelwert in der Grundgesamtheit mit einer Wahrscheinlichkeit von 95% den Testwert um einen Wert zwischen 0,17 und 0,42 überschreitet. 205 Mit einer 95%igen Wahrscheinlichkeit liegt der durchschnittliche Grad der Zustimmung aller Personen aus der Grundgesamtheit zu der Aussage Viele Juden versuchen, aus der Vergangenheit des Dritten Reiches heute ihren Vorteil zu ziehen und die Deutschen dafür zahlen zu lassen somit in dem Bereich zwischen 4,17 und 4,42 und übersteigt damit den mittleren Skalenwert von 4 geringfügig Einstellungen zum Durchführen eines T-Tests T-Test bei unabhängigen Stichproben Um einen T-Test für unabhängige Stichproben durchzuführen, wählen Sie den Befehl STATISTIK MITTELWERTE VERGLEICHEN T-TEST BEI UNABHÄNGIGEN STICHPROBEN... Dieser Befehl öffnet das Dialogfeld aus Abbildung Das dargestellte Dialogfeld zeigt die Einstellungen, die für das Beispiel aus Abschnitt 19.2, T-Test bei unabhängigen Stichproben, S. 460 verwendet wurden. 205 Wären die Grenzen des Konfidenzintervalls negativ, würde der Mittelwert in der Grundgesamtheit den Testwert entsprechend unterschreiten.

18 472 Kapitel 19 T-Test Abbildung 19.5: Dialogfeld des Befehls STATISTIK, MITTELWERTE VERGLEICHEN, T TEST BEI UNABHÄNGIGEN STICHPROBEN Testvariablen auswählen In der Variablenliste links in dem Dialogfeld werden alle numerischen Variablen sowie alle kurzen Textvariablen (Variablen des Typs String mit einer Länge von nicht mehr als acht Zeichen) aus der aktuellen Datendatei aufgeführt. Die Textvariablen können Sie ausschließlich als Gruppierungsvariablen verwenden, denn die Testvariablen müssen selbstverständlich numerisch sein. Dies ist jedoch lediglich eine formale Anforderung an die Testvariable. Darüber hinaus ist es erforderlich, daß die Testvariable Intervallskalenniveau besitzt, da es andernfalls nicht sinnvoll möglich ist, Mittelwerte zu berechnen. Wählen Sie die zu testende Variable aus, und verschieben Sie sie in das Feld Testvariable(n). Wenn Sie hier mehrere Variablen angeben, wird für jede der Variablen ein eigener T-Test durchgeführt. Alternativ könnten Sie also auch die Prozedur wiederholt mit jeweils einer der Testvariablen durchführen. Gegenüber dieser Alternative können sich allerdings Unterschiede in bezug auf den Ausschluß von Fällen mit fehlenden Werten ergeben, siehe unten im Abschnitt Optionen, S Gruppen definieren Fügen Sie die Gruppierungsvariable in des Feld Gruppenvariable ein. Daraufhin wird die Variable mit zwei von Klammern eingeschlossenen Fragezeichen dargestellt. Diese Fragezeichen zeigen an, daß nun noch die Gruppierungsmerkmale festgelegt werden müssen. Sie müssen also noch angeben, welche Werte der Gruppierungsvariablen die beiden miteinander zu vergleichenden Gruppen kennzeichnen. Öffnen Sie hierzu mit der Schaltfläche Gruppen def. das Dialogfeld aus Abbildung Beachten Sie, daß diese Schaltfläche nur aktiv ist, wenn bereits eine Gruppierungsvariable ausgewählt wurde und diese auch in dem Feld Gruppenvariable markiert ist. Das Dialogfeld Gruppen definieren hat für numerische Gruppierungsvariablen ein anderes Erscheinungsbild als für Textvariablen. Abbil-

19 19.5 Einstellungen zum Durchführen eines T-Tests 473 dung 19.6 zeigt das Dialogfeld für die in dem obigen Beispiel verwendete numerische Variable v3. Abbildung 19.6: Dialogfeld der Schaltfläche Gruppen def. für eine numerische Gruppierungsvariable Sie können die beiden Gruppen auf zwei unterschiedliche Arten definieren: ¾ Einzelne Gruppenwerte festlegen: Mit der Option Angegebene Werte verwenden legen Sie zwei Werte der Gruppierungsvariablen fest, durch die die beiden miteinander zu vergleichenden Gruppen definiert werden. Alle Fälle, die in der Gruppierungsvariablen den ersten Gruppenwert enthalten, werden zu einer Gruppe zusammengefaßt. Entsprechend beinhaltet die zweite Gruppe genau die Fälle, die in der Gruppierungsvariablen den zweiten Gruppenwert aufweisen. Fälle, die keinen der beiden Gruppenwerte in der Gruppierungsvariablen enthalten, werden aus der Prozedur ausgeschlossen. Sie können auch Gruppenwerte mit Dezimalstellen verwenden. ¾ Trennwert: Mit dieser Option legen Sie einen Trennwert fest, der die Fälle der Datendatei in zwei Gruppen unterteilt. Alle Fälle, die in der Gruppierungsvariablen einen Wert kleiner dem Trennwert enthalten, werden der ersten Gruppe zugeordnet, die Fälle mit einem Wert größer oder gleich dem Trennwert bilden die zweite Gruppe. Damit werden automatisch alle Fälle mit gültigen Werten in die Analyse einbezogen. Wenn Sie eine Textvariable zur Gruppierung der Fälle verwenden, dann öffnet die Schaltfläche Gruppen def. das Dialogfeld aus Abbildung Dieses Dialogfeld enthält nur zwei Eingabefelder. Geben Sie dort die beiden Textwerte der Gruppierungsvariablen an, die die beiden Gruppen in der Datendatei kennzeichnen. Dies entspricht der Verwendung einzelner Gruppenwerte bei numerischen Gruppierungsvariablen. Beachten Sie, daß die Schreibweise der beiden Textwerte exakt mit der Schreibweise aus der Datendatei übereinstimmen muß und dabei auch zwischen Groß- und Kleinbuchstaben zu unterscheiden ist.

20 474 Kapitel 19 T-Test Abbildung 19.7: Dialogfeld der Schaltfläche Gruppen def. für eine Textvariable als Gruppierungsvariable Möchten Sie die Gruppen so bilden, daß jede Gruppe mehrere unterschiedliche Textwerte in der Gruppierungsvariablen aufweisen kann, können Sie dies nur über einen Umweg realisieren. Hierzu müssen Sie zunächst eine Hilfsvariable erstellen, in der die einzelnen Werte, die dieselbe Gruppe kennzeichnen, zu einem einzigen Wert zusammengefaßt sind. Dies ist zum Beispiel mit dem Befehl TRANS- FORMIEREN, UMKODIEREN, IN ANDERE VARIABLEN möglich. Optionen Nachdem die Test- und die Gruppierungsvariable angegeben und die Gruppen definiert wurden, kann die Prozedur T-TEST gestartet werden. Zuvor können Sie jedoch auch noch weitere Einstellungen in dem Dialogfeld der Schaltfläche Optionen vornehmen. Sie können hier die Breite des Konfidenzintervalls vorgeben und die Behandlung von Fällen mit fehlenden Werten steuern. Abbildung 19.8 gibt das Dialogfeld Optionen wieder. Abbildung 19.8: Dialogfeld der Schaltfläche Optionen Konfidenzintervall: Per Voreinstellung wird das 95%-Konfidenzintervall für die Mittelwertdifferenz berechnet. Diese voreingestellte Breite des Konfidenzintervalls können Sie verändern, indem Sie den gewünschten neuen Prozentwert in das Eingabefeld schreiben. Dieser Wert muß zwischen 1% und 99% liegen und darf bis zu fünf Dezimalstellen (bei Prozentwerten im einstelligen Bereich bis zu sechs Dezimalstellen) aufweisen. Fehlende Werte: Sie können wählen, ob Fälle mit einzelnen Werten jeweils testweise oder für die gesamte Prozedur ausgeschlossen werden sollen. Wenn Sie nur eine Testvariable ausgewählt haben, besteht kein Unterschied zwischen den beiden folgenden Optionen: